Collectiebeheerders, maak de stap van "computer-says-no" naar LOD
2019-10-18
Wanneer je metadata maakt, moet je zorgen dat die data duurzaam opgeslagen wordt. Iedereen die bij een erfgoedinstelling werkt kan wel een voorbeeld noemen waarin misschien niet met bloed, maar dan toch met flink wat zweet gemaakte data kwijt of niet meer bruikbaar is.
Als een mantra herhalen we daarom: metadata is pas duurzaam opgeslagen als het in het collectieregistratiesysteem (CRS) zit. Maar dat CRS, dat werkt niet altijd mee. Regelmatig zie ik dat het importeren van data in welk CRS dan ook meer moeite kost dan het maken van de metadata zelf. Als het überhaupt al lukt. Regelmatig is dit zelfs een reden om maar niet aan betere metadata te werken.
In twee dagen verbonden we 10.000+ afbeeldingen van het Utrechts Archief met 500+ op Wikidata genoemde stations en maakten er dit kaartje bij. De data in het CRS krijgen duurt langer
Waarom moet die data eigenlijk zo nodig in het CRS? Waarom niet ernaast? Het wil er bij mij niet in dat een hoogopgeleide informatiespecialist er niet in slaagt een databestand (csv, json, xml, turtle) duurzaam en goed gedocumenteerd op te slaan (net als elk ander born-digital bestand).
Linked data to the rescue
Zo'n twee decennia geleden alweer gaf Tim Berners-Lee ons het semantische web, dat we de laatste jaren liever met de term Linked Open Data aanduiden. Het basisconcept is dat je data gedistribueerd op kan slaan, mits je alle entiteiten in je data maar aanduidt met gemeenschappelijk te gebruiken identifiers (URI). Veel meer is het niet. Het enige dat je als collectiebeheerder moet doen is elk object (en ja, liefst ook elk toegangsnummer en elke scan) in je collectie zo'n URI geven.
Heb je dat gedaan (en dat is niet zo moeilijk, want als het goed is heeft elk ding in je collectie al een uniek nummer, dat in combinatie met een domeinnaam en eventueel een collectienaam uniek is op de wereld), dan kan je met gerust hart metadata opslaan naast je CRS.
Wachtkamer en loket van het in 1993 gesloten station Visvliet, collectie Utrechts Archief, gevonden met een query op gedistribueerde data naar in de jaren 90 gesloten stations. Je kunt je afvragen of je openings- en sluitingsdata van stations in je CRS wilt hebben.
Theorie en praktijk
Tot zover de theorie. In de praktijk hebben sommige leveranciers nog steeds geen voorzieningen ingebouwd om URIs op te nemen en in een webinterface te tonen (ik weet dat het niet netjes is, maar ik gebruik hier URI en PID en permalink maar even door elkaar, het zijn allemaal identifiers voor extern gebruik). Dit ondanks het werk van organisaties als DEN en NDE, die al jaren mensen betalen om deze kwestie bij leveranciers onder de aandacht te brengen. Dit is zo langzamerhand niet anders te zien dan als een schandalig staaltje pure onwil.
Leveranciers die wel goede voorzieningen treffen (die zijn er gelukkig ook), gebruiken graag hun eigen identifiers in een URI. Misschien omdat ze door instellingen afgerekend worden op een goed werkende website, en niet gevraagd worden collectiedata te schonen (dubbel voorkomende catalogusnummers in een collectie, je ziet het wel eens). Dus wijzigt een PID/URI nogal eens bij een leverancierswissel.
En al zouden ook die leveranciers hierbij best wat pro-actiever kunnen zijn, we kunnen hen daarvoor niet alle schuld in de schoenen schuiven. Ik heb zo het idee dat er genoeg collectiebeheerders zijn die zich er gewoon niet heel erg druk om maken.
Collectiebeheerders die dat wel (gaan) doen, maken het zichzelf uiteindelijk een stuk makkelijker. Zij kunnen de bevrijdende werking van de URI ervaren!
Stel data centraal, niet de tool
Het gaat uiteindelijk om de data. Die moet zorgvuldig gemaakt en duurzaam opgeslagen worden. Of je één of meerdere tools gebruikt om data te maken en beheren maakt in wezen niet uit. Niet als je de entiteiten in je data in verschillende tools altijd kunt identificeren met URIs.
Ik denk niet dat we leveranciers moeten vragen hun CRS geschikt te maken voor alle mogelijke data waarmee hun collectiedata te verbinden is. Natuurlijk is het fijn als je items binnen de geografische thesaurus of personenthesaurus van je CRS kunt voorzien van een GeoNames of Wikidata URI. Maar het hoeft niet per se, het kan er eventueel ook naast.
Natuurlijk is het fijn als je er coördinaten in kwijt kunt. Of misschien ook polygonen en lijngeometriën, en dat je daar dan bij aan kan geven van wanneer tot wanneer ze geldig zijn. Maar het hoeft niet, het kan er ook naast.
Taxonomisch zoeken naar vissoorten vergezocht? Het Centraal Museum heeft voor een tentoonstelling in 2004 vissen op stillevens laten determineren
Misschien wil je relaties tussen personen kunnen benoemen, en van elke persoon kunnen aangeven van wanneer tot wanneer die welk beroep uitoefende, en zo'n beroep daarbij verbinden met HISCO. Of de volledige taxonomie van op stillevens voorkomende vissoorten opnemen, zodat je niet alleen op 'schol', maar ook op 'platvissen' of 'straalvinnigen' kunt zoeken. Maar je hoeft daarvoor geen ticket bij je CRS-leverancier aan te vragen, het kan er echt prima naast.
Sterker nog, er is veel voor te zeggen om niet alles in één immer uitdijend systeem te stoppen, waarop onderhoud steeds lastiger en duurder wordt. Laat leveranciers van collectieregistratiesystemen (nadat ze eerst die URIs goed geregeld hebben) voortaan rustig doen waar ze goed in zijn: collectieregistratie.
Linked data legt de controle weer bij de collectiebeheerder. Maak er gebruik van.