Van Oude Nieuwstraat tot Onbekendegracht - straatnamen in collectiedata

2021-03-03

Foto’s in beeldbanken, notariële akten, bevolkingsregisters, historische kranten - de archieven liggen vol papier waarop straten worden genoemd of afgebeeld. Je komt er natuurlijk ook plaatsen, gebouwen, organisaties, personen en allerlei andere organismen in tegen, tot de Melolontha melolontha (meikever) aan toe, maar dit stuk beperkt zich tot straten.

Straten zijn bijzonder geschikt om het gebruik van linked data in de praktijk te illustreren: ze komen in allerlei datasets voor en zijn te plaatsen in zowel ruimte als tijd. Met een beetje geluk zijn straatnamen ook al opgenomen in de metadata - bij beeldmateriaal is dat al regelmatig het geval en registers zijn regelmatig geïndexeerd op straatnamen. Veel werk is dus al gedaan.

In theorie zou je allerlei stukken uit een collectie - of stukken uit allerlei collecties - op straatnaam eenvoudig in een geautomatiseerd proces bijeen kunnen brengen om te zien hoe zo’n straat eruit zag, wie er woonden en wat er aan nieuwswaardigs voorviel. Behalve met elkaar, wil je stukken waarschijnlijk ook verbinden met een databestand waarin geometrieën van de straten zijn opgenomen, zodat je ze via een kaart kunt bekijken. Een geografische interface geeft een overzicht dat je met zoeken op trefwoord niet snel bereikt.

beeldbank Utrechts Achief

Een visualisatie van de beeldbank van Het Utrechts Archief toont welke straten in de beeldbank worden afgebeeld en hoe vaak

In de praktijk valt dat verbinden op naam behoorlijk tegen - het aantal schrijfwijzes voor straatnamen blijkt vaak toch weer groter dan je voor mogelijk had gehouden. Vraag vijf Amsterdammers de naam van de straat tussen Nieuwmarkt en Jodenbreestraat op te schrijven en de kans is groot dat geen van de schrijfwijzes overeenkomt met een andere. Het Adamlink project, dat in 2018 Amsterdamse collecties onder andere op straten probeerde te verbinden, vond een kleine honderd varianten. Veel variatie wordt veroorzaakt door afkortingen (St., Anth., str.), maar zelf moeten we ook altijd even opzoeken of het nu Sint Anthoniebreestraat, Sint Antonisbreestraat of Sint Antoniesbreestraat is.

Tijd is een aanjager van variatie. Hoe langer een straat, plein of steeg bestaat, hoe groter de kans dat het ooit een straet, pleijn of steechje is geweest. Ook het relatief jonge Bos en Lommerplein is zijn leven als Bosch en Lommerplein begonnen.

Bos en Lommerplein

Op deze kaart uit 1951 lijkt iemand de spelling naderhand gemoderniseerd te hebben

Dat, los van spelling, ook namen zelf veranderlijk kunnen zijn bewijst de Oude Nieuwstraat zonder er veel woorden aan vuil te maken. De Amstellaan, die na de oorlog Stalinlaan ging heten, werd in 1956 weer omgedoopt naar Vrijheidslaan. Kort tevoren hernoemde de bezetter veel straten die naar joden of leden van het koninklijk huis waren vernoemd - het Sarphatipark werd Bollandpark en het Haarlemse Julianapark de Verlengde Generaal Cronjéstraat. Het onware verhaal dat de Willemsparkweg een naamsverandering bespaard bleef, doordat men de Duitsers had wijsgemaakt dat de weg naar de fictieve componist Willem Spark was vernoemd, bereikte in het gijzelaarskamp Beekvliet zo’n cultstatus dat Sint-Michielsgestel decennia later daadwerkelijk een Willem Sparkweg kreeg. Ook een hernoeming trouwens, want die plek was daarvoor bekend als het Duitse Bos.

The Spark Papers

Titelblad van het na de oorlog uitgeven boekje met redevoeringen over leven en werk van Spark. Op die bijeenkomst in juni 1943 werden ook een aantal composities van Spark ten gehore gebracht.

Al die naamsverwarringen los je op door identifiers te gebruiken. En dan het liefst Uniform Resource Identifiers (URIs), zeg maar urls die je als identifier gebruikt. Het voordeel van URIs is dat domeinregistratie ervoor zorgt dat ze per definitie uniek zijn en dat je er meestal ook nog eens op kunt klikken als je wilt zien wat ze betekenen. De volgende vraag is: welke URIs dan?

De Basisadministratie Adressen en Gebouwen (BAG) is de eerste gegadigde. Nederlandse gemeenten houden daar nauwkeurig alle panden en adressen in bij, en om die panden hiërarchisch netjes te plaatsen worden ook ‘openbare ruimtes’ en woonplaatsen netjes bijgehouden. De BAG wordt op veel plaatsen gebruikt, wordt goed ontsloten en identificeert al zijn entiteiten met persistente URIs.

BAG ids zijn duurzamer dan straatnamen of adressen. Wil je een straat of pand benoemen, dan is een BAG id dus een goede keuze. Handig is dat de BAG ook bouwjaren van panden bevat. Als een foto van een pand gemaakt werd voor het gebouwd werd weet je meteen dat of de datering van de foto of het bouwjaar in de BAG niet klopt. Als je een query maakt waarmee je in één keer van elke straat binnen een woonplaats het oudste pand ophaalt kan je zelfs iets te zeggen over de ouderdom van straten.

Breestraat

Polygonen van panden in de Leidse Breestraat uit de BAG. Rijksmonumenten worden op deze kaart blauw weergegeven. Panden zijn donkerder naarmate ze vaker op afbeeldingen in de beeldbank van Erfgoed Leiden voorkomen.

In de BAG is voor panden en adressen wel een geometrie opgenomen, maar voor straten niet. Dat is jammer, want het is wel zo fijn als je daar door het opnemen van URIs ook meteen toegang toe zou hebben - als je kaartjes wil maken bijvoorbeeld. Gelukkig is er een uitweg. De wegvakken in het Nationaal Wegenbestand (NWB) lijken op straatnaam (er worden inmiddels BAG schrijfwijzes aangehouden) en woonplaats goed aan de BAG te koppelen, waarmee lijngeometriën binnen bereik zijn. De PDOK locatieserver geeft een - vereenvoudigde - NWB lijngeometrie terug bij een BAG openbare ruimte id.

Het Adamlink project heeft zelf URIs gemunt. In het in 2018 opgeleverde stratenregister kunnen straten worden voorzien van naamvarianten en geometrieën - beide desgewenst voorzien van een periode waarbinnen ze geldig waren. Ook de straat zelf kan een begin- en eventueel ook een eindtijd krijgen. Zo zijn, anders dan in de BAG, verdwenen straten en gangen een wezenlijk onderdeel van deze Amsterdamse dataset.

Adamlink straten

De lijngeometrieën in Adamlink - grotendeels afkomstig uit het Nationaal Wegenbestand, maar voor verdwenen straten vaak zelf ingetekend - zijn hier ingekleurd naar ouderdom van de straat

De temporele dynamiek kan binnen het Adamlink model goed worden vastgelegd. Behalve door de tijd wisselende benamingen, lengtes en liggingen kunnen ook onderlinge relaties worden beschreven. Het Kamperhoofd, de Oude Teertuinen en de Texelse kade hebben gemeen dat ze in 1879 zijn opgegaan in de Prins Hendrikkade. De Delftse Bierkaai en de de Beschuitmarkt waren beide onderdeel van de Oudezijds Voorburgwal.

Niet iedereen verkeert in de omstandigheid zelf zo’n applicatie en dataset op te kunnen zetten en onderhouden. De Adamlink URIs, die vooral binnen de wetenschap snel ingang hebben gevonden, moet de komende decennia beschikbaar blijven - en liefst ook aangevuld worden - willen ze hun relevantie niet verliezen. Wil je die verantwoordelijkheid ontlopen, dan is Wikidata een goed alternatief.

Haarlem

Straten in Haarlem naar jaar van aanleg - de gegevens zijn ingevoerd in Wikidata en de applicatie haalt de data daar ook rechtstreeks vandaan.

Wikidata, opgericht in 2012, is de datavariant van Wikipedia en heeft inmiddels meer dan honderd miljoen items, waaronder meer dan 230 duizend Nederlandse straten. Een handleiding van Erfgoed Leiden laat zien hoe je een straat dateert, officiële naamswijzigingen en minder officiële naamvarianten toevoegt en relaties tussen straten onderling legt. Leuk is dat er verbindingen te leggen zijn met al die andere data op Wikidata, bijvoorbeeld via de property ‘vernoemd naar’. Zo kan je eenvoudig alle naar vrouwen vernoemde straten opvragen, of straten die vernoemd zijn naar schilders, Duitsers of tuinkruiden. Praktisch is dat ‘BAG openbare ruimte id’ ook een property is op Wikidata - je kan dus in je eigen systeem volstaan met het opnemen van een Wikidata identifier en BAG identifiers, als dat niet al gebeurd is, aan Wikidata toevoegen.

Erfgoedinstellingen gebruiken steeds vaker Wikidata identifiers om collectie-items te beschrijven. Toch zie je maar zelden een medewerker van zo'n instelling Wikidata editen. Dat heeft ongetwijfeld te maken met gevoelens van professionele superioriteit jegens een systeem waar zomaar iedereen in kan werken. Deels is dat natuurlijk wel een terechte zorg - het is onverstandig de toeschrijving van kunstwerken aan kunstenaars alleen op Wikidata te doen. Maar voor meer perifere metadata, die in het eigen systeem meestal niet of slecht is op te nemen, geldt dat niet.

Laten we hopen dat het ook beginnersschroom is, en dat meer mensen uit het veld daar overheen stappen. Het is de ideale omgeving om praktische ervaring met linked data op te doen.

Er zijn tutorials te vinden. Om items toe te voegen en te wijzigen zijn allerlei interfaces beschikbaar. En via de krachtige sparql endpoint vraag je precies de data op die je nodig hebt - om te exporteren naar bijvoorbeeld csv, of om te tonen als tabel, op een kaart of binnen een eigen applicatie. Vergeleken met een scenario waarin je als archief zelf software laat ontwikkelen, of aanpassingen aan je registratiesysteem laat uitvoeren, is Wikidata behalve gebruiksklaar dus ook een goedkope oplossing.

mv Leiden

Naar mannen (oranje) en vrouwen (blauw) vernoemde straten in Leiden - kaartje gegenereerd door Wikidata

Wikidata biedt dus vrijwel alles dat je nodig hebt om straten goed te beschrijven. Vergeleken met Adamlink zijn er toch nog twee dingen die missen: lijntjes en schrijfwijzes.

In Wikidata geef je de geografische locatie van een item aan met een puntgeometrie, terwijl een lijngeometrie voor straten natuurlijk ook handig kan zijn. Met de property 'geografische vorm' kan je wel naar een bestand op Commons verwijzen dat een geometrie toont - zie bijvoorbeeld het item van de Haarlemse Kleverparkweg -, maar het samen met andere queryresultaten op een kaart tonen lukt daarmee niet.

Als gezegd komen via de BAG de NWB geometrieën in het vizier, maar dat is niet altijd genoeg - geometrieën van verdwenen straten zitten daar bijvoorbeeld niet in. Wil je ook die historische geometrieën ergens kwijt, dan kun je natuurlijk zelf een databestand aanleggen. Aan twee velden heb je eigenlijk genoeg: één voor de Wikidata identifier en één voor de geometrie. Het is natuurlijk mooi als je zo’n bestand vervolgens als open data publiceert, zodat derden er ook hun voordeel mee kunnen doen. Nog mooier zou het zijn als meer van dat soort datasets op een centrale plaats ontsloten zouden kunnen worden. Erfgeo, waarover later meer, zou zo’n plek kunnen zijn.

Naamvarianten zijn tot op zekere hoogte geen probleem in Wikidata. Dat de Amsterdamse Churchilllaan eerder de Noorder Amstellaan heette kan je daar prima kwijt, inclusief datering en bronvermelding. Maar het lijkt niet de bedoeling dat je daar ook schrijfwijzes als ‘Nrd. Amstell.’, ‘N. Amstellaan’ en ‘N. Amstell.’ toevoegt. Zeker niet als het om honderd varianten gaat, zoals bij de Sint Antoniesbreestraat (de officiële spelling).

Terwijl die schrijfwijzes enorm handig kunnen zijn. Netwerk Oorlogsbronnen heeft een tijdje terug door vrijwilligers de administratie van Kamp Vught in laten voeren - de woonadressen van de gevangenen zijn daarbij ingetypt zoals ze op het kaartje stonden. De kampadministrateurs schreven straatnamen als Noorder Amstellaan zelden of nooit volledig uit, maar doordat in een vorig project schrijfwijzes als boven niet alleen al verzameld, maar ook met de hedendaagse straatnaam verbonden waren, bleken de meeste adressen zonder al te veel problemen thuis te brengen en te plotten op een kaart.

Door crowdsourceprojecten waarin grote hoeveelheden data worden ingevoerd en door steeds beter wordende tekstherkenningstechnieken (de indrukwekkende resultaten van Transkribus zal veel mensen niet ontgaan zijn) stijgt het aantal archiefstukken dat als tekst beschikbaar komt exponentieel. Het terugvinden van entiteiten als straten - maar ook personen, gebouwen, organisaties, etc. - in al die tekst is onbegonnen werk. Tenzij je dat werk (deels) aan computers kunt uitbesteden.

teleurgestelde liefde

In een crowdsourceproject van Erfgoed Leiden voeren vrijwilligers politierapporten uit de oorlogsjaren in. De Van Limburg Stirumstraat waar bovenstaand liefdesdrama zich voltrok is een andere dan de huidige, die een paar honderd meter zuidelijker ligt. Voor beide straten is een Wikidata item aangemaakt.

Lerende systemen (machine learning algorithms) kunnen patronen leren herkennen als ze genoeg trainingsmateriaal krijgen. Het project ‘Locatiegericht Zoeken’ heeft vrijwilligers in het velehandenproject Tag de Tekst gevraagd personen, tijdsaanduidingen en locaties in notariële akten en VOC-archieven te markeren. Dankzij die markeringen leert het algoritme patronen te ontwaren die duiden op bijvoorbeeld straatnamen: ‘…straat’, ‘…gracht’, ‘…steech’, maar ook ,‘gelegen aan de …’, ‘ binnen dese Stad in de …’, ‘in de … tussen de … en … ‘. Zo zijn straatnamen snel uit tienduizenden pagina's tekst te halen.

Maar daarmee ben je er niet. Het algoritme weet - of liever, vermoedt - dat iets een straatnaam is, maar dat is iets anders dan een identificatie. Als je een lijst hebt met huidige straatnamen, dan lukt het misschien, met wat fuzzy matchen, ‘Kijsersgragt’ thuis te brengen als de Keizersgracht, maar misschien ook niet. Het zou in ieder geval enorm helpen, en false positives voorkomen, als je al weet dat Kijsersgragt en Kaeysersgraft schrijfwijzes van Keizersgracht zijn. Ook dateringen kunnen erg nuttig zijn. Als je weet dat de Polygoongracht pas in 2001 is aangelegd hoef je die misschien niet mee te nemen in je overwegingen.

Aangezien steeds weer nieuwe naamvarianten en schrijfwijzes uit archiefmateriaal opgediept zullen worden, zou het mooi zijn als je die, misschien nadat ze door een mens geïdentificeerd zijn, weer aan een lijstje toevoegt. Dat groeit dan langzaam maar zeker uit tot een lijst waarmee steeds betere resultaten te behalen zijn. Als data van meerdere instellingen samenkomt gaat het nog sneller.

meikevers

Ook meikevers zijn met straten te verbinden

Net als voor de geometrieën zou Erfgeo ook voor schrijfwijzes een goede centrale plek kunnen zijn. Maar hoewel de bijbehorende API nog steeds draait, lijkt er sinds de lancering in 2015 weinig data meer toegevoegd te zijn, en zelf toevoegen is niet mogelijk. Het internationale World Historical Gazetteer is wat dat betreft actiever, maar daar heeft men de handen al vol aan plaatsnamen, zoals onlangs op een HackaLOD bijeenkomst bleek.

Desondanks kunnen we gewoon aan het werk. De BAG en het NWB staan voor ons klaar. Met Wikidata hebben we een prima tool om straten verder te beschrijven. En wat daar niet in past kunnen we, gelinkt met Wikidata identifiers, elders opslaan en met elkaar delen. Haarlemse naamvarianten hebben bijvoorbeeld op GitHub een plaatsje gevonden. Daar staan ze mooi klaar voor de World Historical Gazetteer (mochten ze daar ooit straten op willen gaan nemen) en Erfgeo (zodra ze daar de draad weer oppakken).

Linked data stelt ons in staat samen te bouwen aan een steeds rijkere ‘knowledge graph’, waarbinnen via soms onvermoede wegen allerlei gegevens bij elkaar komen. Ook als je je tot straten beperkt kom je Melolontha melolontha uiteindelijk weer tegen - er zijn Meikeverstraten en -paden in Rotterdam, Groesbeek, Amersfoort, Haarlem en Leiden.

Menno den Engelse & Lukas Koster