False Positives bij Geocoderen Oorlogsbronnen
2016-06-12 13:44:43
Van dit artikel bestaat ook een versie met een interactieve kaart!
Donkere wolken pakken zich samen boven Axis, Alabama
Geocoderen is het scriptsgewijs aan een geocoder vragen of er een locatie bekend is bij een bepaalde naam. Soms levert dat onverwachte resultaten op. Als je die naam met Named Entity Recognition uit een tekst hebt gehaald, dan denkt een geocoder al snel de Duitstalige boeken 'Retter in Uniform' en 'Statisten in Uniform' in het Amerikaanse plaatsje 'Uniform' te moeten situeren.
Anne Frank is een straat in Bunschoten-Spakenburg (flink inzoomen, ligt wat verstopt achter Grebbelinie!) en elders in het land vindt je de straten Bevrijding, Zuidfront, Veldpost, Luchtvaart, Genie, Kampement en Spitfire. In Friesland liggen de plaatsen Moskou en War.
Bij het geocoderen van Oorlogsbronnen bleken veel collecties gelukkig over een apart veld voor geografische termen te beschikken. Maar dat je zeker weet dat het niet om een persoons- of andere naam gaat wil niet zeggen dat je problemen verdwenen zijn. Zo'n naam hoeft namelijk helemaal niet eenduidig te zijn. In Suriname ligt ook een Berlijn.
Als je zoals ik eerst de Historische Geocoder gebruikt en de GeoNames API pas als je daarmee niets vindt, dan ligt Bali zo in een Purmerends wijkje. Sowieso halen straatnaamcommissies hun inspiratie nogal eens uit een atlas: Atlantische Oceaan, Westfriesland, Sudeten, Normandiƫ, Saksen, Javazee, Siciliƫ. En als je daar 'straat', 'weg' of 'laan' achter plakt gaat het er maar raar uit zien (Javazeestraat).
Soms is de valse positief veroorzaakt door de strategie die je bij geocoderen kiest. Als je aan GeoNames vraagt naar Brussel en je accepteert alleen plaatsen met precies dezelfde naam, dan mis je Brussels en eindig je in het Zuid-Afrikaanse Brussel. Maar welke strategie je ook kiest, bij elke loop je kans op vals positieven.
Nu zijn de vals positieven op de kaart hierboven op de vingers van een hand of achtendertig te tellen. En het aantal correct gegeocodeerde locaties bedroeg meer dan tienduizend! Ik zeg het maar even, dat u op basis van dit blogbericht niet besluit dat u voor geocodeerprojecten maar beter iemand anders in kunt huren.
Collectie-eigenaren zouden een hoop gedoe kunnen voorkomen door unieke identifiers te gebruiken in plaats van (of naast) plaatsnamen. GeoNames of TGN URI's bijvoorbeeld, of BAG id's. Dat scheelt vals positieven, vals negatieven en uiteindelijk ook geld. Want dan zijn geocodeerprojecten naderhand niet meer nodig.