DBpedia is de database-variant van Wikipedia: alle pagina’s van Wikipedia zijn afgegraasd, er is zoveel mogelijk gestructureerde informatie uit gedestilleerd en die structuren worden op DBpedia bevraagbaar gemaakt. Dat bevragen doe je met de query-taal SPARQL. Om te zien hoe dit gaat en hoe bruikbaar de data is heb ik wat visualisaties gemaakt op DBpedia data.

Isms – kunststromingen en het aantal kunstenaars binnen elke stroming

Surrealisme, Impressionisme, Kubisme – hoeveel ‘ismen’ hebben een plekje binnen de kunstgeschiedenis en hoe belangrijk zijn ze? In een poging daar achter te komen heb ik dbpedia de vraag gesteld ‘Geef alle kunststromingen waartoe tenminste 1 kunstenaar wordt gerekend, en van elke stroming het aantal kunstenaars dat tot die stroming wordt gerekend’. De resultaten daarvan heb ik met d3.js vormgegeven in deze visualisatie.
Dat de data zijn eigenaardigheden kent, bleek toen ik dezelfde data, maar dan met de Nederlandse namen van de stromingen, opvroeg. Plotseling was ‘Realisme’, toch de grootste stroming, verdwenen. De Nederlandse vertaling bleek als labeltje niet de landencode ‘nl’, maar ‘no’ te hebben. Typo? Vanwege het streven naar volledigheid in het Engels dus, deze weergave.
In hoeverre de Wikipedia-gemeenschap correct en volledig is geweest in het koppelen van kunstenaars aan stromingen, en waarom er zoveel stromingen waren zonder gekoppelde kunstenaars, laat ik graag aan de kunsthistorici.

Franse schilderwerken

Bijzonder handig om snel data bijeen te harken zijn de op Wikipedia gebruikte categorieën. Een eenvoudige SPARQL query (geef van alle schilderijen in de categorie  French paintings de url, het jaar van maken en de thumbnail) lag aan de basis van deze tijdbalk.
Minpuntje is dat de schilderijen uit subcategorieën als ‘Paintings_by_Eugène_Delacroix‘ in de tijdbalk niet meegenomen worden. Hoe dat allemaal in 1 query te passen zou ik ook zo snel niet weten. Een script schrijven dat door alle subcategorieën heen loopt en van elke subcategorie alle werken in een database opslaat is echter weer vrij eenvoudig.
Een onvolkomenheid in de data is dat de door DBpedia gegeven paden naar de afbeeldingen vaak niet blijken te kloppen. Nader onderzoek leerde dat als je de directory ‘/commons/’ in het pad vervangt door ‘/en/’, of andersom, het plaatje dan wel gevonden wordt. In een eerder voorbeeld, nl. de categorie ‘Animals_in_art’, klopte de helft van de afbeeldingspaden niet. Door steeds met PHP te checken of ik geen 404 kreeg kon ik het pad in zo’n geval aanpassen. Als je de verkregen informatie opslaat in een database is dat een prima werkwijze, maar voor een live draaiend script liep de laadtijd zo te veel op. Geen dieren dus, maar Franse werken.

Critically Endangered

Wel dieren in de volgende query: ‘Geef alle vogels die op de IUCN rode lijst de status CR (critically endangered) hebben; geef van elke vogel de naam, de link naar het wikipedia-artikel, de orde, de trend en de thumbnail; sorteer op orde’.
De van de resultaten gemaakte grafiek toont binnen welke ordes hoeveel soorten bedreigd worden, van elke soort de trend (up, down, stable – in de meeste gevallen onbekend) en van elke soort, mits aanwezig, een afbeelding. Wil je meer over een soort weten, dan klik je op het blokje om naar Wikipedia te gaan.
Zoals je in de tabulaire weergave van de resultaten goed kunt zien, hebben lang niet alle soorten in DBpedia een Nederlandse naam. In die gevallen heb ik teruggegrepen op de Engelse naam.
Eén aanpassing van de query en je hebt dezelfde grafiek, maar dan voor zoogdieren. Daar vraag ik me trouwens af waarom Darwins vos in de orde ‘carnivoren’ zit, en niet in de ‘roofdieren’ – bekijk je data altijd kritisch, zal ik maar zeggen.