Het afgelopen weekend besteedde NRC Handelsblad aandacht aan het Political Mashup project. Het project, gebaseerd aan de Universiteit van Amsterdam, heeft als doel het eenvoudig digitaal doorzoekbaar maken van grote hoeveelheden politieke data. Het artikel is helaas niet gratis digitaal toegankelijk. Wel gratis toegankelijk zijn de pagina’s op de site van de NRC waar de krant gegevens toont over alle volksvertegenwoordigers en leden van het Kabinet.

Per politicus vinden we daar: een tijdslijn met alle optredens in de media, een tijdslijn met alle vermeldingen in de NRC, een tijdslijn met aantallen interrupties (actief en passief) in het parlement, en overzichten van de voor het taalgebruik van die politicus meest karakteristieke werkwoorden, zelfstandig naamwoorden en namen. Dit zijn bijvoorbeeld de gegevens van Rutte, hier die van Wilders.

Steeds zijn de gegevens voorzien van een link naar  relevante verdere informatie: naar Google, naar de websites van de verschillende omroepen, of naar de handelingen van de Tweede Kamer.

Bovendien wordt een aantal samenvattende statistieken gepresenteerd: Wie spreekt het meest? (Tofik Dibi) Wie spreekt het wolligst? (Ad Koppejan) Wie debatteert het vaakst? (Kees van der Staaij)

In een niet helemaal overtuigende poging tot crowdsourcing vraagt de krant het publiek om mee te zoeken naar patronen in de gegevens.  Maar daarvoor zouden misschien iets meer ruwe data nodig zijn, ook in machineleesbare vorm.

Het zou spannend zijn als het karakteristieke vocabulaire ook automatisch op concepten kon worden geanalyseerd. Nu zien we in zo’n lijstje wel de thema’s terug die we met een bepaalde politicus associëren (de meest frequente zelfstandig naamwoorden van Wilders: miljarden immigratie missie nationaliteit islam verblijfsvergunning taqqiya immigrant gedoogakkoord opspraak moslim) maar voor een thematische vergelijking van verschillende politici of partijen lenen zulke lijstjes zich minder goed.

 

Geplaatst in humanities computing, weblog digital humanities

Reageer