Op de recente Digital Humanities conferentie was een groot aantal sessies gewijd aan het nora project. nora (“no one remembers acronyms”) is een project voor “text mining”. Analoog aan het “data minen” dat de marketingmensen doen (maak onverwachte verbanden zichtbaar tussen je postcode, leeftijd, geslacht en je aankoopgedrag) en aan dat van de spionnageindustrie (maak onverwachte verbanden zichtbaar tussen je betalingsgedrag of je telefoonrekening en je neiging ergens een bom te leggen) willen text miners verbanden boven water halen in letterkundige teksten.

Een toepassing is bijvoorbeeld: turf een aantal gedichten van Emily Dickinson op erotisch taalgebruik, laat de computer een score berekenen voor de overige gedichten, en ga nu die scores uitzetten tegen verschillende variabelen: tijd van ontstaan van het gedicht, lengte van het gedicht, etc. Zie hier een demo: Hi-Res, Low-Res. De onderzoeker kan verschillende descriptors aan de gedichten toekennen die vervolgens in de visualisatie kunnen worden meegenomen, of kunnen worden gebruikt om de getoonde data te filteren.

Soortgelijk onderzoek wordt gedaan naar het sentimentele karakter van Amerikaanse romans uit de 19e eeuw, of naar toepassing in een “recommender system” (als je deze boeken goed vindt, zul je dit ook wel goed vinden).

In nora gaat het om, zoals Matthew Kirschenbaum zei, “generation of conjectures which need confirmation using traditional methods”. Deze visualisaties moeten wetenschappers op een idee brengen, de bedoeling is niet dat ze zelfstandig overtuigingskracht hebben.

In nora wordt gebruik gemaakt van de informatie-visualisatietoolkit Infovis van Jean-Daniel Fekete.

Geplaatst in software, weblog digital humanities

Comments are closed.