Tekstanalyse en digital humanities

Voor het geesteswetenschappelijk onderzoek heeft de computer voorheen ondenkbare mogelijkheden geschapen. Voor de letterkunde zijn vooral de mogelijkheden voor tekstanalyse van belang. In deze pagina’s geven we een overzicht van de stand van zaken en van nieuwe ontwikkelingen.

Stilometrie en auteursanalyse

In de internationale discipline van de Digital Humanities krijgt het thema auteursherkenning grote aandacht. Onderzoekers die zich daarmee bezighouden ontwikkelen computationele methoden en technieken waarmee de mogelijke auteur van een tekst met een zo groot mogelijke zekerheid aangewezen wordt. De mate van correctheid van deze methoden wordt getest op teksten waarvan het auteurschap zeker is. Er is globaal gezien een tweedeling in de gebruikte methoden en technieken. Enerzijds zijn dat ‘machine learning’ technieken waarbij de nadruk ligt op meer abstracte patroonherkenning, bijvoorbeeld door n-grammen te vergelijken, het voorkomen van letter- en woordcombinaties (bijv. Kestemont & Van Dalen-Oskam 2009). Anderzijds concentreert men zich op woorden en het vocabulaire, waarbij de gemiddelde frequentie van hoogfrequente woorden de onderzoeksdata omvatten. De belangrijkste is de Delta Procedure van John Burrows (vgl. Hoover 2004). Daarnaast worden op de woordenschat en woordfrequenties ook multivariate methoden (waarbij meerdere dimensies van de data tegelijk statistisch worden geanalyseerd) toegepast, zoals cluster analyse en principal component analyse. De beide werkwijzen worden nog niet regelmatig gecombineerd. Grammaticale kenmerken worden tot op heden nog niet ingezet in het auteursherkenningsonderzoek.

De tweede methode (de verschillende kwantitatieve analyses rond woordvoorkomens en woordfrequenties) wordt meestal door de onderzoekers gekozen omdat bij het evalueren van de resultaten woorden beter te relateren zijn aan inhoudelijke en stilistische elementen dan bijvoorbeeld lettercombinaties. Een analyse van de woorden of woordvelden die onderscheidend zijn tussen auteurs leidt zo tot meer inzicht in die verschillen en tot nieuwe onderzoeksvragen. Daarnaast kunnen computationele analyses van woordgebruik en woordfrequenties ingezet worden voor zuiver stilistisch onderzoek, waarbij de auteur eerder van secundair belang is en alle aandacht valt op de individuele tekst. Stilistisch onderzoek is met name in Groot-Brittannië een levendige onderzoeksdiscipline, waarbij het doel lang niet altijd een kwantitatieve analyse is. Wel worden computertools gebruikt waarmee de kwalitatieve (dus niet-kwantitatieve) analyse van stijl en inhoud kan worden ondersteund. Een voorbeeld is het programma Wmatrix (vgl. McInture & Busse 2010). Stilistisch onderzoek in het Nederlandse taalgebied is voornamelijk taalkundig van invalshoek, maar er zijn ook enkele onderzoekers actief vanuit een letterkundig perspectief.

Tekstcodering

De noodzaak voor tekstcodering komt voort uit het feit dat teksten bestaan uit verschillende onderdelen met herkenbare eigen kenmerken. Teksten zijn bijvoorbeeld vaak verdeeld in hoofdstukken, die voorzien zijn van titels. Teksten kunnen ondertekend zijn, en die ondertekening kan typografisch afwijkend worden behandeld. Teksten kunnen voorzien zijn van een regelnummering die geen deel uitmaakt van de ‘eigenlijke’ tekst.

Er zijn verschillende systemen bedacht om in teksten dergelijke meta-informatie toe te voegen. De op het moment in de digital humanities meest gangbare techniek maakt gebruik van TEI/XML. In deze dubbele afkorting definieert XML (eXtensible Markup Language) de syntax van de codes en TEI (Text Encoding Initiative) de organisatie die een vocabulaire van codes voor de geesteswetenschappen heeft gedefinieerd (Burnard & Bauman). Eisen die daarbij zijn gehanteerd zijn dat de codering onafhankelijk moet zijn van hardware en besturingssysteem van de computer, maar vooral ook van de applicatie. De codering moet de relevante eigenschappen van een tekst beschrijven zonder zich daarbij afhankelijk te maken van de coderingen die één bepaald programma (zoals een tekstverwerker) lezen kan.

Volgens TEI/XML gecodeerde bronnen zijn daarmee inherent flexibel toepasbaar. Dat kan worden gebruikt voor het vervaardigen van uitvoer in verschillend technische formaten (HTML, PDF, e-Reader), maar ook voor presentatievormen waarin bijvoorbeeld inhoud selectief wordt getoond. Tekstcodering is een belangrijke basistechniek zowel voor het maken van wetenschappelijke digitale edities als voor de ontwikkeling van digitale bibliotheken.

Een spanningsveld bij het gebruik van tekstcodering is de verhouding tussen de waarschijnlijk permanente codering van de tekst die nodig is om de tekst duurzaam te ontsluiten en flexibel te kunnen presenteren, en de mogelijkheid voor latere onderzoekers om de tekst te kunnen verrijken. Voor de eerste vorm van codering zal voor worden gekozen voor in de tekst opgenomen TEI/XML codes; voor de latere annotaties is waarschijnlijk één of andere techniek van stand-off annotatie (d.w.z. annotatie die niet is ingebed in de tekst) geschikter.

Voor meer toelichting zie bijvoorbeeld Renear 2004.

Virtual Research Environments

Er bestaan verschillende definities voor het begrip virtual research environment. Zo algemeen mogelijk geformuleerd: een VRE brengt bronnen en hulpmiddelen bijeen waarmee een onderzoeker zijn onderzoek kan verrichten. VRE’s zijn daarmee de logische voortzetting van een trend waarin steeds completere digitale werkomgevingen ontstaan. We zouden die trend kunnen laten beginnen bij de digitale editie (één tekst), voortzetten met de thematische onderzoekscollectie (meerdere teksten verzameld rond een thema), dan de digitale bibliotheek (wijde collectie digitale teksten), en vervolgens het collaboratory (faciliteiten voor gezamenlijke bewerking van teksten en documenten). De virtual research environment voegt weer nieuwe faciliteiten toe, hoewel er discussie bestaat over de aard van de gewenste extra mogelijkheden. Agenda en discussiefaciliteiten, gezamenlijke documentbewerking, domeinspecifieke analysators, toegang tot naslagwerken, bibliotheekcatalogi, bibliografische informatie en andere databases kunnen allemaal onderdeel zijn van een virtuele onderzoeksomgeving.

Het is duidelijk dat de bouw van de meer omvangrijke virtuele onderzoeksomgevingen een infrastructurele component heeft die de mogelijkheden van een enkel onderzoeksinstituut te boven gaat. Daar staat tegenover dat het onderzoek naar de aard van de gewenste hulpmiddelen, de beste vorm van ontsluiting van het materiaal en de beste omstandigheden om zulke omgevingen in te zetten wel degelijk behoort bij het onderzoeksterrein van de digital humanities.

eLaborate is de omgeving die het Huygens ING heeft ontwikkeld om online samenwerking aan bronontsluiting mogelijk te maken. In eerste instantie gebouwd als omgeving voor de transcriptie en annotatie van afbeeldingen van bronmateriaal, wordt eLaborate langzamerhand voorzien van onderdelen die het geschikt maken als onderzoeksomgeving. Een van de projecten waarbinnen dit gebeurt is het project Geleerdenbrieven, waarbinnen een onderzoekomgeving wordt ingericht voor samenwerkende wetenschapshistorici.

Zie voor meer informatie bijvoorbeeld Allan 2009 of Kirkham 2010.

Visualisatie

Visualisatie speelt een belangrijke rol in humanities computing. Ook al is traditioneel veel onderzoek in de digital humanities gericht op tekst, er is altijd veel aandacht geweest voor hulmiddelen die ‘using vision to think’ mogelijk maken (Jessop 2008). Aspecten die kunnen worden gevisualiseerd zijn in de eerste plaats kwantitatieve informatie, maar ook geografische informatie, tijdsverloop, clustering van gegevens, en niet te vergeten ruimtelijke aspecten. In tekstgericht onderzoek kan dat respectievelijk (en als voorbeeld) betekenen dat frequenties van woordsoorten worden gevisualiseerd in staafdiagrammen, dat plaatsen en reizen die in teksten worden genoemd op kaarten worden getoond, dat tijdsbalken worden gebruikt om zichtbaar te maken hoe bepaalde reeksen van gebeurtenissen in de tijd samenhangen, en dat afstammingsrelaties tussen manuscripten gevisualiseerd worden als bomen. Een voorbeeld van ruimtelijke visualisaties die van belang zijn voor tekstueel onderzoek zijn driedimensionale voorstellingen van historische theaters.

Een paar van deze voorbeelden (de landkaarten en tijdsbalken bijvoorbeeld) geven aan dat het principe van visualisatie geen recente uitvinding is. Wat nieuw is, is dat visualisaties automatisch gegenereerd kunnen worden op basis van de gegevens, en daarmee ook interactief gemaakt kunnen worden: een gebruiker kan vaak kiezen op basis van welke gegevens visualisaties worden getoond of welke parameters worden gebruikt in de berekeningen. Dat maakt visualisaties tot een krachtig instrument in de bestudering van patronen in data. Een veel gehoorde gedachte is dat we visualisatie niet kunnen missen om de weg te vinden in de enorme digitale tekstcollecties van de toekomst (Kirschenbaum 2009). In dit verband wordt ook wel gesproken van ‘distant reading’. In distant reading, een begrip van Franco Moretti, wordt de nadruk gelegd op een enkel aspect van één of meer teksten (bijvoorbeeld geografie) om verschijnselen zichtbaar te maken die in een ‘close reading’ verborgen blijven. Zie bijvoorbeeld Moretti 2005 of Boot 2008.

Overigens gaat het bij visualisaties niet alleen om de informatie-inhoud. Veel aandacht gaat vaak uit naar visuele aantrekkelijkheid. De grens met meer suggestieve of artistieke presentatie van tekstuele aspecten is niet precies aan te geven.

In de internationale discipline van de Digital Humanities krijgt het thema auteursherkenning grote aandacht. Onderzoekers die zich daarmee bezighouden ontwikkelen computationele methoden en technieken waarmee de mogelijke auteur van een tekst met een zo groot mogelijke zekerheid aangewezen wordt. De mate van correctheid van deze methoden wordt getest op teksten waarvan het auteurschap zeker is. Er is globaal gezien een tweedeling in de gebruikte methoden en technieken. Enerzijds zijn dat ‘machine learning’ technieken waarbij de nadruk ligt op meer abstracte patroonherkenning, bijvoorbeeld door n-grammen te vergelijken, het voorkomen van letter- en woordcombinaties (bijv. Kestemont & Van Dalen-Oskam 2009). Anderzijds concentreert men zich op woorden en het vocabulaire, waarbij de gemiddelde frequentie van hoogfrequente woorden de onderzoeksdata omvatten. De belangrijkste is de Delta Procedure van John Burrows (vgl. Hoover 2004). Daarnaast worden op de woordenschat en woordfrequenties ook multivariate methoden (waarbij meerdere dimensies van de data tegelijk statistisch worden geanalyseerd) toegepast, zoals cluster analyse en principal component analyse. De beide werkwijzen worden nog niet regelmatig gecombineerd. Grammaticale kenmerken worden tot op heden nog niet ingezet in het auteursherkenningsonderzoek.

Textualscholarship.nl

Alle content onder: Creative Commons Naamsvermelding-GelijkDelen 3.0 licentie. ISSN: 2212-9871