Computertaalkunde voor letterkundigen. Een verslag van de NAACL-conferentie 2013

Van 9 tot 14 juni 2013 vond in Atlanta de jaarlijkse conferentie van de North American Chapter of the Association for Computational Linguistics (NAACL) plaats. De hoofdstad van Georgia werd een week lang overspoeld met – vooral – computationele linguïsten uit de hele wereld. Ons antwoord op de vraag van de douanier wat we in de Verenigde Staten te zoeken hadden ontlokte hem een verveelde zucht, maar wij wisten het wel: wij wilden het daar gaan hebben over ons specialisme: het bestuderen van literatuur met computationele methoden, en we wilden luisteren naar collega’s met weer andere specialismen.

Metaforen, clichés en grammaticale brokstukken
Bijvoorbeeld Paul Cook en Graeme Hirst, die in hun zeer interessante bijdrage ‘Automatically Assessing Whether a Text Is Cliched, with Applications to Literary Analysis’ een methode presenteerden om clichés in een tekst aan te wijzen. Hiervoor werd een verrassend simpele maar zeer effectieve methode gebruikt. In plaats van te proberen de clichés direct te definiëren en identificeren, baseert de methode zich op statistieken van woordcollocaties uit het Google Ngram-corpus. Op die manier laat deze methode zien dat het aantal clichés in een tekst weerspiegeld wordt in een verschuiving van de frequentiedistributie van de n-grams (sequenties van woorden met een vaste lengte). Teksten met veel clichés bevatten namelijk een grotere hoeveelheid n-grams die zeer frequent in dit corpus voorkomen.
Een ander zeer interessant paper, ‘Identifying Methaphorical Word Use with Tree Kernels’ van Dirk Hovy e.a., stelde voor het metaforisch woordgebruik te identificeren met behulp van ‘tree-kernels’. Tree-kernels vinden terugkerende bomenfragmenten in frasestructuren, die als bouwstenen beschouwd kunnen worden. In dit geval zijn ze toegepast om bijvoorbeeld het sweet in sweet tea te kunnen onderscheiden van het sweet in a sweet person door de constatering dat in metaforisch gebruik de combinatie van woorden semantisch gezien ongebruikelijk is.
Op de eerste dag van de conferentie presenteerden Ben Swanson en Eugene Charniak een paper met de titel ‘Extracting the Native Language Signal for Second Language Acquisition’, over moedertaaldetectie aan de hand van ‘tree-substitution grammars’, waarin interessante technieken werden gepresenteerd waarmee grote aantallen boomfragmenten bestudeerd kunnen worden. In een paper over auteursattributie dat hij op de vorige NAACL-conferentie had gehouden was Andreas van Cranenburgh tegen twee problemen aangelopen: redundantie (het weghalen van triviale fragmenten of varianten ervan) en relevantie (wat zijn de interessante fragmenten, of het meest voorspellend voor de stijl van een auteur). Het paper van Swanson en Charniak benaderde deze problemen met simpele statistische methoden. Het zal interessant zijn om te zien of deze ook op literatuur toepasbaar zijn.

Proza versus krantenartikelen
Kathleen McKeown, een van de genodigde sprekers, beargumenteerde dat meer aandacht moet worden besteed aan literaire taal in plaats van aan krantenartikelen. Een nijpende vraag is hoe we computationeel een corpus van literaire teksten kunnen analyseren wanneer de tools die we gebruiken alleen getraind zijn op bijvoorbeeld The Wall Street Journal. Samen met David Elson, een van haar voormalige promovendi, heeft McKeown sociale netwerken geëxtraheerd uit negentiende-eeuwse literaire romans, maar ze vond geen ondersteuning voor Michail Bachtins theorie dat personages in rurale romans minder maar intensere sociale contacten hebben dan personages in romans die zich in de stad afspelen. Dit soort werk is zeer prikkelend, maar tegelijkertijd moeilijk om uit te voeren met de huidig beschikbare tools. En daarom zijn workshop zoals Computational Linguistics for Literature (CLFL) erg belangrijk.

Computational Linguistics for Literature
De CLFL-workshop werd gehouden op de laatste dag van de conferentie. Livia Polanyi beet het spits af met een reflectie op haar ideeën over hoe literatuur als een vorm van kunst tot stand komt. Haar presentatie was een kunstvorm op zich; het was meer een gedicht dan een lezing. Meerdere malen herhaalde ze de vraag wat het nou is aan verbale kunst dat vervreemdt, of in haar woorden: ‘that makes strange’. Deze vraag, die ze zich herhaaldelijk stelde als een soort mantra, is verwant aan de vraag die wij in het project The Riddle of Literary Quality stellen. Polanyis antwoord op deze vraag is erg structuralistisch en tegelijkertijd ook weer poëtisch – maar wat kun je anders van een dichteres verwachten? Ze stelt dat poëzie taal vervreemdt en dat proza de wereld vervreemdt. In The Riddle of Literary Quality zullen we ons juist níet alleen richten op foregrounding elementen die dergelijke vervreemdende effecten kunnen bewerkstelligen, zoals metaforen, of parallellismen en herhalingen op fonetisch, semantisch en syntactisch niveau in een gedicht kunnen doen. In een roman kan foregrounding ook bewerkstelligd worden wanneer er met taal of met een lettertype wordt gespeeld, wanneer er metaforen worden gebruikt, maar ook wanneer bijvoorbeeld de vertelinstantie onverwacht de lezer aanspreekt. Desalniettemin was Polanyis presentatie zeer interessant vanwege haar inzichten in de kunst die op verschillende manieren door middel van taal kan worden gecreëerd.
De laatste decennia ligt de focus van literatuurwetenschappers die computationeel de tekstuele kenmerken van literatuur bestuderen vooral op poëzie. Proza als een vorm van kunst is een stuk moeilijker bevonden om te bestuderen, omdat gemakkelijk identificeerbare foregrounding elementen veelal ontbreken. Tegenwoordig wordt er echter meer aandacht besteed aan romans, maar ook poëzie blijft een zeer geliefd studieobject. Deze ontwikkeling werd weerspiegeld tijdens de CLFL-workshop: de helft ging over poëzie, de andere helft over proza. Opvallend was dat de presentatoren niet uitsluitend computationele linguïsten waren. De meeste zijn traditionele geesteswetenschappers die als pioniers in hun eigen wetenschapsgebied literaire vragen met behulp van computationele methoden willen benaderen. Op deze specifieke workshop was een van de meest populaire onderwerpen voor degenen die proza bestuderen hoe je de monologen en dialogen van personages kunt identificeren en classificeren. Adam Hammond, Julian Brooke en Graeme Hirst probeerden de vrije indirecte rede van de personages uit Virginia Woolfs To the Lighthouse te desambigueren. Hua He, Denilson Barbosa en Greg Kondrak presenteerden tijdens de workshop een artikel waarin ze op basis van de dialogen een sociaal netwerk van alle personages in drie verschillende negentiende-eeuwse romans hebben gemaakt (zoals ook Elson etc. in 2010 gedaan hebben voor andere romans).
Ook in ons eigen paper, ‘From high heels to weed attics: a syntactic investigation of chick lit and literature’, maakten we duidelijk dat het voor het analyseren van syntactische complexiteit in de twee genres erg belangrijk is om de dialoog (die in allerlei vormen kan voorkomen) van de verhaallijn en de beschrijvingen te onderscheiden. In vervolgonderzoek willen we ons toeleggen op de vraag hoe de dialogen nu beter geïdentificeerd kunnen worden. Daarna zouden we bijvoorbeeld kunnen onderzoeken of in uiteenlopende genres een verschil in taalgebruik in de dialogen enerzijds en in de beschrijvingen anderzijds te vinden zijn. Uiteindelijk zullen we deze technieken toepassen om dichterbij het antwoord op onze Riddle-vraag te komen: kunnen we ook verschillen in verhaallijn en dialogen vinden tussen romans die op verschillende manieren gewaardeerd worden?

Corina Koolen, Kim Jautze, Andreas van Cranenburg (Huygens ING)

De proceedings van NAACL staat hier: http://naacl2013.naacl.org/
De proceedings van de CLFL-workshop staan hier: http://www.aclweb.org/anthology-new/W/W13/#1400

Alle genoemde papers kunnen op deze websites gevonden worden; de genoemde publicatie van Elson etc.: David K. Elson, Nicholas Dames, Kathleen R. McKeown, ‘Extracting Social Networks from Literary Fiction. In’: Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, p. 138–147. Association for Computational Linguistics, 2010.

Comments are closed.

Textualscholarship.nl

Alle content onder: Creative Commons Naamsvermelding-GelijkDelen 3.0 licentie. ISSN: 2212-9871