De Google n-gram viewer is een mooi cadeautje van Google aan iedereen die geïnteresseerd is in taal en cultuur. Onlangs kreeg de n-gram viewer er een paar nieuwe mogelijkheden bij.

 

Spraken we maar Engels, of een andere veel gesproken taal. Dan konden we tenminste profiteren van de immense taalcorpora die Google aanlegt op basis van de boekencollecties in Google Books. De Google n-gram viewer was al in 2011 een hit, toen in het beroemde/beruchte artikel over Culturomics een nieuwe wetenschap werd gepresenteerd op basis van de vergelijkingen van woordfrequenties van bepaalde groepen woorden, bij voorbeeld Einstein, Darwin, Freud en Galileo, in de door Google gescande boeken:

Vorig jaar onderging de n-gram viewer al een keer grootscheeps onderhoud, toen nieuwe data werden toegevoegd, zoeken op woordsoort mogelijk werd gemaakt en de OCR-technologie werd verbeterd. De verbetering van de OCR (optical character recognition, de omzetting van afbeelding naar tekst) blijkt bijvoorbeeld uit het feit dat de lange ‘s’ voorheen vaak incorrect werd gelezen als ‘f’: ‘beft’ in plaats van ‘best’:

Dankzij de mogelijkheid om in de zoekopdracht woordsoorten te gebruiken kunnen we ongewenste resultaten uitfilteren: als ik ‘yours’ en ‘mine’ wil vergelijken wil ik natuurlijk niet dat ook het zelfstandig naamwoord mine meekomt, dus vraag ik expliciet om het voornaamwoord:

In de versie die onlangs werd gelanceerd is het gebruik van wildcards mogelijk gemaakt. Een ‘*’ wordt automatisch vervangen door de tien op die plaats meest voorkomende woorden. Die kan worden gecombineerd met een aanduiidng van een woordsoort. Wat willen we het liefste delen? Informatie natuurlijk:

En hoe beschrijven we onze computers?

 

We kunnen natuurlijk niet wachten tot deze mogelijkheden ook voor het Nederlands ter beschikking komen. Maar zoals Jon Orwant, research manager bij Google, al eens aangaf, er zijn nog te weinig Nederlandse boeken beschikbaar, en vooral te weinig moderne boeken, om zo’n dienst statistisch verantwoord te kunnen leveren.

Peter Boot

 

Meer informatie: Ben Zimmer in The Atlantic, en de n-gram documentatie.

Geplaatst in Achtergrond, weblog digital humanities

Een reactie op “Wildcards in de Google n-gram viewer”

  1. […] De Google n-gram viewer is een mooi cadeautje van Google aan iedereen die geïnteresseerd is in taal en cultuur. Onlangs kreeg de n-gram viewer er een paar nieuwe mogelijkheden bij.  Spraken we maar Engels, of een andere veel gesproken taal. Dan konden we tenminste profiteren van de immense taalcorpora die Google aanlegt op basis van de boekencollecties in Google Books. Lees verder op textualscholarship.nl […]