Onlangs verscheen het eerste nummer van het Journal of the Text Encoding Initiative. Het nummer bevat een aantal papers van de TEI ledenbijeenkomsten van 2008 en 2009. Daaronder een interessant artikel van John Unsworth over ervaringen opgedaan in het maken van grotere tekstcorpora uit bestaande collecties (Computational Work with Very Large Text Collections).  Ook al stond vroeger de letter ‘I’ in de afkorting TEI wel voor ‘interchange’, het bleek voor het MONK project nog niet mee te vallen om volgens de TEI-richtlijnen gecodeerde bestanden uit verschillende projecten samen te voegen. Er is speciale programmatuur ontwikkeld om tekstcodering om te zetten naar een ‘grootste gemene deler’-formaat. Inmiddels is een grote collectie materiaal beschikbaar in die codering, verder geanalyseerd op taalkundige kenmerken, in de MONK workbench.

Een tweede soort problemen waar dergelijke projecten tegen aanlopen zijn rechtenkwesties. Een groot deel van de bestanden die in MONK zijn samengevoegd is niet rechtenvrij. Van de MONK library bestaat daarom een vrij toegankelijke versie met vooral negentiende-eeuws materiaal, en een uitgebreide versie die  alleen toegankelijk is uit een beperkt aantal instellingen. Dat probleem zal voor grotere collecties tekstmateriaal steeds vaker spelen. Ook Google Books loopt aan tegen het probleem van de ‘orphaned works’, werken die niet meer in druk zijn waarvoor het auteursrecht nog niet is verstreken. Onderzoek aan orphaned works zou mogelijk moeten zijn. In de voorbereidingen van de oprichting van een onderzoeksinstituut naar digitale hulpmiddelen door HathiTrust spelen die rechtenkwesties een belangrijke rol.  Unsworth betoogt dat de TEI zich deze ontwikkelingen zou moeten aantrekken, en een visie zou moeten ontwikkelen voor een infrastructuur  voor onderzoek naar zeer grote tekstcollecties.

In een ander artikel bespreken Lynne Siemens e.a. de ervaringen die zijn opgedaan met ‘viral marketing’ voor de TEI: de YouTube video waarin teksten van Bob Dylan van een soort TEI-codering werden voorzien (eerder gesignaleerd op deze weblog).  Verder in dit nummer nog een artikel van Tanya Clements over haar uitgave van de gedichten van Elsa von Freytag-Loringhoven, de onderliggende theorie van de tekst en theorieën over knowledge representation en wetenschappelijk editeren, en een artikel van Thomas Schmidt over de transcriptie van gesproken taal.

Zoals de meeste open access tijdschriften maakt het TEI journal voor de pre-publicatie workflow gebruik van Open Journal Systems, ontwikkeld door het Public Knowledge Project. Als publicatieplatform is gekozen voor Revues.org, een Frans  webplatform voor elektronische publicatie van tijdschriften en boeken.

Geplaatst in tei, tijdschrift, weblog digital humanities

Comments are closed.