Classici lopen voorop in het nadenken over de consequenties van de massieve digitaliseringsprojecten van Google, Microsoft, de Open Content Alliance, en wie weet, ooit, de EU. Naar aanleiding van een workshop in Chicago, ‘Digital Humanities and Computer Science‘ hebben Gregory Crane (van Perseus) en een aantal andere classici een position paper gepubliceerd. Crane publiceerde daarover al eerder ‘What Do You Do with a Million Books‘ in D-Lib Magazine. Het position paper dient mede als voorbereiding op een workshop in mei 2007 aan Tufts University.

De auteurs benadrukken dat de initiatieven van Google c.s. alleen maar een begin zijn. De hoeveelheid materiaal die beschikbaar komt, is immens. Maar er is nog heel wat nodig om het materiaal zinvol te kunnen gebruiken. Betere OCR is wat het meest in het oog springt (de classici willen OCR voor Grieks), maar ook gewenst zijn: taalherkenning voor hele teksten en voor fragmenten in teksten, herkenning van gebruik van eenzelfde tekst in verschillende bronnen (ook in citaten), automatische herkenning van namen en data, en automatisch aanbrengen van onderscheid tussen meerdere mensen met dezelfde naam, taalkundige analyse, ondersteuning van het lezen (automatische links naar woordenboeken, automatische vertaling en samenvatting), en ondersteuning voor samenwerking, waarbij wetenschappers het materiaal verrijken voor hun collega’s en voor het publiek.

Het is daarbij van belang om, waar mogelijk, samen te werken met Google c.s. Er is geen reden om de dingen over te doen die commerciële aanbieders uit zichzelf al ondernemen. Maar tegelijkertijd benadrukken de auteurs dat een kerncorpus aan betrouwbaar materiaal open source ter beschikking zou moeten komen. De Open Content Alliance is daarvoor een voor de hand liggende partner. Ook de software die toegevoegde waarde levert op de ter beschikking komende inhoud zou open source beschikbaar moeten zijn. Alleen zo kan een infrastructuur worden geschapen waaraan zo veel mogelijk verspreid werkende groepen kunnen deelnemen.

De wensen die de classici hier neerschrijven zullen voor de meeste vakken van toepassing zijn. Vroegmoderne drukken zijn ook nog steeds slecht te OCR-en, om nog maar te zwijgen van drukken in geheel andere alfabetten. Herkennen van ‘dezelfde’ teksten en het opsporen van aanhalingen is overal wenselijk. Etc. Er is voor iedereen werk aan de winkel.

Interessant is ook dat de auteurs kennelijk aannemen dat het verrijkte materiaal zonder meer geïntegreerd kan worden met het materiaal dat wordt aangeboden door de commerciële aanbieders als Google. Dat zou nog wel eens tegen kunnen vallen.

De auteurs sluiten af met deze fraaie, maar Amerikaans aandoende zin: ‘The potential benefits of these vast new collections for intellectual life, within the academy and beyond, are immense but we will only realize them fully insofar as we ourselves take an active role in shaping this new future, both by articulating our values and by implementing our beliefs’. Waarvan akte.

Geplaatst in humanities computing, weblog digital humanities

Reageer