Meer over het versnijden van boeken | Textualscholarship.nl

Categorieën e-tekstualiteit

agenda (271)
annotation (24)
beeldende kunsten (13)
community created content (16)
digitale bibliotheek (21)
diversen (25)
duurzaamheid (11)
e-tijdschrift (9)
editie (134)
educatief (9)
handleiding (5)
humanities computing (15)
infrastructuur (5)
institutioneel nieuws (7)
internet algemeen (12)
metadata (7)
naslagwerk (6)
online boekdiscussie (4)
open access (1)
project (8)
publicatie (26)
software (48)
standaard (62)
- (x)html (2)
- CSS (2)
- rdf/owl (3)
- tei (30)
- xml (19)
tijdschrift (2)
tijdvak (127)
- 18e eeuw (12)
- 19e eeuw (23)
- 20e eeuw (17)
- middeleeuwen (45)
- niet-westers (1)
- oudheid (9)
- renaissance (36)
visualisatie (12)
weblog (3)

Delen via Facebook

Delen via Twitter

Abonneer op RSS feeds

Nieuws

Agenda

Weblog e-tekstualiteit

Achtergrond

Deze site is geinitieerd door:

In de NRC van gisteren een pagina vol reacties op het plan van de KB om boeken uit de band te snijden ten behoeve van het digitaliseren.

Boekwetenschapper Lisa Kuitert benadrukt het belang van het uiterlijk (lettertype, formaat, papiersoort) in de studie van het boek. Bovendien zijn verschillende exemplaren van de zelfde druk lang niet altijd identiek. Bij het vernietigen van één exemplaar van die druk kan wel degelijk informatie verloren gaan. Zijn alle illustraties in de verschillende exemplaren nog aanwezig? Kunnen we niet beter wachten op betere technieken?

Ewoud Sanders kiest de tegenovergestelde invalshoek: de beschuldiging van cultuurbarbarij is ‘sentimentele flauwekul’. Sanders vergelijkt de voorgestelde werkwijze van de KB met die van de DBNL, en beschouwt de KB-plannen als een grote vooruitgang: de DBNL laat in Azië de boeken overtypen, in plaats van met OCR (automatische karakterherkenning) te werken. Sanders meent dat terwille van de snelheid en de kosten het hogere foutenpercentage van OCR acceptabel is.

Hier valt wel iets op af te dingen. Ten eerste heeft de keuze over het al of niet versnijden niets te maken met de vraag of de tekst via OCR of via overtypen tot stand komt. De DBNL stuurt copieën naar Azië, en die kunnen al of niet via lossnijden tot stand komen. Ten tweede doet de DBNL veel meer met de tekst dan alleen maar overtypen. Er ontstaat ook een weergave van de structuur van de tekst (in de vorm van XML-codering) die de basis legt voor redelijk opgemaakte HTML pagina’s. Bovendien ontstaat de mogelijkheid voor zoekacties die rekening houden met de structuur (alleen in poëzie, alleen in een bepaald hoofdstuk, alleen in de noten, etc.) Het is waar dat we al heel lang wachten op de realisatie daarvan, maar dat neemt niet weg dat er een groot verschil in mogelijkheden is tussen platte tekst en gestructureerde tekst.

(Voor de zuiverheid vermeld ik zelf maar even dat ik lid ben van de technische commissie van de DBNL, en in die hoedanigheid eens in de zoveel tijd meedenk over diverse technische aspecten).

Een deel van Sanders’ ergernis heeft te maken met de het feit dat de DBNL van de Taalunie geen taalkundig materiaal meer mag digitaliseren. Dat wist ik niet. Het zou wel heel erg droevig zijn. (Ik zie de laatste maanden trouwens nog wel, bijvoorbeeld: Pontus de Heuiter, Nederduitse orthographie; Maaike Hogenhout-Mulder, Cursus Middelnederlands; en Jan Baptist Chrysostomus Verlooy, Verhandeling op d’onacht der moederlyke tael in de Nederlanden). Er staat tegenover (dat helpt Sanders niet bij zijn taalkundige vragen, maar het is wel zeer lovenswaardig) dat de DBNL tegenwoordig heel veel niet strikt letterkundig werk digitaliseert: de afgelopen maand bijvoorbeeld H.B.G. Casimir, Het toeval van de werkelijkheid; J.A.A. van Doorn en C.J.M. Schuyt, De stagnerende verzorgingsstaat; Leo Molenaar, Marcel Minnaert astrofysicus 1893-1970; H.P.G. Quack, De socialisten; en veel meer).

Een aantal ingezonden brieven noemt nog diverse andere aspecten: het belang van zorgvuldige selectie, de specifieke verantwoordelijkheid van de KB die het efficiency-belang te boven gaat, het belang van vormgeving, en een voorbeeld van boekenvernietiging in Leiden waarvan we maar zullen hopen dat het niet helemaal klopt. Eén briefschrijver meent dat ‘deze meneer’ op staande voet moet worden ontslagen.

Overigens wordt de discussie ook online gevoerd, bijvoorbeeld op:
– tegendraads.volkskrantblog.nl
– kansnotes.blogspot.com
– Archivalia (en hier)

Geplaatst in digitale bibliotheek, weblog digital humanities

6 reacties op “Meer over het versnijden van boeken”

Ewoud Sanders says:

29 November 2007 at 12:11

[Het volgende commentaar is afkomstig van Ewoud Sanders. Zoals eerder gemeld, vanwege de vreselijke hoeveelheid spam is het plaatsen van commentaar op het moment alleen mogelijk voor geregistreerde personen. Wie regelmatig wil meediscussiëren krijgt op verzoek een account.]

Beste Peter,

Het is mij bekend dat de DBNL ook boeken laat scannen en ocr’en. Maar waarom is de paginaprijs dan nog steeds zo hoog? Anderhalf a twee euro per pagina? Omdat er veel meer wordt gedaan met die pagina’s? Opmaak in html-formaat? Maar wat is daarvan precies de meerwaarde? Als de tekst op de html-pagina met ocr tot stand is gekomen – en ook de DBNL laat steeds meer snijden, scannen en ocr’en, begrijp ik – dan is de kwaliteit van de tekst op een DBNL-pagina dus even goed als de tekst bij een gescande pagina die op een andere manier wordt opgeslagen.

Bij een scan die als pdf wordt opgeslagen benader je niet ONGEVEER de vormgeving van het origineel, nee, je hebt de exacte weergave van het orgineel – inclusief afbeeldingen, eventuele gebruikerssporen, aantekeningen in de marge, noem het allemaal maar op.

Dus uiteindelijk komt het neer op rekenen. De DBNL produceert nu MAANDELIJKS 50 tot 75 boeken voor 1,50 a 2,00 euro per pagina. Ik ben slechts een particulier en doe dat scanner er slechts zo’n beetje bij, hoewel ik me goed heb verdiept in de hard- en de software. Tussen de bedrijven door scan ik WEKELIJKS tussen de 80 en 100 boeken, ruim drie keer zoveel als de belangrijkste professionele instelling op dit moment doet. Honderd boeken is in mijn ogen nog altijd veel te weinig, we zouden moeten overstappen op werkelijke massadigitisering, zoals Google doet.

Je schrijft dat je door de DBNL-site veel beter kunt zoeken, bijvoorbeeld op de structuur van de tekst. zoals iedereen weet kon je tot voor kort alleen goed door de DBNL-site zoeken als je die benaderde via Google. En is dat nou zoveel waard, zoeken op de structuur van een tekst?

Ik heb mijn digitale bibliotheek zo ingericht dat je er thematisch en chronologisch door kunt zoeken, maar bijvoorbeeld ook op metadata. Voeg de beschrijving uit Picarta of uit de STCN aan een pdf toe, en je hebt op een goedkope manier de beste metadata die nu voorhanden zijn. het is mij wel bekend dat dit ook allemaal anders kan, maar dan is het meteen een heel stuk duurder.

De DBNL heeft ooit becijferd dat er nog zo’n twintig miljoen pagina’s te gaan zijn. Na zeven jaar zitten ze nu op een half miljoen pagina’s. Er komt straks meer geld, alles loopt nu soepel, dus het zal sneller gaan, maar dan nog – met deze aanpak gaat het decennia duren voordat er bij de DBNL werkelijk sprake is van enige massa. Bovendien: die 20 miljoen pagina’s is volgens mij véél te laag geschat.

Overigens is het mij bekend dat de DBNL inmiddels weer wel taalkundige werken digitaliseert. Ik gaf slechst aan wat indertijd voor mij de aanleiding was om zelf te beginnen. Het DBNL kon er niks aan doen dat de Taalunie een stop op het digitaliseren van taalkundige werken had gezet. Zo’n gedwongen stop toont wel aan hoe afhankelijk zo’n instelling is van de subsidiegever.

Ik ben dat gelukkig niet. Ik hoef me dan ook niet te beperken tot goede of gecanoniseerde literatuur. Zoals iedere literatuuronderzoeker weet, heeft tweederangs of zelfs vijfderangs literatuur zo zijn eigen waarde, en niet alleen voor taalonderzoekers. Als je dit soort boeken gaat scannen, schiet je al heel snel boven die 20 miljoen pagina’s uit.

Mijn voornaamste punt is overigens dat er meer over dit onderwerp moet worden gediscussieerd. De DBNL is mij tot nu toe teveel een gesloten huis. Ze hebben een keuze gemaakt en gaan door op de ingeslagen weg, terwijl de ontwikkelingen sinds 2000 zo hard zijn gegaan dat er interessante alternatieven zijn. Het is goed om daarover van gedachten te wisselen, niet om als een mammoettanker op de ingeslagen koers te blijven doorgaan.

En ondertussen ga ik gewoon door met tegen lage kosten veel scannen.

Ewoud Sanders
Peter Boot says:

29 November 2007 at 18:59

Beste Ewoud,

Ik ben het met je eens dat het tempo van digitalisering veel te laag ligt. Het is belangrijk dat de KB, of de Taalunie, of wie dan ook, eindelijk vaart maakt met massadigitalisatie van gedrukt en geschreven erfgoed. Google geeft in ambitie het goede voorbeeld, al is het niet in kwaliteit. Maar ik denk niet dat massadigitalisering zo goedkoop kan als jij het schetst.

Dat komt onder andere doordat het m.i. echt belangrijk is dat een tekst vrijwel foutloos is; als de tekst niet foutloos is, kun je niet foutloos zoeken, en dan heb je niets meer aan het feit dat je altijd een afbeelding hebt om op terug te vallen. Ook meer geavanceerde analyses worden vrijwel waardeloos als er een significant aantal woorden met fouten is.

Verder denk ik dat de structuurcodering wel degelijk toegevoegde waarde heeft. Een goed opgemaakte HTML pagina (ik geef toe dat die opmaak beter kan) leest prettiger dan een foto uit een boek. Maar de werkelijke waarde van structuurcodering ligt in het soort onderzoek dat erdoor mogelijk wordt. Wat mogelijk zou moeten zijn is dat je bijvoorbeeld in een correspondentie kunt kijken welk vocabulaire door en voor welke correspondent wordt gebruikt, en dat je in een roman kunt bekijken welke personages voorkomen in dezelfde hoofdstukken, en dat je in gedichten woorden in rijmpositie kunt onderzoeken. Voor al dat soort onderzoek is structuurcodering een noodzakelijke stap.

Als je de structuur van letterkundige werken codeert, kun je ook andere dingen doen: je kunt het mogelijk maken dat mensen annotaties plaatsen bij een hoofdstuk of een gedicht of een dichtregel, en uitwisseling tot stand brengen op basis van geannoteerde passage. Misschien nog belangrijker: het wordt dan mogelijk dat andere websites verwijzen naar een hoofdstuk of gedicht of versregel op de site van de DBNL, en via web services de betreffende stukken tekst opvragen bij de DBNL om die in een andere context te tonen. Zo zouden wij bij een Latijns toneelstuk van Hugo de Groot de overeenkomstige passages uit Vondels vertaling van dat stuk kunnen opvragen.

Dat zijn zaken waaraan jij niet direct behoefte hebt, maar die wel van belang zijn, en m.i. is het goed dat de DBNL daarvoor de basis legt. Wat niet goed is, is om de beleidsmakers voor te houden dat goed digitaliseren kan voor een appel en een ei, want dat kan alleen maar betekenen dat er niet meer dan een appel en een ei voor digitaliseren wordt vrijgemaakt.

Anderzijds is het niet gezegd dat alle vormen van digitaliseren en verrijken tegelijk moeten worden uitgevoerd. Je zou je heel goed een situatie kunnen voorstellen waarin de ene instantie (KB) begint met massief scannen en simpel OCR-en, waarna de andere (DBNL) het materiaal verrijkt, eventueel in een lager tempo. Voor sommige toepassingen zal de verrijking van de DBNL nog onvoldoende zijn. Sommige taalkundigen zullen woorden willen lemmatiseren en woordsoorten toekennen. Anderen zullen aan plaatsnamen in de gedigitaliseerde werken geografische coördinaten willen toekennen. Je zou toe moeten naar een nationale infrastructuur waarin verschillende versies van een tekst, met verschillende vormen van verrijking, kunnen worden opgeslagen. Elke onderzoeker zou dan de mogelijkheid moeten krijgen om de teksten in de door hem of haar gewenste vorm te downloaden.

Met vriendelijke groet,
Peter Boot
Ewoud Sanders says:

30 November 2007 at 09:27

http://weblogs.nrc.nl/weblog/woordhoek/
Beste Peter,

het lijkt erop alsof wij de enige twee deelnemers zijn aan deze discussie. Jammer, want het is een belangrijk onderwerp.

Jij zegt: het is echt belangrijk dat een tekst foutloos is, want anders kun je niet foutloos zoeken. Maar de DBNL werkt nu toch ook in toenemende mate met snijden, scannen en OCR? Dan is het foutpercentage toch precies hetzelfde als het scanwerk dat ik verricht? Dan gaat het uiteindelijk toch om de presentatie.

De presentatie die jij voorstaat – html-pagina’s met structuurcodering – is natuurlijk prachtig, maar voor grote aantallen boeken onbetaalbaar. Je zou de vraag aan de wetenschappers moeten voorleggen. Wat willen jullie: tweeduizend zelfstandige titels (etc) met structuurcodering, of vier- a vijfhonderdduizend boeken zonder geavanceerde structuurcodering?

Mijn antwoord zou zijn: begin met massa en breng vervolgens voor een selectie geavanceerde structuurcodering aan. Als je andersom werkt (eerst selectief, dan massa) wordt je links en rechts ingehaald, bijvoorbeeld door Google en dan ben je – zoals gezegd – de zeggenschap over de boeken kwijt, want op die voorwaarde werkt Google.

Voor taalonderzoek is het overigens minder van belang dat een tekst helemaal foutloos is (helemaal foutloos is natuurlijk sowieso fictie). juist bij grote hoeveelheden tekst vallen die fouten in het niet. dat blijkt ook uit onderzoek in historische kranten. Het foutpercentage ligt daar veel hoger (zo’n 20 procent, soms nog meer), maar de massa is zo groot dat niet zo belangrijk is.

je hoeft trouwens helemaal niet te wachten met massadigitalisering tot de kwaliteit van de ocr nog verder is verbeterd. iedereen bewaart de oorspronkelijke scans (de zogenoemde moeder-images); die kun je zonodig over tien jaar nog eens door een ocr-programma laten lezen. dat lezen kost niet zoveel, de echte kosten zitten in het scannen, zeker bij kranten.

met vriendelijke groet

Ewoud Sanders
Henk Wals says:

30 November 2007 at 12:32

Mag ik twee opmerkingen aan deze interessante discussie toevoegen?

Als je bij het digitaliseren van gedrukte tekst (nagenoeg) foutloze resultaten wil bereiken, kun je twee dingen doen: overtypen of OCR toepassen. In het laatste geval moet dan een flinke handmatige correctieslag gemaakt worden, die intensiever wordt naarmate de tekst meer van de hedendaagse standaardspelling afwijkt en verschillende talen of formules bevat. Per werk moet bekeken worden wat de meest efficiënte en dus goedkoopste manier is. Voor een roman uit de tweede helft van de twintigste eeuw pakt de keuze waarschijnlijk anders uit dan voor een zeventiende-eeuws traktaat over een wiskundig probleem. De DBNL maakt dus steeds deze afweging en kiest dan voor de meest efficiënte methode. Maar of nu voor overtypen of OCR plus correctie gekozen wordt: in beide gevallen wordt foutloze tekst nagestreefd.

Moeten we dat willen? Ik denk van wel en ik vind het van visie getuigen dat de initiatiefnemers van de DBNL hiervoor destijds gekozen hebben. Inderdaad: het voorleggen van de keuze tussen veel boeken zonder en weinig boeken mét structuurcodering zal door de huidige generatie geesteswetenschappers ongetwijfeld met “veel!” beantwoord worden. Dat komt omdat men zich nog niet zoveel kan voorstellen bij tekstanalyse van grote corpora met behulp van elektronisch gereedschap. Men is al heel tevreden als men de deur niet meer uithoeft om een boek te raadplegen en een gezochte passage redelijk snel kan vinden. En terecht, natuurlijk. Wie is dat niet?

Maar uit een betrouwbaar en goed gestructureerd onderzoekscorpus is veel meer te halen. Het denken over de mogelijkheden van dit soort onderzoek is echter nog niet of nauwelijks begonnen. Toch moeten we nu alvast rekening houden met de waarschijnlijkheid dat onderzoekers in de misschien niet eens zo verre toekomst wél behoefte zullen hebben aan betrouwbare en analyseerbare tekstcorpora.

Dat hoeft wat mij betreft niet te betekenen dat de KB of wie dan ook niet zou mogen beginnen met destructieve massadigitalisering door het produceren van plaatjes en ongecorrigeerde OCR. Dat is buitengewoon nuttig. Maar laten we vooral niet de DBNL het recht en de mogelijkheden ontzeggen om intussen door te gaan met het leveren van de basiskwaliteit die het onderzoek van de toekomst nodig heeft. De ene methode hoeft de andere niet uit te sluiten. En er kan zoals Peter terecht opmerkt afstemming plaatsvinden en in opeenvolgende kwalitatieve fases gedacht worden.

En wie weet, is deze discussie op niet al te lange termijn door de techniek achterhaald.
Peter Boot says:

30 November 2007 at 23:35

Ook van mij nog een paar opmerkingen:

Met betrekking tot de door Ewoud voorgestelde keuze: dat de keuze is tussen 2000 titels mét structuurcodering of 500000 zonder, geloof ik nog niet. Ik denk dat er een heel verschil is tussen de kosten die een particulier maakt die voor eigen verantwoording één van zijn eigen boeken versnijdt, en de kosten die een bibliotheek moet maken, al was het alleen maar voor de zorgvuldige selectie van een exemplaar. En eerlijk gezegd lijkt het me goed als iemand bij die selectie even stilstaat. Het betreft uiteindelijk het exemplaar dat voortaan zal bepalen hoe een titel zal worden gezien en gelezen.

Voor wat betreft de 20% fouten in krantendigitalisering: Het lijkt me eerder iets waar we ons misschien voorlopig bij moeten neerleggen dan iets wat je acceptabel zou moeten noemen.

Dat een programma voor massadigitalisatie vandáág zou moeten beginnen, is denk ik iets waar we het hier over eens zijn. Dat de KB daarover nadenkt is in elk geval verheugend nieuws.

Peter Boot
Ewoud Sanders says:

1 December 2007 at 10:22

http://weblogs.nrc.nl/weblog/woordhoek/
Beste Peter en Henk,

Natuurlijk hoeft de ene aanpak de andere niet uit te sluiten. Ik ben ook niet tégen de DBNL, sterker nog: ik ben blij dat er ze zijn en heb dat de afgelopen jaren ook al verschillende keren in de krant geschreven. Ik vind wel dat er meer en opener over hun aanpak gediscussieerd zou moeten worden, zoals nu.

Ik ben voorstander van een hybride DBNL: met een collectie boeken in html-vorm (de moeilijke boeken, die niet goed te ocr’en zijn) en een veel grotere collectie (met snijden, scannen en ocr tot stand gekomen) titels in pdf-formaat.

Henk schrijft: ‘uit een betrouwbaar en goed gestructureerd onderzoekscorpus is veel meer te halen’. Dat wil ik graag geloven, maar toch vooral als er veel instaat, althans, dat stijgt het aantal onverwachte vondsten.

Sinds gister kun je (eindelijk, mag je wel zeggen) geavanceerd zoeken door de DBNL. vol trots melden ze op hun website dat je nu specifiek door tekten kunt zoeken. ‘En dat niet alleen, de groep teksten die doorzocht wordt, kan volgens diverse criteria worden ingeperkt: eigenschappen van auteurs als sekse, geboorteplaats of -provincie, en eigenschappen van titels als datering en (sub)genre. Het specifiek zoeken in bijvoorbeeld alle beschikbare proza van vrouwelijke auteurs uit de periode 1780-1800 is daardoor heel eenvoudig geworden’.

Dat klinkt behoorlijk indrukwekkend, alle beschikbare proza van vrouwelijke auteurs uit de periode 1780-1800. Maar voer die zoekactie nu eens uit. Of beter: noem eerst eens, uit het hoofd, enkele vrouwelijke auteurs uit de periode 1780-1800. De twee bekendste: Betje Wolff en Aagje Deken. Er zijn weinig vrouwelijke auteurs waar zo veel onderzoek naar is verricht als naar Wollf en Deken.

Zoek nu in de genoemde periode bij de DBNL. je krijgt 18 titels te zien. Eentje van Elisabeth Maria Post, eentje van Maria Geertruid de Cambon-van der Werken en twee titels van Wolff en Deken, verdeeld over vijftien banden. Plus nog een kort voorwoord van Wolff en Deken.

Je kunt blij en dankbaar zijn dat dit er is, en dat ben ik ook. Maar laten we niet vergeten dat de DBNL nu al zeven jaar bezig is en al ruim twee miljoen euro aan subsidie heeft gekost. Afgezet tegen die kosten vind ik de resultaten nogal mager en weinig verrassend.

Er is meer en zou je meer willen. Achttiende eeuwse boeken zijn moeilijk te ocr’en, maar moderne tekstuitgaven van 18de-eeuwse boeken niet. Ik blijf dus bij mijn standpunt: zorg eerst voor massa, daarna voor geavanceerde sturctuurcodering. Juist in de massa zijn de grote verrassingen te verwachten. Nu ligt de nadruk bij de DBNL op min of meer gecanoniseerde literatuur, zeker voor de moderne tijd. maar voor allerlei onderzoek – cultuurhistorisch en sociologisch – zou het juist ontzettend interessant zijn om te kunnen zoeken door tweederangs of vijfderangs literatuur. Zoek bij de DBNL eens op mannelijke auteurs uit de periode 1960-1970. Zitten daar verrassingen tussen? Nee dus. Nou ja, behalve dan dat er veel titels tussen staan van mensen die dan al heel lang dood zijn, zoals Jan ten Brink, Marcellus Emants, Cd. Busken Huet, Hendrik Tollens en Frederik van Eeden. Voorlopig (het zal tijdelijk zijn) wordt er kennelijk gezocht op het jaar van (her)uitgave (Hendrik Tollens, De overwintering der Hollanders op Nova Zembla, 1964) niet op het oorspronkelijke publicatiejaar.

vrgr.
Ewoud Sanders