Help uw OCR-programma een handje met reCAPTCHA!

Categorieën e-tekstualiteit

agenda (271)
annotation (24)
beeldende kunsten (13)
community created content (16)
digitale bibliotheek (21)
diversen (25)
duurzaamheid (11)
e-tijdschrift (9)
editie (134)
educatief (9)
handleiding (5)
humanities computing (15)
infrastructuur (5)
institutioneel nieuws (7)
internet algemeen (12)
metadata (7)
naslagwerk (6)
online boekdiscussie (4)
open access (1)
project (8)
publicatie (26)
software (48)
standaard (62)
- (x)html (2)
- CSS (2)
- rdf/owl (3)
- tei (30)
- xml (19)
tijdschrift (2)
tijdvak (127)
- 18e eeuw (12)
- 19e eeuw (23)
- 20e eeuw (17)
- middeleeuwen (45)
- niet-westers (1)
- oudheid (9)
- renaissance (36)
visualisatie (12)
weblog (3)

Delen via Facebook

Delen via Twitter

Abonneer op RSS feeds

Nieuws

Agenda

Weblog e-tekstualiteit

Achtergrond

Deze site is geinitieerd door:

ven bij deze kleine dagelijkse ergernis: reCAPTCHA. De afbeelding die door reCAPTCHA wordt gebruikt om te verifiëren of het een menselijke gebruiker betreft, is een woord waar een OCR-programma moeite mee heeft. Het Internet Archive, dat grote aantallen boeken digitaliseert, gebruikt OCR voor de initiële omzetting van afbeelding naar tekst. Die OCR komt moeilijke gevallen tegen, en juist die woorden worden door reCAPTCHA gebruikt.

Maar als de OCR het moeilijk heeft met het woord, hoe weet men dan of de ingeleverde oplossing goed is? Daar zit een deel van de slimheid: ze gebruiken de techniek dubbel. Dat wil zeggen: ze bieden een nieuw woord en een al opgelost woord samen aan, en als je het bekende woord goed hebt, neemt men aan dat het andere woord ook goed is – althans, als drie mensen het eens zijn. Dat heet ‘Digitizing Books One Word at a Time’.

Geplaatst in digitale bibliotheek, weblog digital humanities

Comments are closed.

Textualscholarship.nl

Alle content onder: Creative Commons Naamsvermelding-GelijkDelen 3.0 licentie. ISSN: 2212-9871