ven bij deze kleine dagelijkse ergernis: reCAPTCHA. De afbeelding die door reCAPTCHA wordt gebruikt om te verifiëren of het een menselijke gebruiker betreft, is een woord waar een OCR-programma moeite mee heeft. Het Internet Archive, dat grote aantallen boeken digitaliseert, gebruikt OCR voor de initiële omzetting van afbeelding naar tekst. Die OCR komt moeilijke gevallen tegen, en juist die woorden worden door reCAPTCHA gebruikt.

Maar als de OCR het moeilijk heeft met het woord, hoe weet men dan of de ingeleverde oplossing goed is? Daar zit een deel van de slimheid: ze gebruiken de techniek dubbel. Dat wil zeggen: ze bieden een nieuw woord en een al opgelost woord samen aan, en als je het bekende woord goed hebt, neemt men aan dat het andere woord ook goed is – althans, als drie mensen het eens zijn. Dat heet ‘Digitizing Books One Word at a Time’.

Geplaatst in digitale bibliotheek, weblog digital humanities

Reageer