Schon gewußt (IX): reCAPTCHA

Anmeldung in einem Forum. Zu lange im StudiVZ gesurft. Suchanfrage. Und schon erscheint folgendes Formular mit der Bitte die zwei Wörter in das Textfeld ein zutippen:
reCaptcha

Hunderte Male habe ich diese Prozedur schon durchgeführt und tausende andere Leute ebenfalls. Laut Wikipedia werden pro Tag 150.000 Stunden damit verbracht, im Internet CAPTCHAs zu lösen.

Und jetzt kriegt der Artikel den Dreh, damit das Schon gewußt in der Überschrift gerechtfertigt ist: Der Slogan von reCAPTCHA ist stop spam. read books. Und mit diesem Slogan ist nicht gemeint, dass der Spamer aufhören soll zu spamen und endlich Bücher lesen soll, damit aus ihm doch noch etwas Anständiges wird.

Die Wikipedia schreibt zu reCAPTCHA:

Der Informatiker Luis von Ahn hat […] ein System namens reCAPTCHA programmiert, das bei der Buch-Digitalisierung eingescannte Wörter, die die Texterkennungssoftware nicht erkennt, durch die Eingabe von CAPTCHAs optimiert. Auf jedem CAPTCHA sind zwei Wörter abgebildet: Eines, welches dem System bereits bekannt und bestätigt ist, das andere ist ein unerkanntes Wort aus einem Buch.

Die beiden Wörter bei reCAPTCHA werden also bei der Texterkennung nicht richtig erkannt und sind deshalb durch Maschinen nicht lesbar. Gleichzeitig wird durch die (mehr oder minder freiwillige) Eingabe von reCAPTCHAs – wir erinnern uns: 150.000 Stunden täglich! – die Digitalisierung von alten Büchern vorangetrieben, da fehlerhaft interpretierte Wörter durch die wiederholt gleiche Eingabe bei CAPTCHAs eindeutig bestimmt werden können. Ganz schön erfinderisch und schön zwei Fliegen mit einer Klappe geschlagen! :)

CAPTCHA ist übrigens eine Abkürzung für:
Completely Automated Public Turing test to tell Computers and Humans Apart. Auf deutsch also „Vollautomatischer öffentlicher Turing-Test, um Computer und Menschen zu unterscheiden.“

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.