Source:: Science, AAAS & EurekAlert

Un "Captcha" est une série déformée de lettres ou de chiffres que l'on retape pour améliorer la sécurité sur internet: vous avez peut-être déjà dû avoir à lire correctement un "Captcha" pour entrer sur un site sécurisé ou pour envoyer l'article d'un journal à un ami. Des chercheurs ont modifié l'algorithme à l'origine de ce programme de sécurité pour qu'il serve à déchiffrer le texte peu lisible que les programmes de reconnaissance optique des caractères dits OCR ne peuvent traiter.

Actuellement, les livres et autres textes écrits sont massivement numérisés pour conserver les connaissances, mieux les diffuser dans le monde et également en tirer profit. Lorsque dans un texte un mot est déchiffré différemment par deux programmes OCR différents, celui-ci est repéré comme "suspect". Le programme reCAPTCHA présente alors ce mot avec un autre, connu, servant de contrôle à des internautes. Si ces derniers lisent correctement le mot de contrôle, leur choix pour le mot à deviner est validé comme plausible. Lorsque trois personnes reconnaissent le même mot, celui-ci est accepté et devient un mot de contrôle.

Le programme reCAPTCHA exploite ainsi les performances supérieures de l'homme pour lire des textes déformés et contribue à la numérisation des connaissances humaines. Il a été développé par Luis von Ahn et ses collègues de l'Université Carnegie Mellon à Pittsburgh et a un sérieux potentiel en archéologie. Il est déjà utilisé par plus de 40 000 sites sur internet.