jueves, 6 de septiembre de 2007

reCAPTCHA: ayuda a digitalizar textos antiguos

CAPTCHA es un acrónimo de una prueba que se usa para determinar si un determinado usuario es humano o no. Consiste en introducir una serie de caracteres que se muestran en pantalla distorsionados, y que impide que una máquina sea capaz de entenderlos y reproducirlos, evitando así los envíos automáticos de spam.

Al día se resuelven más de 60 millones de CAPTCHAs en el mundo, lo que supone más de 150.000 horas de trabajo al día. Una forma de aprovechar todas esas horas de trabajo es lo que nos ofrece reCAPTCHA.

El sistema es el mismo, pero en lugar de ser caracteres aleatorios, se nos presentan dos palabras, una conocida y otra proveniente de libros digitalizados que un programa de OCR no ha sido capaz de interpretar. Si contestamos correctamente a la primera, el sistema da por buena la segunda, y almacena la respuesta hasta que un determinado número de personas coincide con la respuesta, dándola entonces por correcta. Actualmente este sistema está ayudando a la digitalización de libros de Internet Archive.

[reCAPTCHA, via Barrapunto]

No hay comentarios:

Publicar un comentario