¿Sabías que cada vez que llenas un ReCaptcha ayudas a digitalizar un libro?

Parece sólo una barrera para discernir si somos humanos o no, pero el sistema ayuda a digitalizar más de 2 millones de textos al año. Y ahora el sistema promete ayudarte a aprender otros idiomas, mientras traduce la internet.

Por Antonia Laborde @antonialaborde | 2013-04-08 | 17:48
Tags | educación, aprendizaje, internet, tecnología, libros, traducción, transcripción, digitalización, Duolingo, Captcha
"¿Hay algún problema gigantesco que aún no logramos resolver con computadoras, pero que podemos dividir en pedazos chiquitos?"

¿Te has registrado en algún servicio online en la última década? Entonces debes saber lo que es el "Captcha". Esa odiosa imagen de letras distorsionadas que debemos ingresar en casi todos los formularios de registro.

Pues bien, hace años sólo teníamos que escribir una palabra cada vez que el computador quería ponernos a prueba para distinguir si éramos humanos o máquinas, sin embargo, tiempo después nos empezaron a exigir dos palabras: Una distorsionada y casi ilegible y otra al lado, habitualmente más fácil y sólo un poco borrosa. ¿Por qué ocurrió este cambio? 

ReCaptcha

Lo que ocurre es que la primera palabra sigue siendo el test de reconocimiento, pero la segunda palabra está sacada de un libro que está siendo digitalizado y que el computador es incapaz de reconocer, pero tú sí.

El guatemalteco Luis Von Ahn inventó a los 21 años el método captcha para evitar el spam en los correos electrónicos. Fue un éxito, pero había algo que lo tenía intranquilo: Cada persona perdía 10 segundos en rellenar el captcha y se ingresaban 200 millones de estos al día en la web. Sacando cálculos, la humanidad perdía 500 mil horas diarias ingresando captchas, así que se preguntó cómo podría sacar provecho a semejante desperdicio de tiempo.

En realidad, la pregunta fue la siguiente: ¿Hay algún problema gigantesco que aún no logramos resolver con computadoras, pero que podemos dividir en pedazos chiquitos, de modo que cada vez que alguien resuelva un captcha, resuelva un pedacito de ese problema? 

Y la respuesta la encontró en los libros. Varias instituciones y empresas en el mundo se dedican a digitalizar textos, escaneándolos y dejando que el computador descifre las palabras de la foto digital utilizando software de reconocimiento óptico, la más notable de ellas, Google. Sin embargo, los libros antiguos, con sus hojas amarillentas y tinta degradada, resultaban difíciles de leer para las máquinas; de hecho, en los textos escritos hace más de 50 años, las computadoras eran incapaces de reconocer alrededor de un 30% de las palabras del texto, cosa que para un humano resultaría muy fácil.

Fue así como ideó el "ReCaptcha". A la palabra de verificación se le sumaría esta segunda palabra tomada de algún texto que le ganó al computador y se le presentarían juntas al usuario, para que las transcriba. Si bien la computadora ignora el significado de una de las dos palabras, el hecho de que el usuario no sabe cuál es cuál, permite adquirir cierta confianza de que está transcribiéndola correctamente. Este proceso se repite con diez personas distintas por cada palabra, para verificar que ha sido correctamente transcrita y luego se pasa a la siguiente.

Con este sistema se digitalizan cerca de 100 millones de palabras al día, lo que equivale a dos millones de libros al año, en un trabajo de cooperación entre el computador y el humano. Más de 900 millones de personas han ayudado a digitalizar libros utilizando este método. 

Viendo esto, Von Ahn se propuso un desafío mayor: Traducir internet.

DUOLINGO: Aprende otro idioma mientras traduces internet

Es sabido que los traductores online no son buenos y te pueden jugar más de una mala pasada, dado que los software tienen dificultades para entender contextos, expresiones, gramática y otras sutilezas del lenguaje, que al humano le resultan naturales.

Si quería traducir internet, Von Ahn tendría que utilizar humanos. El obstáculo, por supuesto, era reunir un número importante de personas (quería 100 millones) que fueran lo suficientemente biligües como para traducir y cómo motivarlos para que lo hicieran de manera gratuita. 

¿La solución? Ofrecerles aprender un idioma de forma gratuita y casi sin esfuerzo, haciéndoles traducir frases sacadas desde internet. Le llamó Duolingo.

El sistema funcionaría más o menos así: El usuario se inscribe al servicio y comienza a tomar unos pequeños "cursos online", donde aprende algo de vocabulario y expresiones básicas, de manera más bien intuitiva, pues en lugar de leer un texto, debe ir intentando leer y traducir las frases que van apareciendo en pantalla, todo con una interfaz que lo transforma casi en un juego, con barras de avance y niveles que ir superando. Cuando el usuario se siente suficientemente confiado con su nivel, puede probar suerte traduciendo algunas frases de internet, cuya dificultad varía según su propio nivel. Aunque el vocabulario rara vez coincide con el aprendido en el curso online, cada palabra a traducir aparece con un link a la traducción de diccionario. Así, el usuario es el que hace el trabajo de entender el sentido del texto, más allá de su traducción literal. Luego, al igual que en el caso de ReCaptcha, la traducción más frecuente será probablemente la correcta. Además, una creciente comunidad online ayudaría a los usuarios con sus dudas.

Duolingo partió con la traducción de inglés al español y viceversa, pero ya incorporó francés, alemán, italiano y portugués (beta). Se ha comprobado que el resultado de la traducción grupal es del mismo nivel que las traducciones profesionales. Con 100 mil usuarios, se podría traducir Wikipedia del inglés al español en cinco semanas y con un millón de personas ¡En 80 horas! (Hoy, sólo 20% del contenido de Wikipedia está disponible en español). 

Según una investigación independiente desarrollada por los profesores Roumen Vesselinov de la City University of New York y John Grego de la University of South Carolina publicada en diciembre de 2012, los estudiantes de Duolingo pueden aprender en un promedio de 34 horas, tanto como en un semestre de un curso universitario. Así que además de ahorrar dinero, también se ahorra tiempo. 

Una buena manera de tener una relación win-win con el todopoderoso de internet.

¿Has probado Duolingo? ¿Te sirvió? ... ¿Qué otro problema podríamos resolver con este sistema?