No ho sabeu, per� esteu ajudant a digitalitzar els llibres antics!
Autor de la fitxa :
H�l�ne Laxenaire - SupAgro Florac
Llicència de la fitxa :
Creative Commons BY-SA
Testimoniatge :
Gr�cies a reCaptcha, un projecte creat per la universitat americana Carnegie-Mellon, cada cop que us torneu mig guenyos per desencriptar un d'aquells textos retor�ats, per acceptar una inscripci� o enviar un comentari, esteu participant a la millora d'un programa de digitalitzaci� de llibres antics.
Tornem a comen�ar des del principi: qu� s�n els captchas?
Els captchas s�n aquestes paraules completament deformades que us demanen que copieu per tal d'acceptar una inscripci� o una acci� en un lloc internet. El principi del captcha consisteix en trobar una operaci� m�s f�cil d'efectuar per a un �sser hum� que per a un robot, per tal d'evitar que l'acci� que esteu fent pugui ser efectuada autom�ticament mitjan�ant programes-robots. Sobretot per evitar que es puguin crear autom�ticament milers de comptes de correu o de Facebook o inundar un blog amb comentaris per tal de vendre fals Viagra. Tornant a picar el text deformat, esteu demostrant que sou un �sser hum� (nom�s des d'un punt de vista biol�gic, eh?)
El problema de la digitalitzaci� dels llibres antics
Els llibres antics que ja han passat a ser de domini p�blic es podrien posar a l'abast de tothom per internet per� per facilitar la recerca dins d'aquestes obres cal transformar la p�gina escanejada (que �s una fotografia) en un text digitalitzat en el qual es pot fer una recerca. D'aix� se n'encarreguen els programaris de reconeixement �ptic de car�cters (OCR), per� amb aquestes obres es troben amb unes dificultats especials. De fet, estan impresos amb uns car�cters tipogr�fics especials i sovint el temps n'ha fet malb� les p�gines. Per millorar l'�ndex de reconeixement, els programaris de reconeixement �ptic de car�cters (OCR) necessiten "aprendre". �s a dir que cal que els resultats que obtenen siguin confrontats amb els resultats obtinguts per humans per augmentar poc a poc el nombre de signes que poden recon�ixer. Per� per als humans, la feina de transcripci� resulta llarga i feixuga.
I si f�ssim que les coses �tils... encara ho fossin m�s?
Luis Van Ham �s professor a la universitat Carnegie-Mellon a Pittsburgh i treballa en human computation, �s a dir en programaris que fan intervenir el poder de raonament hum� i la velocitat de c�lcul dels ordinadors per a resoldre problemes que ni els humans ni les m�quines podrien resoldre sols (el cas dels programaris OCR n'�s un exemple t�pic). Ha desenvolupat el concepte de jocs amb objectius, en el quals els �ssers humans efectuen operacions �tils tot jugant. Encara que no es tracti d'un joc, el reCaptcha es basa en aquest principi. Cada vegada que descodifiqueu una paraula deformada, extreta de la digitalitzaci� de llibres antics per demostrar al lloc internet que sou un hum�, esteu augmentant la base de dades utilitzada pels programaris de reconeixement �ptic de car�cters i per tant la seva efic�cia per recon�ixer els car�cters digitalitzats dels llibres antics.
Com funciona reCaptcha?
Les imatges escanejades dels llibres antics s�n llegides per dos programaris diferents de reconeixement de car�cters. Quan una paraula �s llegida de manera diferent pels dos programaris, �s considerada sospitosa i s'afegeix a la base de reCaptcha .
Quan se us demana que demostreu que sou un �sser hum� i no una m�quina mitjan�ant un reCaptcha, sempre hi ha 2 paraules, una de m�s deformada que les altres. Una ja ha estat identificada amb certesa amb el programari OCR (�s la que serveix de manera efectiva per demostrar que sou un hum�) i l'altra no (�s la que ajudareu a identificar). A partir del moment en qu� un nombre determinat d'internautes han identificat de la mateixa manera una paraula sospitosa, �s declarada v�lida. �s integrada a la base de dades de les paraules validades de reCaptcha i a la base de dades que el programari d'OCR utilitza per recon�ixer els car�cters dels llibres digitalitzats. Actualment el programari de reconeixement de car�cters de reCapcha ha aconseguit un nivell d'error similar al de l'�sser hum�.
Aleshores, �s una bona obra?
Google va comprar reCaptcha el 2009 i el va instal�lar a les seves p�gines que requereixen aquest tipus de confirmaci�. El poder de Google ha donat molta visibilitat al projecte i n'ha augmentat el nombre de participants. El principal objectiu de Google �s digitalitzar els llibres de Google books per tal de facilitar-ne el posicionament i possibilitar la recerca de text en aquestes p�gines. Per� sembla ser que Google adapta reCaptcha a d'altres projectes i en alguns reCapcha s'han pogut recon�ixer n�meros de plaques de carrers que provenien de Google Street View.