bf_imagerecapcha.png

Vous ne le savez pas, mais vous aidez à la numérisation des ouvrages anciens !

Auteur de la fiche : H√©l√®ne Laxenaire - SupAgro Florac
Licence de la fiche : Creative Commons BY-SA
T√©moignage : Gr√Ęce au reCapcha, projet cr√©√© par l'universit√© am√©ricaine Carnegie-Mellon, chaque fois que vous vous crevez les yeux pour d√©crypter un texte tout tordu afin de valider une inscription ou poster un commentaire, vous participez √† l'am√©lioration d'un programme de num√©risation des livres anciens.

On reprends depuis le début : les capchas c'est quoi ?

Les capchas se sont ces mots tous déformés que l'on vous demande de recopier afin de valider une inscription ou une action sur un site internet. Le principe du capcha c'est de trouver une opération plus facile à effectuer par un être humain que par un robot, l'objectif étant d'éviter que l'on puisse effectuer automatiquement (via des programme-robots) l'action que vous êtes en train de réaliser. Notamment pour éviter que l'on puisse créer automatiquement des milliers de comptes mail ou Facebook ou submerger de commentaires un blog afin de vendre du faux Viagra. En retapant le texte déformé, vous prouvez ainsi que vous êtes un être humain (uniquement d'un point de vue biologique, hein).

La problématique de numérisation des livres anciens

Les livres anciens, tomb√©s dans le domaine public, pourraient facilement √™tre mis √† disposition du plus grand monde sur internet mais pour faciliter la recherche parmi ces ouvrages, il faut transformer le scan de la page (qui est une photographie) en texte num√©ris√© dans lequel on peut rechercher. Ce sont les logiciels de reconnaissance de caract√®res (OCR) qui s'en chargent mais ils rencontrent des difficult√©s particuli√®res avec ces ouvrages. En effet, ceux-ci sont imprim√©s avec des caract√®res typographiques particuliers et le temps a souvent ab√ģm√© les pages. Pour am√©liorer leur taux de reconnaissance, les logiciels de reconnaissance de caract√®re (OCR) ont besoin "d'apprendre". C'est-√†-dire qu'ils ont besoin que leurs r√©sultats soient confront√©s √† des r√©sultats obtenus par des humains pour augmenter peu √† peu le nombre de signes qu'ils peuvent reconna√ģtre. Or la transcription par les humains est longue et r√©barbative.

Et si on joignait l'utile à ... l'utile ?

Luis Van Ham est professeur √† l'universit√© Carnegie-Mellon √† Pittsburgh, il travaille sur l'human computation, c'est-√†-dire sur des programmes faisant intervenir la puissance de raisonnement humain et la vitesse de calcul des ordinateurs pour r√©soudre des probl√®mes que ni les humains, ni les machines ne pourraient r√©soudre seuls (le cas des logiciels OCR est un exemple typique). Il a d√©velopp√© le concept de jeux √† objectifs, o√Ļ tout en jouant les √™tres humains effectuent des op√©rations utiles. M√™me s'il ne s'agit pas d'un jeu, le reCapcha qu'il a d√©velopp√©, reprend ce principe. A chaque fois que vous d√©codez des mots d√©form√©s, issu de la num√©risation de livres anciens, pour prouvez au site internet que vous √™tes bien un √™tre humain, vous augmentez la base de donn√©es utilis√©e par les logiciels de reconnaissance de caract√®res et donc leur efficacit√© √† reconna√ģtre les caract√®res num√©ris√©s des livres anciens.

reCapcha, ça marche comment ?

Les scans des livres anciens sont lus par deux logiciels de reconnaissance de caractères différents. Dès qu'un mot est lu différemment par les deux logiciels, il est noté comme suspicieux et ajouté à la base de reCapcha.
Quand on vous demande de prouver le fait que vous √™tes un √™tre humain et non une machine via un reCapcha, il y a toujours 2 termes, l'un plus d√©form√© que les autres. L'un deux a d√©j√† √©t√© identifi√© avec certitude avec le logiciel OCR (c'est celui qui sert effectivement √† v√©rifier que vous √™tes un humain) et l'autre non (c'est celui que vous allez aider √† identifier). √Ä partir du moment o√Ļ un certain nombre d'internautes ont identifi√© de la m√™me fa√ßon un mot suspicieux, il est valid√©. Il est int√©gr√© dans la base de donn√©es des mots valid√©s de reCapcha et dans la base de donn√©es que le logiciel d'OCR utilise pour reconna√ģtre les caract√®res des livres num√©ris√©s. Actuellement le logiciel de reconnaissance de caract√®re de reCapcha a atteint un niveau d'erreur semblable √† celui de l'√™tre humain.

C'est une bonne oeuvre alors ?

Google a rachet√© reCapcha en 2009 et l'a install√© sur ses pages demandant ce type de validation. Vu la puissance de Google cela a donn√© une tr√®s grande visibilit√© au projet et un nombre accru de participants. L'objectif premier de Google est la num√©risation des livres de Google Books afin de faciliter leur r√©f√©rencement et la recherche plein texte parmi les pages. Mais il semblerait que Google adapte reCapcha √† d'autres projets, on a ainsi vu appara√ģtre sur certains reCapcha des num√©ros de plaques de rue provenant de Google Street View.