Numériser le patrimoine écrit, un mot à la fois
Il fallait y penser et c'est fait. reCAPTCHA, un service qui fait sensation depuis quelques temps sur la Toile, propose d'unir le principe de sécurité des tests CAPTCHA — ces caractères un peu flous dans un formulaire en ligne qu'on vous demande de déchiffrer pour confirmer que vous êtes bien un humain — avec la numérisation du patrimoine écrit à une autre époque et que les machines n'arrivent pas toujours très bien à lire. Ça s'appelle l'intelligence collective au service de la mémoire collective. Et c'est assez brillant.
La multinationale américaine Google est derrière tout ça. Dans les grandes lignes, reCAPTCHA vise à tirer profit des tests CAPTCHA, qui se multiplient sur le web pour discriminer les humains des robots envoyés dans le cyberespace pour collecter des informations automatiquement. Comment? En substituant les chaînes de caractères, généralement sans grandes significations, utilisés dans ces tests par des mots issus de documents anciens qui viennent d'être numérisés. C'est qu'en raison parfois d'une encre qui bave sur le papier ou d'une impression vaporeuse, ces mots, une fois numérisés, sont plus facilement reconnus par un oeil humain que par les logiciels de reconnaissance de caractères.
D'ordinaire, les correcteurs et relecteurs d'épreuves numériques doivent «rattraper» ces mots manqués par la modernité et les yeux électroniques. Avec reCAPTCHA, Google propose de mettre cette lourde tâche dans les mains de simples internautes qui, du coup, vont contribuer à la construction du patrimoine numérique sans vraiment s'en rendre compte d'ailleurs.
Actuellement, de très vieilles éditions du New York Times sont en train de se faire corriger de la sorte par des quidams en ligne invités, ici et là, à confirmer qu'ils sont bien faits de chair et d'os en entrant des chaînes de caractères à la main. Des bouquins que Google fait entrer aussi dans sa section «livres» sont également soumis au même traitement.
Et les possibilités de développement de ce service, que Google met à la disposition de tous les propriétaires de sites web gratuitement, sont vastes. C'est le géant de la recherche en ligne qui le dit: chaque jour, près de 200 millions de ces tests CAPTCHA (pour Completely Automated Public Turing test to tell Computers and Humans Apart) sont résolus chaque jour dans un coin du web. Parfois en s'y reprenant à plusieurs reprises parce que la chaîne de caractères est plus que pas claire.
Quand on met bout à bout les secondes drainées par ces tests, cela représenterait pas moins de 150 000 heures de travail chaque jour qui ne servent à rien d'autre qu'au maintien de la sécurité en ligne. reCAPTCHA, dont on peut désormais qu'espérer un déploiement dans la sphère francophone, propose finalement rien de plus que de transférer ces heures aussi dans le champ de la culture. Et c'est déjà beaucoup.
La multinationale américaine Google est derrière tout ça. Dans les grandes lignes, reCAPTCHA vise à tirer profit des tests CAPTCHA, qui se multiplient sur le web pour discriminer les humains des robots envoyés dans le cyberespace pour collecter des informations automatiquement. Comment? En substituant les chaînes de caractères, généralement sans grandes significations, utilisés dans ces tests par des mots issus de documents anciens qui viennent d'être numérisés. C'est qu'en raison parfois d'une encre qui bave sur le papier ou d'une impression vaporeuse, ces mots, une fois numérisés, sont plus facilement reconnus par un oeil humain que par les logiciels de reconnaissance de caractères.
D'ordinaire, les correcteurs et relecteurs d'épreuves numériques doivent «rattraper» ces mots manqués par la modernité et les yeux électroniques. Avec reCAPTCHA, Google propose de mettre cette lourde tâche dans les mains de simples internautes qui, du coup, vont contribuer à la construction du patrimoine numérique sans vraiment s'en rendre compte d'ailleurs.
Actuellement, de très vieilles éditions du New York Times sont en train de se faire corriger de la sorte par des quidams en ligne invités, ici et là, à confirmer qu'ils sont bien faits de chair et d'os en entrant des chaînes de caractères à la main. Des bouquins que Google fait entrer aussi dans sa section «livres» sont également soumis au même traitement.
Et les possibilités de développement de ce service, que Google met à la disposition de tous les propriétaires de sites web gratuitement, sont vastes. C'est le géant de la recherche en ligne qui le dit: chaque jour, près de 200 millions de ces tests CAPTCHA (pour Completely Automated Public Turing test to tell Computers and Humans Apart) sont résolus chaque jour dans un coin du web. Parfois en s'y reprenant à plusieurs reprises parce que la chaîne de caractères est plus que pas claire.
Quand on met bout à bout les secondes drainées par ces tests, cela représenterait pas moins de 150 000 heures de travail chaque jour qui ne servent à rien d'autre qu'au maintien de la sécurité en ligne. reCAPTCHA, dont on peut désormais qu'espérer un déploiement dans la sphère francophone, propose finalement rien de plus que de transférer ces heures aussi dans le champ de la culture. Et c'est déjà beaucoup.
|
Édition abonné
La version longue de certains articles (environ 1 article sur 5) est réservée aux abonnés du Devoir. Ils sont signalés par le symbole suivant :
|
Envoyer Fermer
Haut de la page

