Passer à la version normale du sitePasser à la version large du siteTaille d'écran
  • Facebook
  • Twitter
  • RSS
  • fermer

    Connexion au Devoir.com

    Mot de passe oublié?
    Abonnez-vous!

    Humanités 2.0 - Ce qu’encoder veut dire

    Cartes perforées, posthumanité et chanson country

    La plateforme de connaissance développée par Dominic Forest et Ollivier Dyens donne à voir un corpus de documents textuels traitant du thème de la posthumanité. La façon d’imaginer le monde du futur se positionne sur une carte cognitive épousant la forme de l’Antarctique.
    Photo: Source Google Earth La plateforme de connaissance développée par Dominic Forest et Ollivier Dyens donne à voir un corpus de documents textuels traitant du thème de la posthumanité. La façon d’imaginer le monde du futur se positionne sur une carte cognitive épousant la forme de l’Antarctique.
    Pour voir le continent inhumain.

    Les nouvelles technologies transforment la production et la diffusion des savoirs. Le Devoir propose une série estivale sur les digital humanities et les sciences sociales numériques. Aujourd’hui : comment tirer de nouvelles connaissances des mégabanques de données.

     

    Dominic Forest a vu de ses yeux vu le Moye Âge numérique, au tournant du siècle dernier, dans un laboratoire de l’Université du Québec à Montréal dirigé par le professeur de philosophie Jean-Guy Meunier.

     

    « C’était un lieu de recueillement autour d’outils informatiques médiévaux qui dataient des années 1980 », raconte le diplômé de philosophie devenu professeur à l’École de bibliothéconomie et des sciences de l’information (EBSI) de l’Université de Montréal. « Il existait des cartes perforées permettant d’extraire des listes de mots tirés des livres de Descartes. Les machines triaient le vocabulaire par fréquences, en quelques heures, un travail qui aurait demandé des semaines à la mitaine. On refait la même chose en quelques secondes aujourd’hui. »

     

    Lui-même a repris le travail sur Descartes pour son mémoire de maîtrise déposé en 2002. Il a trouvé des indices dans les textes informatisés pour corroborer certaines des interprétations classiques indiscutables de la philosophie cartésienne, mettant par exemple en rapport la distinction entre le corps et l’âme avec la preuve de l’existence de Dieu. En numérisant les textes, le jeune chercheur a pu déterminer des schémas dans l’occurrence de concepts et de mots, qui pointent effectivement vers cette relation des idées.

     

    « J’ai été jusqu’à diffuser les résultats de mes travaux sur Internet, alors à ses balbutiements, sur un écran noir, avec du texte vert, raconte-t-il derrière son bureau de l’UdeM. J’ai continué depuis à me demander comment tirer profit de manière intelligente des ressources computationnelles que nous offrent les machines afin d’assister le travail de production, de diffusion, d’analyse, d’interprétation et de gestion des documents dans le domaine des sciences humaines. Au fond, je poursuis le questionnement des pionniers qui se demandaient déjà, avec leurs cartes perforées, ce qu’encoder veut dire. »

     

    Le Soir qui penche

     

    Les grandes initiatives de numérisation se multiplient et les chercheurs explorent et exploitent à fond les mines d’information constituées par Google, les bibliothèques nationales et les universités. « La résistance semble vaine, dit le professeur. On n’écrit plus, on ne lit plus, on n’analyse plus un texte de la même façon. Toute la chaîne de production, de conservation et de diffusion s’en trouve modifiée. »

     

    Un exemple concret ? Pour son propre doctorat en informatique cognitive déposé en 2006, Dominic Forest s’est intéressé à la gestion de l’information des articles de journaux en ligne. Il a mis au point un outil permettant d’extraire les sujets traités par le quotidien belge Le Soir et de les relier entre eux pour finalement suivre des tendances.

     

    « Mon système permet de savoir quels thèmes sont privilégiés pendant une décennie, par exemple, et comment ils sont structurés entre eux. Mais cet outil est surtout intéressant parce qu’il utilise des algorithmes d’intelligence artificielle qui assistent l’interprétation. Je poursuis dans cette voie en me demandant comment les outils informatiques peuvent aider et modifier le travail de recherche en sciences sociales. Ces questions débouchent sur des problèmes encore plus fondamentaux. Qu’est-ce qui est si caractéristique du travail intellectuel ? Quelles sont les opérations de base quand on lit, quand on annote, quand on écrit un texte ? »

     

    Avec des collègues de l’EBSI, le professeur Forest a par exemple effectué une étude sur l’analyse des résultats de la recherche en sciences humaines en examinant comment les chercheurs interrogent la cyberinfrastructure Érudit, comptant quelque 300 000 articles savants en français. « Les banques sont gigantesques et incontournables. Il est cependant utopique de penser qu’un étudiant ou un professeur va lire, disons, les 500 textes tous pertinents suggérés par une consultation. Nous avons donc mis au point des outils pour assister l’interprétation. Ces outils permettent d’identifier ce dont il est question dans un corpus sélectionné, avec des concepts, des thèmes, des sous-ensembles et leurs liens, le tout souvent représenté sous la forme de patterns statistiques représentés graphiquement. »

     

    On le comprend, cette démarche oriente déjà vers la découverte par des machines de rapports insoupçonnés, de thèmes négligés, de tendances occultées, conclusions que des cerveaux humains, trop humains, devront évidemment reprendre, vérifier et critiquer. Le professeur ouvre son ordinateur et illustre l’exemple de recherches concrètes effectuées dans toutes les archives de la revue française Cinéma.

     

    Les relations induites par des algorithmes de regroupement conceptuel se font naturellement, à l’évidence, par exemple autour d’un penseur comme Gilles Deleuze. D’autres conclusions ouvrent des pistes d’interprétation étonnantes. La carte virtuelle permet ainsi de découvrir la forte présence de l’idée de « mélancolie » dans les textes, un beau sujet de mémoire, de doctorat ou d’un article de plus à publier dans la revue.

     

    « Ma tâche est d’extraire des informations utiles qui doivent toujours être validées, résume le bibliothéconomiste. Mais, chose certaine, les corpus numériques de bonne qualité permettent d’extraire des liens pertinents et on serait bien bêtes de s’en passer. »

     

    Pierre Lapointe et Paul Piché

     

    Avec sa collègue Audrey Laplante, il interroge depuis un an le corpus de la chanson francophone, là encore pour en tirer des invariants. Les questions se bousculent : quels thèmes caractérisent le country québécois ? ou la chansonnette française du début du XXe siècle ? Comment évolue la question identitaire dans la production nationale ?

     

    Là encore, les résultats préliminaires étonnent et détonnent. Les regroupements thématiques rapprochent par exemple Pierre Lapointe et Coeur de pirate de… Paul Piché. Le trio se distingue par contre de Jean-Jacques Goldman, Thomas Fersen et Téléphone. « On cherche la signification de tout ça, dit le professeur Forest. Pour l’instant, nous avons cartographié une structure. »

     

    Le résultat en visualisation des textes peut prendre des formes encore plus ludiques, avec d’indéniables qualités esthétiques. Une des productions les plus attirantes du philosophe bibliothéconomiste s’intitule Le continent inhumain : déjà tout un programme poétique.

     

    La plateforme de connaissance développée avec le professeur d’études française Ollivier Dyens, de l’Université Concordia, donne à voir un corpus de documents textuels traitant du thème de la posthumanité. La façon d’imaginer le monde du futur se positionne sur une carte cognitive épousant la forme de l’Antarctique. Le continent littéraire de toutes les dystopies est consultable à partir de l’interface Google Earth. Les thèmes (l’ordinateur, l’Apocalypse ou les robots) s’y retrouvent comme autant de sites ou de villes avec quatre grands concepts comme autant de provinces de la pensée posthumanitaire : la technologie, la biologie, la littérature et l’humanité.

     

    Bref, bien du chemin a été fait depuis la moyenâgeuse carte perforée. « La prochaine étape de ce champ de recherche est en train de se développer avec l’exploration des archives multimédias, conclut le professeur Dominic Forest en visualisant cette fois l’avenir de son monde en mutations perpétuelles. Depuis un quart de siècle, on s’est principalement limités aux textes parce que nous avons eu l’intuition que les textes seraient plus faciles à traiter. À juste titre, puisque la numérisation a commencé là. Seulement, le Web est de moins en moins textuel et de plus en plus visuel et sonore. Il faut maintenant commencer à appliquer ce que l’on sait sur d’autres types de documents. »

     
     
    Édition abonné
    La version longue de certains articles (environ 1 article sur 5) est réservée aux abonnés du Devoir. Ils sont signalés par le symbole suivant :
     
     












    CAPTCHA Image Générer un nouveau code

    Envoyer
    Fermer
    Blogues

    Articles les plus : Commentés|Aimés
    Articles les plus : Commentés|Aimés
    Abonnez-vous pour recevoir nos Infolettres par courriel