Quand le libre accès aux données prime

Etienne Plamondon Emond Collaboration spéciale
Même les poids lourds du secteur privé, comme Facebook et Google, acceptent que leurs chercheurs en IA donnent un libre accès aux résultats des recherches fondamentales effectuées dans leur laboratoire.
Photo: iStock Même les poids lourds du secteur privé, comme Facebook et Google, acceptent que leurs chercheurs en IA donnent un libre accès aux résultats des recherches fondamentales effectuées dans leur laboratoire.

Ce texte fait partie d'un cahier spécial.

Le principe du partage et du libre accès aux résultats de recherche est inscrit dans l’ADN du milieu de la recherche en intelligence artificielle (IA). À un point tel qu’au nom de cette liberté, plus de 3000 chercheurs en IA, dont plus d’une centaine du Québec, se sont engagés à boycotter une nouvelle revue savante payante que l’éditeur du magazine Nature prévoit de consacrer à leur domaine et de lancer en janvier 2019.

Hugo Larochelle, responsable de l’équipe Google Brain à Montréal et professeur associé à l’Université de Montréal, a signé comme plusieurs de ses collègues la déclaration par laquelle il s’est engagé à ne pas soumettre d’article ni participer à la révision ou à l’édition du journal Nature Machine Intelligence du Nature Publishing Group. « On ne veut pas revenir en arrière », explique-t-il.

En 2001, des membres du comité éditorial de la revue payante Machine Learning avaient démissionné en bloc pour se joindre au Journal of Machine Learning Research (JMLR), une revue savante gratuite et fondée sur le libre accès qui s’est imposé par la suite comme une référence. Depuis, les chercheurs en IA partagent gratuitement non seulement leurs résultats, mais souvent les codes expérimentés, que d’autres peuvent ensuite tester, répliquer, modifier ou adapter à leurs jeux de données.

« C’est une des composantes importantes du succès et du développement rapide des résultats de l’IA dans les dix dernières années », juge Simon Lacoste-Julien, professeur à l’Université de Montréal et membre associé de l’Institut des algorithmes d’apprentissage de Montréal (MILA), dont la signature apparaît aussi sur la déclaration.

Cette culture est si forte que même les poids lourds du secteur privé, comme Facebook et Google, acceptent que leurs chercheurs en IA donnent un libre accès aux résultats des recherches fondamentales effectuées dans leur laboratoire. Un aspect qui a pesé dans la balance lorsque Hugo Larochelle a accepté de se joindre à Google. « Il fallait que je puisse publier, partager mes travaux de recherche et contribuer à la science comme je pourrais le faire comme professeur », assure-t-il.

À l’avant-scène d’un mouvement plus grand

Ismail Ben Ayed, titulaire de la Chaire de recherche ETS sur l’intelligence artificielle en imagerie médicale, croit que le libre accès permet non seulement d’accélérer les avancées scientifiques, mais aussi le transfert de connaissances vers les milieux pratiques et cliniques. « Quand les fonds viennent du gouvernement, j’insiste pour que les logiciels qu’on développe soient rendus publics et accessibles gratuitement, signale-t-il. C’est tout de même un changement important dans la communauté de l’imagerie médicale. »

L’IA influe-t-elle sur la démarche d’autres disciplines ? « Comme ce domaine de recherche est très visible et bien financé, ce plaidoyer pour le libre accès peut avoir une influence sur leurs collègues d’autres domaines qui seraient plus sceptiques », indique par courriel Florence Piron, professeure au Département d’information et de communication de l’Université Laval, qui milite en faveur de la science ouverte depuis plusieurs années. Elle explique toutefois que la vague de fond est plus large. Des pays et organismes subventionnaires européens mettent en ce moment en place, par exemple, des politiques et des plans pour forcer les chercheurs qu’ils financent à donner libre accès à leurs travaux. « Ce plaidoyer ne fait que se greffer à un changement qui paraît irrémédiable. »

Elle rappelle par ailleurs que l’IA n’a pas été le premier secteur à prendre un tel virage. Dès 1991, des physiciens, mathématiciens et informaticiens dévoilaient publiquement leurs résultats et articles scientifiques dans la ressource électronique ArXiv.

« Le domaine de l’IA a essayé d’innover sur la façon dont les résultats étaient rendus disponibles et dont toute la conversation autour des travaux de recherche devait se faire », observe néanmoins Hugo Larochelle. Plusieurs chercheurs ont commencé à publier leurs résultats dans les bibliothèques ouvertes en ligne avant même qu’ils ne soient révisés par des pairs pour engager immédiatement une discussion autour de leurs travaux. Les grandes conférences scientifiques dans le domaine de l’IA, comme l’International Conference on Learning Representations (ICLR), ont adopté la même logique de partage publique pour les recherches qui leur étaient soumises. Puis des plateformes comme OpenReview, où le processus de révision par les pairs est effectué en toute transparence, ont été privilégiées. « Les étudiants aiment beaucoup ce mode de relecture d’articles, assure M. Larochelle, parce que ça expose le processus et permet de voir comment d’autres approchent l’évaluation des travaux. »

Hugo Larochelle admet souvent ne pas être retourné vérifier si des recherches, qui ont influencé ou nourri ses expériences, avaient ensuite été approuvées par des pairs. Pour les étudiants moins aguerris, en revanche, l’un des « chevaux de bataille » de Simon Lacoste-Julien consiste en ce moment à leur enseigner de bien vérifier la source des travaux et de tout de même regarder s’ils ont été évalués par des pairs ou acceptés par des publications.

Reproduire les résultats

Un avantage du libre accès des codes est qu’il permet aussi de répéter des expériences pour en valider les résultats. Joëlle Pineau, professeure à l’École d’informatique de l’Université McGill à la tête du laboratoire montréalais en IA de Facebook, a lancé le Reproducibility Challenge en marge de la conférence ICLR. Dans ce défi, des professeurs invitent leurs étudiants à reproduire les travaux publiés afin de mettre à l’épreuve leur exactitude. « C’est une discussion qu’on a de plus en plus dans notre domaine sur la manière dont on peut améliorer la reproductibilité et les façons d’inciter les gens à essayer de reproduire les résultats d’autres chercheurs », indique Hugo Larochelle.

« Pour avoir la reproductibilité suprême, il faut aussi avoir accès aux données », rappelle Simon Lacoste-Julien. Or, il constate que « le partage des données est une source de tension entre le privé et le monde universitaire ». Des entreprises en dévoilent de manière anonymisée, d’autres en gardent pour elles pour protéger la vie privée des utilisateurs de leurs services ou conserver un avantage compétitif. « Je peux avoir accès au code source sans les données, ce qui me permet de reproduire les expériences sur d’autres données et de vérifier certains phénomènes. C’est déjà très bien, dit-il. Mais s’il y avait des phénomènes particuliers aux données, je ne pourrais pas le vérifier. »

Hugo Larochelle affirme qu’il évite dans ses travaux d’utiliser des données sensibles ou inaccessibles. Il recense plutôt, dès le départ, des jeux de données déjà publics pour ses expériences. « On sait que ça va être critique pour que ce soit accepté par la communauté universitaire », explique-t-il.

François Laviolette, directeur du Centre de recherche en données massives (CRDM) de l’Université Laval, s’affiche préoccupé par ces questions de données dévoilées ou non par les géants du Web dans le développement de l’IA. « La donnée devrait être une ressource naturelle qui, à terme, devrait appartenir aux populations », dit-il. Un débat qui dépasse largement le milieu scientifique.