Un premier filtre pour repérer des signes d’anorexie

Cet outil, qui a pour but de rechercher dans les billets des particularités linguistiques permettant d’identifier de façon précoce les personnes présentant des risques d’anorexie, relève d’un domaine de l’intelligence artificielle qu’on appelle la linguistique informatique.
Photo: iStock Cet outil, qui a pour but de rechercher dans les billets des particularités linguistiques permettant d’identifier de façon précoce les personnes présentant des risques d’anorexie, relève d’un domaine de l’intelligence artificielle qu’on appelle la linguistique informatique.

Des chercheurs de l’Université Concordia ont mis au point une méthode d’apprentissage profond qui permet de dépister de façon précoce les personnes atteintes d’anorexie à partir des billets qu’elles écrivent et publient sur les réseaux sociaux.

Alors que le stress découlant de la pandémie et du confinement a entraîné une recrudescence de l’anorexie chez les jeunes de moins de 18 ans au Québec, un tel outil, qui pourrait prendre la forme d’un petit robot intégré aux blogues fréquentés par des jeunes, serait très utile, ne serait-ce que pour effectuer un premier repêchage d’individus vulnérables qui auraient échappé à la vigilance de leur entourage.

Sous la supervision de la professeure Leila Kosseim, du Département d’informatique et de génie logiciel de l’Université Concordia, les étudiants Elham Mohammadi et Hessam Amini ont conçu cette méthode dans le cadre d’une compétition internationale dénommée Computational Linguistics and Clinical Psychology, dans laquelle on fournissait aux participants une banque de billets ayant été publiés sur le réseau social Reddit. Cette banque contenait des séries de billets écrits au fil du temps par des utilisateurs. Dans certains de ces billets, l’auteur déclarait clairement souffrir d’anorexie, alors que d’autres avaient été analysés et annotés par des spécialistes de la santé mentale, qui précisaient si les billets semblaient avoir été écrits par une personne souffrant d’anorexie, ou n’en souffrant pas.

La compétition consistait à développer un outil permettant de déterminer le plus tôt possible dans les différentes séries chronologiques de billets le moment où l’auteur commençait à manifester des signes qui le prédisposaient à l’anorexie. « Si le système attendait d’avoir analysé une série complète pour affirmer qu’une personne était malade, cela voulait dire qu’il n’était pas très performant », précise Mme Kosseim.

Chaque fois que quelqu’un écrit un billet, celui-ci passerait par ce filtre et, si le robot y détecte quelque chose d’anormal, on pourrait prévenir l’utilisateur qu’il a peut-être ce problème et qu’il y existe des ressources pour lui 

Cet outil, qui a pour but de rechercher dans les billets des particularités linguistiques permettant d’identifier de façon précoce les personnes présentant des risques d’anorexie, relève d’un domaine de l’intelligence artificielle qu’on appelle la linguistique informatique. L’outil fait appel dans ce cas précis à une forme d’apprentissage automatique (ou apprentissage machine) dénommée « apprentissage profond ». Plus précisément, l’équipe de Mme Kosseim a opté pour un modèle hybride alliant un réseau de neurones et une machine à vecteurs de support (SVM).

Un réseau de neurones se compose de toutes petites unités qui font des calculs hypersimples. Disposés en couches superposées, ces neurones sont connectés entre eux un peu à la manière de ceux du cerveau et transmettent aux neurones auxquels ils sont liés le résultat de leur calcul. Au départ, la force de chaque connexion a une valeur aléatoire qui sera optimisée au cours de l’apprentissage supervisé que fera le réseau. Cet apprentissage consiste à soumettre au réseau un premier billet dont on connaît la valeur prédictive pour le risque d’anorexie. Si au terme de tous les calculs, le réseau aboutit à un autre résultat que celui auquel on s’attendait, en d’autres termes s’il n’a pas réussi à découvrir que le billet contenait des éléments linguistiques typiques d’une personne anorexique, par exemple, on procède alors à une « rétropropagation » qui consiste à modifier la force de toutes les connexions neuronales. Si, à la suite de ce changement, le résultat n’est toujours pas le bon, on procède à de nouvelles modifications des connexions, et ainsi de suite jusqu’à ce que le réseau parvienne à décoder correctement la valeur prédictive du billet. « C’est en fait un algorithme qui modifie le poids de chaque connexion. Cet algorithme fait de l’optimisation, il change la combinaison de poids afin de converger vers un taux d’erreurs minimum le plus rapidement possible », résume la chercheuse.

Mais pour que le réseau de neurones réussisse à apprendre, il faut l’entraîner avec un grand nombre de billets dont on connaît la valeur prédictive, c’est-à-dire écrits par une personne présentant des symptômes avant-coureurs d’anorexie, qui en souffre gravement ou qui est en bonne santé. « Ainsi, quand on entrera le billet dans le réseau de neurones, on saura à quel résultat s’attendre », explique Leila Kosseim.

L’ordinateur peut ainsi faire des allers-retours pendant des mois avec le jeu de données d’entraînement avant d’arriver à une situation où l’ensemble du réseau semble enfin bien connecté, souligne la chercheuse avant de préciser qu’on évalue ensuite la performance du réseau avec un jeu de données (billets) de validation que le réseau n’a jamais vu.

« Dans les années 1980-1990, les linguistes informaticiens avaient besoin de l’expertise des linguistiques et des spécialistes de la santé pour savoir quelles caractéristiques linguistiques représenteraient des indices de la maladie que l’on devrait rechercher dans les billets. Or, l’apprentissage profond a tout révolutionné, car c’est le réseau de neurones qui trouve lui-même ces indices, qui apprend par lui-même quelles caractéristiques sont pertinentes et lesquelles ne le sont pas. Généralement, cela se fait à l’aide de réseau comprenant plusieurs couches internes. Par le fait même, nous avons moins besoin des experts pour nous guider, et ces derniers peuvent ainsi se concentrer sur leur propre travail », rappelle Mme Kosseim.

Gagnant de la compétition, le réseau de neurones mis au point par l’équipe de Concordia permet de dépister de façon assez précoce et fiable les personnes qui commencent à souffrir d’anorexie. « Cet outil ne pourra pas remplacer l’humain, c’est-à-dire le spécialiste de la santé mentale, mais il pourrait servir d’un premier filtre » pour repêcher les personnes souffrantes ou à risque de le devenir. Greffé à un média social, il pourrait servir de filtre automatique pour dépister les individus en souffrance « parce que les humains sont débordés et ne peuvent pas lire tous les billets qui sont publiés. Chaque fois que quelqu’un écrit un billet, celui-ci passerait par ce filtre et, si le robot y détecte quelque chose d’anormal, on pourrait prévenir l’utilisateur qu’il a peut-être ce problème et qu’il y existe des ressources pour lui », avance la linguiste informaticienne. Elle précise que ce genre d’outil peut aussi servir à trouver notamment les prédateurs sexuels, ainsi que les personnes ayant des idées suicidaires ou meurtrières.

Ce contenu est réalisé en collaboration avec l’Université Concordia.

À voir en vidéo