Épier 33 millions de Canadiens sans se fatiguer
Nous vivons dans un monde sans cesse plus numérique, et 2022 ne ralentira pas l’ampleur de ce virage. Or, il y a toujours un risque de dérapage quand on emprunte un virage à pleine vitesse. C’est tout aussi vrai quand il est question de virage numérique. Dernier article de cette série : les leçons de la COVID-19 dans la gestion des données.
L’Agence de la santé publique du Canada a consulté, au cours de 2021, les données de localisation de 33 millions de Canadiens pour déterminer l’effet du confinement et de la mobilité sur la transmission de la COVID-19. L’Agence demande maintenant de poursuivre cette étude au cours des cinq prochaines années. Cela ne manque pas d’inquiéter les experts.
Pour récolter ses données, l’Agence s’est notamment entendue avec le fournisseur de services mobiles Telus dans le cadre d’un programme appelé Les données au service du bien commun. « Telus détient une quantité importante de données extrêmement utiles […] », explique l’entreprise de Vancouver sur le site de ce programme. « Nous rendons cette information disponible sans compromettre notre engagement de longue date de protéger la vie privée de nos clients. »
Concrètement, l’Agence de santé publique du Canada a obtenu de son fournisseur des données anonymes et agrégées, c’est-à-dire qui ne contiennent aucune information sur l’identité des propriétaires d’un appareil mobile impliqués dans ce programme. On dit qu’elles sont agrégées puisqu’elles proviennent de plusieurs sources regroupées en une seule banque d’information.
Telus insiste pour rappeler que son programme a reçu deux mentions particulières reconnaissant la façon dont son programme respecte la vie privée de ses clients. En principe, donc, le fournisseur a remis à l’agence fédérale des données qui ne permettent d’identifier personne.
Le ministre de la Santé, Jean-Yves Duclos, qui appuie le projet, a de son côté contacté le Commissariat à la protection de la vie privée pour s’assurer de préserver le mieux possible la vie privée de la population canadienne. Une porte-parole de l’agence précise au Devoir que « les analyses et les conclusions issues des données sur la mobilité ont été régulièrement communiquées aux provinces et aux territoires comme source d’information supplémentaire à l’appui des décisions stratégiques et de l’évaluation de leur réponse à la pandémie ».
Informer le public
Le hic n’est pas là, conviennent les experts. C’est plutôt dans le fait qu’une agence gouvernementale fédérale a épié, sur une période de près de six mois en 2021 et sans les en avertir au préalable, plusieurs millions de Canadiens. C’est à la suite d’une demande de la part de médias canadiens anglais, l’automne dernier, que l’agence a admis avoir procédé de la sorte.
« Le gouvernement a vraiment besoin de se mettre à agir de façon plus transparente » dans la façon dont il utilise des données numériques portant sur le comportement de sa population, déplore le professeur de l’Université McGill Benjamin Fung. M. Fung est également directeur de la Chaire de recherche du Canada en exploration de données pour la cybersécurité.
En plus de ce premier faux pas de non-divulgation, Benjamin Fung s’inquiète de la possibilité que les données obtenues par la Santé publique puissent par la suite être « réidentifiées ». Autrement dit, qu’on découvre qui sont les gens de qui proviennent ces données. Dans bien des cas, il suffit de combiner l’information de deux ou trois banques de données pour pouvoir connaître l’identité des sujets.
« Il existe plusieurs façons d’anonymiser et d’agréger des données publiques. Il faut vraiment qu’à chaque étape du programme d’étude, la sécurité soit à son maximum », ajoute l’expert montréalais, qui rappelle que ce n’est pas tant l’agence fédérale elle-même qui le ferait, mais qu’il suffit d’une fuite de ces données pour que l’information sur les déplacements de millions de citoyens canadiens tombe dans les mains de gens mal intentionnés.
« COVID-19 ou non, le gouvernement doit avertir le public de tels actes. D’autant plus qu’on risque de voir de plus en plus de tels projets d’analyse être menés tant par le secteur public au cours des prochaines années. »
Quelle représentativité ?
Le recours aux données massives et anonymes pour mieux comprendre le comportement de la population n’est pas une première. Ce ne sera pas non plus une dernière. Le 17 décembre dernier, l’Agence a publié une nouvelle demande de proposition pour obtenir à nouveau des données de localisation à partir des tours de téléphonie cellulaire réparties partout au Canada.
Sans avoir analysé de près l’affaire, le professeur adjoint de sociologie à Concordia et expert en éthique des technologies Martin French dit tout de même y voir des parallèles avec les programmes de collecte de données de géants technologiques comme Google.
Ces affaires soulèvent les mêmes questions relatives à la confiance à la vie privée du public, dit-il, mais elles touchent aussi à un autre enjeu moins apparent au premier coup d’œil : même si les données massives sont utilisées d’une manière respectueuse de la vie privée, le public s’y trouve-t-il fidèlement représenté ?
Car même si plus des trois quarts des Canadiens possèdent un téléphone intelligent qui permet de les suivre à leur insu ou non, la distribution de ces appareils au sein des différents sous-groupes de la population n’est peut-être pas, elle, représentative de l’ensemble.
« Un tel système, à lui seul ou une fois qu’il est jumelé à d’autres, peut-il finir par avantager ou désavantager certaines parties de la population ? » se demande Martin French. « Certaines régions moins bien desservies par la mobilité pourraient ne pas bénéficier des résultats de cette recherche. Ou alors, d’autres régions seront surreprésentées, et cela finirait par avoir des répercussions néfastes, plutôt que bénéfiques, sur leur population. »
L’Agence dit utiliser cette source d’information en complément de ses autres travaux. « Par exemple, lorsque [ces données] sont analysées avec des données sur les épidémies, la compréhension des déplacements de la population peut aider à prévoir le risque pour d’autres zones géographiques », indique-t-elle. Jumelées à d’autres données de santé publique, ces données aident à évaluer l’efficacité de mesures comme un confinement obligatoire. Cela aide aussi à mieux comprendre comment la population réagit aux conseils et aux directives de santé publique.
Tout cela n’empêchera pas des Canadiens de s’inquiéter d’avoir été pistés à leur insu par ce programme. Cela illustre bien le casse-tête que devront résoudre les administrations publiques si elles veulent prendre elles aussi le virage numérique. Après tout, les gens ne se sentiront pas en sécurité s’ils n’ont pas d’abord confiance dans le système.
En informatique, c’est tout le contraire : la meilleure sécurité se nomme zero-trust, et son niveau de confiance est nul. Cette approche promet une meilleure transparence dans la gestion des données numériques et devrait inspirer les gouvernements s’ils veulent éviter de froisser le public.