Données personnelles: un secret mal gardé

«Les différentes méthodes d’anonymisation ont des limites importantes. Aucun organisme ne peut prétendre avoir des données pleinement anonymes», affirme Dominic Cliche, conseiller en éthique à la Commission de l’éthique en science et en technologie du Québec.
Photo: iStock «Les différentes méthodes d’anonymisation ont des limites importantes. Aucun organisme ne peut prétendre avoir des données pleinement anonymes», affirme Dominic Cliche, conseiller en éthique à la Commission de l’éthique en science et en technologie du Québec.

Une nouvelle étude publiée dans Nature Communications confirme qu’il est possible de réidentifier un individu dont les informations personnelles ont pourtant été anonymisées par les organismes publics et les entreprises auxquels il les avait transmises. Les auteurs de l’étude remettent ainsi en question les pratiques courantes d’anonymisation des données qui visiblement ne satisfont plus les règles de protection de la vie privée, et ils appellent les autorités nationales à rehausser leurs exigences en matière de dépersonnalisation des données.

Les organismes publics et privés auxquels nous révélons des informations sensibles sur nous, comme des données médicales par exemple, rendent ces données anonymes avant de les partager ou de les vendre. Or, déjà en 1997, la chercheuse américaine Latanya Sweeney avait démontré qu’avec une combinaison de trois attributs démographiques, tels que le code postal, la date de naissance et le genre, il était possible d’identifier 87 % des Américains. En croisant une banque de données médicales, qui avaient été anonymisées et rendues publiques pour la recherche, avec le fichier des électeurs de la ville de Cambridge, elle avait également réussi à réidentifier un individu.

« Pris séparément, chacun de ces attributs n’est pas suffisant pour réidentifier quelqu’un, mais dès qu’on commence à combiner des attributs différents, on arrive vite, au bout de trois ou quatre attributs, à une situation unique, c’est-à-dire qu’il n’y a pas d’autres personnes ayant la même combinaison d’attributs », explique Sébastien Gambs, professeur au département d’informatique de l’UQAM.

« On s’arrête souvent aux attributs démographiques, mais en réalité, pratiquement tous les attributs sont “quasi identifiants”. La banque de données de Netflix Prize a été dé-anonymisée en utilisant simplement les films vus par les individus », ajoute Richard Khoury, professeur au département d’informatique et de génie logiciel de l’Université Laval.

Dans un souci de transparence, les gouvernements cherchent de plus en plus à rendre accessibles dans le domaine public les bases de données anonymisées qu’ils détiennent

Les chercheurs de l’Université catholique de Louvain, en Belgique, et de l’Imperial College of London, au Royaume-Uni, ont élaboré un algorithme d’apprentissage machine qui permet en quelque sorte d’estimer la probabilité d’identifier avec exactitude un individu parmi plusieurs milliards de personnes à partir d’une certaine combinaison d’attributs ou de caractéristiques. En utilisant leur méthode, ils démontrent que 99,98 % des Américains seraient correctement réidentifiés dans n’importe quelle base de données en utilisant 15 attributs démographiques.

Pour rassurer la population, les organismes publics et les sociétés privées font valoir que les bases de données qu’elles partagent sont incomplètes et ne représentent qu’un petit échantillon de la population, ce qui crée une incertitude sur la réidentification. Il se peut que l’individu que l’on croit avoir reconnu soit quelqu’un d’autre qui n’est pas dans l’échantillon, argumentent-ils.

Or, l’algorithme présenté dans l’étude bat en brèche cet argument en prouvant qu’il est possible de réidentifier les individus au sein de bases de données même incomplètes.

« Une fois anonymisées, les données ne sont plus considérées comme des données personnelles et elles échappent aux régimes de protection des données », soulignent les auteurs de l’étude.

Des données anonymisées peuvent donc être échangées, partagées et vendues à des tiers qui en feront peut-être des usages autres que ceux auxquels elles étaient destinées.

« Dans un souci de transparence, les gouvernements cherchent de plus en plus à rendre accessibles dans le domaine public les bases de données anonymisées qu’ils détiennent. Il y a bien sûr le risque que celles-ci puissent être récupérées par des sociétés privées, comme des compagnies de marketing par exemple, qui, en les croisant avec d’autres jeux de données, pourront les réidentifier afin de faire de la sollicitation », fait remarquer Dominic Cliche, conseiller en éthique à la Commission de l’éthique en science et en technologie du Québec.

Les bases de données sur lesquelles les chercheurs ont testé leur algorithme avaient vraisemblablement été anonymisées en supprimant les identifiants, tels que le nom de la personne, son adresse, ses numéros d’assurance sociale et de permis de conduire notamment, mais en laissant publics leur date de naissance, leur genre et leur code postal. « Cette méthode d’anonymisation [qui est la plus couramment utilisée] est toutefois très faible et n’est pas suffisante pour empêcher une réidentification », affirme M. Gambs, tout en précisant qu’il existe d’autres méthodes d’anonymisation plus complexes qui permettent de réduire le risque de réidentification.

« Les différentes méthodes d’anonymisation ont des limites importantes. Aucun organisme ne peut prétendre avoir des données pleinement anonymes. Il faut prendre acte que l’anonymisation n’est pas la seule voie à considérer. Il faudrait peut-être mieux encadrer l’utilisation des données. Mais en même temps, il ne faut pas trop restreindre leur utilisation secondaire afin de pouvoir tirer des bénéfices des données pour l’intérêt collectif », affirme M. Cliche.

« On vise toujours un compromis entre la protection de la vie privée et la possibilité d’utiliser les données pour en tirer des bénéfices », ajoute Sébastien Gambs tout en rappelant que « plus on anonymise les données, plus elles perdent de leur utilité ».

Le Règlement général européen sur la protection des données (GDPR) prévoit une gestion du risque de réidentification des données anonymisées qui n’est pas encore présente dans la loi canadienne sur la protection des renseignements personnels qui n’a pas été mise à jour depuis un bon moment, indique M. Gambs. Le GDPR précise que pour faciliter les échanges de données entre les pays, le Canada devra se doter d’un encadrement juridique adéquat, similaire à celui de l’Union européenne. Le Canada devra donc renforcer les droits des individus et de leur vie privée et resserrer les règles de diffusion des données anonymisées.