Des chercheurs montrent qu'on peut vous réidentifier avec vos données anonymisées, non protégées par le RGPD

Même si vos données sont anonymisées, on peut vous réidentifier
3 images
Même si vos données sont anonymisées, on peut vous réidentifier - © Photo by Markus Spiske on Unsplash

Des chercheurs de l’UCLouvain et de l’Imperial College London ont développé une méthode mathématique pour apprendre à réidentifier des individus à partir de données anonymisées. Les résultats publiés dans la revue Nature Communications posent question : nos données sont-elles correctement protégées ?

Qu’il s’agisse de données démographiques (recensement de la population), médicales (hôpitaux), socio-économiques (sondages) ou de données provenant de smartphone, la quantité de données collectées se multiplie.

Pour renforcer la protection des données, les institutions européennes ont mis en place le Règlement général de protection des données (RGPD) en mai 2018. Luc Rocher, chercheur doctorant à l’UCLouvain en mathématiques appliquées, met en garde contre les conséquences de ce règlement : "Dans le cadre légal actuel, le RGPD en Europe, toute donnée anonymisée ne requiert plus le consentement des personnes. Une fois qu’une donnée est anonymisée, elle peut être partagée ou revendue librement."


►►► À lire aussi : Protection des données : "Le RGPD, une évolution plutôt qu’une révolution"


Partant de ce constat, deux chercheurs de l’UCLouvain (Luc Rocher, Julien Hendrickx) et un chercheur de l’Imperial College London (Yves-Alexandre de Montjoye) se sont posé la question suivante : ces données sont-elles correctement anonymisées ?

La réponse peut faire froid dans le dos : "Les techniques utilisées ces trente dernières années pour le partage de données anonymisées sont de plus en plus fragiles. Il suffit de quelques pièces d’information pour réidentifier des personnes", indique Luc Rocher.

Comment fonctionne l’algorithme ?

Les chercheurs ont développé un algorithme qu’ils entraînent sur la base de quelques centaines ou milliers d’informations et la corrélation entre ces attributs. Ensuite, on présente une donnée anonyme à cet algorithme qui dit que telle personne a X chance de réidentifier cette personne. L’algorithme redonne un score : cette ré-identification est-elle correcte ou non ?

Certaines personnes sont plus facilement identifiables que d’autres, selon Luc Rocher : "À Louvain-La-Neuve, un étudiant de 20 ans serait sans doute moins unique qu’une personne retraitée de 110 ans. Plus il y a d’informations, plus les ré-identifications deviennent correctes."

Théorie vs. pratique

Pour justifier le recours à des données anonymisées, compagnies et gouvernements arguent souvent que, parmi des petites bases de données, toujours incomplètes, personne ne saura jamais si une ré-identification est correcte ou non, et si un chercheur ou journaliste a vraiment réidentifié la bonne personne.

Pourtant, un exemple venant des États-Unis prouve le contraire : les dossiers fiscaux du président américain Trump ont été réidentifiés par le New York Times le mois dernier, au sein d’une base de données anonyme comprenant 30% des dossiers.

Aux États-Unis, 15 attributs démographiques (date de naissance, code postal, âge, statut marital, etc.) suffiraient à identifier de manière correcte 99,98% des Américains dans n’importe quelle base de données anonyme.

Plus il y a d’attributs, plus c’est précis

Luc Rocher déclare qu’on n’est jamais sûrs d’avoir identifié la bonne personne à partir de données anonymes : "Par exemple, si je retrouve dans une base de données d’un hôpital un homme d’environ 30 ans habitant à Saint-Gilles, il y a beaucoup de personnes dans ce cas. Je ne suis donc pas sûr de retrouver la personne que je cherche dans une base de données anonyme d’un hôpital pour retrouver son historique médical."

Par contre, la multiplication des informations (comme la date de naissance exacte, le nombre/le sexe des enfants) permet d’augmenter les chances de correspondance. L’incertitude diminue à tel point qu’on est sûr d’avoir retrouvé avec exactitude la bonne personne. "Au fur et à mesure qu’on a de plus en plus d’informations de plus en plus riches, ces informations deviennent trop riches et permettent d’identifier des personnes de manière unique", commente le chercheur.

Cette découverte pose question quand on sait que certains hôpitaux belges revendent des données anonymisées à des tiers. C’était le cas en 2017, où l’entreprise Quintiles IMS avait racheté ces données.


►►► À lire aussi : Vos données médicales sont revendues, vous le saviez ?


Malgré les éventuelles dérives qu’entraîne l’utilisation des données anonymisées, les chercheurs ne plaident pas pour un arrêt de l’utilisation de ce type de données. Ils sont en faveur d’une meilleure utilisation et d’un meilleur partage de ces données. "En matière de standards, il est crucial d’être rigoureux et de prendre en compte tout risque futur. Il faut peut-être aussi changer de mode de diffusion pour les données personnelles", conclut Luc Rocher.

 

Newsletter info

Recevez chaque matin l’essentiel de l'actualité.

OK