Les chercheurs ont développé un algorithme qu’ils entraînent sur la base de quelques centaines ou milliers d’informations et la corrélation entre ces attributs. Ensuite, on présente une donnée anonyme à cet algorithme qui dit que telle personne a X chance de réidentifier cette personne. L’algorithme redonne un score : cette ré-identification est-elle correcte ou non ?

La réponse peut faire froid dans le dos : "Les techniques utilisées ces trente dernières années pour le partage de données anonymisées sont de plus en plus fragiles. Il suffit de quelques pièces d’information pour réidentifier des personnes", indique Luc Rocher.

Certaines personnes sont plus facilement identifiables que d’autres, selon Luc Rocher : "À Louvain-La-Neuve, un étudiant de 20 ans serait sans doute moins unique qu’une personne retraitée de 110 ans. Plus il y a d’informations, plus les ré-identifications deviennent correctes."

Théorie vs. pratique

Pour justifier le recours à des données anonymisées, compagnies et gouvernements arguent souvent que, parmi des petites bases de données, toujours incomplètes, personne ne saura jamais si une ré-identification est correcte ou non, et si un chercheur ou journaliste a vraiment réidentifié la bonne personne.

Pourtant, un exemple venant des États-Unis prouve le contraire : les dossiers fiscaux du président américain Trump ont été réidentifiés par le New York Times le mois dernier, au sein d’une base de données anonyme comprenant 30% des dossiers.

Aux États-Unis, 15 attributs démographiques (date de naissance, code postal, âge, statut marital, etc.) suffiraient à identifier de manière correcte 99,98% des Américains dans n’importe quelle base de données anonyme.

Plus il y a d’attributs, plus c’est précis

Luc Rocher déclare qu’on n’est jamais sûrs d’avoir identifié la bonne personne à partir de données anonymes : "Par exemple, si je retrouve dans une base de données d’un hôpital un homme d’environ 30 ans habitant à Saint-Gilles, il y a beaucoup de personnes dans ce cas. Je ne suis donc pas sûr de retrouver la personne que je cherche dans une base de données anonyme d’un hôpital pour retrouver son historique médical."

Par contre, la multiplication des informations (comme la date de naissance exacte, le nombre/le sexe des enfants) permet d’augmenter les chances de correspondance. L’incertitude diminue à tel point qu’on est sûr d’avoir retrouvé avec exactitude la bonne personne. "Au fur et à mesure qu’on a de plus en plus d’informations de plus en plus riches, ces informations deviennent trop riches et permettent d’identifier des personnes de manière unique", commente le chercheur.