Vos données partagées sur internet sont-elles toujours anonymes ? Voici comment savoir si on peut remonter jusqu’à vous

Vous l’aurez lu sur des dizaines de sites et applications : vos données seront récoltées et puis utilisées de manière anonyme. Toutefois, la définition de "données anonymes" n’est pas toujours claire. Aujourd’hui, des chercheurs de l’UCLouvain et de l’Imperial College London ont mis au point un Observatoire de l’anonymat permettant de donner des clés aux utilisateurs pour mieux comprendre les enjeux et tester si cet anonymat est bien réel. Le site web, disponible à cette adresse, permet de mieux comprendre si vous pouvez être facilement réidentifiés au départ des informations que vous avez partagées sur internet ou sur des applications.

Concrètement, le site vous propose de renseigner différents paramètres, comme la province de résidence, la date de naissance, l’état civil ou encore le niveau d’études. Ces paramètres sont définis sur base d’informations standardisées que plus ou moins tous les formulaires sur le web demandent. Suite à cela, le site, actif dans 89 pays dont la Belgique, calcule la probabilité de remonter à votre identité sur base de ces informations seules.


►►► A lire aussi : Coronavirus : l’autorité de protection des données demande une base légale complète aux règles corona


Pour calculer cette probabilité, le site se base sur une sélection (ce qu’on appelle un échantillon) de données démographiques sur la population belge accessibles publiquement : cette base de données est partielle mais permet des extrapolations très précises sur base du modèle mathématique développé par les chercheurs. Ensuite, sur base de ces données et des critères que vous renseignez, le site permet de retrouver combien de personnes ont les mêmes caractéristiques que vous.

"Nous ne collectons pas les données des utilisateurs qui testent la plateforme", tient à préciser Julien Hendrickx, professeur à l’Ecole Polytechnique de l’UCLouvain et chercheur dans le cadre de ce projet.

Comment fonctionne le système ?

2 images
© UCLouvain – tous droits réservés

Prenons l’exemple affiché dans la photo ci-dessus : le premier filtre est votre lieu de résidence, Londres. Il est assez compliqué de vous retrouver parmi toute la population londonienne. Lorsque vous ajoutez votre date de naissance, on répertorie toutes les personnes qui sont nées à la même date de naissance que vous et qui habitent à Londres. En affinant les critères, on aura de moins en moins de personnes qui sont également des femmes mariées employées à temps plein et possédant une voiture. Voilà qu’à 99% on tombera sur vous.


►►► A lire aussi : Un "passeport Covid" ne peut conduire à une banque européenne de données, prévient le contrôleur européen de la protection des données


Il s’agit d’une découverte "assez intuitive", pointe Luc Rocher, chercheur dans le cadre de l’étude : plus sont nombreuses les infos que vous avez partagées, plus il est probable de vous retrouver.

Une étude de longue haleine

Après des années de travail, l’Observatoire voit le jour grâce à Yves-Alexandre de Montjoye, chercheur à l’Imperial College de Londres et aux chercheurs Luc Rocher et Julien Hendrickx de l’UCLouvain. Dans une première étude, en 2019, ils prouvent qu’il est assez simple de réidentifier des personnes au départ de données qui devraient être, en principe, anonymes et ce, même si on ne dispose que d’informations très partielles.

"Le point de départ de la réflexion était que pendant des années on a travaillé sur l’anonymisation des données, mais que le public connaît peu les mécanismes et les enjeux de cette anonymisation, détaille Luc Rocher. A travers l’Observatoire, on essaie de donner au public un outil pour se réapproprier ces questions".

En effet, la notion d’anonymat est assez complexe et parfois méconnue du grand public : le RGPD, entré en vigueur en 2018, s’applique aux données personnelles. Par données personnelles, précise l’Autorité de Protection des Données, on entend les informations qui se rapportent à une "personne physique identifiée ou identifiable (directement ou indirectement)."


►►► A lire aussi : Protection des données : le RGPD a deux ans, à quoi a-t-il servi ?


Cette notion est assez large et comprend l’âge, le genre, le diplôme. Une combinaison de quatre données qui permet de réidentifier la personne, est aussi considérée comme une donnée personnelle. Il en va de même pour les données pseudonymisées, à savoir celles à qui on attribue un pseudonyme, à la place de votre nom et prénom. Cette démarche est souvent utilisée au sein des recherches médicales ou en sciences sociales pour utiliser les résultats d’un sondage par exemple, sans citer le nom des participants.

En revanche, le RGPD ne s’applique pas aux données anonymisées, à savoir les données pour lesquelles il n’y a aucun moyen d’identifier la personne physique. Mais c’est là que le bât blesse : ces données anonymisées peuvent être partagées ou vendues sans que le RGPD (ou équivalent) s’applique. Il faut alors rester vigilant lorsqu’on vous garantit que vos données seront anonymisées : pour quelle raison vont-elles être utilisées ? Les buts (commerciaux, recherche, etc.) peuvent varier. A ce niveau, l’APD se veut plus prudente : elle rappelle que les combinaisons de données, si elles permettent de remonter à votre identité, sont toujours protégées par le RGPD.

Conscientiser le public, pas susciter la panique

Si l’objectif de l’Observatoire est celui de conscientiser à l’utilisateur, les chercheurs se veulent nuancés.

"Notre objectif n’est pas celui de diaboliser les démarches de récolte des données", précisent les chercheurs. "Nous voulons plutôt sensibiliser le public. La démarche que nous avons réalisée montre que retirer son nom n’est pas suffisant si on a donné plein d’autres informations à côté. Cela prouve qu’une combinaison d’informations anodines peut finalement ne pas l’être", ajoute le Pr. Julien Hendrickx.


►►► A lire aussi : Signal, Telegram, quelle est l’application la plus sécurisée pour remplacer WhatsApp ?


"Il y a dix ans, on pensait qu’utiliser des pseudonymes ou anonymiser était suffisant. Même si cela minimise les risques, on peut toujours trouver la personne concernée grâce à des modèles mathématiques comme le nôtre", conclut Luc Rocher.

Il ne faut pas pour autant paniquer : "L’utilisation d’un pseudonyme ou de l’anonymisation des données est très utile, notamment dans le cadre de la recherche et en temps de pandémie. Ces systèmes sont utiles pour protéger les utilisateurs. En revanche, il est important de conscientiser les citoyens autour de cette anonymisation : comment est-elle effectuée ? Il faut être transparent et expliquer les méthodes", note encore Luc Rocher.

Sans compter que l’objectif de sensibilisation s’adresse également aux décideurs politiques, pour les conscientiser sur les enjeux et les bonnes démarches à suivre. En ce sens, l’APD salue l’outil : "Nous sommes toujours très heureux de voir de telles initiatives qui permettent de sensibiliser le public à la problématique des données personnelles. De tels outils aident les citoyens à prendre conscience des éventuelles conséquences du partage de données, ils peuvent par exemple les encourager à redoubler de vigilance quand ils remplissent un formulaire en ligne (ou partagent leurs données en général). Plus le citoyen est conscientisé, plus il peut identifier les éventuels abus de ses données".

Newsletter info

Recevez chaque matin l’essentiel de l'actualité.

OK