Publication des données sur le confinement : comment Google protège-t-il les données de ses utilisateurs ?

Publication des données de confinement : comment Google protège-t-il les données de ses utilisateurs ?

 

A l’instar d’opérateurs de télécommunication qui ont partagé des données sur les déplacements de leurs clients, Google a publié vendredi 3 avril des statistiques pour évaluer les effets des mesures de confinement dans 131 pays, à destination des autorités publiques et des particuliers. A partir des historiques des données de géolocalisation de ses utilisateurs, l’entreprise a établi pour chaque pays des statistiques sur l’évolution de la fréquentation de lieux publics et privé, classés en huit catégories (jardins publics, gares…). Les données pour la France montrent par exemple que la fréquentation des lieux de divertissement a chuté de 88 %, entre mi-février et fin mars.

L’entreprise, souvent critiquée pour son utilisation commerciale de données personnelles montre ainsi son souci de l’intérêt public. Mais se montrerait-elles généreuse à peu de frais, avec les données des autres ?  Quoi qu’il en soit, Google semble avoir respecté la législation applicable aux données personnelles.

 

La collecte par Google des données de géolocalisation de ses utilisateurs soumise au RGPD

 

Pour établir ces statistiques, Google a utilisé des données recueillies auprès de personnes physiques sur le territoire de l’Union Européenne. A ce titre, l’entreprise américaine est soumise au Règlement Général sur la Protection des Données à caractère personnel (RGPD), dont le non-respect a d’ailleurs déjà conduit la CNIL à la sanctionner.

La collecte de données de géolocalisation des utilisateurs par Google, est un traitement de données à caractère personnel (DCP) au sens de ce texte. En l’occurrence, il est licite parce qu’il repose sur le consentement des utilisateurs, qui peuvent en outre suspendre à tout moment la transmission de leur géolocalisation. Or, pour que le consentement des personnes concernées autorise le traitement de DCP, il doit être spécifique, c’est-à-dire donné pour une utilisation spécifique. Est-ce à dire que l’utilisation de ces données, pour une fin autre (par exemple l’établissement de statistiques sur le confinement) que celle prévue initialement, est illégal ? Probablement pas.

 

Des statistiques établies à partir de données sans caractère personnel

 

En effet, pour établir lesdites statistiques, Google ne se base pas sur des données personnelles, mais sur des données anonymisées, c’est-à-dire des données qu’il est impossible d’identifier la personne auxquelles elles se rapportent.

Pour obtenir un tel résultat, l’entreprise ne se contente ni d’anonymiser les données au sens strict (c’est-à-dire d’effacer les éléments identifiants la personne), ni de les agréger. En effet, il a été prouvé qu’avec des ressources et des compétence suffisantes il était possible de réattribuer à une personne particulière des données anonymisées et agrégées.

Google a donc utilisé une méthode plus complexe, en plein développement, la confidentialité différentielle. Celle-ci consiste à introduire, dans jeu de donnée, des données fausses. Il est dès lors impossible d’attribuer avec certitude une donnée à une personne, puisque la donnée peut tout aussi bien être vraie que fausse. Cependant, cette falsification porte sur peu de données, de sorte que les statistiques restent relativement fiables. Cette méthode prometteuse s’avère particulièrement efficace lorsqu’il n’est pas besoin de fournir un résultat extrêmement précis et que chaque personne n’apparait qu’une fois dans le jeu de données.

Google, outre cette méthode a décidé de ne communiquer que des pourcentages d’évolution de la fréquentation, et non des valeurs absolues, ce qui rend la réidentification des personnes impossibles, et garantit donc le respect de la vie privée des utilisateurs.

On est donc encore loin de la géolocalisation des particuliers aux fins de lutter contre le Covid, désormais envisagée en France.