Le Règlement Général sur la Protection des Données (RGPD) sera effectif fin mai 2018. Jusqu’à cette échéance, les entreprises doivent se préparer pour être conformes avec la directive européenne. L’identification des données personnelles fait partie des démarches à suivre pour être en conformité avec le RGPD. Explications.

L’identification des données personnelles pour être en conformité avec le RGPD

Qu’est-ce qu’une donnée personnelle ?

En droit français, une donnée personnelle est une information qui concerne une personne physique pouvant être identifiée grâce à un numéro d’identification ou à des éléments qui lui sont propres. Le numéro INSEE ou numéro de sécurité sociale est un bon exemple de donnée personnelle d’identification : ses 15 chiffres vous sont attribués à votre naissance et vous suivent toute votre vie.

Définition de donnée sensible selon la CNIL

Les données sensibles concernent quant à elles les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses, les appartenances syndicales ainsi que les informations concernant la santé ou l’orientation sexuelle d’individus.

Le RGPD au secours des données personnelles

Difficile de voir ce genre de données personnelles devenir publiques ou de les voir être échangées sur les marchés de vente de données. Le Règlement Général sur la Protection des Données porte justement à mieux protéger ce type de données et à instaurer une meilleure transparence sur leur utilisation par les entreprises et administrations.

Pour être en conformité avec le RGPD, les entreprises devront identifier les données personnelles qu’elles détiennent sur les citoyens européens. Ensuite, elles devront les traiter comme stipulé dans le règlement. Elles devront par ailleurs repérer les données sensibles qu’elles n’auront plus le droit de récupérer et de stocker.

L’identification des données personnelles, comment ça fonctionne ?

Pour être bien réalisée sur de gros volumes de données, l’identification des données personnelles nécessite une réelle expertise.

Les data scientists et le text mining pour repérer les informations privées

Les experts de la data (Data Scientists) utilisent des technologies de text mining (fouille de texte) afin de dénicher les données sensibles parmi des quantités de documents numériques ou informatisés. Armés d’un dictionnaire digital de mots et d’expressions relatifs à la définition des données sensibles du RGPD, les data scientists explorent vos champs textes et repèrent les verbatims qui contreviennent au RGPD. Après l’opération de text mining, les informations relevées sont triées par niveaux de criticité.

Exemple d’outil d’identification de données personnelles avec le « Datamining Coheris SPAD »

Pour citer un exemple de logiciel d’identification de données personnelles, les data scientists de Coheris utilisent le logiciel Datamining Coheris SPAD. L’outil de text mining est capable de traiter plusieurs millions de verbatims – un sacré temps de gagné ! Datamining SPAD gère aussi les exceptions relatives à des secteurs spécifiques d’activité. Enfin, la lecture des résultats est rendue digeste grâce à une data visualisation sur dashboard. Le tableau de bord dévoile alors le nombre de verbatims sensibles par date, par région, par type de clients… ainsi que la liste et la fréquence des mots sensibles repérés.