Comment préserver l’intégrité des bases de données ?

Le nettoyage des données : Qualité, Conformité, Sécurité

De nombreuses entreprises investissent beaucoup de temps et d’argent dans la mise en œuvre de leur système de collecte de données, mais échouent ensuite dans la surveillance et la gestion continue des données collectées.

Qu’entend-t-on par « qualité des données » (ou « Data Quality ») ?

Voici les points névralgiques des bases de données :

Déduplication – Données en doublons

C’est l’anomalie la plus fréquente dans les bases de données, résultat de plusieurs traitements successifs sans concertation ni pilotage global. On trouve par exemple des références multiples à un contact avec des adresses postales, des courriels ou des numéros de téléphone différents, sans avoir quelle est la bonne information.

La saisie des informations doit être encadrée par une politique d’archivage multiple afin de classer les anciennes données avec un code distinctif, ou d’exporter les archives ailleurs que dans la base de données d’exploitation.

Pour garantir l’intégrité des données publiques, la vérification des informations est un travail fastidieux pour qui ne dispose pas d’outils spécialisés d’interrogation à l’échelle nationale, voir internationale. C’est ici qu’interviennent des sociétés comme Datexis Digital, qui utilisent de puissants outils d’analyse comparatives en liaison avec des bases de données mondiales.

Actualisation des données publiques et données privées

L’actualisation permanente des données s’effectue sur deux plans.

Les données publiques enregistrées dans vos bases de données doivent faire l’objet d’une mise à jour automatique permanente grâce à des API (Application Programming Interface – Programmes de mises à jour distantes) interconnectant vos bases de données avec des services tiers de distribution de données.

Les données privées sont celles de vos clients, de vos fournisseurs ou de votre entreprise. Les mises à jour sont effectuées manuellement, soit par un service interne, soit par les personnes concernées, clients ou fournisseurs, via un CRM (Customer Relationship Management – Gestion de la relation client). Ces données, dites « sensibles », doivent être particulièrement protégées en respectant les principes du RGPD (Règlement Général de la Protection des Données).

Mise à jour des données privées

Grâce à l’Open Data, vous disposez de nombreuses ressources de données publiques ou privées rendues publiques. Par exemple, vous pouvez consulter la liste noms des députés français depuis le site de l’Assemblée Nationale, mais aussi extraire cette liste dans un format récupérable dans votre base de données.

Datexis Digital permet aussi de contrôler les données privées d’un utilisateur enregistré, en utilisant des outils tiers, notamment pour vérifier un numéro de téléphone, une adresse de courriel ou adresse postale.

Obsolescence des données

Pour garantir des données actualisées, il est nécessaire d’effectuer régulièrement des analyses, à défaut de ne pouvoir compter de manière fiable sur les utilisateurs externes à l’origine des données enregistrées, ce qui peut nuire à la performance de vos bases de données, voire au bon fonctionnement de vos services.

Par exemple, vous avez un site internet avec des clients enregistrés. Un membre inscrit dans votre base de données a perdu son mot de passe. Mais il n’a pas mis à jour son changement d’adresse e-mail et ne peut plus utiliser la procédure de restauration de son compte car il n’a plus accès à son ancienne adresse e-mail.

Dans ce cas, l’idéal pour identifier l’utilisateur et lui donner à nouveau accès à son espace privé, serait de valider sa nouvelle adresse e-mail en utilisant des services tiers. Sinon, il reste à lui demander une information alternative unique, comme son numéro de téléphone, en espérant qu’il n’est pas changé ce numéro dans le même temps !

Données manquantes

Il est parfois difficile d’obtenir les données complètes d’un enregistrement, pour de multiples raisons.

Là aussi, des sociétés spécialisées en nettoyage de données peuvent analyser et compléter les données de votre base en interrogeant de multiples sources tierces au niveau national ou international, sous réserve que ces données sont disponibles.

Protection des données (données sensibles)

Vos données sont-elles réellement protégées ?

Pour répondre à cela, il faut passer en revue une batterie de tests touchant à l’infrastructure de votre système d’information, vos connexions au réseau internet, votre politique d’enregistrement et de mise à jour des données et votre politique d’archivage et de conservation.

Tous les points critiques d’accès aux données doivent être sécurisés : la structure d’hébergement, l’interconnexion internet.

Mais cela implique aussi la formation des utilisateurs responsables de la saisie des données, y compris les utilisateurs externes responsables de leurs propres données, comme en témoigne une étude de ProofPoint sur la cyber sécurité.

Revenons sur l’exemple décrit dans le paragraphe concernant l’obsolescence des données :

Un membre inscrit dans votre base de données souhaite changer son adresse e-mail. Qu’advient-il s’il ne s’agit pas réellement de cet utilisateur, mais d’une de ses connaissances, ou d’un intrus ayant détourné son compte de messagerie ?

La modification des données sensibles de l’utilisateur doit faire l’objet d’une double vérification pour garantir la pertinence de la démarche de l’utilisateur. C’est pourquoi il est recommandé aux utilisateurs de comptes enregistrés sur internet d’activer la double authentification (Two-Factor Authentication – 2FA) pour protéger au mieux leur compte personnel et les données associées. Le principe est simple : Chaque fois que vous vous connectez à votre compte en ligne, vous recevez un SMS contenant un code à entrer pour finaliser votre connexion sur le site. Vous pouvez aussi utiliser une application comme Authy qui vous donne un code à entrer pour finaliser votre connexion.

Il est recommandé aussi aux gestionnaires de CRM d’envoyer un e-mail de notification aux membres qui se connectent, avec l’indication de l’adresse IP de connexion, afin que le membre vérifie qu’il s’agit bien de lui-même.

Données incorrectes et orthographe

Pour réduire le risque d’erreur lors de la saisie d’information, vous pouvez intégrer une extension d’auto-complétion sur votre site, comme celui proposé par Datexis. Ainsi, les internautes peuvent voir une liste de propositions en temps réel pendant la saisie d’un pays, un département, une ville, etc.

Classification

La classification s’inscrit dans une logique de sécurisation et de pérennité des données.

La classification consiste à définir des règles de codification dans l’enregistrement des informations afin d’éviter toute confusion. Il s’agira par exemple, d’éviter de trouver un jour des doublons parce que vous n’avez pas correctement pointé les données d’archives laissées dans la même base que les données actives.

La mise en oeuvre du référentiel de classification s’effectue en équipe, entre l’administrateur de la base de données et le développeur chargé de traiter les données.

Normalisation et modèle de données

La normalisation de la structure de la base de données permet d’éviter la redondance des informations, mais aussi, de faciliter l’interopérabilité avec des ressources externes, le cas échéant.

La modélisation des données consiste à construire le schéma global de la relation entre les tables de votre base de donnée, ou entre plusieurs bases dans un entrepôt de données.

Aujourd’hui, l’accumulation des données amènent les grandes entreprises à gérer des bases de données « inter-relationnelles », c’est-à-dire pouvant communiquer entre elles, entre deux sociétés, entre deux organisations, entre deux états, etc.

Dale Anderson apporte une vision complète dans son article publié sur la conception de modèles de données.

Interopérabilité

L’interopérabilité est la raison d’être des bases de données. C’est la capacité de traiter vos données à partir de n’importe quelle application externe.

La normalisation permet de définir et distribuer un standard d’accès aux données via une ou plusieurs applications externes.

En général, on utilise des API, programmes fournissant les données au format XML ou Json aux applications appelantes.