Qualité de données

Tags
Published
Author

1.1 Donner une définition de la qualité de données

La qualité des données désigne l'aptitude des caractéristiques des données à répondre aux exigences internes et externes de l'organisation

1.2 Critères de qualité de données

Donner 3 caractéristiques de la qualité de données et la définition de chacune d'elle
► Fraicheur : Elle est jugée suffisamment précise et fraiche pour l’usage que l’on en attend ► Disponibilité: Garantir l’accès à toutes les données Qualité de données 14 ► Cohérence : La donnée ne porte pas une valeur aberrante, elle se maintient dans la plage des valeurs acceptables, c’est-à-dire garantir que les données sont bien celles que l’on croit être ► Traçabilité: Connaître et éventuellement de façon rétrospective, l’origine de la donnée tout au long de la chaîne de production, de transformation et de visualisation ► Sécurisation : Accessible uniquement par les processus et utilisateurs autorisés ► Exhaustivité : Toutes les informations requises pour l’usage que l’on en fait
 
数据质量可以根据以下特性简单定义:
新鲜度(Fraicheur):数据需足够精确且及时,以满足预期用途。
可用性(Disponibilité):确保所有数据都可以被访问。
一致性(Cohérence):数据不应包含异常值,应保持在可接受范围内,即确保数据确实是我们认为的数据。
可追溯性(Traçabilité):能够了解数据的来源,并在必要时追溯其在生产、转化和可视化过程中所经历的所有环节。
安全性(Sécurisation):数据只能由授权的流程和用户访问。
完整性(Exhaustivité):为满足使用需求,所需的所有信息都必须齐全。
 

1.3 Architecture

Quelles sont aujourd'hui les deux différents types d'architecture décisionnelle ? Décrire et donner les + et - de chacune des architectures
Les deux principales architectures :
  • DWH (Data Warehouse) : Convient aux données structurées, offre une sécurité robuste, mais est moins flexible.
  • Data Lake : Convient aux grandes masses de données non structurées, offre plus de flexibilité mais moins de sécurité.Ces deux solutions sont choisies selon les besoins métier spécifiques
 

1.4 Suivi de la qualité des données

Comment faire un diagnostic de la qualité et suivre l'évolution de la qualité de données
Le suivi de la qualité repose sur :
  1. Diagnostiquer les problèmes de qualité (par exemple, données manquantes ou incohérentes).
  1. Définir des indicateurs spécifiques (par exemple, complétude, cohérence).
  1. Suivre l'évolution de ces indicateurs pour planifier les actions correctives nécessaires
 

1.5 Les outils

Parmi les différents outils servant la qualité de donnée, nommer un outil et expliquer en quoi cet outil participe à la qualité de données
Un outil pertinent est un outil ETL, qui assure le nettoyage, la standardisation et la déduplication des données pour garantir leur qualité. Il facilite également l'intégration et la transformation des données dans le système d'information.
 

1.6 Réglementaire

  • En France : La CNIL surveille la protection des données personnelles.
  • En Europe : Le RGPD (Règlement Général sur la Protection des Données) impose des règles strictes sur la collecte, le stockage et l'utilisation des données personnelles pour garantir leur sécurité et leur transparence

1.7 Sécurité et confidentialité

  • Anonymisation : Processus irréversible rendant impossible l'identification des données.
  • Pseudonymisation : Processus réversible où les données peuvent être reconnectées à leur source par une clé d'identification