Une fois la collecte des données terminée, l’étape suivante est la découverte des données, aussi appelée Data discovery.
La découverte des données est le processus de discernement des ensembles de données qui seront utilisés pour l’analyse et/ou l’intégration des données. Cette phase est essentielle pour évaluer les exigences en matière de qualité des données, car les outils de découverte des données naviguent dans les données et mettent en œuvre des analyses avancées pour détecter les modèles et les valeurs erronées.
Cela se fait en effectuant une analyse visuelle et vise à aider les utilisateurs dans leurs opérations quotidiennes et leurs décisions commerciales. Cette phase critique de la préparation des données est souvent négligée, mais comprendre les données avant qu’elles ne soient correctement traitées signifie qu’elles sont plus fiables pour des objectifs commerciaux communs.
La découverte des données implique des recherches techniques utilisant
des outils modifiés et l’expertise humaine avec l’aide de
data scientists afin d’observer tout modèle ou tendance à partir des données collectées.
La découverte de données peut être classée en deux groupes :
- La “découverte manuelle” des données est le processus traditionnel de business intelligence dans lequel les spécialistes des données cartographient les données manuellement en utilisant leur haut niveau de connaissance, de compréhension et d’expérience des cas d’utilisateurs. Cette approche repose uniquement sur la puissance du cerveau humain, où le data scientist conceptualise et dessine une carte pour corréler et comprendre les données.
- La “découverte intelligente” de données est une forme plus moderne de business intelligence, qui utilise l’apprentissage automatique (machine learning) comme un processus automatisé de révélation de données et de fourniture d’informations commerciales de haute qualité. L’utilisation de l’intelligence artificielle prend moins de temps et permet de préparer, de conceptualiser, d’intégrer et de partager des données corrélées. Un visuel de données peut être préparé, présentant des modèles cachés et des informations précieuses.
La découverte des données est une étape cruciale pour mieux familiariser l’utilisateur avec les données collectées afin de déterminer le traitement nécessaire pour que les informations puissent être exploitées.