Le Blog Data par Lizeo
Chaque jour, le volumes de données disponibles online et offline concernant les prix de marché et donc les prix de vos concurrents est en augmentation exponentielle.
Ces données de prix concurrents sont caractérisées par des formats hétérogènes (en raison d’un affichage disparate sur les différentes plateformes de vente en ligne ou de la manière dont ces données ont été collectées), ce qui complique la tâche des équipes en charge du Pricing qui doivent travailler sur des données nettoyées, uniformisées et unifiées pour effectuer des analyses pertinentes. Ces données prix aux formats hétérogènes sont appelées « Dirty Data ».
À ce stade et avec ces données en l’état, il est inutile de mettre en place votre Price Intelligence, sauf à passer énormément de temps à les nettoyer et essayer de les matcher.
Dans le contexte de l’industrie des pneumatiques, nous avons étudié les différents formes de Dirty Data que peuvent rencontrer les équipes Pricing et les conséquences sur leur job quotidien.
Les “Dirty Data” sont une expression générale définissant les données qui sont inexactes, incorrectes, incohérentes, dupliquées, incomplètes ou qui ne respectent pas les règles de votre industrie ou de vos process interne.
Nous avons construit ci dessous une liste des six types de Dirty Data les plus courantes avec des exemples illustrés appliqués aux données sur les prix des concurrents dans l’industrie des pneumatiques :
Dans le secteur des pneumatiques, les caractéristiques techniques d’un pneu, telles que l’indice de charge (LI: Load Index), l’indice de vitesse (SI: Speed Index) ou le marquage OEM, ont une forte influence sur le prix. Exemple : un pneu 205/55 R16 91V et un pneu 205/55R16 94H sont deux produits différents (indice de charge et indice de vitesse différents) avec deux prix différents. Si vos données prix concurrents ne comporte pas ces champs, votre analyse des prix sera erronée.
Dans l’analyse des prix de vente des pneus en ligne, les données dupliquées peuvent ralentir l’efficacité du Pricing Analyst: deux pneus semblent différents en raison d’une description mal orthographiée mais sont en réalité les mêmes (Michelin Pilot Sport 4 et Mich PS4). Une agrégation est alors nécessaire pour « rattacher » ces pneus à la même ligne de prix.
Dans l’industrie du pneu, cela pourrait se traduire par une taille de pneu (geobox) inexistante. Exemple: 195/25 R23.
Les données peuvent être intrinsèquement correctes mais inexactes compte tenu du contexte métier ou marché. Un exemple extrême pourrait être de réaliser une analyse des prix des pneus nordiques en incluant des données en provenance de sites de vente en ligne espagnols.
Pour les pneus, la saison (Été, Hiver, Toutes Saisons, Nordique) est essentielle pour effectuer une analyse précise des prix du marché. Mélanger les données sur le prix des pneus Été et les données sur le prix des pneus Hiver constituerait un non-respect des règles métiers liées à l’Industrie et au marché.
La cohérence des données peut être définie comme une stabilité des données et/ou des valeurs des champs dans le temps. En d’autres termes, les données sont produites régulièrement dans un cadre réglementé et prévisible, qui garantissent cette cohérence.
Pour un pneu, la façon dont la dimension est affichée en ligne est un bon exemple: 205/55/R16 ou 205-55-R 16 ou 20555R16 sont autant de combinaisons d’affichage possible. Cela peut donc entraîner des incohérences dans votre base de données lors de la collecte des données.
Selon l’étude de marché sur la qualité des données réalisée par Gartner en 2017, le coût des Dirty Data pour les entreprises est estimé en moyenne à 15 millions de dollars par an.
Ce coût est peut être sous-estimé car l’enquête s’est principalement adressée aux départements marketing, qui sont d’énormes consommateurs de données mais ce ne sont pas les seuls.
Pour les équipes Pricing, les conséquences des Dirty Data ne se situent pas seulement au stade de l’analyse des prix des concurrents, mais ils se situent aussi tout au long du processus de Pricing.
Le Data Scientist a le travail le plus ‘sale’ du 21ème siècle
Jingles (Hong Jing)
Selon une enquête menée par CrowdFlower, les Data Scientist passent entre 60 et 80 % de leur temps à nettoyer des données avant de commencer à jouer avec ce pour quoi ils sont doués : les statistiques, la modélisation des données, etc.
Coût annuel / coût moyen d’un Data Scientist junior (salaire + charges) : 120k + 80k (estimation) = 200k/an => 120k/an par Data Scientist pour nettoyer les données.
La productivité est perdue lorsque les analystes Pricing perdent leur temps à vérifier l’exactitude et la fiabilité des données prix avec lesquelles ils travaillent pour construire leur analyse et en extraire des informations stratégiques. Les mêmes problèmes se produisent avec les data scientists surtout s’ils sont occupés à nettoyer, normaliser et préparer les données avant de jouer avec des modèles statistiques ou des outils de Machine Learning.
Concrètement, la première étape de votre périple pour vous débarrasser des Dirty Data est le nettoyage des données.
Vous voulez en savoir plus sur le nettoyage des données ?
© Lizeo Group 2024, all rights reserved