Le Blog Data par Lizeo

Les impacts des Dirty Data dans l'analyse des prix de vos concurrents

Les impacts des Dirty Data dans l'analyse des prix de vos concurrents

Chaque jour, le volumes de données disponibles online et offline concernant les prix de marché et donc les prix de vos concurrents est en augmentation exponentielle. 

Ces données de prix concurrents sont caractérisées par des formats hétérogènes (en raison d’un affichage disparate sur les différentes plateformes de vente en ligne ou de la manière dont ces données ont été collectées), ce qui complique la tâche des équipes en charge du Pricing qui doivent travailler sur des données nettoyées, uniformisées et unifiées pour effectuer des analyses pertinentes. Ces données prix aux formats hétérogènes sont appelées « Dirty Data ».

À ce stade et avec ces données en l’état, il est inutile de mettre en place votre Price Intelligence, sauf à passer énormément de temps à les nettoyer et essayer de les matcher. 

Dans le contexte de l’industrie des pneumatiques, nous avons étudié les différents formes de Dirty Data que peuvent rencontrer les équipes Pricing et les conséquences sur leur job quotidien.

Qu’est-ce que les “Dirty Data” ?​

Les “Dirty Data” sont une expression générale définissant les données qui sont inexactes, incorrectes, incohérentes, dupliquées, incomplètes ou qui ne respectent pas les règles de votre industrie ou de vos process interne.

Nous avons construit ci dessous une liste des six types de Dirty Data les plus courantes avec des exemples illustrés appliqués aux données sur les prix des concurrents dans l’industrie des pneumatiques :

Les données incomplètes​

C’est assez facile à comprendre. Les données incomplètes comportent des champs ou des valeurs manquantes qui sont nécessaires et obligatoires pour pouvoir exécuter votre processus de Pricing.

Dans le secteur des pneumatiques, les caractéristiques techniques d’un pneu, telles que l’indice de charge (LI: Load Index), l’indice de vitesse (SI: Speed Index) ou le marquage OEM, ont une forte influence sur le prix. Exemple : un pneu 205/55 R16 91V et un pneu 205/55R16 94H sont deux produits différents (indice de charge et indice de vitesse différents) avec deux prix différents. Si vos données prix concurrents ne comporte pas ces champs, votre analyse des prix sera erronée.

Les données dupliquées​

Les données dupliquées pourraient être l’un des exemples les plus populaires des Dirty Data. La plupart des entreprises sont confrontées à ce problème avec des enregistrements de données en doublons, que ce soit des enregistrements clients dans leur CRM ou des produits dans leur système de Master Data Management System ou dans leur ERP.

Dans l’analyse des prix de vente des pneus en ligne, les données dupliquées peuvent ralentir l’efficacité du Pricing Analyst: deux pneus semblent différents en raison d’une description mal orthographiée mais sont en réalité les mêmes (Michelin Pilot Sport 4 et Mich PS4). Une agrégation est alors nécessaire pour « rattacher » ces pneus à la même ligne de prix.

Les données incorrectes​

Les données incorrectes peuvent être définies comme des valeurs de champ qui se situent en dehors de la plage de valeurs valables ou réelles.

Dans l’industrie du pneu, cela pourrait se traduire par une taille de pneu (geobox) inexistante. Exemple: 195/25 R23.

Les données inexactes​​

La définition de données exactes peut être résumée par la question suivante : Les données représentent-elles fidèlement le champ d’application que vous avez défini dans les premières étapes de la définition des besoins en matière d’information sur les prix ? 

Les données peuvent être intrinsèquement correctes mais inexactes compte tenu du contexte métier ou marché. Un exemple extrême pourrait être de réaliser une analyse des prix des pneus nordiques en incluant des données en provenance de sites de vente en ligne espagnols.

Le non-respect des règles métier​

Les règles métier sont essentielles pour transformer des données « brutes » sur les prix des concurrents en votre propre vision du marché. Ces règles métier sont spécifiques à votre industrie, vos processus commerciaux et au contexte.

Pour les pneus, la saison (Été, Hiver, Toutes Saisons, Nordique) est essentielle pour effectuer une analyse précise des prix du marché. Mélanger les données sur le prix des pneus Été et les données sur le prix des pneus Hiver constituerait un non-respect des règles métiers liées à l’Industrie et au marché.

Les données incohérentes

La cohérence des données peut être définie comme une stabilité des données et/ou des valeurs des champs dans le temps. En d’autres termes, les données sont produites régulièrement dans un cadre réglementé et prévisible, qui garantissent cette cohérence.

Pour un pneu, la façon dont la dimension est affichée en ligne est un bon exemple: 205/55/R16 ou 205-55-R 16 ou 20555R16 sont autant de combinaisons d’affichage possible. Cela peut donc entraîner des incohérences dans votre base de données lors de la collecte des données.

Quelles sont les conséquences des Dirty Data sur la veille tarifaire de vos concurrents ?

Selon l’étude de marché sur la qualité des données réalisée par Gartner en 2017, le coût des Dirty Data pour les entreprises est estimé en moyenne à 15 millions de dollars par an.

Ce coût est peut être sous-estimé car l’enquête s’est principalement adressée aux départements marketing, qui sont d’énormes consommateurs de données mais ce ne sont pas les seuls.

Pour les équipes Pricing, les conséquences des Dirty Data ne se situent pas seulement au stade de l’analyse des prix des concurrents, mais ils se situent aussi tout au long du processus de Pricing.

Les conséquences des Dirty Data dans votre processus de pricing

  • Temps supplémentaire consacré au nettoyage des données,
  • Analyse erronée des prix du marché en raison de :
    • un mélange de données prix concernant des pneus avec marquage OEM et sans OEM
    • une mauvaise dénomination de la marque ou du produit : Mich., Michel, Michelin
    • un mauvais niveau de prix : prix collecté à l’unité ou prix ‘basket’ (groupe de 2 à 4 pneus)

  • Un retard dans le déploiement d’un nouveau processus, outil, solution,
  • Une perte de confiance et de crédibilité dans les outils d’analyse (Market Intelligence),
  • Impossibilité de :
    • faire la correspondance avec des données internes : données sur les prix de vente,
    • utiliser les outils et les plates-formes de Pricing
    • mettre en œuvre correctement une stratégie de Pricing ‘rule based’ ou value based’
    • construire des panels de comparaison de pneus concurrents

  • Une perte de recettes et de parts de marché due à une mauvaise fixation des prix.

Les conséquences des Dirty Data dans votre projet de Price Data Science

Le Data Scientist a le travail le plus ‘sale’ du 21ème siècle

Selon une enquête menée par CrowdFlower, les Data Scientist passent entre 60 et 80 % de leur temps à nettoyer des données avant de commencer à jouer avec ce pour quoi ils sont doués : les statistiques, la modélisation des données, etc.

Faisons quelques calculs simples et une estimation générale des couts :

Coût annuel / coût moyen d’un Data Scientist junior (salaire + charges) : 120k + 80k (estimation) = 200k/an => 120k/an par Data Scientist pour nettoyer les données.

  • Les retards dans vos projets Data Science et les perspectives attendues
  • La baisse de motivation de votre équipe de Data Scientist
  • L’impossibilité de faire fonctionner les outils d’apprentissage automatique ou d’IA

Alors, comment se débarrasser des “Dirty Data” ?

En l’absence de directives et de processus standard pour maintenir les données sur les prix des concurrents ‘propres’ avec un niveau de qualité minimum, les problèmes de Dirty Data sont inévitables.

La productivité est perdue lorsque les analystes Pricing perdent leur temps à vérifier l’exactitude et la fiabilité des données prix avec lesquelles ils travaillent pour construire leur analyse et en extraire des informations stratégiques.  Les mêmes problèmes se produisent avec les data scientists surtout s’ils sont occupés à nettoyer, normaliser et préparer les données avant de jouer avec des modèles statistiques ou des outils de Machine Learning.

Concrètement, la première étape de votre périple pour vous débarrasser des Dirty Data est le nettoyage des données. 

Vous voulez en savoir plus sur le nettoyage des données ?