Vous vous êtes déjà surement posé ce problème : vous voulez acheter un ordinateur au meilleur prix, mais vous faites face à plusieurs difficultés. Il y a beaucoup de critères à prendre en compte, dont certains sont assez techniques, et vous n’avez pas tellement le temps pour vous informer précisément.

INTRODUCTION

Vous vous êtes déjà surement posé ce problème : vous voulez acheter un ordinateur au meilleur prix, mais vous faites face à plusieurs difficultés. Il y a beaucoup de critères à prendre en compte, dont certains sont assez techniques, et vous n’avez pas tellement le temps pour vous informer précisément.

Sortir des tendances significatives d’un grand ensemble de données hétérogène est précisément l’intérêt des statistiques. L’étude s’attache ainsi à savoir comment les algorithmes de Machine Learning peuvent nous aider à faire des choix complexes et ce jusque dans ce problème de la vie quotidienne.

L’algorithme choisi pour répondre à cette problématique est celui de la régression linéaire multi-variable. L’algorithme détermine les coefficients de l’équation linéaire permettant de prédire au mieux le prix de l’ensemble des ordinateurs de la base de données. Les coefficients ainsi déterminés prennent en compte la présence ou non de chaque composant ainsi que la valeur de chaque caractéristique. Ils représentent ainsi un prix « moyen » pour chaque composant ou caractéristique.

Regardez le code sur Github

DONNÉES, PRÉPARATION ET NETTOYAGE

La base de données est agrégée depuis la page internet du revendeur. Le texte est directement copié du site internet. La méthode est ainsi transposable à tous les sites d’e-commerce. Les données textuelles sont ensuite réorganisées grâce aux fonctions automatiques d’un logiciel de type tableur. L’exemple d’analyse se base sur 26 ordinateurs afin que l’exercice puisse être réalisé dans un temps limité, celui de l’atelier.

Le jeu de donnée est préparé informatiquement, afin qu’on puisse lui appliquer l’algorithme de la régression linéaire multi-variable. On s’assure que les coefficients de l’équation linéaire soient positifs car ils représentent des prix moyens. Les composants à contribution nulle ont été enlevés et sont donc, d’après cette étude, jugés comme non-significatifs. Les composants restants sont d’après l’étude les composants significatifs dans l’établissement du prix.

RÉSULTATS DE LA PRÉDICTION

Les coefficients de l’équation, représentant le prix « moyen » de chaque composant ou caractéristique, sont présentés dans le tableau suivant :

Le graphique suivant montre les prix estimés selon l’algorithme, pour les comparer avec les prix réels observés sur le site d’e-commerce. Les chiffres en abscisse correspondent au numéro d’identification des ordinateurs, classés par ordre de prix croissant.

On observe ainsi que l’algorithme arrive à prédire le prix avec une très grande précision.

IMPACT DU MODÈLE : L’OFFRE EST-ELLE UNE BONNE AFFAIRE ?

Le modèle de prédiction permet ainsi d’obtenir des informations capitales dans le choix de l’ordinateur, au prix d’un effort très raisonnable. Le temps nécessaire peut être quasi-instantané si la base de données est déjà disponible et le code informatique correctement paramétré. Le modèle permet ainsi de savoir :

– Quels sont les caractéristiques significatives dans l’établissement du prix de l’ordinateur ? Êtes-vous prêts à payer le prix moyen d’une caractéristique particulière ?
– S’agit-il d’une bonne affaire ou non ? Le prix prédit représente un prix moyen calculé sur la base des caractéristiques de l’ordinateur. Si le prix réel est plus faible que le prix prédit, alors cela veut dire que l’offre est statistiquement une « bonne affaire ».