Comme beaucoup, vous avez surement été amené un jour à placer votre logement sur Airbnb. Belles photos, mise à disposition d’équipements divers, tout y passe. Mais une question majeure et souvent discriminante de votre annonce reste celle du prix.

Ce projet vise à en simplifier la fixation par rapport à la concurrence, les autres annonces.

INTRODUCTION

Une problématique majeure des entreprises est la connaissance du marché. Pour une entreprise de e-commerce, cette question devient stratégique car la concurrence est intense. Ici la méthodologie employée va être appliquée à un service d’une entreprise e-commerce sur un produit difficile, et dans une économie insulaire : la fixation du prix d’un logement Airbnb dans la ville de Saint-François en Guadeloupe.

Le benchmark commercial peut être automatisé pour un traitement effectué, dans une seconde phase, avec les outils du Data Scientist. Ce projet montre de quelle manière il est possible d’automatiser la collecte des données pour en dégager des tendances, des indicateurs et des calculs de prix.

3 pistes seront abordées :

  • l’étude du marché
  • la collecte puis l’analyse de données
  • les améliorations pouvant être apportées au modèle

L’ÉTUDE DE MARCHÉ

L’objectif a été de recenser un nombre suffisant de données qualitatives et quantitatives de façon à se forger une idée précise de la concurrence, les autres annonces présentes sur Airbnb.

Dans notre projet, nous avons collecté 9 types d’informations, allant de la position de l’annonce dans les résultats Airbnb au taux de réponses aux mails en passant par le statut du loueur (Superhost ou non).

Le temps imparti pour le projet n’a pas permis de mettre en place un robot autonome pour la collecte des informations. Néanmoins, il a permis de récolter les données page par page. Une optimisation du robot permettra de le lancer sur une région ou une ville afin de collecter les données de toutes les annonces.

En outre, le site Airbnb a des protections contre le scrapping de données, l’extraction de données. Tout d’abord, il y a un maximum de 8 pages consultables par minute. Au-delà, votre adresse IP est black-listée. D’autre part, les éléments de la page, notamment le prix, peuvent ne s’afficher (dans le HTML de la page) qu’au bout de plusieurs secondes. Il est donc indispensable de recourir à un outil de type Selenium qui dirige Firefox, via des commandes Python. Ainsi, vous pouvez différer de quelques secondes la collecte des données.

LA COLLECTE & L’ANALYSE DE DONNÉES

Cette partie est la plus intéressante, s’agissant des Data sciences : comment collecter, traiter et gérer les données de milliers de concurrents ?

Il n’est pas envisageable de copier-coller les prix et autres données dans Excel. Il faut les regrouper dans un fichier CSV ou dans une base de données directement. Dans notre projet, nous avons regroupé nos données dans un fichier CSV.

L’analyse des données des annonces Airbnb était également intéressante sur le fond. Il y a plusieurs catégories de locations : appartements en résidence ou hors résidence, bungalow et maison. S’agissant de prédire un prix sur la base de critères multiples, la régression multiple était la méthode à employer.

Avant cela, nous avons sélectionné les critères entrant en jeu dans la formation du prix. Cette fonction SelectKBest sur Python identifie les N critères les plus pertinents. Nous avons testé la sélection de 4, de 5 et de 8 critères. Le résultat a été la sélection de 4 critères : le nombre de voyageurs, de chambres de lits et de salles de bains.

Au final, nous avons pu identifier la formule de la formation du prix et indiquer également en conclusion le prix idéal pour les spécifications de la location d’une offre spécifique, notre client : un prix de 58 euros qui place sa location dans les prix du marché.

LES PISTES D’AMÉLIORATION

Ce projet a été un challenge passionnant et qui m’intéressait pour les aspect commerciaux et stratégiques.

Il est important de remettre en perspective cette étude. En effet, le projet a été réalisé sur la semaine de location allant du 22 au 29 décembre (haute saison en Guadeloupe). Pour vraiment être pertinent et offrir des indicateurs de qualité à une entreprise, il serait pertinent de mesurer non seulement les prix toute l’année mais aussi l’évolution par périodes.

Une des questions intéressantes serait aussi : comment les loueurs gèrent leurs tarifications en fonction des saisons ? La haute saison a un tarif plus élevé que la baisse saison. Oui, mais de combien ? Autre question. Le loueur met un logement en location sur Airbnb des mois, voire 1 an à l’avance. Comment gère-t-il les prix pour une réservation 3 mois, 6 mois ou 1 an à l’avance ?

En automatisant la collecte des prix, on peut alors mettre en place une archive dont les techniques de Data science permettront l’interrogation pour comprendre la variation des prix dans le temps.