Qu’est-ce que la Data Science ?

La Data Science s’est développée avec l’arrivée des volumes massifs de données et ce grâce au Big Data. La science des données consiste en l’extraction d’informations à partir de données prenant différentes formes : des données structurées, des images, des sons… En utilisant des modèles statistiques ainsi que le machine learning. Elle regroupe plusieurs méthodes provenant de domaines tels que les mathématiques, les statistiques ou l’informatique.  
  • En Data Science, nous notons l’importance des 5 V du Big Data :
  • Le volume : plus on a de données, plus on va en extraire des informations précises ;
  • La vélocité : il est parfois important de traiter les données les plus récentes ;
  • La variété : on peut créer des modèles sur tous types de données ;
  • La véracité : il faut des données fiables pour un modèle performant ;
  • La valeur : la data science ajoute de la valeur aux données.
  • La Data Science est utilisée dans différents secteurs :
  • La santé : détection automatique de tumeurs cérébrales sur des images d’IRM ;
  • Le marketing : ciblage des publicités en fonction des articles précédemment recherchés ;
  • L’énergie : prédiction des consommations futures (et donc de la quantité d’énergie à produire).

Utiliser la Data Science pour prédire le prix de vente d’appartements

Nous allons prendre ici comme exemple la prédiction des prix de vente d’appartements. Nous utilisons des données structurées, chaque ligne correspond à une vente d’appartement et chaque colonne contient des informations sur le bien (superficie, nombre d’étages, nombre d’ascenseurs…).  

La récupération et le nettoyage des données

Pour réaliser un projet en Data Science, la première étape est de définir les données nécessaires au projet, puis de les collecter. Elles peuvent provenir de la base de données d’une entreprise, de sources publiques (comme les transactions immobilières) ou être produites pour le projet (si nous voulons créer un modèle qui prédit le prix de vente d’un appartement, nous devons créer une base contenant des informations sur des appartements qui ont été vendus). Une fois qu’elles sont en notre possession, il faut s’assurer que celles-ci soient exploitables pour notre projet. Nous allons donc trier les données obtenues afin de conserver celles qui sont pertinentes, supprimer celles comportant des erreurs et gérer les valeurs manquantes (en estimant la valeur ou en supprimant des données). Ce processus est nécessaire et important, car si nous créons un modèle sur des données imprécises ou fausses, celui-ci donnera des résultats erronés. Avant de créer le modèle, nous pouvons également effectuer des transformations sur les données, en combinant des variables ou en changeant le type. Voici deux exemples de modifications :
  • – Calcul de l’ancienneté de l’appartement au moment de la vente ;
  • – Transformation de la variable « Nombre d’ascenseurs » en une variable « Présence ou non d’ascenseurs ».
 

L’exploration des données, une première étape

Lorsque nous sommes sûrs que les données sont fiables et prêtes à être utilisées, nous pouvons commencer ce que nous appelons l’exploration de données. Elle permet de mieux comprendre les données que nous allons utiliser et d’en tirer des premières informations. Nous pourrons, par exemple, étudier les relations entre nos différentes variables ou leur distribution. Ici, nous étudions le lien entre le prix de vente et la superficie de l’appartement dans le premier graphique. Nous étudions également, dans le second graphique, la variable que nous avons créée : l’ancienneté de l’appartement par rapport au prix de vente.
Nous voyons que la superficie de l’appartement a une influence sur le prix de vente : plus elle est grande, plus le prix est élevé, et ce, jusqu’à une certaine superficie. Pour les appartements les plus grands, la superficie seule n’explique plus le prix.
Une nouvelle fois, nous observons un effet de la variable sur le prix de vente : les appartements récents sont plus chers.

La création d’un modèle sur les données

Qu’est-ce que le machine learning ? 

Le principe du machine learning est de modéliser et généraliser un phénomène à partir d’un ensemble de données et de la meilleure façon possible. Pour cela, le modèle prend des données en entrée et donne un résultat en sortie. Les deux principaux problèmes traités par le machine learning sont :
  • – La prédiction : nous voulons prédire une valeur en fonction des données;
  • – La classification : par exemple, nous avons des images de différents animaux et nous souhaitons pouvoir dire à quels animaux correspondent les images.
Pour créer le modèle, nous entamons une première phase dite d’apprentissage, réalisée à partir des données disponibles. Nous distinguons deux grands types d’apprentissage : les apprentissages supervisés et non supervisés. Dans le cas de l’apprentissage supervisé, nous connaissons le résultat attendu. Nous créons un modèle qui apprend les relations entre données d’entrée et résultats attendus, dans le but d’être utilisé sur de nouvelles données. Ici, nous connaissons le prix de vente des appartements et leurs caractéristiques. Le modèle va apprendre les relations entre caractéristiques et prix sur ces données, et pourra être réutilisé pour prédire le prix d’autres appartements, pas encore vendus. Pour l’apprentissage non supervisé, il n’y a pas de résultat attendu. Le principe est de trouver des liens entre les données, par exemple en les regroupant. Dans le cas de la vente d’appartements, nous pouvons utiliser cela pour voir s’il existe des profils types de vente. Le modèle prend en entrée la liste des transactions et donne en sortie un groupe associé à chaque transaction, en groupant les transactions similaires. Cela peut donner par exemple : un groupe avec les appartements récents plutôt chers, un groupe avec des appartements peu chers, un groupe avec des appartements de grande superficie … L’objectif est que les appartements d’un même groupe soient les plus similaires possibles.  

Comment sélectionner un modèle ?

Plusieurs modèles sont souvent créés et comparés afin de choisir le plus performant. Pour évaluer la performance d’un modèle nous utilisons un ensemble de validation, c’est-à-dire des données que le modèle n’a jamais vues et dont on connaît le résultat attendu en sortie. De cette façon, nous pouvons estimer la performance du modèle sur de nouvelles données. Cette performance est calculée différemment selon l’objectif du modèle. S’il doit être capable de classer une image dans différents groupes, nous pouvons calculer comme indicateur de performance le pourcentage de réussite. Cependant, nous ne pouvons pas utiliser cet indicateur pour un modèle qui doit prédire un prix de vente. Dans ce cas, nous utilisons par exemple l’erreur moyenne, c’est-à-dire que nous calculons l’écart de chaque prédiction avec la réalité et nous faisons la moyenne de ces écarts.  

Test de différents modèles

Pour la prédiction du prix de vente des appartements, nous testons différents modèles que nous allons comparer en utilisant l’erreur moyenne. Nous comparons notamment un modèle linéaire et un modèle appelé RandomForest.
Modèle utilisé Erreur moyenne
Modèle linéaire sans la variable Ancienneté 61404
RandomForest sans la variable Ancienneté 55380
Modèle linéaire avec la variable Ancienneté 31924
RandomForest avec la variable Ancienneté 18531
  Le modèle de RandomForest est celui qui obtient les meilleurs résultats. Cela s’explique par le fait que les relations entre les variables ne sont pas forcément linéaires, comme nous l’avions vu avec la superficie de l’appartement. Nous voyons aussi que les performances s’améliorent nettement avec l’ajout de la variable ancienneté, ce qui montre l’importance du nettoyage et du traitement des données, qui est ici la partie à creuser en premier si nous voulons continuer d’améliorer les performances du modèle.

L’importance des données et du machine learning en Data Science

Le machine learning est une partie importante de la data science. Or, choisir le bon modèle avec les paramètres optimaux ne suffit pas. En effet, les données sont extrêmement importantes, c’est de celles-ci que part tout le projet. Sans données, ou avec des données de mauvaise qualité, nous ne pourrons pas réaliser de modèle pertinent. En data science, il est nécessaire de travailler sur ces différentes étapes afin d’obtenir un projet abouti avec des résultats corrects.     Articlé rédigé par Maxime, agicien Data Scientist Sources :