Zoom sur la Data Science : comprendre la science des données

Qu’est-ce que la Data Science ?

La Data Science s’est développée avec l’arrivée des volumes massifs de données et ce grâce au Big Data. La science des données consiste en l’extraction d’informations à partir de données prenant différentes formes : des données structurées, des images, des sons… En utilisant des modèles statistiques ainsi que le machine learning. Elle regroupe plusieurs méthodes provenant de domaines tels que les mathématiques, les statistiques ou l’informatique.

 

  • En Data Science, nous notons l’importance des 5 V du Big Data :
  • Le volume : plus on a de données, plus on va en extraire des informations précises ;
  • La vélocité : il est parfois important de traiter les données les plus récentes ;
  • La variété : on peut créer des modèles sur tous types de données ;
  • La véracité : il faut des données fiables pour un modèle performant ;
  • La valeur : la data science ajoute de la valeur aux données.
  • La Data Science est utilisée dans différents secteurs :
  • La santé : détection automatique de tumeurs cérébrales sur des images d’IRM ;
  • Le marketing : ciblage des publicités en fonction des articles précédemment recherchés ;
  • L’énergie : prédiction des consommations futures (et donc de la quantité d’énergie à produire).

Utiliser la Data Science pour prédire le prix de vente d’appartements

Nous allons prendre ici comme exemple la prédiction des prix de vente d’appartements. Nous utilisons des données structurées, chaque ligne correspond à une vente d’appartement et chaque colonne contient des informations sur le bien (superficie, nombre d’étages, nombre d’ascenseurs…).

 

La récupération et le nettoyage des données

Pour réaliser un projet en Data Science, la première étape est de définir les données nécessaires au projet, puis de les collecter. Elles peuvent provenir de la base de données d’une entreprise, de sources publiques (comme les transactions immobilières) ou être produites pour le projet (si nous voulons créer un modèle qui prédit le prix de vente d’un appartement, nous devons créer une base contenant des informations sur des appartements qui ont été vendus).

Une fois qu’elles sont en notre possession, il faut s’assurer que celles-ci soient exploitables pour notre projet. Nous allons donc trier les données obtenues afin de conserver celles qui sont pertinentes, supprimer celles comportant des erreurs et gérer les valeurs manquantes (en estimant la valeur ou en supprimant des données). Ce processus est nécessaire et important, car si nous créons un modèle sur des données imprécises ou fausses, celui-ci donnera des résultats erronés.

Avant de créer le modèle, nous pouvons également effectuer des transformations sur les données, en combinant des variables ou en changeant le type. Voici deux exemples de modifications :

  • – Calcul de l’ancienneté de l’appartement au moment de la vente ;
  • – Transformation de la variable « Nombre d’ascenseurs » en une variable « Présence ou non d’ascenseurs ».

 

L’exploration des données, une première étape

Lorsque nous sommes sûrs que les données sont fiables et prêtes à être utilisées, nous pouvons commencer ce que nous appelons l’exploration de données. Elle permet de mieux comprendre les données que nous allons utiliser et d’en tirer des premières informations. Nous pourrons, par exemple, étudier les relations entre nos différentes variables ou leur distribution.

Ici, nous étudions le lien entre le prix de vente et la superficie de l’appartement dans le premier graphique. Nous étudions également, dans le second graphique, la variable que nous avons créée : l’ancienneté de l’appartement par rapport au prix de vente.

Nous voyons que la superficie de l’appartement a une influence sur le prix de vente : plus elle est grande, plus le prix est élevé, et ce, jusqu’à une certaine superficie. Pour les appartements les plus grands, la superficie seule n’explique plus le prix.
Une nouvelle fois, nous observons un effet de la variable sur le prix de vente : les appartements récents sont plus chers.

La création d’un modèle sur les données

Qu’est-ce que le machine learning ? 

Le principe du machine learning est de modéliser et généraliser un phénomène à partir d’un ensemble de données et de la meilleure façon possible. Pour cela, le modèle prend des données en entrée et donne un résultat en sortie. Les deux principaux problèmes traités par le machine learning sont :

  • – La prédiction : nous voulons prédire une valeur en fonction des données;
  • – La classification : par exemple, nous avons des images de différents animaux et nous souhaitons pouvoir dire à quels animaux correspondent les images.

Pour créer le modèle, nous entamons une première phase dite d’apprentissage, réalisée à partir des données disponibles. Nous distinguons deux grands types d’apprentissage : les apprentissages supervisés et non supervisés.

Dans le cas de l’apprentissage supervisé, nous connaissons le résultat attendu. Nous créons un modèle qui apprend les relations entre données d’entrée et résultats attendus, dans le but d’être utilisé sur de nouvelles données. Ici, nous connaissons le prix de vente des appartements et leurs caractéristiques. Le modèle va apprendre les relations entre caractéristiques et prix sur ces données, et pourra être réutilisé pour prédire le prix d’autres appartements, pas encore vendus.

Pour l’apprentissage non supervisé, il n’y a pas de résultat attendu. Le principe est de trouver des liens entre les données, par exemple en les regroupant. Dans le cas de la vente d’appartements, nous pouvons utiliser cela pour voir s’il existe des profils types de vente. Le modèle prend en entrée la liste des transactions et donne en sortie un groupe associé à chaque transaction, en groupant les transactions similaires. Cela peut donner par exemple : un groupe avec les appartements récents plutôt chers, un groupe avec des appartements peu chers, un groupe avec des appartements de grande superficie … L’objectif est que les appartements d’un même groupe soient les plus similaires possibles.

 

Comment sélectionner un modèle ?

Plusieurs modèles sont souvent créés et comparés afin de choisir le plus performant. Pour évaluer la performance d’un modèle nous utilisons un ensemble de validation, c’est-à-dire des données que le modèle n’a jamais vues et dont on connaît le résultat attendu en sortie. De cette façon, nous pouvons estimer la performance du modèle sur de nouvelles données.

Cette performance est calculée différemment selon l’objectif du modèle. S’il doit être capable de classer une image dans différents groupes, nous pouvons calculer comme indicateur de performance le pourcentage de réussite. Cependant, nous ne pouvons pas utiliser cet indicateur pour un modèle qui doit prédire un prix de vente. Dans ce cas, nous utilisons par exemple l’erreur moyenne, c’est-à-dire que nous calculons l’écart de chaque prédiction avec la réalité et nous faisons la moyenne de ces écarts.

 

Test de différents modèles

Pour la prédiction du prix de vente des appartements, nous testons différents modèles que nous allons comparer en utilisant l’erreur moyenne. Nous comparons notamment un modèle linéaire et un modèle appelé RandomForest.

Modèle utilisé Erreur moyenne
Modèle linéaire sans la variable Ancienneté 61404
RandomForest sans la variable Ancienneté 55380
Modèle linéaire avec la variable Ancienneté 31924
RandomForest avec la variable Ancienneté 18531

 

Le modèle de RandomForest est celui qui obtient les meilleurs résultats. Cela s’explique par le fait que les relations entre les variables ne sont pas forcément linéaires, comme nous l’avions vu avec la superficie de l’appartement.

Nous voyons aussi que les performances s’améliorent nettement avec l’ajout de la variable ancienneté, ce qui montre l’importance du nettoyage et du traitement des données, qui est ici la partie à creuser en premier si nous voulons continuer d’améliorer les performances du modèle.

L’importance des données et du machine learning en Data Science

Le machine learning est une partie importante de la data science. Or, choisir le bon modèle avec les paramètres optimaux ne suffit pas. En effet, les données sont extrêmement importantes, c’est de celles-ci que part tout le projet. Sans données, ou avec des données de mauvaise qualité, nous ne pourrons pas réaliser de modèle pertinent.

En data science, il est nécessaire de travailler sur ces différentes étapes afin d’obtenir un projet abouti avec des résultats corrects.

 

 

Articlé rédigé par Maxime, agicien Data Scientist

Sources :

  • https://www.data.go.kr/
  • https://www.kaggle.com/gunhee/koreahousedata

 

 

Autres articles

Coding Game Competition !

Le lundi 17 février 2020

Cher joueur, Chère joueuse du 1er Coding Game de l’année 2020,

Qui dit nouvelle année, dit RENOUVEAU. Alors, Agixis sort le grand jeu et lance THE CODING GAME COMPETITION.

(suite…)

Notre dernière soirée d’agence : Atelier chocolat

Le mardi 10 décembre 2019

 

La magie de Noël était au rendez-vous hier lors de notre soirée d’agence autour d’un atelier chocolat. Au programme : découvertes, dégustations et fabrications..pour le plaisir des papilles de nos Agiciens ! 

Partenariats école : pour vous, étudiants en master ou écoles d’ingénieur, une vraie première opportunité de carrière !

Le lundi 2 décembre 2019

 

Agixis place les partenariats école au cœur de ses enjeux. Nous entretenons des relations privilégiées et de confiance auprès de plusieurs écoles prestigieuses : INSA, EPITECH, SupInfo, ESIREM, UTBM, UTT de Troyes, Université de Franche-Comté. Ensemble, nous organisons des ateliers, des entretiens, des forums et des événements école.

(suite…)

Logo Agixis

CONTACTEZ-NOUS :
04 27 02 74 49

115 boulevard de Stalingrad 69100 Villeurbanne

Mentions légales - Création : Agence 33 Degrés : Agence de communication lyon - Développement : WebForLyon

Logo Agixis

MENU

Meeting agile Agixis Meeting agile Agixis
Logo Agixis

  • Accueil
  • Agixis
  • Métiers
  • Services
  • Solutions
  • Références
  • Nous rejoindre
  • Postuler
  • Actualités
  • Contact

Meeting agile Agixis Meeting agile Agixis

Recherche


Dernières annonces

  • Développeur fullstack Symfony/Vuejs H/F

    Dév’ fullstack PHP Symfony/Vuejs, tu as envie d'évoluer dans un environnement technique innovant...

    Découvrir
  • Développeur front-end JS H/F

    Dev’ Front, tu as envie d'évoluer dans un environnement technique innovant ? Révolutionnaire, tu...

    Découvrir
  • Développeur Java/J2ee H/F

    Dév’ Java/J2ee, tu as envie d'évoluer dans un environnement technique innovant ? Révolutionnair...

    Découvrir

AGIXIS
Immeuble Central Parc II
115, boulevard de Stalingrad
69100 Villeurbanne