Introduction à la Data Science : Comprendre les concepts de base et les applications pratiques

article big data data science machine learning Sep 11, 2024

La data science est un domaine apparu cette dernière décennie avec l’émergence du big data et du stockage de grand volume de données. Il englobe des concepts et des métiers qui ont évolués avec le temps et l’apparition de nouvelles technologies comme les services cloud. Dans cet article nous expliquons ce qu’est la data-science, ses concepts de base et un exemple de ses applications au quotidien.

 
Qu’est-ce que la data science ?

Le terme data science existe depuis bien longtemps mais est devenu populaire en dehors du milieu universitaire avec le métier de data scientist.

Sa mission ? Analyser et valoriser la masse de donnée du big data grâce à la puissance de calcul des nouvelles technologies. C’est dans un contexte de haute disponibilité de ces technologies à bas coût que ce métier est devenu recherché.

Pour cela il doit être capable de combiner 3 domaines de compétences : les mathématiques, l’informatique et la connaissance du business de l’entreprise comme illustré sur le schémas ci-dessous :

Graphique souvent utilisé pour résumer les domaines de compétence de la data science

D’autres ont bien essayé de compléter ce diagramme de Venn, mais les tâches étant diverses et variées il est difficile de les regrouper sous une seule dénomination. Par exemple pour le duo Informatique / Business : le data scientist doit être capable d’échanger avec les interlocuteurs métiers afin de collecter ses données (audit), mais aussi de communiquer ses résultats (datastory telling), de produire une application utilisable (data vizualisation), ou encore de soutenir les décisions stratégiques avec ses analyses data (conseil).

 
Le Machine Learning

Le Machine Learning est un domaine de l'intelligence artificielle qui utilise des techniques statistiques pour donner aux systèmes informatiques la capacité d'« apprendre » (cf paragraphe suivant sur les techniques d’apprentissage) à partir de données, sans être explicitement programmés.

Dans la programmation traditionnelle, un développeur écrit un programme qui prend des données en entrée (input) et va sortir des résultats en sortie (output) après exécution.

Pour le Machine Learning l’approche est différente : le data scientist va utiliser l’input et l’output pour créer un programme réutilisable pour prédire le résultat d’autres données (dont on ne connait pas les résultats).

Ci-dessous en orange la programmation Machine Learning, et en gris son exploitation comme un programme traditionnel

 

Quelques domaines d’application de Machine Learning sont listés ci-dessous :

  • Dans le domaine bancaire : déterminer si un paiement est considéré comme une fraude ou pas
  • Dans la santé : évaluer la probabilité qu’un patient puisse être réhospitaliser dans les prochain 6 mois
  • Dans le traitement d’image: reconnaître l’écriture d’un caractère ou le nombre de personne entrant dans un magasin pour calculer l’affluence
  • Dans les transports : prédire le tarif de la course d’un taxi
  • Dans la restauration : prédire combien de visiteurs va accueillir un restaurant
  • Dans l’e-commerce : recommander un produit à un client
  • Dans le marketing: segmenter une base de données client pour adapter ses campagnes de communication
 
Les algorithmes d’apprentissage

L’objectif de l’apprentissage est d’améliorer progressivement les performances sur une tâche spécifique.

Il existe un certains nombres de techniques d’« apprentissage » (training) dont un découpage important est décrit ci-dessous

  1. Apprentissage non supervisé

Appelé aussi « clustering » il a comme objectif que le système parvienne par lui-même à créer un modèle à partir d’exemple.

Cela présuppose donc qu’il existe des liens de similarité entre les observations du dataset. Le modèle sera ensuite réutiliser pour regrouper les données par catégorie.

Un exemple d’algorithme est celui des « k-means » où l'on divise des observations en k partitions, chaque partition étant représentée par un noyau (kernel) pouvant être une moyenne (means) ou un calcul plus complexe. Segmenter une base de données client peut-être un exemple de Kmeans dès lors que l’on sait le nombre k de catégorie attendue en sortie.

En bleu la partie « d’apprentissage », en vert la partie de « prédiction »

 

  1. Apprentissage supervisé

C’est la forme la plus courante de machine learning. Il s’agit de créer le modèle statistique à partir de valeurs observées dont on connaît déjà les valeurs cibles.

Cela présuppose qu’il y ait à disposition un ensemble d’exemple dont on connait déjà les résultats attendus. Le modèle sera ensuite réutiliser pour prédire le résultat d’autres données non étiquetées (c.a.d : dont on ne connait pas les résultats).

Un exemple d’algorithme est celui de la régression linéaire où l’on suppose qu’il existe une tendance « linéaire » , c’est-à-dire sous la forme de l’équation f(x) = ax + b, qui lie les valeurs observées x aux valeurs cibles f(x). Prédire le tarif de la course d’un taxi est un exemple de régression linéaire car on souhaite prédire une quantité : le tarif.

Une étape est ajoutée dans le mode « supervisé », ici sous l’appellation : labels (étiquettes)

 

  1. Les outils

Une des boites à outils les plus appréciées de la communauté des data scientists est constituée des éléments suivants :

  • Python : un des langages les plus utilisés dans ce domaine (avec le language R)
  • Anaconda : une distribution gratuite adaptée pour la data science
  • Jupyter : un éditeur web pour concevoir des « Notebooks »
  • Librairies : des ensembles de fonctionnalités regroupées sous un nom spécifique.

Parmi les librairies inévitables on pourra retrouver NumPy pour l’implémentation scientifique comme l’utilisation de matrice, pandas pour l’analyse de données, Matplotlib pour la data visualisation, scikit-learn pour les algorithmes de machine learning ou encore Seaborn pour la visualisation de données statistiques. On peut aussi citer les librairies de 2 GAFA : TensorFlow pour Google et PyTorch pour Facebook.

 
Conclusion

La data science est un vaste domaine englobant les mathématiques avec les statistiques, l’informatique avec la programmation et le business avec les uses cases d’entreprise.

Le Machine Learning avec l’utilisation d’algorithme pour construire un modèle prédictif représente la majeure partie du travail du data scientist.

L’open source et les interfaces de développement tels que les librairies Python et les Notebooks constituent la base des outils permettant de développer les cas d’usages d’entreprise.

En conclusion la data science est un domaine transverse permettant de faire preuve d’anticipation, notamment dans le domaine du marketing.

Ne ratez pas nos prochains contenus

Inscrivez vous à notre Newsletter pour recevoir tous nos prochains contenus gratuits : Articles, Webinaires, Podcasts, Astuces vidéos,...

Data AI Lab

Transformez votre quotidien avec des compétences clés en data. Des formations, conseils et défis pour une maîtrise pointue en Data Science et IA.

 

Liens

Accueil
Challenges Data
Consulting

 

Formations

Parcours Data Analyst
Parcours Data Engineer
Voir toutes les formations

 

Ressources

Articles
Webinaires
Tuto vidéos

 

All rights reserved 2024 - Mentions légales - Politique de confidentialité