Si vous vous posez la question “Qu’est-ce que le Machine Learning ?” ou bien “Quels sont les concepts clés derrière le Machine Learning ?”, alors cet article est fait pour vous. En 5 minutes, on vous explique les fondamentaux pour (enfin) comprendre ce qui se cache derrière le Machine Learning.
Sommaire
Qu'est-ce que le Machine Learning ?
Le Machine Learning que l'on pourrait traduire par apprentissage automatique en français est un type d'intelligence artificielle (IA) qui permet aux applications logicielles de devenir plus précises pour prédire les résultats sans être explicitement programmées pour le faire.
Les algorithmes de Machine Learning utilisent des données historiques comme entrée pour prédire de nouvelles valeurs de sortie. Considérons par exemple les moteurs de recommandation comme ceux utilisés par les réseaux sociaux. Ce sont un cas d’utilisation courant pour le Machine Learning. En réalité, les applications et cas d’usages sont nombreux. nous pouvons citer :
- la détection des fraudes
- le filtrage des spams
- la détection des menaces de logiciels malveillants
- l'automatisation des processus métier (APB)
- la RPA (lire : Comprendre la promesse et se repérer dans la galaxie RPA)
- la maintenance prédictive
Pourquoi parle-t-on autant du Machine Learning ?
Le Machine Learning est important et il deviendra fondamental dans les années à venir avec la montée en puissance de l’IA. En effet, il donne aux entreprises une vue des tendances du comportement des clients et des modèles opérationnels de l’entreprise, tout en soutenant le développement de nouveaux produits.
Par exemple, de nombreuses entreprises leaders d’aujourd’hui, telles que Facebook, Google et Uber, font du Machine Learning un élément central pour améliorer l’expérience proposée :
- afficher les contenus les plus pertinents et les mieux ciblés ;
- améliorer la performance de leur système publicitaire ou de recommandations ;
- optimiser l’allocation des ressources en fonction de la demande.
C’est pourquoi adopter le Machine Learning peut se transformer en véritable avantage concurrentiel. En effet, on parle ici de gain de coûts potentiels, d’une expérience client / utilisateur optimisé, de gain de temps dans les processus opérationnels.
Le point de départ : les algorithmes
En tant qu’êtres humains, nous apprenons à travers les expériences passées. Nous utilisons nos sens pour obtenir ces « expériences » et les utilisons plus tard pour survivre. Les machines, historiquement, apprennent grâce aux commandes fournies par les humains. Ces ensembles de règles sont appelés algorithmes.
Les algorithmes sont des ensembles de règles qu’un ordinateur est capable de suivre. Pensez à la façon dont nous avons appris à faire une division complexe – peut-être avez-vous appris à diviser le dénominateur par les premiers chiffres du numérateur, à soustraire le sous-total et à continuer avec les chiffres suivants jusqu’à ce qu’il vous reste un reste. Et bien, c’est un algorithme, et c’est le genre de chose que nous pouvons programmer dans un ordinateur, qui peut effectuer ce genre de calculs beaucoup, beaucoup plus rapidement que nous.
Classifier, prédire, regrouper grâce au Machine Learning
Avec le Machine Learning, l’objectif est soit la prédiction, soit le clustering.
La prédiction est un processus où, à partir d’un ensemble de variables d’entrée, nous estimons la valeur d’une variable de sortie. Cette technique est utilisée pour les données qui ont une correspondance précise entre l’entrée et la sortie, appelées données étiquetées.
C’est ce qu’on appelle l’apprentissage supervisé (Supervised Learning). Par exemple, en utilisant un ensemble de caractéristiques d’une maison, on peut estimer son prix de vente. Le Machine Learning peut être classé en plusieurs types que nous vous détaillons
L'apprentissage supervisé
Pour ce type de Machine Learning, les Data Scientists fournissent aux algorithmes des données d’entraînement étiquetées et définissent les variables qu’ils souhaitent que l’algorithme évalue pour les corrélations.
L’entrée et la sortie de l’algorithme sont spécifiées.
L'apprentissage non supervisé
Ce type de Machine Learning implique des algorithmes qui s’entraînent sur des données non étiquetées. L’algorithme parcourt les ensembles de données à la recherche de toute connexion significative.
Les données sur lesquelles les algorithmes s’entraînent ainsi que les prédictions ou les recommandations qu’ils génèrent sont par contre prédéterminées.
L'apprentissage semi-supervisé
Cette approche du Machine Learning implique un mélange des deux types précédents : l’apprentissage supervisé et l’apprentissage non supervisé.
Les Data Scientists peuvent fournir à un algorithme principalement étiqueté des données de formation, mais le modèle est également libre d’explorer les données par lui-même et ainsi développer sa propre compréhension de l’ensemble de données.
L'apprentissage par renforcement
Les Data Scientists utilisent généralement l’apprentissage par renforcement pour apprendre à une machine à effectuer un processus en plusieurs étapes pour lequel il existe des règles clairement définies.
Les Data Scientists programment un algorithme pour accomplir une tâche et lui donner des indices positifs ou négatifs au fur et à mesure qu’il détermine comment accomplir une tâche. Mais dans la plupart des cas, l’algorithme décidera par lui-même des étapes à suivre en cours de route.
Quels sont les types d'algorithmes les plus courants pour le Machine Learning ?
Une fois cette classification établie en 4 grands ensemble, on comprend mieux que le point de départ est bien l’algorithme et comment celui-si sera défini au préalable. Désormais, voyons quels sont les algorithmes les plus souvent utilisés
La régression linéaire
Il s’agit d’un algorithme d’apprentissage supervisé utilisé pour prédire une valeur de sortie continue (par exemple, le prix d’une maison) basée sur une ou plusieurs caractéristiques d’entrée (par exemple, la taille de la maison).
Il suppose que la relation entre les caractéristiques d’entrée et la sortie est linéaire, ce qui signifie que la modification de la sortie est proportionnelle à la modification de l’entrée.
La régression logistique
Il s’agit d’un algorithme d’apprentissage supervisé utilisé pour les tâches de classification, où le but est de prédire une étiquette de sortie discrète (par exemple, spam ou non spam).
Il est similaire à la régression linéaire, mais il applique une fonction sigmoïde à la sortie pour mapper les valeurs prédites aux probabilités entre 0 et 1.
Les arbres de décision
Il s’agit d’un algorithme d’apprentissage supervisé utilisé pour les tâches de classification et de régression. Il fonctionne en créant un modèle arborescent de décisions. Ainsi, chaque nœud interne représente une décision basée sur la valeur d’une caractéristique d’entrée et chaque branche représente une prédiction.
Le partionnement en K-moyennes (K-means clustering)
Il s’agit d’un algorithme d’apprentissage non supervisé utilisé pour les tâches de clustering, où l’objectif est de regrouper des points de données similaires.
Il fonctionne en sélectionnant au hasard un nombre fixe de “centres de gravité”, puis en attribuant chaque point de données au centre de gravité le plus proche, en fonction de la distance euclidienne. L’algorithme met ensuite à jour les centroïdes en fonction de la moyenne des points de données attribués et répète ce processus jusqu’à convergence.
La classification naïve bayésienne
La classification naïve bayésienne est un type de classification bayésienne probabiliste simple basée sur le théorème de Bayes avec une forte indépendance (dite naïve) des hypothèses.
Il s’agit d’un algorithme d’apprentissage supervisé utilisé pour les tâches de classification. Il fait l’hypothèse que la présence (ou l’absence) d’une caractéristique particulière d’une classe n’est pas liée à la présence (ou l’absence) de toute autre caractéristique, compte tenu de la variable de classe. Cette hypothèse est appelée indépendance de classe.
Quelques usages concrets du Machine Learning
Les algorithmes de recommandation de contenus
Aujourd’hui, le Machine Learning peut être utilisé dans un large éventail d’applications. L’un des exemples les plus connus de Machine Learning (que nous utilisons tous) est le moteur de recommandation qui alimente le fil d’actualité des réseaux sociaux comme Facebook, Instagram ou TikTok.
L’utilité du Machine Learning est ici de pouvoir personnaliser le fil d’actualités qui présente et affiche des contenus.
Si un utilisateur s’arrête fréquemment pour lire les messages d’un groupe particulier ou regarder tel type de vidéo, le moteur de recommandation commencera à afficher plus d’activités de ce groupe plus tôt dans le flux et plus de contenus de ce type.
Dans les coulisses, le moteur tente de renforcer les modèles connus dans le comportement en ligne de l’utilisateur. Si l’utilisateur change de modèle et ne parvient pas à lire les messages de ce groupe dans les semaines à venir, le fil d’actualités s’ajustera en conséquence.
Des cas d'usage pour le Marketing, les SI, les RH...
En plus des moteurs de recommandation, d’autres utilisations de l’apprentissage automatique incluent les éléments suivants :
- Gestion de la relation client. Les logiciels CRM peuvent utiliser des modèles d’apprentissage automatique pour analyser les e-mails et inviter les membres de l’équipe commerciale à répondre en premier aux messages les plus importants. Des systèmes plus avancés peuvent même recommander des réponses potentiellement efficaces. Pour aller plus loin sur le sujet : Quel futur pour la gestion de la relation client ?
- Knowledge Management. Les fournisseurs de BI et d’analyse utilisent l’apprentissage automatique dans leurs logiciels pour identifier les points de données potentiellement importants, les modèles de points de données et les anomalies.
- Systèmes d’information des Ressources Humaines. Les SIRH peuvent utiliser des modèles d’apprentissage automatique pour filtrer les candidatures et identifier les meilleurs candidats pour un poste vacant.
- Voitures autonomes. Des algorithmes d’apprentissage automatique peuvent même permettre à une voiture semi-autonome de reconnaître un objet partiellement visible et d’alerter le conducteur.
- Assistants virtuels. Les assistants intelligents combinent généralement des modèles d’apprentissage automatique supervisés et non supervisés pour interpréter la parole naturelle et fournir le contexte.
Pour aller plus loin
Se former à l’IA : expliquer et démystifier avant de lancer ses démarches
Former ses collaborateurs à l’IA, ce n’est pas seulement répondre à une tendance actuelle mais bien accompagner la transformation des métiers. Tous les métiers sont
Résilience numérique : Cloud, data et IA
La maîtrise et le contrôle de bout en bout de la chaîne de collecte, de stockage, de traitement, d’analyse et d’exploitation des données recueillies sur
Datalake : définition et ROI
Le datalake a-t-il un ROI ? Avant d’essayer de donner une réponse, rappelons la définition d’un datalake. Si vous vous posez les questions “qu’est-ce qu’un