Analyse de données - Présentation et Formation
Jedha vous fait découvrir l'analyse de données à travers l'apprentissage des mécanismes de collecte, stockage, analyse et visualisation.
Qu'est ce qu'une matrice de confusion ? Le Machine Learning consiste à nourrir un algorithme grâce aux données, afin d'apprendre à l'ordinateur à effectuer certaines tâches spécifiques. Lors de problèmes de classification, ce modèle prédit des résultats à comparer à la réalité dans le but de mesurer son degré de performance. Pour cela nous utilisons la matrice de confusion, permettant de mettre en valeur les prédictions justes et fausses pour les comparer avec des valeurs définies.
Avec le Machine Learning, on nourrit un algorithme avec des données dans le but d'apprendre à l'ordinateur à effectuer des tâches spécifiques. Les performances d'un tel algorithme dépendent essentiellement de sa capacité à prédire les résultats de manière pertinente. Pour s'assurer de la conformité de ceux-ci avec la réalité, on utilise une matrice de confusion. Sous cette désignation quelque peu barbare se cache une méthode relativement simple, mais redoutablement efficace. De quoi s'agit-il ? Comment la lire afin d'interpréter les résultats d'une classification ?
La matrice de confusion est en quelque sorte un résumé des résultats de prédiction pour un problème particulier de classification. Elle compare les données réelles pour une variable cible à celles prédites par un modèle. Les prédictions justes et fausses sont révélées et réparties par classe, ce qui permet de les comparer avec des valeurs définies.
Également connue sous le nom de tableau de contingence, la matrice de confusion permet d'évaluer les performances d'un modèle de classification. Elle montre donc à quel point un certain modèle peut être confus lorsqu'il fait des prédictions. Dans sa forme la plus simple, il s'agit d'une matrice 2X2. Pour des problèmes de classification plus complexes, il est toujours possible d'ajouter des lignes et des colonnes à la forme de base.
La matrice de confusion permet de connaître d'une part les différentes erreurs commises par un algorithme de prédiction, mais plus important encore, de connaître les différents types d'erreurs commis. En les analysant, il est possible de déterminer les résultats qui indiquent comment ces erreurs ont eu lieu.
La connaissance du type d'erreur est un avantage de taille de la matrice de confusion. Imaginez par exemple un ensemble de données de 100 enregistrements qui concernent la détection du coronavirus. Un modèle qui permet de prédire correctement 95 enregistrements affiche une erreur de 5 %. Cependant, de telles données ne suffisent pas pour indiquer le type d'erreur qui peut prendre deux valeurs possibles :
La première erreur semble moins risquée, puisqu'un second diagnostic permettra d'obtenir le résultat correct. Cela ne manquera pas au passage de susciter une vraie frayeur pour ce patient. De plus, il se pourrait qu'il reçoive un traitement dont il n'a pas besoin, ce qui peut s'avérer dangereux. De même, le coût financier peut être important pour l'institution qui s'évertue à traiter inutilement un mal fictif.
Si par contre les 5 mauvais diagnostics appartiennent à la seconde catégorie d'erreur, cela est particulièrement risqué. Déclarer un patient non atteint du coronavirus alors qu'il l'est peut avoir de graves conséquences non seulement pour lui, mais également pour son entourage. Les risques de contamination de ses proches sont bien réels sans oublier qu'il ne bénéficie d'aucun traitement alors qu'il le devrait.
De telles données ne permettent pas à elles seules d'apprécier convenablement les performances de ce modèle. Il convient alors d'opter pour une matrice de confusion qui permettra également de décomposer le type d'erreur.
Il n'y a pas que dans le cadre du Machine Learning que les matrices de confusion sont utilisées. Elles sont également employées dans le domaine de la statistique, de l'intelligence artificielle ou du Data Mining.
D'une façon générale, elles excellent dans l'analyse rapide des données statistiques et de la simplification du déchiffrement des résultats par le biais de la Data Vizualisation. De quoi apprécier les performances d'un modèle et identifier les tendances qui peuvent permettre d'en modifier les paramètres.
Les matrices de confusion sont également utiles en médecine légale et même dans le cadre des examens médicaux. Elles ne sont pas difficiles à maîtriser. Pour réussir à les calculer, les lire et les interpréter convenablement, il est indispensable de suivre une formation Machine Learning qui explique clairement les bases nécessaires à la compréhension de cette notion fondamentale.
Le calcul d'une matrice de confusion nécessite d'avoir à sa disposition un ensemble de données de test (test dataset) et un autre ensemble de données de validation (validation dataset) avec les valeurs attendues des résultats. Une prédiction est ensuite effectuée pour chacune des lignes du test dataset.
À partir des résultats attendus et des prédictions, il suffit de compter le nombre de prédictions correctes pour chaque classe ainsi que celui des prédictions incorrectes. Ces différentes valeurs sont ensuite organisées dans un tableau de contingence selon des règles bien définies.
Dans la matrice de confusion, chaque ligne indique le nombre d'occurrences d'une classe de référence (ou réelle). Les colonnes quant à elles représentent le nombre d'occurrences d'une classe estimée. Chaque colonne contient donc une classe prédite par l'algorithme de Machine Learning ainsi que les lignes des classes réelles.
Pour mieux comprendre la lecture d'une matrice de confusion, voici un exemple. On se basera sur un système fictif de classification qui vise à scinder en deux classes distinctes les courriers pertinents des spams. On cherche bien évidemment à mieux apprécier les deux types d'erreurs que peut commettre cet algorithme : le nombre de courriers pertinents considérés comme des spams et le nombre de spams considérés comme courriers pertinents.
D'une façon générale, pour lire et bien interpréter les résultats d'une matrice de confusion, il est nécessaire de comprendre les différentes terminologies qu'elle emploie. De même, il convient de tirer d'intéressantes informations des tableaux de contingence.
Les résultats d'une matrice de confusion sont classés en quatre grandes catégories : les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs.
Les vrais positifs ou TP (true positive) indiquent les cas où les prédictions et les valeurs réelles sont effectivement positives. Dans l'exemple fictif mentionné plus haut, cela signifie que le système reconnaît comme courrier pertinent un courrier qui l'est réellement.
Les vrais négatifs ou TN (true negative) indiquent par contre les cas où les prédictions et les valeurs réelles sont toutes les deux négatives. Avec le même exemple, le test indique alors qu'un courrier donné est un spam, ce qui est bel et bien le cas.
Les faux positifs ou FP (false positive) indiquent quant à eux une prédiction positive contraire à la valeur réelle qui est négative. Ils sont également considérés comme des erreurs de type 1. En poursuivant avec l'exemple, cela implique les cas où des spams sont considérés comme des courriers pertinents.
Les faux négatifs font référence aux cas où les prédictions sont négatives alors que les valeurs réelles sont positives. Ils sont également considérés comme des erreurs de type 2. Dans le cas du système de courriers, cela désigne des courriers pertinents qui ont été classés parmi les spams.
Différentes métriques peuvent être calculées à partir du tableau de contingence afin d'en faciliter l'interprétation. C'est par exemple le cas du taux d'erreur, de la précision, du rappel et du F1 score. Ces indicateurs permettent de mieux apprécier la qualité de précision du modèle.
Le taux d'erreur ou ERR (error rate en anglais) est une métrique qui est calculée en faisant la somme de toutes les prédictions incorrectes sur le nombre total de données (positives et négatives). Plus il est bas, mieux c'est. Le meilleur taux d'erreur possible est de 0, mais il est rarement atteint par un modèle dans la pratique.
Le taux d'erreur dans l'exemple des courriers représente la somme des nombres de courriers authentiques prédits comme spam et des spams reconnus comme courriers authentiques sur le nombre total de cas.
Ce paramètre fait la somme de tous les vrais positifs et vrais négatifs qu'il divise par le nombre total d'instances. Il permet d'apporter une réponse à la question suivante : de toutes les classes positives et négatives, combien parmi elles ont été prédites correctement ? Des valeurs élevées de ce paramètre sont souvent souhaitables. Il peut également être calculé avec la formule suivante :
Accuracy = 1 – ERR.
Dans l'exemple des mails, il indique la proportion de courriers pertinents et de spams effectivement reconnus comme tels sur le nombre total de cas. Cependant, cette métrique ne permet pas de déterminer le nombre de vrais positifs que le modèle peut identifier. Il cache donc certains détails nécessaires à l'appréciation de la performance du modèle. C'est là qu'entrent en jeu deux autres paramètres, à savoir la précision et le rappel.
La précision indique le rapport entre les prévisions positives correctes et le nombre total de prévisions positives. Ce paramètre répond donc à la question suivante : sur tous les enregistrements positifs prédits, combien sont réellement positifs ? En reprenant l'exemple des courriers, cela désigne le rapport entre le nombre de courriers pertinents reconnus comme tels (TP) par le modèle sur la somme combinée de ce même paramètre avec le nombre de spams considérés comme des courriers pertinents (FP).
Le rappel (ou recall en anglais) est un paramètre qui permet de mesurer le nombre de prévisions positives correctes sur le nombre total de données positives. Il permet de répondre à la question suivante : sur tous les enregistrements positifs, combien ont été correctement prédits ? Dans l'exemple des courriers, cela représente le rapport entre le nombre de courriers pertinents reconnus comme tels sur le nombre réel de courriers pertinents. Celui-ci équivaut à la somme des vrais positifs (TP) et des faux négatifs (FN).
Pour ce système, le taux de rappel devrait dans l'idéal être de 100 %. Autrement dit, le nombre de faux négatifs devrait être égal à zéro. Il n'est en effet pas souhaitable que des courriers authentiques soient reconnus comme spams. Cela peut être très risqué. La métrique de rappel a donc une plus grande importance dans l'évaluation de la performance de ce système.
Ce paramètre mesure le ratio entre le nombre de prédictions négatives correctes et le nombre total de cas réels négatifs. On l'appelle également TNR (true negative rate en anglais). Le TNR dans l'exemple représente le nombre de spams correctement prédits sur le nombre réel de spams.
Le FPR est un paramètre calculé en divisant le nombre de prédictions positives incorrectes par le nombre total de cas réels négatifs. Dans l'exemple des mails, il représente le nombre de spams considérés comme des courriers pertinents sur le nombre réel de spams. On peut également le calculer par la formule suivante : FPR = 1 – TNR.
Le score F1 (ou F-measure en anglais) est une moyenne harmonique de la précision et du rappel. Il équivaut au double du produit de ces deux paramètres sur leur somme. Sa valeur est maximale lorsque le rappel et la précision sont équivalents.
Dans certains modèles, on cherche à connaître la distribution des faux positifs et des faux négatifs. La métrique score F1 est alors utilisée pour évaluer la performance de l'algorithme. De même, il est particulièrement difficile de comparer deux modèles avec une faible précision et un rappel élevé. Le contraire est également vérifié. Dans ces conditions, le score F1 permet de mesurer ces deux paramètres simultanément.
Le Machine Learning est un domaine très en vogue actuellement et dont les perspectives d'avenir sont alléchantes. Pour mesurer les performances de modèles de Machine Learning, la matrice de confusion est l'outil le plus souvent utilisé. Sa construction, sa lecture et son interprétation sont ainsi des compétences indispensables pour ceux qui souhaitent faire carrière dans la Data Analyse, la Data Science ou le Data Engineering. Elles peuvent être développées dans le cadre d'une formation.
Les formations Jedha figurent en tête d'affiche des meilleures en France. Les intervenants au cours des formations Jedha sont minutieusement sélectionnés pour fournir aux étudiants la meilleure expérience pédagogique possible en matière de Data. Ceux-ci auront au cours de leur cursus à mener à bien des projets personnels ou proposés qui sont des éléments clés de l'apprentissage. Ils permettent en effet une meilleure assimilation des nombreuses compétences acquises.
Les formations data de Jedha sont diversifiées et ouvertes à tous les profils indépendamment du niveau initial. De la formation Data Essentials à la formation Data Lead en passant par la formation Data Fullstack, tout est pensé pour offrir aux étudiants les compétences les plus recherchées par les recruteurs.
Si vous souhaitez acquérir les compétences et maîtriser tout le pipeline Data, n'hésitez pas à regarder les formations Data que Jedha Bootcamp propose.