Dans un contexte d’apprentissage automatique d’un classifieur binaire, il est essentiel de proposer une stratégie d’évaluation de ses performances. Cela permet de juger de la qualité de l’apprentissage du modèle, et d’évaluer ses résultats lors de la prédiction.
Cette évaluation des performances requiert la définition de critères objectifs appelés « métriques ». Ces métriques, souvent issues du monde des statistiques, ne permettent pas toujours une interprétation évidente du comportement des modèles. Par conséquent, il est important de bien comprendre leurs avantages et leurs inconvénients.
Ces métriques sont utilisées par Amiral Technologies dans DiagFit, pour évaluer les performances des modèles de classification binaire, et plus spécifiquement les détecteurs de pannes appliqués aux équipements industriels. Dans cet article, il est proposé de décrire les métriques fréquemment utilisées dans ce contexte.
Métriques liées à la classification binaire
La classification fait référence à un problème de modélisation prédictive pour lequel une classe est attribuée à chaque donnée d’entrée. La présente étude se place dans un objectif de classification binaire afin de séparer les données selon un état sain et non-sain. Dans un contexte de détection de pannes, la classification se traduit par une décision sur la normalité d’une donnée de capteur placé sur l’équipement à surveiller. Cette décision correspond à indiquer si l’équipement est dans un état normal ou s’il contient une panne.
Matrice de confusion
La matrice de confusion est une visualisation tabulaire des prédictions du modèle par rapport aux labels réels. Dans la figure 1, chaque ligne représente les instances d’un label prédit et chaque colonne représente les instances d’un label réel.
Les performances d’un détecteur de pannes sont souvent différentes sur les labels sains et non-sains, d’où l’intérêt de séparer les métriques pour ces deux catégories.
Voici la définition des 4 cases de la matrice de confusion :
True Positives (TP) : le cas où le label réel et la prédiction sont tous les deux positifs (label non-sain, i.e. présence d’une panne).
False Positives (FP) : le cas où la prédiction est positive (label non-sain), alors que le label réel est négatif (sain).
True Negatives (TN) : le cas où le label réel et la prédiction sont tous les deux négatifs (label sain, i.e. état normal de l’équipement).
False Negatives (FN) : le cas où la prédiction est négative (label sain), alors que le label réel est positif (non-sain).
Dans ce qui suit, les métriques les plus populaires en apprentissage automatique sont définies.
Précision, Sensibilité et Spécificité
La précision indique le taux de prédictions correctes parmi les prédictions positives, i.e. elle quantifie la capacité du modèle à ne pas faire d’erreur lors d’une prédiction d’un label non-sain. La précision se définit ainsi :
- Si l’objectif de l’application est de minimiser le taux de faux positifs,c’est la précision qu’il faut optimiser. Néanmoins, cette métrique ne permet pas de savoir si tous les labels positifs sont détectés.
La sensibilité, appelée aussi taux de vrais positifs (True Positive Rate (TPR) en anglais), correspond au taux de labels positifs correctement prédits, i.e. elle mesure la capacité du modèle à détecter l’ensemble des données non-saines. La sensibilité se calcule avec :
- L’optimisation de la sensibilité permet de mieux détecter les prédictions positives. Cependant, cette métrique ne donne aucune information sur la qualité de prédiction sur les négatifs.
La spécificité est le taux de labels négatifs correctement prédits par le modèle, i.e. elle détermine la capacité du modèle à détecter l’ensemble des données saines. La spécificité se définit par :
- L’optimisation de la spécificité permet de mieux détecter les prédictions négatives. Cependant, cette métrique ne donne aucune information sur la qualité de prédiction sur les positifs.
Remarque : Le calcul de définit le taux de faux positifs (False Positive Rate (FPR), en anglais).
F1-Score
Le choix de l’utilisation d’une des métriques définies ci-dessus se fait en fonction de l’application (e.g. pour garantir un taux de faux positifs bien précis). Si le modèle doit être évalué d’une manière générale, il faut considérer des combinaisons de ces métriques. Cette combinaison exige cependant des compromis tel que le cas pour la précision et la sensibilité.
En effet, un classifieur calcule un score basé sur une fonction de décision pour chaque donnée d’entrée. Si le score est supérieur à un certain seuil [1], elle est considérée comme non-saine.
Le choix de ce seuil implique un compromis entre l’optimisation de la précision et de la sensibilité. La figure 2, inspirée de [1], présente un certain nombre de signes(« – » indiquant un label négatif, « + » indiquant un label positif) placés le long de l’axe des scores.
Si le seuil est placé au niveau de la flèche centrale (entre les deux « + »), il y’aura vrais positifs à droite de ce seuil, et un faux négatif. Avec ce seuil, la précision est donc de 80% (4/5). Cependant, sur 6 positifs réels, le classifieur n’en détecte que 4, soit une sensibilité de 67% (4/6). En augmentant le seuil (en le déplaçant à droite), le faux positif devient un vrai négatif, accroissant donc la précision (jusqu’à 100 dans ce cas), mais un vrai positif devient alors un faux négatif, faisant baisser la sensibilité à 50%.
Inversement, réduire le seuil (en le déplaçant à gauche) accroit la sensibilité mais diminue la précision.
La combinaison de la précision et la sensibilité se fait à travers le F1- score, initialement introduit dans [2]. Il est défini par la moyenne harmonique de ces deux métriques :
Contrairement à la moyenne arithmétique qui traite de la même manière toutes les valeurs, la moyenne harmonique donne plus de poids aux faibles valeurs. Par conséquent, le F1-score sera élevé si la précision et la sensibilité sont toutes les deux élevées. De ce fait, il traduit bien le compromis entre ces deux métriques discutées précédemment.
Le F1-score montre cependant quelques faiblesses :
- Il donne le même poids à la précision et la sensibilité. Cependant, dans certaines situations, il est plus problématique de détecter un équipement contenant une panne comme sain (sensibilité), qu’un équipement en état normal comme non-sain (précision).
- Il ne prend pas en compte les vrais négatifs (TN). Supposons avoir 100 données dont 80 sont non-saines et 20 saines. Si les données sont toutes classifiées comme non-saines, le F1-score sera élevé (0.88), bien que le TN soit nul.
- Il porte donc à confusion lorsque les données ont une distribution inégale de labels.
Pour visualiser le comportement du F1-score lorsque les données sont déséquilibrées, une simulation est produite où le F1-score est calculé par rapport à un FPR et un TPR qui varient de 0 % à 100 %. L’étude se fait sur 3 cas différents : lorsque les labels positifs sont majoritaires, lorsque les labels positifs et négatifs sont de la même quantité, et lorsque les labels positifs sont minoritaires.
La figure 3 met en évidence 2 points :
- Dans le cas où les labels positifs sont majoritaires (cas a), le F1-score se base sur le TPR (i.e. un TPR élevé induit un F1-score élevé, indépendamment du FPR).
- En augmentant la présence des labels négatifs, le F1-score devient sensible au FPR (cas b et c).
–> Le F1-score surestime la performance d’un classifieur lorsque les données non-saines sont majoritaires.
Coefficient de corrélation de Matthews
Pour compenser les faiblesses du F1-score, le coefficient de corrélation de Matthews (Matthews Correlation Coefficient (MCC) en anglais) est envisagé. Il est défini ainsi :
Dans [3], il est démontré que le MCC est plus informatif que le F1-score car il tient en compte de l’intégralité des métriques de la matrice de confusion. En effet, les auteurs mettent en évidence ses propriétés mathématiques qui montrent sa robustesse face au déséquilibre potentiel de l’ensemble de données. Ils montrent par le biais d’un benchmark de 7 cas que le MCC permet d’évaluer de façon complète les performances d’un classifieur.
Pour vérifier l’intérêt de l’utilisation du MCC dans le cas d’un déséquilibre dans la répartition des labels, la même expérience faite sur le F1-score est reproduite dans la figure 4.
Quelle que soit la configuration du nombre de labels sains et non-sains, le MCC a toujours le même comportement : il a une valeur maximale pour un TPR maximal et un FPR minimal.
–> Le MCC convient dans le cas où les performances d’un modèle doivent être évaluées d’une manière globale, et sans se concentrer sur un label spécifique. Cependant, si une information bien particulière et interprétable est souhaitée (e.g. performance du modèle sur les données non-saines), il faudra considérer l’une des métriques précédemment présentées.
Courbe ROC & AUC
La courbe ROC (Receiver Operating Characteristic, ROC en anglais) évalue la performance d’un modèle à tous les seuils de classification. Cette courbe trace le rapport entre le taux de vrais positifs (TPR) et le taux de faux positifs (FPR).
Pour comparer différents classifieurs, l’aire sous la courbe ROC (Area Under the Curve, AUC en anglais) est calculée. Cette métrique indique dans quelle mesure le classifieur est capable de faire la distinction entre les labels sains et non-sains. Une AUC de 0.5 (50%) correspond à un classifieur aléatoire et donc non-informatif alors qu’une AUC de 1 (100%) correspond à un classifieur parfait.
L’intérêt de l’AUC vient de son invariance par rapport aux seuils de classification. Cette invariance est souhaitable lorsque le seuil est paramétré après la phase d’apprentissage en fonction des spécifications de l’application envisagée (e.g. le taux de faux positifs accepté). Cependant, elle est problématique pour plusieurs raisons, telles que discuté dans[4] :
- L’AUC ne permet pas de juger la qualité du modèle dans l’ajustement de son seuil de classification, donc il n’évalue pas correctement sa phase d’apprentissage.
- Il résume la performance du modèle sur des régions de l’espace ROC pour lesquelles il est rare d’opérer (e.g. quand le FPR est très grand).
- Inversement, lorsque les données saines sont majoritaires, ce qui est souvent le cas dans la maintenance prédictive, le FPR tend vers des petites valeurs en raison du grand nombre de négatifs, même lorsque le modèle produit plus de faux positifs que de vrais positifs. Ainsi, le FPR devient moins informatif et donc l’AUC ne reflète pas la véritable performance du classifieur.
Et donc, que faut-il choisir ?
Il est difficile de juger laquelle des métriques sera la plus adaptée à utiliser pour n’importe quel cas d’usage. Le choix dépendra toujours des spécifications du problème étudié. Cependant, la comparaison proposée dans cet article est résumée dans quatre points principaux :
– La précision, la sensibilité et la spécificité sont des métriques explicites destinées à une évaluation détaillée mais non-globale de la performance du modèle.
– Le F1-Score est pertinent puisqu’il résume le compromis entre la précision et la sensibilité, mais il n’est pas adapté au cas où les données non-saines sont majoritaires.
– L’AUC est idéal pour comparer des classifieurs sans dépendre du seuil choisi, mais il prête à confusion si les données saines sont majoritaires.
– Le MCC permet d’avoir une évaluation globale des performances, sans être biaisé par le déséquilibre sur les données, cependant il est moins interprétable.
Chez Amiral Technologies, les métriques présentées dans cet article sont adaptées afin d’en tirer le maximum d’information tout en respectant les spécifications des problèmes étudiés. De ces métriques adaptées, on peut citer la précision moyenne (Average Precision (AP) en anglais), la précision équilibrée (Balanced Accuracy en anglais), le meilleur MCC correspondant au meilleur seuil, l’AUC sur un intervalle bien précis de FPR, etc. La présence de ces métriques dans DiagFit est essentielle pour évaluer les performances des détecteurs de pannes générés et faciliter l’interprétabilité des résultats par les utilisateurs.
Bibliographie
[1] : Géron, A. (2019). Machine Learning avec Scikit-Learn: Mise en oeuvre et cas concrets. Dunod.
[2] : Chinchor, N., & Sundheim, B. M. (1993). MUC-5 evaluation metrics. In Fifth Message Understanding Conference (MUC-5): Proceedings of a Conference Held in Baltimore, Maryland, August 25-27, 1993.
[3] : Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21(1), 1-13.
[4] : Lobo, J. M., Jiménez‐Valverde, A., & Real, R. (2008). AUC: a misleading measure of the performance of predictive distribution models. Global ecology and Biogeography, 17(2), 145-151.