Blog

Analyser, nettoyer et transformer des séries temporelles industrielles : De la découverte à la création de capteurs virtuels pour exploiter au maximum ses données

L’industrie se dirige vers une exploitation plus poussée des données provenant des équipements industriels. Ces données, souvent sous forme de séries temporelles complexes, nécessitent une préparation minutieuse et/ou une exploration approfondie de la part d’experts métiers. 

Lorsqu’un industriel se lance dans l’analyse de ses données pour résoudre un problème spécifique (détection de pannes spécifiques, anticipation des arrêts machines etc.), il peut se retrouver désorienté quant à la manière de procéder.

Comment aborder les données brutes de ses équipements ? Quels éléments examiner pour extraire des informations utiles et exploitables ? Comment passer de l’analyse à la création de valeur pour l’entreprise ? 

Dans cet article, nous explorerons une partie des opérations que nos experts Data Scientists peuvent réaliser à partir de vos données lors de phases pilotes sur vos cas d’usages. 

Analyse des séries temporelles industrielles

Visualisation et comparaison des signaux bruts

Pour commencer l’analyse des données, il est intéressant de visualiser simplement les signaux bruts dans le temps. Cette visualisation permet à l’expert métier de prendre connaissance des variations du signal, des éventuels motifs récurrents et des corrélations entre les signaux des capteurs.

L’utilisation d’outils de visualisation simples, tels que la comparaison de signaux (pouvoir superposer les signaux de deux ou plusieurs capteurs de même nature sur un même axe) ou la superposition de cycles (par exemple dans le cas d’une machine tournante) permettent de visualiser les dérives évidentes ou les corrélations potentielles entre signaux. 

Figure 1 Séries Temporelles de 2 capteurs vues sur un même axe.

Dans certains cas l’expert métier pourra se faire aider par des fonctionnalités d’analyse plus poussées comme la matrice de corrélation, la visualisation de spectres ou de spectrogrammes (outils que nous aborderons dans un prochain article). 

Labellisation d’incidents visibles

Grâce à cette analyse visuelle, celui qui maîtrise la donnée, peut éventuellement identifier certains dysfonctionnements visibles à l’œil nu dans les signaux. Cela permet alors d’identifier ces zones d’anomalies, de les labelliser (si nécessaire) pour générer un jeu de données complet et exploitable.

Cette labellisation peut-être très utile à la fois pour exclure ces zones à l’avance de l’ensemble des données saines servant à la caractérisation de la normalité rendant celle-ci plus pertinente, mais aussi pour fournir des zones de défauts permettant une validation partielle de la sortie de normalité des indicateurs appris plus tard dans le processus. 

courbe avec zone classification
Figure 2 Identification d’une zone comme étant “non saine” et possibilité de labellisation.

Nettoyage des données

Analyse des valeurs manquantes et imputation des NaN

Il est crucial de vérifier si le fichier ou la base de données contiennent des données manquantes. Cela peut être dû à une fréquence d’échantillonnage différente entre les capteurs ou provenir d‘une captation partielle de la donnée.

 

Dans le cas d’une fréquence d’échantillonnage différente des capteurs il est nécessaire d’imputer ces valeurs manquantes pour synchroniser tous les capteurs. Plusieurs méthodes mathématiques peuvent être utilisées pour cela. 

tableau avec des séries temporelles échantillonnées différemment
Figure 3 Tableau de données avant rééchantillonnage,

Se baser sur la fréquence du capteur le plus lent

Cela revient à sous-échantillonner les capteurs ayant une fréquence d’acquisition plus rapide 

  • Avantage : la donnée exploitée est réelle
  • Inconvénient : une perte d’information et de sensibilité sur les capteurs rapides.

Se baser sur la fréquence la plus haute

Cela revient à sur-échantillonner les capteurs ayant une fréquence d’acquisition  plus lente

  • Avantage : la réactivité du modèle est maximale
  • Inconvénient : les données sur-échantillonnées sont calculées et non mesurées  et peuvent introduire un biais dans l’interprétation.
Figure 4 Tableau de données après sous-échantillonnage.
Figure 4 Tableau de données après sous-échantillonnage.
Figure 5 Tableau de données après sur-échantillonnage avec valeur précédente
Figure 5 Tableau de données après sur-échantillonnage avec valeur précédente

💡Pour info : Si l’on décide de créer un modèle de détection de pannes par la suite, alors la réactivité de celui-ci sera diminuée. En effet, plus la fréquence d’acquisition sera lente plus les prédictions réalisées seront retardées, moins le modèle associé sera en mesure d’anticiper la panne. Il se peut même que cette solution induise un retard à la détection !

💡Pour info : dans ces conditions le modèle est capable d’exploiter  des signaux très faibles (en termes d’écart à la normalité) et de détecter très en amont les dérives

En revanche, attention il est important de garder la corrélation entre les capteurs et un simple “remplissage” (tel qu’illustré) peut être problématique. Il est conseillé d’utiliser un algorithme de remplissage plus évolué qui répondra à ce besoin.

Dans le cas de valeurs manquantes liées à une captation partielle de la donnée, l’imputation nécessitera une compréhension approfondie de ce manque de données (panne sur le capteur, facteur extérieur).

Détection et suppression des valeurs aberrantes (outliers)

 Néanmoins selon la nature du signal la suppression d’outliers n’est pas triviale et nécessite une expertise en séries temporelles.

Lors de l’exploration des données, il est important de repérer et de supprimer les valeurs aberrantes qui pourraient influencer la qualité de certains modèles.

 

 

Figure 6 Série Temporelle avec "outliers"
Figure 6 Série Temporelle avec "outliers"

Après suppression, la qualité du signal est largement améliorée  en vue de la génération  d’un modèle de prédiction de pannes performant.

Figure 7 Série Temporelle sans "outliers".
Figure 7 Série Temporelle sans "outliers".

Transformation des données

Dédoublage du signal d’un capteur avec tendance

L’analyse globale des courbes des capteurs permet de visualiser si ces dernières présentent des tendances temporelles.

Ces tendances, bien que naturelles pour certaines grandeurs mesurées, peuvent parfois cacher des variations anormales, signes d’anomalies. Il peut donc être intéressant de prendre en compte cette tendance d’une façon explicite, afin d’effectuer une analyse plus approfondie. Il est alors conseillé de dédoubler le signal afin d’obtenir deux courbes, une avec la tendance et l’autre sans. Les deux signaux ainsi obtenus contiennent des informations importantes et différentes, permettant une analyse plus approfondie de ce même signal.

Dans le cadre de la génération d’un modèle prédictif à partir d’un seul capteur (modèle univarié) il est d’autant plus intéressant d’analyser la courbe sans tendance.

Dans le cadre de modèles multivariés, cette technique de dédoublement permet aussi d’induire la possibilité de capturer des relations inter-capteurs que la tendance risque de cacher.

D’autre part, la courbe avec tendance (souvent associée aux basses fréquences) permet d’analyser les corrélations éventuelles entre les tendances de deux capteurs différents. Dans un second temps, en cas de panne, une des causes éventuelles pourra venir de cette dé-corrélation.

La courbe sans tendance (souvent associée aux hautes fréquences) contenant les informations dites plus “stationnaires”, permet quant-à-elle d’analyser les variations qui n’auraient pas été visibles si la tendance était encore présente. 

Grâce à ce dédoublement du signal, on obtient une analyse très approfondie du comportement d’un même capteur. 

Figure 8 Série temporelle brute avec tendance.
Figure 8 Série temporelle brute avec tendance.
Figure 9 Série temporelle sans tendance avec zoom sur anomalie visible
Figure 9 Série temporelle sans tendance avec zoom sur anomalie visible

Capteurs Virtuels - Opérateurs mathématiques appliquées à un ou plusieurs signaux

Lors de l’exploration des données, il peut être opportun d’effectuer des opérations sur les signaux bruts afin d’extraire de nouvelles séries temporelles (appelées « Capteurs Virtuels »), révélant ainsi de nouvelles informations exploitables. Des opérations basiques telles que l’addition, la soustraction, la multiplication et la division entre deux signaux peuvent être utilisées à cet effet.

Par exemple :

  • La multiplication de la tension et de l’intensité permet d’obtenir la puissance électrique (P=UxI, rappel des cours de physique au lycée)
  • La division de A par B peut simuler une fonction de transfert d’un système ou d’analyser la dé-corrélation entre deux capteurs mesurant la même donnée

Il est possible également d’aller plus loin un utilisant des opérations plus complexes telles que la dérivée, qui peut être pertinente pour modéliser un système dynamique de la forme Ẋ=AX.

Par exemple :

  • La dérivée de la vitesse fournit son accélération
  • La dérivée du volume permet d’obtenir son débit

Conclusion

La maximisation de la valeur des données industrielles repose sur une analyse approfondie et parfois sur une transformation judicieuse des séries temporelles. Grâce à une approche rigoureuse, qui commence par la visualisation des signaux bruts et se poursuit avec le nettoyage des données ainsi que la création de capteurs virtuels, l’exploitation des données devient un levier puissant pour l’amélioration des performances des équipements industriels.

Ces opérations ne sont que le début de notre méthodologie éprouvée au fil des années sur divers cas d’usages. Dans un prochain article, nous explorerons l’analyse tridimensionnelle (capteurs, temps et fréquence) des signaux, élargissant ainsi nos perspectives pour une exploitation encore plus fine des séries temporelles industrielles.

Nouvelle release – DiagFit 3.0

Avec DiagFit 3.0, la réalisation de toutes les opérations mentionnées ci-dessus est désormais à portée de main, sans nécessité d’écrire une seule ligne de code. L’ensemble des opérations proposées (suppression d’outliers, détection de tendance), sont basées sur des algorithmes propriétaires éprouvés pour les séries temporelles industrielles. L’interface intuitive est conçue pour simplifier la vie des utilisateurs, offrant une navigation fluide au cœur des séries temporelles. Grâce à un guidage étayé par notre méthodologie solide, les utilisateurs explorent leurs données pour en extraire les informations essentielles, indispensables à la mise en place d’une démarche de maintenance prédictive efficace.

Vous souhaitez suivre nos actualités ?

Recevez des articles et des informations d’Amiral Technologie toutes les semaines

En entrant votre email vous acceptez de recevoir les emails d’Amiral Technologies qui peuvent contenir des informations marketing & vous acceptez nos conditions générales et la politique de confidentialité

Nos derniers articles