20/02/2017

Les 3 différents types d’anomalies

Le troisième article de notre série décrit les différents types d’anomalies telles qu’on les rencontre habituellement. Nous pouvons répartir les anomalies en trois groupes : les anomalies ponctuelles, contextuelles et collectives. Il est important de bien identifier leur type pour ensuite choisir l’algorithme le plus adapté à leur détection. Le type d’anomalies considéré dépend du problème en question. Comme illustré dans le précédent article, en médecine, une simple variation de la température corporelle d’un patient doit être considérée comme anormale. Alors qu’en finance, les variations dans les marchés sont au contraire très courantes. Il est également possible de vouloir détecter plusieurs types d’anomalies à la fois, rendant le problème plus complexe et le choix de l’algorithme de détection plus compliqué.

Anomalies ponctuelles :

Deux anomalies ponctuelles
Figure 2 Deux anomalies ponctuelles dans un espace bi-dimensionnel

Si une donnée seule peut être considérée comme anormale en comparaison avec le reste des données, alors celle-ci est définie comme une anomalie ponctuelle. L’exemple de la carte de crédit volée en est une parfaite illustration. Visuellement, nous illustrons ce type d’anomalies avec la Figure 1 : dans un espace à deux dimensions, les deux points très éloignés du nuage de données centré en (0,0).

Anomalies contextuelles :

Anomalies contextuelles : Courbe de la température durant l'année
Figure 3 Courbe de la température durant l’année (Source : Anomaly detection: A survey, V. Chandola, A. Banerjee, V. Kumar, 2009, p.58)

Si une donnée seule est considérée comme anormale dans un contexte spécifique, mais pas autrement, il s’agit d’une anomalie contextuelle. La Figure 2 représente les données d’un capteur de température sur une année. Les valeurs t1 et t2 sont semblables, mais la très basse température t2 se trouve en été, ce qui n’est pas normal par rapport à son contexte, c’est-à-dire qu’il fait chaud en été.

Anomalies collectives :

Kollektive Anomalie des Elektrokardiogramms
Figure 3 Électrocardiogramme (Source : Anomaly detection: A survey, V. Chandola, A. Banerjee, V. Kumar, 2009, p.58)

Si un groupe de données est anormal par rapport au reste des données, les données de ce groupe sont définies comme des anomalies collectives. Pour illustrer ce dernier type d’anomalie, nous prenons l’exemple de l’électrocardiogramme. On remarque sur la Figure 3 que le signal est stable sur une période anormalement longue (entre t=1100 et t=1400 environ). Pour détecter cette anomalie, il faut considérer l’ensemble des valeurs sur l’intervalle. C’est leur répétition qui est anormale, pas leur valeur, ni le contexte.

De par ces trois groupes d’anomalies, nous remarquons qu’il est crucial de bien caractériser les anomalies initialement. Un algorithme destiné à détecter les anomalies ponctuelles n’aura aucune chance de reconnaître des anomalies contextuelles et collectives. L’inverse est également vrai.

Dans le prochain article, nous aborderons la problématique liée aux données à disposition, plus particulièrement leur type et leur disponibilité. Différents scénarios seront présentés et illustrés.