Les 5 plus grandes difficultés de la détection d’anomalies
Dans ce deuxième article de notre série consacrée à la détection d’anomalies, nous présentons les difficultés liées à l’analyse des données et à la détection des anomalies elle-même.
Bien qu’ardue également, nous faisons ici abstraction du processus de collecte et stockage des mesures. Nous supposons que les données sont disponibles sous la forme voulue. Si l’on devait considérer le problème dans son ensemble, il faudrait prendre en compte le type de capteurs à utiliser, leur calibration, leur mise en réseau, l’envoi des données sur un serveur, le type de base de données utilisée, etc.
Source: www.dbta.com
1. Choix du seuil de décision
Dans le précédent article, l’exemple du poids d’une fiole de médicament qui différait de 20% du poids habituel. Maintenant, si la différence de poids n’est que de 2%, est-ce toujours un problème ? Et de 5% ? On le comprend aisément, définir un seuil n’est pas facile. De plus, que faut-il faire avec les valeurs très proches du seuil (par exemple, 4.9% et 5.1% si ce dernier est à 5%) ? Le problème devient plus compliqué si l’on considère le problème dans des dimensions plus élevées. Pour notre exemple, cela revient à traiter d’autres informations supplémentaires : pH, température de production, etc.
2. Identification des anomalies
Parfois, les anomalies sont le résultat d’actions malveillantes, comme dans le cas d’une attaque informatique et de requêtes malicieuses vers un serveur. L’attaquant va tout mettre en œuvre pour que ses requêtes paraissent normales. Cela rend la définition d’une anomalie plus complexe et leur détection plus difficile.
3. Evolution de la définition de l’anomalie
Dans plusieurs domaines d’application, la définition d’une anomalie peut évoluer avec le temps. Des observations d’abord considérées comme normales peuvent ne plus l’être par la suite, et vice-versa. Par exemple, admettons qu’un mouvement mécanique soit mal réglé et implique une friction entre deux pièces de métal. Un grincement est alors audible et permet d’identifier l’anomalie. Cependant, le métal peut, à force, se lisser. Le grincement va petit à petit disparaître, mais pas la friction elle-même. La forme de l’anomalie a évolué avec le temps.
4. Données bruitées
Les données à disposition peuvent contenir du bruit. Ce dernier provient généralement des instruments de mesures ou capteurs. Il devient alors difficile de distinguer les anomalies du bruit. Notons que, parfois, les anomalies recherchées sont le bruit lui-même.
5. Généralisation compliquée
Il est difficile de généraliser un algorithme de détection d’anomalies car les anomalies elles-mêmes dépendent fortement du problème considéré. En médecine, une simple variation de la température corporelle d’un patient doit être considérée comme anormale. Alors qu’en finance, les variations dans les marchés sont au contraire très courantes.
Les différents types d’anomalies font l’objet du prochain article. De manière générale, les difficultés présentées ne sont pas exhaustives et peuvent être complétées par différents aspects qui sont propres à chaque domaine ou problème. Ils sont cependant en dehors de la portée de cet article.
- TensorFlow - mai 29, 2017
- Moteur rotatif – exemple de détection d’anomalies - avril 4, 2017
- Les 3 scénarios de détection d’anomalies - mars 15, 2017