20/02/2017

Die drei verschiedenen Arten von Anomalien

Der dritte Artikel unserer Anomalie-Reihe beschreibt die verschiedenen Arten von Anomalien, die man üblicherweise vorfindet. Wir können die Anomalien in drei Gruppen einteilen: Punktuelle, kontextuelle und kollektive Anomalien. Es ist wichtig die Art der Anomalie richtig zu identifizieren, um anschließend den für deren Erkennung passendsten Algorithmus auszuwählen. Die zu betrachtende Art der Anomalie ist von dem jeweiligen Problemfeld abhängig. Wie im vorigen Artikel erläutert, muss in der Medizin eine einzelne Abweichung der Körpertemperatur eines Patienten als anormal betrachtet werden. Während im Gegensatz dazu Abweichungen auf den Märkten im Finanzwesen äußerst üblich sind. Ebenso ist es möglich, dass man mehrere Anomalien gleichzeitig ausfindig machen will, was die Problematik komplexer und die Wahl des Erkennungsalgorithmus komplizierter macht.

Punktuelle Anomalien:

Punktuelle Anomalie
Abb. 1: Punktuelle Anomalie im zweidimensionalen Raum

 

Wenn ein einziger Wert im Vergleich mit den restlichen Daten als anormal betrachtet werden kann, wird dieser als punktuelle Anomalie definiert. Das Beispiel der Abweichung der Körpertemperatur eines Patienten veranschaulicht dies perfekt. Visuell stellen wir diese Art der Anomalie in Abb. 1 in einem zweidimensionalen Raum durch die beiden sehr weit von der Datenwolke mit der Basis (0,0) entfernten Punkte dar.

Kontextuelle Anomalien:

Kontextuelle Anomalie der Temperatur im Sommer
Abb. 2: Kontextuelle Anomalie der Temperatur im Sommer. Bildnachweis: Anomaly detection: A survey, V. Chandola, A. Banerjee, V. Kumar, 2009, p.58

 

Wenn ein Wert in einem spezifischen Kontext als anormal berachtet wird, sonst aber nicht, handelt es sich um eine kontextuelle Anomalie. Die Abb. 2 stellt die Daten eines Temperatursensors für den Zeitraum eines Jahres dar. Die Werte t1 und t2 sind ähnlich, aber die sehr niedrige Temperatur t2 wurde im Sommer gemessen, was bezogen auf den Kontext, dass es also im Sommer warm ist, nicht normal ist.

Kollektive Anomalien:

Kollektive Anomalie des Elektrokardiogramms
Abb. 3: Kollektive Anomalie am Beispiel eines Elektrokardiogramms. Bildnachweis: Anomaly detection: A survey, V. Chandola, A. Banerjee, V. Kumar, 2009, p.58

 

Wenn eine ganze Datengruppe bezogen auf die restlichen Daten anormal ist, werden die Daten dieser Gruppe als kollektive Anomalien definiert. Um diese letzte Anomalie darzustellen, nehmen wir das Beispiel des Elektrokardiogramms. In Abb. 3 fällt auf, dass das Signal innerhalb eines anormal langen Zeitraums stabil ist (etwa zwischen t=1100 und t=1400). Um diese Anomalie ausfindig zu machen, ist es nötig, alle Werte des Intervalls zu berücksichtigen. Weder deren Wert, noch deren Kontext sind anormal, sondern deren Wiederholung.

 

Anhand dieser drei Anomaliearten wird deutlich, dass es entscheidend ist, die Anomalien gleich zu Beginn richtig zu charakterisieren. Ein Algorithmus, der darauf ausgelegt ist, punktuelle Anomalien zu erkennen, wird nicht in der Lage sein, kontextuelle oder kollektive Anomalien zu erkennen. Dies trifft im umgekehrten Fall ebenfalls zu.

 

Im nächsten Artikel «Die drei Szenarien der Anomalieerkennung» befassen wir uns mit der Problematik der zur Verfügung stehenden Daten, genauer mit deren Art und Verfügbarkeit. Verschiedene Szenarien werden dargestellt und erläutert.