10/02/2017

Die fünf grössten Schwierigkeiten der Anomalieerkennung

In diesem zweiten Artikel unserer Anomalieerkennungs-Reihe stellen wir die Schwierigkeiten bei der Anomalieerkennung dar.

Wir lassen hier den Prozess der Erhebung und Speicherung der Messungen ausser Acht, obgleich dieser ebenfalls anspruchsvoll sein kann. Wir nehmen an, dass die Daten in der gewünschten Form zur Verfügung stehen. Falls es notwendig wäre, das Problem in seiner Gesamtheit zu betrachten, müsste man die Art der Sensoren, deren Einstellung, deren Datenübertragung sowie die Art der verwendeten Datenbasis berücksichtigen.

Anomalie graphisch dargestellt
Bildnachweis: www.dbta.com
 

Im Folgenden werden die fünf grundsätzlichen Herausforderungen beschrieben:

1. Wahl der Entscheidungsgrenze

Im vorhergehenden Artikel wurde das Beispiel einer Medikamentenkapsel genannt, deren Gewicht um 20% vom üblichen Gewicht abwich. Ist dies noch immer problematisch, wenn der Gewichtsunterschied nur 2% beträgt? Und wie ist es bei 5%? Es ist unschwer zu erkennen, dass es nicht einfach ist, einen Grenzwert zu bestimmen. Was hat obendrein mit den Werten zu geschehen, die sehr nahe an den Grenzwert heranreichen (beispielsweise 4,9% und 5,1% bei einem Grenzwert von 5%)? Die Sache wird komplizierter, wenn man weitere Dimensionen hinzuzieht. In unserem Beispiel liefe es darauf hinaus, sich mit weiteren Zusatzinformationen zu befassen: PH-Wert, Produktionstemperatur, usw.

2. Identifikation der Anomalien

Manchmal sind Anomalien die Folge böswilliger Handlungen, wie im Falle einer Cyberattacke auf einen Server. Der Angreifer wird alle Hebel in Bewegung setzen, damit sein Verhalten normal erscheint. Dies macht die Definition einer Anomalie komplexer und deren Erkennung schwieriger.

3. Zeitliche Änderung der Anomalie

In gewissen Einsatzbereichen kann sich die Definition einer Anomalie mit der Zeit weiterentwickeln. Beobachtungen, die zunächst als normal eingestuft wurden, können später einmal nicht mehr so bewertet werden, und umgekehrt. Nehmen wir beispielsweise an, dass eine Maschinenbewegung schlecht reguliert ist was eine Reibung zwischen zwei Metallteilen mit sich bringt. Nun ist ein Quietschgeräusch zu hören, was die Identifikation der Anomalie ermöglicht. Das Metall kann sich jedoch mit der Zeit abwetzen. Das Quietschgeräusch wird nach und nach verschwinden, aber die Reibung selbst nicht. Die Art der Anomalie hat sich mit der Zeit weiterentwickelt.

4. Durch Messgeräusche verfälschte Daten

Die zur Verfügung stehenden Daten können ein Rauschen enthalten. Dieses wird in der Regel durch Messgeräte oder Sensoren verursacht. Nun wird es schwierig, die Anomalien von dem Rauschen zu unterscheiden. Wohlgemerkt sind die gesuchten Anomalien selbst manchmal Geräusche.

5. Schwierigkeit einer Verallgemeinerung

Es ist schwierig, einen Anomalieerkennungsalgorithmus zu verallgemeinern, da die Anomalien selbst stark von dem jeweiligen Problemfeld abhängen. In der Medizin muss eine einzelne Abweichung der Körpertemperatur eines Patienten als anormal angesehen werden. Demgegenüber sind Abweichungen auf den Märkten im Finanzwesen völlig alltäglich.

Im nächsten Artikel «Die drei verschiedenen Arten von Anomalien» befassen wir uns mit den Eigenschaften von punktuellen, kontextuellen und kollektiven Anomalien.