15/03/2017

Die drei Szenarien der Anomalieerkennung

In einem realen Problemfall sind die zur Verfügung stehenden Daten nicht immer die, welche man im Idealfall gerne hätte. Oft ist es teuer, schwierig und/oder es dauert lange, die verschiedenen notwendigen Informationen zusammenzutragen. Im vierten Artikel unserer Anomalie-Reihe beschreiben wir, wie sich drei Szenarien der Anomalieerkennung durch die Vollständigkeit der vorhandenen Daten definieren: Überwachte, semi-überwachte und unüberwachte Anomalieerkennung.

 

Beispielsweise ist im Rahmen der Erkennung eines Kreditkartendiebstahls die Anzahl der betrügerischen Transaktionen deutlich geringer als die Anzahl normaler Transaktionen. Anders ausgedrückt: Die Anzahl der Anomalien ist begrenzt, und das System muss sich mit sehr wenigen Beispielen begnügen um für die Erkennung angewendet zu werden.

 

In bestimmten Fällen ist es nicht einmal möglich, vorab die Anomalien zu messen. In der zivilen und militärischen Luftfahrt werden mehrere Sensoren an den verschiedenen Triebwerken der Maschinen angebracht. Das Ziel ist es festzustellen, ob es in den komplexen Funktionsabläufen des Maschinenantriebs ein Problem gibt. In der Testphase ist es jedoch zu teuer, einen Triebwerk zu beschädigen, nur um anomalie Messungen vorzunehmen. Der Erkennungsalgorithmmus muss sich mit Daten eines Triebwerks in gutem Zustand begnügen.

Triebwerk
Ein Triebwerk sollte nicht beschädigt werden, nur um Fehler-Daten zu erhalten.

 

 

Im Allgemeinen unterscheidet man die folgenden Szenarien, bei üblicherweise ansteigendem Schwierigkeitsgrad: Überwachte, semi-überwachte und unüberwachte Anomalieerkennung.

Überwachte (supervised) Anomalieerkennung:

Dies ist der einfachste Fall, aber auch der seltenste und unrealistischste. In diesem Szenario sind zu jeder einzelnen Anomalie viele Daten vorhanden und es gibt auch eine grosse Menge an Daten ohne Anomalie. Dieser Fall ist einfach, denn es handelt sich um ein Klassifizierungsproblem mit zwei oder mehr Klassen, je nach Anzahl der betrachteten Anomalien. Auf dieses Klassifizierungsproblem können bewährte Methoden angewandt werden. So viele hochqualitative Daten zu erhalten ist allerdings selten. Denn es ist meist schwierig, ausgezeichnete Daten für jede Anomalie zu erhalten. Auch wenn man keinen Extremfall, wie den des Flugzeugmotors, annimmt, ist es schwierig, Daten für alle vorstellbaren Anomalien zusammenzutragen. Aus diesem Grund kommt dieses Szenario nur selten zur Anwendung.

Semi-überwachte (semi-supervised) Anomalieerkennung:

In diesem Fall sind die Daten nur für den Normalzustand vorhanden. Es gibt also keine Daten zu den Anomalien. Das Beispiel des Flugzeugmotors gehört zu dieser Kategorie. Die Tatsache, dass dieses Szenario realen Bedingungen entspricht, macht es zu einem sehr aktiven Forschungsbereich.

Die Schwierigkeit liegt hier in der Schaffung eines vollständigen Modells, welches sämtliche normalen Daten abbildet. Man muss darauf achten, dass dieses Modell nicht zu allgemein wird und Anomalien nicht als normale Größen betrachtet werden. (siehe Artikel: «Die fünf grössten Schwierigkeiten der Anomalieerkennung» Abschnitt „Wahl der Entscheidungsgrenze“).

Unüberwachte (unsupervised) Anomalieerkennung:

Das letzte Szenario erfordert keine gekennzeichneten Daten. Es gibt also einen Datenhaufen ohne, dass die Information vorliegt ob die Daten zu einer Anomalie gehören oder ob alles in Ordnung war. Deswegen ist dies das am häufigsten anwendbare Szenario. Um die Anomalien zu identifizieren, geht der Algorithmus grundsätzlich davon aus, dass es weitaus mehr Normwerte als Anomalien gibt.

Im Beispiel der Erkennung eines Kreditkartendiebstahls würde der Algorithmus auf sämtliche verfügbaren Transaktionen angewandt. Er würde die Transaktionen mit sehr großen Beträgen als anormal betrachten, da diese viel seltener auftreten. Jedoch wären betrügerische Transaktionen mit kleinen Beträgen schwieriger aufzudecken. Es sei darauf hingewiesen, dass der Algorithmus in einem realen Fall ebenso weitere Parameter, wie Transaktionsdatum, Ort, gekaufte Ware, usw. in Betracht ziehen würde.

Processing...
Thank you! Your subscription has been confirmed. You'll hear from us soon.
leanBI Newsletter
Bleiben Sie auf dem Laufenden über die neuesten Trends in Business Intelligence, Big Data und Industrie 4.0.
ErrorHere