Das Zeitalter von Industrie 4.0 liefert uns mehr Maschinendaten als je zuvor. Warum treten trotzdem immer wieder Fehler in der Produktion auf? Dr. David Breyel, Data Scientist bei connyun, sieht das so: „Das Sammeln von Daten allein bringt keinen Mehrwert. Nur in wenigen Fällen liefert ein Messwert direkte Informationen, zum Beispiel ob ein Ersatzteil benötigt wird.“ Es gilt also, aus den unzähligen Daten aussagekräftige Erkenntnisse zu gewinnen und daraus Handlungsempfehlungen abzuleiten. Genau das ist Aufgabengebiet der Data Science Expertenbei connyun. Eine zentrale Rolle spielt dabei die Ausreißererkennung oder Outlier Detection.
„Als Ausreißer bezeichnet man einfach gesagt Datenpunkte, die nicht den Erwartungen entsprechen“, erläutert der Datenfachmann. „Im Falle von ein- oder zweidimensionalen Datenmengen ist der Mensch oft noch in der Lage, Ausreißer zu erkennen. Aber: Heutzutage liefern Maschinen große, hochdimensionale Datensätze. Ohne Computerunterstützung geht da nichts.“ Wie aber funktioniert die Outlier Detection?
Schritt 1: Ausreißer identifizieren
Eine Vielzahl an Verfahren – wie etwa one-class support vector machinesoder nearest neighbor distance – orientiert sich am menschlichen Denken. Breyel formuliert das folgendermaßen: „Miss die Abstände von den Datenpunkten zueinander und markiere diejenigen, die weit entfernt von allen anderen sind.“ Sind die Abstände zwischen Datenpunkten nicht sinnvoll messbar, greifen der Data Scientist und seine Kollegen von connyun auf Verfahren zurück, die nicht abstandsbasiert sind, wie etwa die isolation forests. „In der Regel wenden wir verschiedene Methoden auf einen Datensatz an und verwenden die erfolgreichste dann weiter, denn kein Datensatz gleicht dem anderen und oft verursachen schon die kleinsten Details deutliche Unterschiede.“
Schritt 2: Ausreißer klassifizieren – Fehler, Zufall oder Anomalie?
Sind die Ausreißer identifiziert, werden sie klassifiziert. „Dabei unterscheiden wir zwischen Fehler, Zufall und Anomalie“, erläutert David Breyel. Fehler entstehen zum Beispiel durch defektes Messequipment oder durch Tippfehler bei der Eingabe. Zufälle sind korrekt aufgenommene Messungen, die zunächst außergewöhnlich erscheinen, aber mit einer gewissen Wahrscheinlichkeit auftreten können und daher unbedenklich sind. Anomalien sind Datenpunkte, die durch bisher nicht betrachtete Effekte auftreten und damit einer anderen statistischen Verteilung unterliegen.
Schritt 3: Ausreißer nutzen – zur Datenbereinigung oder zur Fehlerbehebung
Wird ein Ausreißer als Fehler oder Zufall identifiziert, wird dies zur Datenbereinigung genutzt. Der Effekt: Die weitere Datenanalyse wird nicht ungewollt beeinflusst oder gar verfälscht. Wurden erste Ergebnisse erzeugt oder kommen neue Daten zum Projekt hinzu, sollte die Outlier Detection erneut durchgeführt und der Datensatz dementsprechend aktualisiert werden.
„Handelt es sich um eine Anomalie, so ist der Ausreißer von größerem Interesse als die bereinigten Daten selbst“, betont David Breyel. „Durch Anomalien identifizieren wir beispielsweise fehlerhafte Werkstücke ohne erneute Begutachtung. Oder wir entdecken Effekte, die durch das Umrüsten einer Maschine auf eine andere Variante entstehen.“ Genau auf die jeweilige Anomalie abgestimmt, werden weitere Operationen auf den Daten durchgeführt, um diese Fälle zukünftig automatisch zu erkennen und zu vermeiden.
Auf den Ausreißern aufbauend erstellen die connyun Data Scientists zudem klare Handlungsempfehlungen und schaffen damit Mehrwerte für den Kunden: So wird zum Beispiel eine Nachricht an den Maschinenführer oder Instandhalter gesendet, dass ein Werkstück auf Fehler geprüft werden soll oder dass ein Ersatzteil notwendig ist.
Outlier Detection in der Praxis – ein Beispiel
Eine Firma produziert ein komplexes Produkt aus verschiedenen Teilzusammenbauten. Eine dieser Zusammenbauten besteht aus Bauteil A mit einer Länge von 100 mm und Bauteil B mit einer Länge von 150 mm. Plötzlich tauchen in der Produktion Zusammenbauten mit deutlichen Längenabweichungen auf: Sie sind zu kurz. Wird die Ursache nicht entdeckt und behoben, drohen Engpässe in der Produktion. In einem solchen Fall würden die Data Science Experten von connyun auf Ausreißer-Suche gehen.
Die Datenanalyse beginnt beim Wareneingang und der manuellen Qualitätskontrolle: Hier vermessen die Mitarbeiter der Firma eine zufällige Auswahl der Teile per Hand und tragen das Ergebnis in einer Excel-Tabelle ein. Ein Ausreißer fällt schnell ins Auge: Für das normalerweise 100 mm lange Einzelteil A tauchen an einigen Stellen Werte von 10 auf. Dieser Ausreißer wird jedoch schnell als Fehler klassifiziert: Ein Mitarbeiter hat die Länge statt in Millimetern in Zentimetern angegeben. Die Daten werden korrigiert, bereinigt und erneut analysiert. Das Ergebnis: Bauteil A zeigt keine nennenswerten Abweichungen.
Die Abweichungen müssen also bei Bauteil B liegen. Und tatsächlich: Die Tabelle des Wareneingangs zeigt, dass der Zulieferer Einzelteile mit einem Mittelwert von 150 mm Länge und einer Standardabweichung von 1 mm produziert. Doch einige der Teile wurden mit Werten rund um 147,5 mm gemessen. Ist dies ab einem bestimmten Zeitpunkt etwa jedes 50ste Mal so geschehen? Dann könnte es sich um eine Anomalie handeln – etwa weil der Zulieferer eine neue Maschine in Betrieb genommen hat, die noch nicht auf das korrekte Maß eingestellt ist. Die Datenanalyse zeigt jedoch: Nur etwa jedes 200ste Bauteil B hat dieses kleinere Abmaß – es handelt sich also um einen Zufall, und das Problem liegt höchstwahrscheinlich nicht beim Zulieferer.
Die Längenabweichung lässt sich nicht mit den Daten des Wareneingangs erklären. Folglich muss er in der Produktion liegen. Das bestätigt die anschließende Datenanalyse. Sie zeigt einen deutlichen Ausreißer, in diesem Falle eine Anomalie: Ein Großteil der fehlerhaften Zusammenbauten wurde in der gleichen Schicht gefertigt. Es stellt sich heraus, dass die Mitarbeiter dieser Schicht versehentlich Prototypen von Bauteil B mit der Eingangsware vermischt haben. Diese Prototypen sind kürzer als die Original-Bauteile. Die Firma unternimmt umgehend Maßnahmen, um derartige Fehler in Zukunft zu vermeiden.
Outlier Detection schafft Mehrwerte – ein Fazit
Zusammenfassend lässt sich also sagen, dass die Outlier Detection nicht nur notwendiges Übel zum Bereinigen der Daten, sondern elementarer Bestandteil der Datenanalyse und damit eine Voraussetzung für maschinelles Lernen ist. Selbst allein schafft sie oft einen Mehrwert.