NLP ist ein Bereich der Informatik, der sich mit der Anwendung linguistischer und statistischer Algorithmen auf Text befasst, um die Bedeutung auf eine Art und Weise zu extrahieren, die der Art und Weise, wie das menschliche Gehirn Sprache versteht, sehr ähnlich ist.
Die kurze und knappe Version wäre also: Stellen Sie sich vor, Sie betrachten zwei Versionen der gleichen oder ähnlicher Datensätze, die beide zu unterschiedlichen Zeiten aufgenommen wurden. Wenn Sie die beiden Datensätze miteinander vergleichen und sich die Datenhistogramme nicht signifikant überschneiden, sagen wir, dass die Daten gedriftet sind.
Amazon SageMaker Model Monitor hilft Ihnen dabei, die Qualität Ihrer ML-Modelle kontinuierlich und in Echtzeit zu überwachen! Mit Model Monitor können Sie Warnmeldungen konfigurieren, die Sie benachrichtigen und Aktionen auslösen, wenn eine Abweichung in der Modellleistung festgestellt wird. Die frühzeitige und proaktive Erkennung dieser Abweichungen ermöglicht es Ihnen, korrigierende Maßnahmen zu ergreifen, wie z.B. das Sammeln neuer Ground-Truth-Trainingsdaten, das erneute Trainieren von Modellen oder das Überprüfen von vorgelagerten Systemen, ohne dass Sie die Modelle manuell überwachen oder zusätzliche Tools entwickeln müssen.
Model Monitor bietet derzeit vier verschiedene Arten von Überwachungsfunktionen, mit denen Sie die Modelldrift in Echtzeit erkennen und abmildern können:
– Datenqualität – Hilft bei der Erkennung von Änderungen in Datenschemata und statistischen Eigenschaften unabhängiger Variablen und warnt, wenn eine Abweichung festgestellt wird.
– Modellqualität – Zur Überwachung von Modellleistungsmerkmalen wie Genauigkeit oder Präzision in Echtzeit – Model Monitor ermöglicht Ihnen die Aufnahme der von Ihren Anwendungen gesammelten Ground-Truth-Labels. Model Monitor führt dann automatisch die Ground-Truth-Informationen mit den Vorhersagedaten zusammen, um die Leistungskennzahlen des Modells zu berechnen.
– Modellverzerrung – Model Monitor ist in Amazon SageMaker Clarify integriert, um die Sichtbarkeit potenzieller Verzerrungen zu verbessern. Auch wenn Ihre anfänglichen Daten oder Ihr Modell möglicherweise nicht verzerrt sind, können Veränderungen in der Welt dazu führen, dass ein bereits trainiertes Modell im Laufe der Zeit verzerrt wird.
– Erklärbarkeit des Modells – Die Drift-Erkennung warnt Sie, wenn sich die relative Bedeutung von Merkmalszuweisungen ändert.
Kovariate Verschiebung
Bei einer Kovariatenverschiebung ändert sich die Verteilung der Eingaben im Laufe der Zeit, aber die bedingte Verteilung P(y|x) ändert sich nicht. Diese Art von Drift wird Kovariatenverschiebung genannt, weil das Problem durch eine Verschiebung der Verteilung der Kovariaten (auch Merkmale genannt) entsteht.
Etikett verschieben
Während der Kovariaten-Shift sich auf Änderungen in der Merkmalsverteilung konzentriert, konzentriert sich der Label-Shift auf Änderungen in der Verteilung der Klassenvariablen. Diese Art von Shifting ist im Wesentlichen das Gegenteil von Covariate Shift. Eine intuitive Möglichkeit, sich das vorzustellen, ist die Betrachtung eines unausgewogenen Datensatzes. Wenn das Verhältnis von Spam- zu Nicht-Spam-E-Mails in unserem Trainingsdatensatz 50 % beträgt, in Wirklichkeit aber 10 % unserer E-Mails Nicht-Spam sind, dann hat sich die Verteilung der Zielkennzeichnung verschoben 👍.
Konzeptverschiebung
Die Konzeptverschiebung unterscheidet sich von der Kovariaten- und Etikettenverschiebung dadurch, dass sie sich nicht auf die Datenverteilung oder die Klassenverteilung bezieht, sondern auf die Beziehung zwischen den beiden Variablen. Beispielsweise verwenden E-Mail-Spammer oft eine Vielzahl von Konzepten, um die Spam-Filtermodelle zu überwinden, und das beim Training verwendete Konzept der E-Mails kann sich im Laufe der Zeit ändern.
Wenn Sie sich die einzelnen Schritte ansehen und der Anleitung zur Erstellung von Baselines, zur Auswertung von Skripten, zur Verwendung von benutzerdefinierten Containern in Model Monitor und mehr folgen möchten, klicken Sie hier.
Wenn Sie sich in einer Situation befinden, in der Sie beispielhafte Datenmengen haben und nicht wissen, wie Sie diese sicher, schnell und kosteneffizient sammeln, archivieren und abrufen können (bei gleichzeitiger Minimierung der Abwanderung), wenden Sie sich noch heute an uns!
Haben Sie eine bestimmte Fallstudie oder einen Einblick gesehen und möchten Sie mehr erfahren? Oder denken Sie über Ihr nächstes Projekt nach? Schreiben Sie uns eine Nachricht!