Wie trainiert man Livy mit Hilfe Künstlicher Intelligenz?

Wie trainiert man Livy mit Hilfe Künstlicher Intelligenz?

Wie genau trainiert man Livy mit Hilfe Künstlicher Intelligenz eine neue Funktion wie die Hilferuf-Erkennung zu erlernen? Und was haben Pilze, eine Elfe und Chile gemeinsam? Heute geben wir weitere transparente Einblicke in die Entwicklung unserer neuen smarten Funktion der Smart Living Station. 


Was haben Pilze, eine Elfe und Chile gemeinsam?

Sie bilden akustische Negativbeispiele für das Wort "Hilfe" und trainieren unser KI-Modell für die Hilferuf-Erkennung von Livy. Livy lernt also verschiedene Wörter kennen und trainiert mit unterschiedlichsten Vokabeln. 

Dank Künstlicher Intelligenz bringen wir unserer Livy bei, zukünftig selbständig auf Hilferufe zu reagieren. Eine KI-basierte Funktion ist leider nicht innerhalb weniger Wochen implementiert und in unserem vorherigen Artikel  haben wir dir erklärt, wie ein KI-basiertes Training aussieht bzw. welche Voraussetzungen erfüllt sein müssen, damit Livy lernt, einen Hilferuf zu erkennen. 
Soweit so kompliziert. 
Denn für das Erlernen der Hilferuf-Erkennung braucht es neben dem geeigneten Trainingsmodell auch eine große Menge Daten, aus denen die #KI lernt. Für Livy heißt dies, eine möglichst große Menge an Tonaufnahmen zu verarbeiten, aus denen die Smart Living Station lernt, Hilferufe zu erkennen.
Mit ein paar Mal “Hilfe” in die Mikrofone hauchen und die Daten an Livy geben, ist es leider nicht getan. Ganz im Gegenteil. Es braucht etliche Stimmen, Tonlagen, Akzente, auch mal ein undeutliches Hilfe oder Nebengeräusche. 
Kurz: Es braucht verdammt viele Daten! 



Warum lernt Livy mit Negativ-Beispielen die Hilferuf-Erkennung? 

Livy möchte nicht nur mit dem Wort "Hilfe" gefüttert werden, sondern vielmehr mit etlichen Negativbeispielen, damit die Station lernt, selbständig das Wort Hilfe von allerhand anderen - vor allem ähnlichen - Wörtern zu unterscheiden. 
Aber weshalb, sind gerade die Negativbeispiele die Grundvoraussetzung, damit Livy zuverlässig das Wort Hilfe erkennen kann? 

Wir wollen natürlich für unsere Anwender:innen nicht, dass Livy auf gut Glück auslöst, sondern mit einer höchstmöglichen Trefferquote agiert - im Idealfall zu 100% nur auf echte Hilferufe reagiert. Also braucht es viele ähnliche Wörter, die von ihr als "Kein Hilferuf" identifiziert werden. 
Zudem nutzen wir im Alltag in der Regel oft das Wort Hilfe in unterschiedlichen Kontexten, die eben nicht immer im Zusammenhang mit einem echten Hilferuf stehen. Wir sagen "helfen", "hilft", "geholfen", "Hilfe leisten" und vieles mehr. Das alles immer in unterschiedlichen Kontexten und Konversationen. 
Livy ist kein Mensch, der einem Gespräch lauscht und Kontexte filtert, 
sondern am Ende eben doch "nur" ein Gerät, welches auf ein bestimmtes Wort in einer Notfallsituation getriggert werden soll. Um zu verstehen, worum es geht, muss Livy all die unterschiedlichen Wörter kennenlernen, um unterscheiden zu können was "richtig" und was "falsch" ist. 

Wir möchten natürlich die Hilferuf-Erkennung so perfektionieren, dass Livy jeden echten Hilferuf erkennt und in einer Alarmsituation umgehend handelt.
Zu Beginn des KI-Trainings ist das für die Smart Living Station ein reines Glücksspiel. Wenn sie aber erste Erfolge verzeichnet und richtig liegt, wird sie nach Möglichkeiten suchen, wie sie ihre Erfolgschancen erhöhen kann, um häufiger einen Treffer zu erzielen. In der Anwendung würde dies
 bedeuten, dass Livy nicht nur auf "Hilfe" reagiert, sondern auf alles, was ähnlich klingt, um so die Wahrscheinlichkeit zu erhöhen, zur richtigen Zeit einen Alarm auszulösen. Das würde dann natürlich zu vielen Fehlalarmen führen, welche wir selbstverständlich vermeiden wollen. 

Um das vielleicht besser zu veranschaulichen ein Beispiel aus einem anderen Gebiet: Bei einem Investmentfond würde dies bedeuten, dass Anleger (stellvertretend für Livy) nicht auf eine einzige Aktie oder eine Immobilie setzen, sondern das Kapital über den Fond auf eine breite Palette verteilen, um die Chancen auf Rendite zu erhöhen. Man geht nicht davon aus, dass das eine Pferd den Gewinn maximieren wird, sondern verteilt die Chancen, auf viele verschiedene. 

Livy agiert zumindest zu Beginn der Trainingsphase ähnlich. Aktuell kann sie bereits sehr eindeutige Hilferufe identifizieren. 
Mit Hilfe der Levenshtein Distanz haben wir ähnliche Wörter ermittelt, mit denen Livy trainieren kann und bringen ihr so quasi ein breites Vokabular bei. 

Hilferuf-Erkennung: Welchen Einfluss haben Nebengeräusche und Stille?

Was Livy nicht klar als Negativbeispiel erkennt, wird als Hilferuf wahrgenommen. Und dazu zählen tatsächlich auch Nebengeräusche wie Vogelgezwitscher, Radiomusik, der Fernseher oder eine Türklingel. Das heißt für unser Livy Trainingsmodell, dass es nicht nur mit Negativwörtern und Sätzen gespeist werden muss, sondern auch mit allerhand (Neben-)Geräuschen. Und wie kommt man an so viele Trainingsdaten für Nebengeräusche?
Setzt man sich jetzt mit einem Mikrofon in den Park und nimmt verschiedene Vogelgesänge auf? 

In einem sehr kreativen Moment kam unser interner KI-Spezialist darauf, eine für unsere Anwender:innen gar nicht mal so abwegige Soundkulisse in Sequenzen zu zerkleinern - den Musikantenstadl. 

Die Smart Living Station ist in ihren Funktionen besonders zur (Fern-)Betreuung von Pflegebedürftigen und Senioren geeignet. Eine beliebte Sendung unter Senioren ist der Musikantenstadl und so war es für unseren Mitarbeiter naheliegend, die Sendung als Datensatz zu nehmen, sie in 4 Sekunden Sequenzen zu zerlegen und damit das Livy-Trainingsmodell zu füttern. 
Hinzukommen natürlich noch viele andere Datensätze aus unterschiedlichen Ressourcen. Vor allem Geräuschen stehen z.T. auch in verschiedenen Datenbanken zur Verfügung und können erworben oder frei genutzt werden. 
Auch auf diese greifen wir zurück und lassen Livy damit lernen. 

Alle Trainingsdaten werden vorab in 4-sekündige gleichwertige Sequenzen angepasst und dann "markiert", sodass das Trainingsmodell in richtig oder falsch unterscheiden kann. 

Damit wir am Ende eine Funktion haben, die mit einer möglichst hohen Trefferquote agiert, trainieren wir aktuell mit 3 verschiedenen Modellen: zwei, die direkt auf der Station installiert sind und ein Modell, welches über einen unserer internen Server läuft, da es eine deutlich höhere Rechenleistung erfordert. Alle basieren auf der gleichen Herangehensweise und wollen mit Positiv- wie Negativbeispielen trainiert werden. Jedoch zeigen sich dabei unterschiedliche Erfolgsquoten. 
Wir können damit also unterschiedliche Trainingserfolge erzielen und mit den Ergebnissen eines Models, das jeweils andere Modell speisen und so zielgerichtet die Funktion immer weiter verbessern. So können wir letztlich ein zuverlässiges Modell auf der Smart Living Station implementieren, welches unsere Anwender:innen nutzen können. 




Nach wie vor können Sie uns unterstützen und entscheidend zur Entwicklung der Funktion beitragen. 

Hinterlassen Sie uns Ihren Kommentar und bestätigen Sie uns Ihren Teilnahmewunsch. Anschließend kontaktieren wir Sie mit einem individuellen Link, mit dem Sie teilnehmen können. 

Über den Link können Sie problemlos ganz ohne besondere Hilfsmittel direkt über Ihr Smartphone, ein Tablet oder den Laptop verschiedene Wörter einsprechen. 

HINWEIS: Alle Daten werden anonym verarbeitet und bilden für uns die Grundlage einer zuverlässigen Hilferuf-Erkennung mit Livy Alive. Jede einzelne Aufnahme hilft uns dabei, die Funktion weiterzuentwickeln. Ein Abschließen aller Level ist nicht notwendig. Vielen Dank für Ihre Teilnahme!

Jetzt kommentieren und teilnehmen.