Wie lernt künstliche Intelligenz, menschliche Emotionen zu erkennen?

Die Integration von KI in Alltagsgesprächen nimmt stetig zu – sei es bei Hotlines oder Chatbots. Trainer wie Tony Du aus Toronto tragen dazu bei, dass diese Systeme emotionale Nuancen erfassen und angemessen reagieren können. Der 34-jährige Finanzspezialist und Nebenerwerbstätige arbeitet nach Feierabend mit KI-Modellen und hilft ihnen dabei, die subtilen Unterschiede in der menschlichen Stimme zu verstehen.

Tony Du erkannte die Fähigkeiten seiner Trainingsarbeit an einem Abend, als seine eigene Müdigkeit von einem Chatbot richtig identifiziert wurde. Er überprüfte die Aufnahme und stellte fest, dass seine Stimme tatsächlich erschöpft klang – eine Bestätigung für die Fortschritte in der KI-Emotionserkennung.

Ursprünglich aus China stammend, spricht Du sowohl Mandarin als auch Englisch. Die Herausforderung besteht darin, den emotionalen Inhalt zu erfassen, nicht nur das gesprochene Wort selbst. Diese Arbeit ist entscheidend für die Weiterentwicklung von KI-Systemen in Bereichen wie der Kundenbetreuung oder Medizin.

Die Bedeutung der Stimme im Rahmen der aktuellen KI-Entwicklungen wird zunehmend deutlich. Unternehmen wie Meta und Google arbeiten an sprachgesteuerten Geräten, während OpenAI ein neues Produkt ankündigt. Die Entwicklung dieser Technologien erfordert präzise Audiomodelle, die ein natürliches Gespräch ermöglichen.

Um KI-Modelle fein abzustimmen, werden umfangreiche Trainingsdaten benötigt. Während des sogenannten ‘Pre-Trainings’ verwenden Firmen öffentlich zugängliche Daten, während das ‘Post-Training’ spezialisierte Audiodateien erfordert. Hierbei arbeiten Unternehmen wie OpenAI und Google mit Drittfirmen zusammen, um diese Anpassungen vorzunehmen.

Tony Du beschreibt seine Arbeit als vielfältig: von flüsternden Geschichten bis hin zum sarkastischen Ausdruck. Er gibt der KI Feedback zur richtigen Emotionswahrnehmung und hilft ihr, die Stimmung zu interpretieren. Dabei vergleicht er es mit Schauspieltraining.

Obwohl die KI oft korrekt Emotionen identifiziert, treten gelegentlich Missverständnisse auf, besonders bei Sarkasmus – eine Herausforderung für die Technologie.

Scale AI, ein Unternehmen aus San Francisco, das zu den Pionieren im Bereich der Bilderkennungs-Trainingsdaten zählt, spielt nun auch beim Training von Stimmen eine Rolle. Das Ziel ist es, Modelle so vielfältig wie möglich zu gestalten, um authentische Umgebungen und verschiedene Dialekte einzubeziehen.

Die Firma hat sogar eine App entwickelt, damit Aufnahmen in alltäglichen Lärmsituationen gemacht werden können. Sabharwal von Scale AI bezeichnet die Vision einer KI, die Emotionen in jeder Sprache und Umgebung richtig erkennt, als ‘heiligen Gral’.

Tony Du sieht seine Tätigkeit optimistisch: Er hofft auf eine Zukunft, in der KI-Gespräche genauso vertraut sind wie menschliche Interaktionen. Für ihn ist es ein Weg, sich ohne Angst vor Urteil freier auszudrücken und die Kommunikation mit intelligenten Systemen zu verbessern.