Ungebetene Zuhörer im Lautsprecher
Sprachassistenten sollen auf „Alexa“, „Hey Siri“, „OK Google“ reagieren, springen aber auch bei vielen anderen Wörtern an
Vernetzte Lautsprecher mit Sprachassistenten hören ihren Nutzern vermutlich häufiger zu als sie sollen. Das legen Untersuchungen eines Teams der Ruhr-Universität Bochum sowie des Bochumer Max-Planck-Instituts für Sicherheit und Privatsphäre nahe. Die Forscherinnen und Forscher haben zahlreiche englische, deutsche und chinesische Wörter identifiziert, die Sprachassistenten versehentlich aktivieren. So können Teile sehr privater Unterhaltungen bei den Herstellern der Systeme landen.
„Ok, cool“, „am Sonntag“, „Daiquiri“. Diese und mehr als 1000 weitere Wörter und Wortfolgen starten fälschlicherweise die vernetzten Lautsprecher von Google, Amazon beziehungsweise Siri von Apple, wie Forschende um Dorothea Kolossa und Thorsten Holz, beide Professoren an der Ruhr-Universität Bochum, herausgefunden haben. Im Englischen versteht Alexa je nach Aussprache auch „unacceptable“ und „election“ als Aufforderung zum Zuhören, Siri springt auf „a city“ an.
Wenn sich die Systeme fälschlicherweise angesprochen fühlen, schneiden sie eine kurze Sequenz des Gesagten mit und übermitteln die Daten an den jeweiligen Hersteller, teilweise ohne dass die Nutzerinnen und Nutzer das bemerken. Denn im Fall einer versehentlichen Aktivierung, transkribieren Angestellte der Konzerne die Audioschnipsel und überprüfen sie auf Lautfolgen, die ihre Systeme unbeabsichtigt starten. So soll die Spracherkennung zuverlässiger werden.
Alle großen Hersteller im Test
Die IT-Expertinnen und -Experten, darunter auch Maximilian Golla, der jetzt am Max-Planck-Institut für Sicherheit und Privatsphäre forscht, testeten die vernetzten Lautsprecher und deren integrierte Sprachassistenten von Amazon, Apple, Google, Microsoft und Deutscher Telekom sowie drei chinesische Modelle von Xiaomi, Baidu und Tencent. Sie spielten ihnen stundenlang deutsches, englisches und chinesisches Audiomaterial vor, unter anderem einige Staffeln aus den Serien „Game of Thrones“, „Modern Family“ und „Tatort“ sowie Nachrichtensendungen. Auch professionelle Audio-Datensätze, die zum Training von Sprachassistenten verwendet werden, waren dabei.
Alexa im Aktivierungstest
Alle vernetzten Lautsprecher hatten sie zuvor mit einer Diode versehen, die registrierte, wann die Aktivitätsanzeige des Sprachassistenten aufleuchtete, das Gerät also sichtbar in den aktiven Modus schaltete. Außerdem registrierte das experimentelle Setup, wann ein Sprachassistent Daten nach außen sendete. Immer wenn eines der Geräte in den aktiven Modus schaltete, protokollierten die Forscher, bei welcher Audiosequenz das der Fall war. Manuell werteten sie später aus, welche Begriffe den Sprachassistenten aktiviert hatten.
Um zu verstehen, was die Begriffe zu versehentlichen Aktivierungswörtern, die Forscher sprechen von Triggerwörtern, macht, zerlegten die Forscherinnen und Forscher die Wörter in ihre kleinstmöglichen Klangeinheiten und identifizierten die Einheiten, die häufig von den Sprachassistenten verwechselt wurden. Basierend auf diesen Erkenntnissen erzeugten sie neue Aktivierungswörter, die Sprachassistenten ebenfalls anspringen lassen.
„Ein Spagat zwischen Datenschutz und technischer Optimierung“
„Die Geräte sind mit Absicht etwas liberal programmiert, weil sie ihre Menschen verstehen können sollen. Sie springen also eher einmal zu viel als zu wenig an“, sagt Dorothea Kolossa. Wie die Systeme Sprachsignale auswerten und mit versehentlichen Aktivierungswörtern umgehen, untersuchten die Wissenschaftler genauer. Typisch ist demnach ein zweistufiger Prozess. Zunächst analysiert das Gerät lokal, ob in der wahrgenommenen Sprache ein Triggerwort enthalten ist. Vermutet das Gerät, ein Aktivierungswort gehört zu haben, lädt es das derzeitige Gespräch für eine weitere Analyse mit mehr Rechenpower in die Cloud des Herstellers hoch. Identifiziert die Cloud-Analyse den Begriff als Fehltrigger, bleibt der Sprachassistent stumm, nur seine Aktivitätsanzeige leuchtet kurz auf. Doch auch dann können bereits mehrere Sekunden Audiomitschnitt bei den Herstellern landen, die mit deren Auswertung die versehentliche Aktivierung beim jeweiligen Begriff künftig vermeiden wollen.
„Aus Privacy-Sicht ist das natürlich bedenklich, weil teils sehr private Unterhaltungen bei Fremden landen können“, sagt Thorsten Holz. „Aus Engineering-Sicht ist das Vorgehen hingegen nachvollziehbar, denn die Systeme können nur mithilfe solcher Daten verbessert werden. Die Hersteller müssen einen Spagat zwischen Datenschutz und technischer Optimierung schaffen.“
RUB/PH