Hören Sie den Unterschied zwischen KI und menschlicher Sprache?

Steven Mike Voser
D
Die Google-Ingenieure haben gerade die neueste Sprachsynthese-Technologie entwickelt: den Tacotron 2. Können Sie den Unterschied zwischen diesem Bot und einem Menschen erkennen?

Was meinen Sie – können Sie unterscheiden, ob Sie einen Menschen oder eine Maschine sprechen hören? Falls Sie mit den Stimmen der veralteten Sprachsynthesesysteme (wie Sam, Mike und Mary von Microsoft) oder denen von Siri und Alexa vertraut sind, müssen Sie mit einem klaren Ja antworten. Aber wenn Sie Googles neuesten Tacotron 2 gehört haben, sind Sie sich vielleicht nicht mehr so sicher. Google startete das Programm Ende Dezember zusammen mit einer eigenen wissenschaftlichen Arbeit, in der Tacotrons Stimme mit der eines echten Menschen verglichen wurde. Laut diesem von Google-Forschern der Universität Berkeley verfassten Text ist es fast unmöglich, beide zu unterscheiden. Um das einmal selbst zu überprüfen, sollten Sie sich hier die Tacotron-Klangbeispiele anhören, bevor Sie weiterlesen.
 

 

TACOTRON 2: DIE NEUESTE KÜNSTLICHE INTELLIGENZ DER SPRACHSYNTHESE

Jetzt, nachdem Sie die Beispiele von Googles Tacotron 2 gehört haben, werden Sie wahrscheinlich erstaunt sein, wie echt das alles klingt. Das von den Google-Ingenieuren entwickelte System besteht aus zwei tiefen neuronalen Netzen, die Texte in gesprochene Sprache übersetzen. Das erste Netzwerk wandelt den Text in ein Spektrogramm um, das dem System eine visuelle Darstellung dessen liefert, wie der Text klingen soll. Dieses Spektrogramm wird dann in WaveNet eingespeist, das es daraufhin liest und die jeweiligen Laute erzeugt.
 
Dieses Spektrogramm wird dann in WaveNet eingespeist, das es daraufhin liest und die jeweiligen Laute erzeugt.
 

ENTWICKLUNGEN IM BEREICH DER SPRACHERZEUGUNG

Obwohl die Spracherkennung in den letzten Jahren große Fortschritte gemacht hat (denken Sie etwa an Google Voice Search oder Apples Siri), blieb die Text-zu-Sprache-Technologie lange zurück. Seit Jahren stützt sich diese Technologie der künstlichen Spracherzeugung auf sogenannte konkatenative (verkettende) Systeme. Diese Systeme bestanden im Wesentlichen aus einer Datenbank kleiner, von einem echten menschlichen Sprecher gelesenen Sprachfragmenten, die aufgezeichnet und dann von der Maschine zu Sätzen zusammengesetzt wurden.
Obwohl diese Systeme in gewisser Weise funktionierten, taten sie sich sehr schwer, die Feinheiten der menschlichen Sprache, wie Betonung oder emotionalen Gehalt, zu reproduzieren. Um diese Details zu erfassen, müsste die gesamte Klang-Bibliothek von Grund auf neu aufgenommen werden. Die einzige Alternative zu konkatenativen Sprachsynthesesystemen waren lange Zeit parametrische Text-zu-Sprache-Systeme. Obwohl diese Systeme die Fähigkeit besitzen, die Inhalte und Eigenschaften gesprochener Sprache unter Verwendung spezifischer Eingaben zu steuern, klangen sie generell weit weniger natürlich. WaveNet, das System hinter Googles Tacotron 2, revolutioniert nun jedoch völlig die Art und Weise, wie Maschinen die menschliche Rede synthetisieren.
 

WAVENET: DIE REVOLUTION IM BEREICH DER SPRACHSYNTHESE

WaveNet wurde von DeepMind entwickelt, einer KI-Firma mit Sitz in Großbritannien. Die Wissenschaft hinter diesem System ist sehr komplex. Laut DeepMind wurde WaveNet zuerst anhand von Klangkurvenverläufen geschult, die von echten menschlichen Sprechern aufgenommen wurden. Nachdem das System mit diesen Sprachproben ausgebildet wurde, war es in der Lage, sie als Vorlagen zu nehmen, um neue, synthetische Äußerungen zu erzeugen. WaveNet verwendet in der Folge komplexe Algorithmen, um die jeweils nächsten Textbestandteile beliebiger Textumgebungen vorherzusagen und schließlich reiche, natürlich klingende Sprachäußerungen zu produzieren.
Unter Zuhilfenahme der bestehenden Text-zu-Sprache-Datensätze von Google verglichen die Forscher bei DeepMind die Leistung von WaveNet mit der von Googles bereits existierenden besten (parametrischen und konkatenativen) Sprachsynthesesystemen. Die Ergebnisse wurden unter Verwendung einer von 1 bis 5 reichenden Skala von Mean Opinion Scores (MOS) ausgedrückt, einer Standardmessmethode, die in Audiotests verwendet wird. Beim Produzieren von US-amerikanischem Englisch erreichte WaveNet einen MOS-Wert von 4,21. Googles konkatenative und parametrische Systeme erzielten Werte von 3,86 bzw. 2,6, während der echte menschliche Vortrag einen Wert von 4,55 erhielt. Die Forscher von DeepMind führten dieselben Tests in chinesischem Mandarin durch und erhielten die folgenden Ergebnisse:

  • Menschlicher Sprecher: 4.21
  • WaveNet: 4.08
  • Parametrisch: 3.79
  • Konkatenativ: 3.47

WaveNet unterscheidet sich in vielerlei Hinsicht von anderen Sprachsynthesesystemen. Um zu wissen, wie bestimmte Sätze auszusprechen sind, muss WaveNet ein Text präsentiert werden, der in eine Abfolge von linguistischen und phonetischen Hinweisen umgewandelt wurde und dem System vermittelt, in welcher Form es die Silben, Wörter oder andere Klänge replizieren soll. Ohne diese Informationen funktioniert das System zwar immer noch, aber es muss eigenständig entscheiden, was es zu sagen hat.
Wenn dies der Fall ist, erzeugt WaveNet normalerweise eine Reihe zufälliger Klänge, wobei es gelegentlich auch Worte einstreut. Da das System auf Originaltönen basiert, kann WaveNet auch natürliche Geräusche wie die Atmung oder den Klang der Mundbewegungen erzeugen. Interessanterweise kann WaveNet lernen, nicht nur Sprache zu replizieren, sondern auch alle möglichen anderen Klänge. Zum Beispiel haben die Forscher bei DeepMind WaveNet auch im Bereich klassischer Klaviermusik geschult. Das Ergebnis? Faszinierende Proben improvisierter Klaviermusik aus dem Blickwinkel künstlicher Intelligenz. Auf der DeepMind Website können Sie mehr über WaveNet lesen.
 
Auf der DeepMind Website können Sie mehr über WaveNet lesen.
 

BESTEHEN SIE DEN TEST UND ENTLARVEN SIE DIE MASCHINE?

Jetzt, da Sie wissen, wie Google Tacotron 2 funktioniert, ist es an der Zeit den Test zu machen: Meinen Sie, dass Sie Tacotron von einem echten menschlichen Sprecher unterscheiden können? Um den Test durchzuführen, folgen Sie diesem Link und scrollen Sie zu den letzten Sprachproben mit dem Titel „Tacotron 2 or Human?“ Dort werden Sie insgesamt 8 Proben finden – 4 von einem menschlichen Sprecher und 4 von Tacotron. Haben Sie den Bot entdeckt? Sobald Sie alles gehört haben, scrollen Sie nach unten, um zu sehen, welche Sprachbeispiele von Tacotron 2 stammen.
 

ANTWORTEN

Also, welche der obigen Proben kamen von einem Menschen? Nun, Google hat es nicht verraten. Das Unternehmen hat allerdings einen wichtigen Hinweis gegeben: Wenn Sie die Dateien herunterladen, werden Sie feststellen, dass einige der Dateinamen den Begriff „gen“ enthalten, während in anderen der Code „gt“ auftaucht. Obwohl wir diesbezüglich nicht sicher sein können, legt Googles Text nahe, dass die Dateien mit der Bezeichnung „gen“ von Tacotron 2 erzeugt wurden, während die mit „gt“ bezeichneten Dateien von einem Menschen stammen. Angenommen, das ist richtig, finden Sie hier die Antworten für Ihren Test:
„That girl did a video about Star Wars lipstick.“

  • Sprachprobe 1: Echter Mensch
  • Sprachprobe 2: Tacotron 2

„She earned a doctorate in sociology at Columbia University.“

  • Sprachprobe 1: Tacotron 2
  • Sprachprobe 2: Echter Mensch

„George Washington was the first President of the United States.“

  • Sprachprobe 1: Tacotron 2
  • Sprachprobe 2: Echter Mensch

„I’m too busy for romance.“

  • Sprachprobe 1: Echter Mensch
  • Sprachprobe 2: Tacotron 2