Benutzer:MrThorstenM/Tacotron

aus Wikipedia, der freien Enzyklopädie

Tacotron (Version 2)

Tacotron ist eine von Google entwickelte Spezifikation zur maschinellen Erzeugung von menschlicher Stimme. Dieser Prozess wird als "Text to speech" (TTS) oder auch Sprachsynthese bezeichnet. Dieser Artikel beschreibt die momentan aktuelle Version 2 der Spezifikation.

Theoretische Grundlagen

Tacotron 2 verfolgt einen modulen Ansatz. Hier Text zu den theoretischen Grundlagen einfügen

Beispielsatz: "Mein Name ist Thorsten Müller und ich spende meiner Stimme der Menschheit."

  1. Zerlegen in einzelne Spektogramme
  2. Vocoder zur Erzeugung der Stimme

Modelle

Durch maschinelles Lernen erzeugte Modelle bilden die Grundlage für Tacotron. Es können für die TTS-Erzeugung vorhandene und vortrainierte Modelle verwendet werden oder auf Basis von transkribierten Stimmaufnahmen eigene Modelle trainiert werden.

Existierende Modelle

fsdfsd

Neue Modelle

Best practice Empfehlungen für Dataset, etc.

Komponenten

Encoder

Vocoder

Implementierungen

  • Mozilla TTS
  • NVidia

Einzelnachweise