Benutzer:MrThorstenM/Tacotron
Tacotron (Version 2)
Tacotron ist eine von Google entwickelte Spezifikation zur maschinellen Erzeugung von menschlicher Stimme. Dieser Prozess wird als "Text to speech" (TTS) oder auch Sprachsynthese bezeichnet. Dieser Artikel beschreibt die momentan aktuelle Version 2 der Spezifikation.
Theoretische Grundlagen
Tacotron 2 verfolgt einen modulen Ansatz. Hier Text zu den theoretischen Grundlagen einfügen
Beispielsatz: "Mein Name ist Thorsten Müller und ich spende meiner Stimme der Menschheit."
- Zerlegen in einzelne Spektogramme
- Vocoder zur Erzeugung der Stimme
Modelle
Durch maschinelles Lernen erzeugte Modelle bilden die Grundlage für Tacotron. Es können für die TTS-Erzeugung vorhandene und vortrainierte Modelle verwendet werden oder auf Basis von transkribierten Stimmaufnahmen eigene Modelle trainiert werden.
Existierende Modelle
fsdfsd
Neue Modelle
Best practice Empfehlungen für Dataset, etc.
Komponenten
Encoder
Vocoder
Implementierungen
- Mozilla TTS
- NVidia