Benutzer:MrThorstenM/Tacotron

Tacotron (Version 2)

Tacotron ist eine von Google entwickelte Spezifikation zur maschinellen Erzeugung von menschlicher Stimme. Dieser Prozess wird als "Text to speech" (TTS) oder auch Sprachsynthese bezeichnet. Dieser Artikel beschreibt die momentan aktuelle Version 2 der Spezifikation.

Theoretische Grundlagen

Tacotron 2 verfolgt einen modulen Ansatz. Hier Text zu den theoretischen Grundlagen einfügen

Beispielsatz: "Mein Name ist Thorsten Müller und ich spende meiner Stimme der Menschheit."

Zerlegen in einzelne Spektogramme
Vocoder zur Erzeugung der Stimme

Modelle

Durch maschinelles Lernen erzeugte Modelle bilden die Grundlage für Tacotron. Es können für die TTS-Erzeugung vorhandene und vortrainierte Modelle verwendet werden oder auf Basis von transkribierten Stimmaufnahmen eigene Modelle trainiert werden.

Existierende Modelle

fsdfsd

Neue Modelle

Best practice Empfehlungen für Dataset, etc.

Komponenten

Encoder

Vocoder

Implementierungen

Mozilla TTS
NVidia

Anonym

Suche

Benutzer:MrThorstenM/Tacotron

Namensräume

Mehr

Seitenaktionen

Inhaltsverzeichnis

Tacotron (Version 2)

Theoretische Grundlagen

Modelle

Existierende Modelle

Neue Modelle

Komponenten

Implementierungen

Einzelnachweise

Navigation

Navigation

Mitmachen

Wikiwerkzeuge

Wikiwerkzeuge

Anonym

Suche

Benutzer:MrThorstenM/Tacotron

Tacotron (Version 2)

Theoretische Grundlagen

Modelle

Existierende Modelle

Neue Modelle

Komponenten

Implementierungen

Einzelnachweise

Navigation

Wikiwerkzeuge

Seitenwerkzeuge

Weitere Projekte