Diskussion:Sprachsynthese

aus Wikipedia, der freien Enzyklopädie

Umwandlung eines Textes in ein Sprachsignal

Sollte die Umwandlung eines Textes in ein Sprachsignal unter Sprachsynthese erklärt werden? Wäre das nicht unter Vorleseautomat oder Text-to-Speech passender? --Markus Schnell 15:50, 11. Feb 2005 (CET) Hi,nein. text-to-phoneme ist bei Sprachsynthese sehr wichtig, da sonst kein Computer der Welt trotz unterschiedlicher Synthesearten eine Synthese zustande bekäm. (nicht signierter Beitrag von 95.91.34.122 (Diskussion) 23:06, 19. Sep. 2010 (CEST))

Vorläufer

Die Maschine im Deutschen Museum ist meiner Kenntnis nach ein früher Nachbau der Kempelenschen Maschine, nicht der späteren von Wheatstone. Bitte um kurze Nachricht, wo diese mit Wheatstone in Verbindung gebracht wird, wäre für meine Forschungen höchst interessant. Die Münchener Maschine gibt nämlich bislang noch reichlich Rätsel auf!--Quintatoen 11:23, 25. Mär. 2010 (CET)

Kempelens Sprechmaschine soll umschnallbar gewesen sein? Wo wird das erwähnt? In Kempelens eigenem Buch jedenfalls nicht und auch in keinem der zeitgenössischen Berichte! (nicht signierter Beitrag von Quintatoen (Diskussion | Beiträge) 08:16, 13. Mär. 2010 (CET))

Schon lange vor der Erfindung der elektronischen Signalverarbeitung versuchten Wissenschaftler Maschinen zu kronstruieren, die menschliche Sprache erzeugten. Frühe Exemplare der sogenannten „Sprechenden Köpfe“ wurden von Gerbert von Aurillac (1003), Albertus Magnus (1198–1280), und Roger Bacon (1214–1294) entwickelt.

Gibt es dafür Belege? Auf den Seiten über diese Persönlichkeiten findet sich dazu nichts. --Drahnreb 22:28, 1. Jul 2006 (CEST)

Es war mir auch neu, ich hatte es von der englischen Wikipedia übersetzt. Man sollte es auf jeden Fall irgendwie belegen oder streichen. Es würde mich auch interessieren, wie diese Köpfe funktionierten. VG, --Fabian ~ 00:22, 2. Jul 2006 (CEST)
Ich habe einen Link bzgl. Aurillac gefunden: http://www.digitaljournal.com/news/?articleID=4035 VG. --Fabian ~ 14:18, 2. Jul 2006 (CEST)
desweiteren: http://voce.cs.princeton.edu/index.php?file=s1 VG., --Fabian ~ 14:42, 2. Jul 2006 (CEST)
Der sprechende Kopf von Roger Bacon ist jedenfalls eine Legende. Die Seite, die davon schreibt, beruft sich einerseits auf die Wikipedia, andererseits hierauf: http://www.bbc.co.uk/dna/h2g2/A577523 (h2g2 ist wohl ein Wikipedia-Plagiat von BBC) --Drahnreb 17:06, 2. Jul 2006 (CEST)

Software

Wäre schön, wenn die Liste der bekannten TTS-Software nach Sprache (Englisch, Deutsch...), Betriebssystem und Lizenz geordnet bzw. das zusätzlich angegeben wäre.--Madmaxx2 16:11, 2. Aug 2006 (CEST)

Strukturierung

Hier geht einiges durcheinander. Unter Sprachsynthese sollte man Formantsynthese, artikulatorische und Korpussynthese als die drei Hauptpunkte übernehmen und dann erst so spezielle Dinge wie unit selection usw. behandeln (nicht signierter Beitrag von 89.51.78.81 (Diskussion) 00:00, 23. Aug. 2006)

Die Weblinks sollten alphabetisch sortiert werden! (nicht signierter Beitrag von 131.220.42.9 (Diskussion) 17:36, 26. Feb. 2007)

Suche Infos zum Gegenstück zu TTS: Speech-to-Text!

Ich vermisse hier den Hinweis, dass die Umwandlung ja auch in die andere Richtung funktioniert! Also, dass aus Sprache (auch wieder) Text werden kann. Nach solchen Systemen suche ich und hatte gehofft, hier fündig zu werden aber leider gibt es weder einen Link noch den Hinweis, dass auch die Umwandlung in die andere Richtung möglich ist! --Darok 13:02, 8. Jan. 2007 (CET)

eSpeak

Hi! Habe Artikel über eSpeak geschrieben. Der wurde aber sofort wieder gelöscht! Warum? Ich hab' den Artikel nicht gespeichert. Kann ich ihn wieder herstellen? Danke für Hilfe! --84.155.85.109 14:01, 26. Mär. 2007 (CEST)

Weblinks

Bitte ausdünnen. --Herrick 09:22, 10. Aug. 2007 (CEST)

Geht ganz einfach: Links zu einzelnen Sprachsystemen (ausgenommen 2 Webinterfaces) fliegen raus. Wozu gibt es Übersichtsseiten. Gruß 790 ruf mich an 10:45, 3. Nov. 2007 (CET)

Inhaltlich verwirrend: Signalmodellierung / physiologische (artikulatorische) Modellierung

Dieser Satz hier...

"Während die ersten Systeme auf Formantsynthesen beruhten, basieren die zurzeit (August 2006) industriell eingesetzten Systeme vorwiegend auf Signalmodellierung."

....erscheint mir inhaltlich verwirrend. Die Formantsynthese ist ein regelbasiertes signalmodellierendes Verfahren. Sinn machen würde der Satz so:

"Während die ersten Systeme auf Formantsynthesen beruhten, basieren die zurzeit (August 2006) industriell eingesetzten Systeme vorwiegend auf datenbasierten/konkatenierenden Verfahren (Diphonsynthese)." (Der vorstehende, nicht signierte Beitrag stammt von 85.178.112.189 (DiskussionBeiträge) 15:36, 24. Okt 2007) 790 ruf mich an 10:46, 3. Nov. 2007 (CET)

Wollte ich auch grad posten - leider war der alte Titel ("Inhaltlich verwirrend") dieses Abschnitts wenig aussagekräftig und ich war so frei, den mal zu ergänzen. Zuerst kommt die Einteilung in zwei Kategorien "Signalmodellierung" und "physiologische (artikulatorische) Modellierung". Und direkt danach geht es weiter mit den beiden Alternativen "Signalmodellierung" und "Formantsynthese". Letzterer Begriff ist zwar intern verlinkt, aber erstens kann man das niemandem zumuten, ausschließlich wegen unklarer Formulierung extra noch einen anderen Artikel nachzuschlagen, und zweitens habe ich in diesem Artikel auf Anhieb auch nichts zum Thema "physiologische (artikulatorische) Modellierung" gefunden. Ist Formantsynthese jetzt eine Unterart von Signalmodellierung oder entspricht es "physiologische (artikulatorische) Modellierung" oder ist es noch etwas ganz anderes? --Zopp (Diskussion) 13:27, 17. Sep. 2012 (CEST)

winbond WTS701EM/T

Der sollte auch mit rein (er wird zum Beispiel hier verwendet: http://www.acroname.com/robotics/parts/R184-SP03.html

MfG Marcus (falsch signierter Beitrag von 217.68.185.223 (Diskussion) 01:27, 12. Feb. 2008)

geschichte

bei der geschichte sollte auch Raymond Kurzweil erwähnt werden.. (nicht signierter Beitrag von 84.149.195.57 (Diskussion) 22:45, 11. Jul. 2008)

Computer/Sprechmaschinen

"Sprachsynthese nennt man die Erzeugung von gesprochener Sprache durch einen Computer" – wirklich nur? Fallen die "Sprechmaschinen" des 18./19. Jahrhunderts nicht unter diesen Begriff? Zumindest dieser Artikel scheint das anders zu sehen. Sollte man die Definition überarbeiten, oder ist das durchdacht? Grüße -- wtrsv 18:39, 20. Okt. 2008 (CEST)

Ich meine, Sprachsynthese bedeutet die technische Simulation von "Sprache" durch Synthese von Bausteinen, Moduln oder andersartigen Elementen nach klaren Regeln. Ob diese mechanisch, elektrisch (?) oder elektronisch (somit Computer) realisiert wird, bleibt zunächst doch Nebensache. Allerdings sind die Möglichkeiten mit dem "Computer", einem leistungsfähigen "Rechner", um ein Vielfaches größer. Aber vielleicht melden sich hier auch noch Spezialisten für das topic?--Wikipit 15:39, 21. Okt. 2008 (CEST)

Was heisst das denn hier?

"Bei der Arbeit mit US-amerikanischen Softwarelösungen ist zu beachten, dass die vorhandenen Stimmen von unterschiedlicher Güte sind. Englische Stimmen haben eine höhere Qualität als deutsche. Eine 1:1 Kopie der Texte in eine TTS-Software kann nicht empfohlen werden, eine Nachbearbeitung der Texte ist in jedem Fall nötig."


Heisst das: "Amistimmen sind schlecht, UK-englische sind gut?" Und was soll das mit der 1:1 Kopie? 88.152.4.45 19:11, 10. Apr. 2010 (CEST)

Hier in diesem gesamten Abschnitt fehlen vor allem irgendwelche Zitate. Also ein dickes [citation_needed] von mir., mit entsprechendem Vorschlag, diesen Abschnitt zu entfernen. --79.238.109.129 11:28, 23. Jun. 2013 (CEST)

Windows 7 Text-to-Speech

Im Artikel steht: "Während frühe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verständlich waren, erreichen sie etwa seit der Jahrtausendwende eine Qualität, bei der es mitunter schwierig ist, sie von menschlichen Sprechern zu unterscheiden. Dies ist hauptsächlich der Tatsache zu verdanken, dass sich die Technologie von der eigentlichen Synthese des Sprachsignals abgewandt hat und sich darauf konzentriert, aufgenommene Sprachsegmente optimal zu verketten."

Soll das etwa heißen Microsoft Sam wäre in Wahrheit gar kein Mensch, der von Microsoft bezahlt wird und einem bei Bedarf live Texte über die Internetverbindung vorliest? Das sollte mich aber sehr wundern. Jetzt neulich habe ich nämlich bei Microsoft angerufen und da hatte ich Microsoft Sam live am Telefon, es handelt sich also um Fake und Microsoft täuscht nur vor, dass es sich um eine Art Software handelt. In Wahrheit ist Microsoft also gar nicht in der Lage dazu eine natürliche Text-to-Speech Stimme zu programmieren. Offensichtlich leben wir noch im Jahr 1961: http://www.youtube.com/watch?v=41U78QP8nBk

Man könnte sich das ganze Internet und Bücher von einem coolen Nachrichtensprecher vorlesen lassen und Microsoft nutzt diese Möglichkeit nicht. Am Computer arbeitet man in erster Linie mit Text und Microsoft ist tatsächlich nicht dazu in der Lage was ordentliches daraus zu machen? (nicht signierter Beitrag von 77.188.4.68 (Diskussion) 21:21, 26. Aug. 2010 (CEST))

witzig, ja... --Zopp (Diskussion) 13:32, 17. Sep. 2012 (CEST)

fehlende Details zu einzelnen Geräten/Betriebssystemen

Es ist schade, daß sich hier derzeit keine Infos dazu finden, wie TTS auf allgemein gebräuchlichen Geräten wie etwa SmartPhones umgesetzt ist. Wenn man als "stinknormaler" User eines solchen Gerätes nach Apps schaut, die TTS unterstützen, steht man vor der Wahl, eine "alternative TTS-Engine" zu installieren und solche Dinge, von denen wohl kaum irgendwer etwas versteht. Da hilft einem derzeit dieser Artikel hier auch nicht weiter. Also das klingt vielleicht, als ginge es hier um extrem spezielle Infos, aber ich finde, die wären inzwischen von ziemlich allgemeinem Interesse. Klar würde der Artikel damit evtl. zukünftig SEHR umfangreich, aber in welche(n) Artikel sollte man diese Informationen sonst stellen? --Zopp (Diskussion) 13:43, 17. Sep. 2012 (CEST)

Referenz zum Thorsten (Stimme) Artikel hinzugefügt

Ich habe im Absatz "Einsatzmöglichkeiten von Text-to-Speech-Software" eine Referenz zum deutschen Stimmdatensatz hinzugefügt. Ich hoffe, das ist okay.--MrThorstenM (Diskussion) 23:00, 3. Sep. 2021 (CEST)