Diskussion:Maschinelle Übersetzung
Zur Geschichte der MÜ
Durch die Darstellung der Geschichte der MÜ gewinnt man den Eindruck, nur in den USA und Japan wäre an der MÜ gearbeitet worden. Ganz zu schweigen von der seltsamen Erklärung wieso das US-Militär das Russisch-Englische Übersetzungssystem so schätzte. Meines Wissens wurde das System an der Georgetown University entwickelt. Es fehlt der Hinweis auf SYSTRAN und LOGOS (mit Englisch-Vietnamesisch - Gründe liegen auf der Hand). Es fehlen die Hinweise auf das kanadische System TAUM (Universität Montreal), die langjährigen Entwicklungen in Grenoble (GETA: Groupe d'Etudes pour la traduction automatique mit dem System ARIANE) - Leitung der Gruppe -für weitergehende Suche: Prof. Bernard Vauquois, aktuell: Christian Boitet. Für Deutschland wird nur METAL erwähnt. Ich habe gestern den Hinweis auf die Arbeiten im Sonderforschungsbereich Elektronische Sprachforschung hinzugefügt (leider war ich nicht angemeldet). Die dort durchgeführten Arbeiten flossen direkt in die Konzeption und Entwicklung des Systems EUROTRA (Europäische Kommission) ein. Zu nennen sind auch die mehr theoretischen Arbeiten des Sonderforschungsbereichs 99 (Konstanz/Heidelberg).
Vielleicht findet sich jemand, der diese Hinweise aufgreift und mit entsprechenden Quellenangaben ausstattet. In diesem Sinne! E. Stegentritt (nicht signierter Beitrag von E.stegentritt (Diskussion | Beiträge) 10:17, 26. Feb. 2011 (CET))
- Das Problem hat sich m.E. über die 11 Jahre, seitdem die Diskussion zu dem Geschichtsabschnitt angestoßen wurde, nur noch verschlimmert. Gerade die Entwicklung der Maschinellen Übersetzung in den Jahren von 2010 bis heute ist unzureichend tief dargestellt.
- Noch mehr stoße ich mich hierbei an der Darstellung des Zeitraums ab 2018: Auch wenn der Satz "Im März 2018 teilte Microsoft mit, durch eine KI Chinesisch-Englisch-Übersetzungen mit der Qualität eines professionellen menschlichen Übersetzers zu erreichen. Das sei ein Durchbruch bei der maschinellen Übersetzung, den Microsoft nicht so früh erwartet habe." mit Belegen versehen und in indirekter Rede geschrieben wurde, so mangelt es hier doch an kritischer Distanz. Tatsache ist, dass (neuronale) maschinelle Übersetzung in ganz klar abgesteckten Bereichen sehr gut lesbare Ergebnisse liefert, aber gleichermaßen an vielen Punkten Qualitätsmängel aufweist, die ein menschlicher Übersetzer nicht so stehen lassen würde (bsp. Invertierung der Aussage, Auslassungen, Hybride Schöpfungen, Interferenzen aus anderen Sprachmodellen). Dahingegen klingt der zitierte Satz, als wäre die Qualität der MÜ bereits der des Menschen gleichzusetzen.
- Dasselbe Problem sehe ich dann auch noch bei dem zweiten Punkt zu Bedarf an MÜ-Anwendungen: Auch hier wird MÜ dargestellt, als wäre Sie die Lösung für den stagnierenden Beruf des Übersetzers. Das Gegenteil ist eigentlich der Fall: Es darf heutzutage mehr denn je Menschen, die sich mit den Feinheiten der Sprache und den Eigenheiten maschineller Übersetzung auseinandersetzen, um überhaupt gute übersetze Inhalte zu liefern. --Donmontealto (Diskussion) 16:15, 9. Jun. 2022 (CEST)
von Artikel Übersetzungsprogramm
Programme übersetzend, seien Sie Programme, daß Texte einer Sprache
andere au der Grundlage von Algorithmus mit einer automatischen
Präzision übersetzen.
Übersetzung der ersten Zeile dieses Artikels von Altavistas babelfish
von deutsch ins französische ins englische und zurück ins deutsche
Übersetzungsprogramme sind Programme, die Texte von einer Sprache in die andere auf der Grundlage von Algorithmen mit maschineller Präzision übersetzen.
Die oben angeführte Übersetzung der ersten Zeile dieses Artikels zeigt dabei sehr deutlich, dass die menschlichen Sprachen in ihrem Facettenreichtum noch immer zu komplex sind, um für eine rein formale, auf Intuition verzichtende Übersetzung geeignet zu sein. Daher sollten solche Programme auch nur zu einer Rohübersetzung benützt werden, die danach von Hand fertiggestellt wird.
Compiler werden Programme genannt, die Computerprogramme, oder allgemeiner, Texte in einer formalen Sprache, in semantisch äquivalente Programme einer anderen Sprache, meist Maschinensprache, übersetzen.
Weltsprache - leider nur ein Traum
Es stimmt, ich habe es schon mehrmals versucht: Mit der google - Übersetzung kommt nur ein unverständliches Kauderwelsch zustande. Was nützt mir das bei wikimedia versammelte Wissen der Welt, wenn ich es nicht lesen kann??!! Die ganze Übersetzungs-Software wäre unnötig, wenn sich die Menschheit auf eine einheitliche Weltsprache einigen könnte!! --S.ludwig 15:52, 1. Mär 2005 (CET)
Aber sicher. Das vereinfacht auch die Suche nach außerirdischen Intelligenzen, weil die sich uns einfach anschließen müssen. England obsiegt!
- Habe gerade mal die google-Übersetzung ausprobiert, die ist gar nicht mal schlecht. Aus einer Aussage auf dieser HP macht google aus dem Satz "It has even photographed a launch of Space Shuttle Discovery." folgende Aussage: "Es hat sogar eine Produkteinführung der Raum-Doppelventilkegel-Entdeckung fotografiert."
- Wo ist denn das Kauderwelsch? Mir stellt sich eher die Frage, warum es in der Wiki den Artikel Raum-Doppelventilkegel-Entdeckung noch nicht gibt.....--62.226.75.43 04:17, 24. Okt. 2006 (CEST)
- Nachtrag: bitte die o.g. HP wieder löschen, manche Stellen der Übersetzung sind nicht jugendfrei wie z.B. "Ich habe ihn wandernd genommen, wandernd und in den weißen Bergen..."--62.226.75.43 04:23, 24. Okt. 2006 (CEST)
Schlechter Beispielsatz
"Wenn ich arbeiten würde, würde ich mir ein Auto kaufen." ist eine schlechte Wahl als Beispiel, da dieser bereits fehlerhaftes Deutsch darfstellt. Auch im Deutschen wird der Konjunktiv normalerweise ohne "würde" gebiltet (es sei denn, man spricht von der Zukunft). Korrekt müsste es heissen "Wenn ich arbeitete, würde ich mir ein Auto kaufen.", womit das Problem der Interlingua hinfällig ist. Dies zeigt allerdings ein anderes großes Problem von MÜ-Systeme: Grammatikalische und ortographische Fehler in den Quellstexten. ---
Übersetzung
Man sollte auf Sprachen wie Lojban und Interlingua bezug nehmen, ferner das Cy Projekt erwähnen (Weltwissen)
und bitte das Google-Übersetzungsbashing rausnehmen. Erstens sind die Übersetzungen besser geworden. Zweitens werden keine besseren funktionsfähigen Alternativen genannt.
Bewertung der Qualität
Bei der Nennung der Evaluations-Algorithmen sollte man neben dem Blue-Score auch den NIST-Score erwähnen, da heutzutage meistens beide verwendet werden.
Aus der Exzellent-Abstimmung
ab 11.2.2006
- trifft die Sache sehr genau bei erträglicher Länge und gutem Stil, unbedingt B.gliwa 19:55, 11. Feb 2006 (CET) Pro.
- Edmund Ferman 20:43, 11. Feb 2006 (CET) Kontra Zuviele Listen und keine Andeutung eines Literaturverzeichnisses oder der Angabe von Quellen. --
- Contra. Zu listig, keine Literaturangaben. -- Carbidfischer Kaffee? 17:49, 13. Feb 2006 (CET)
- schlendrian •λ• 17:23, 14. Feb 2006 (CET) Kontra mit Überschriften wie Warum ist die Qualität oft so miserabel? würde der Artikel nicht mal lesenswert werden --
- Contra Ich mag es nicht glauben: der Artikel illustriert den Stand der maschinellen Übersetzung mit dem Wodka-Beispielsatz aus den sechziger Jahren und erläutert alle auftretenden Schwierigkeiten - solche die man damals schon kannte und solche, die auf die dot-com-Pleiten zurückgeführt werden. Kann mir jemand mal aufschreiben, welche Fortschritte es in den vergangenen vierzig Jahren gegeben hat, bitte? --KaPe, Schwarzwald 03:31, 19. Feb 2006 (CET)
- Nulli 23:02, 19. Feb 2006 (CET) Kontra keine Literaturangaben, zu oberflächlich
vollständiger Satz?
Im Abschnitt "Grammatische Problemgebiete (Diversionen)" steht folgendes: 'In der walisischen Sprache kann ein vollständiger Satz in einem Wort stehen, z.B. Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch = "Marienkirche in einer Mulde weißer Haseln in der Nähe eines schnellen Wirbels und in der Gegend der Thysiliokirche, die bei einer roten Höhle liegt".' Die deutsche Übersetzung (und damit wahrscheinlich auch der walisische Ausdruck) ist allerdings kein vollständiger Satz, sondern nur eine Nominalphrase (also das, was als Subjekt oder Objekt in einem Satz funktionieren kann, oder nach einer Präposition stehen kann). Es fehlt das Hauptverb (das "liegt" am Ende ist nur das Verb des Untergeordneten Relativsatzes). Wir könnten z.B. "ein vollständiger Satz" durch "eine sehr lange Nominalphrase" ersetzen. Marcoscramer 16:49, 26. Nov. 2008 (CET)
Belege fehlen immer noch
Komisch, dass keiner meckert über den Baustein. Erlebe ich doch sonst immer. Anderswo in Wikipedia heißt es immer: der Artikel ist schon von 2004, damals gabs noch keine Belegpflicht. Was willst du denn konkret belegt haben? Alles? Das geht nicht, der Ersteller des Artikels ist nicht mehr da, wir vertrauen ihm, einer von uns kennt ihn persönlich usw. usf. Ich nenne das den Seniorenrabatt. Und nun kommt tatsächlich einer und verlangt Belege für einen greisen Artikel! Na, du traust dich was! Diesem Artikel fehlt eine Aufpasser-Seilschaft mit bissigem Hofhund. Vielleicht gut so.
Und wie nun damit umgehen? Die bisherigen Autoren haben offenbar keine Lust, auf den Baustein zu reagieren, ihre alten Unterlagen rauszukramen und die dort vorhandenen Belege hier einzuarbeiten. Da bleibt also wohl nur die Möglichkeit, dass ein neuer Autor den Artikel umschreibt, so weit erforderlich, und neues Material nur insoweit einträgt, als er es seriös belegen kann. Bei der Gelegenheit könnte auch mal der etwas schwülstige Satz mit dem Menschheitstraum rausgenommen werden. Unter anderen Umständen würde ich einen solchen Satz als stilistische Bereicherung begrüßen, aber bei der MÜ geht es um die Mühen der Ebenen, frustrierend und desillusionierend und allenfalls mal "na ja, ganz brauchbar". Mit Träumen hat das nichts mehr zu tun. Das ist so, als ob man einen Artikel über die Luftfahrtindustrie mit dem Traum vom Fliegen einleitet. Nun ja, Geschmacksache.
Meine Baustelle ist es nicht. Es wird ja wohl jemand geben, der Sachkenntnisse hat, schreiben kann und bereit ist, den WP-Regeln zu folgen. --Peewit 11:36, 16. Okt. 2010 (CEST)
Der Artikel über Babelfisch kann als Beleg für viele Behauptungen dienen. Aus Benutzersicht hat sich seitdem nicht viel geändert. Und viele Behauptungen kann jeder selbst nachprüfen, indem er eines der Programme ausprobiert. -- Estimatax
Ich denke, die Erwähnung als Menschheitstraum ist korrekt. Sie erklärt auch, warum trotz hartnäckiger Probleme daran weitergearbeitet wird. -- Estimatax (21:01, 23. Jan. 2011 (CET), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)
Hallo, den Artikel habe ich vor fünf Jahren geschrieben (er ist im Prinzip wenig verändert worden). Ich habe damals bei einer japanischen Softwarefirma MÜ-Systeme entwickelt, und auch meine Doktorarbeit über ein MÜ-Thema geschrieben. Es handelt sich nicht um Insiderwissen, aber sehr wohl um Grundwissen der Community, das zumindest den Stand von vor fünf Jahren darstellt. Dass die Forschung jahrzehntelang stillstand, ist schade, aber entspricht den Tatsachen. Diese "Belegpflicht" ist einer der Gründe, warum ich nach einem Jahr produktivem Wikipedia-Schreibens beschlossen habe, aufzuhören, aber ich hoffe, dass ... wie soll ichs sagen ... man mir auch weiterhin glaubt! --Abendstrom 07:54, 8. Mär. 2011 (CET)
Datensicherheit bei maschineller Übersetzung ?
Gibt es online und frei zugänglich (wissenschaftliche) Untersuchungen zum Thema? Was passiert eigentlich mit den zu übersetzenden und den übersetzten Daten (technisch/physikalisch)? Sind Verstöße gegen Datenschutzbestimmungen in Deutschland, Europa oder sonst wo bekannt? Bei vielen Industrieunternehmen bzw. Hochtechnologie-Firmen ist der Zugang zu Google, Bing, Babylon, etc. ja genau deshalb gesperrt. Wie sieht es aus bzgl. staatlicherseits betriebener oder initiierter Industriespionage (China, Russland [FSB], angebliche Verbindungen zwischen Google und NSA etc.) mittels maschineller Übersetzung aus? DoTheWriteThing 09:48, 29. Jan. 2012 (CET)
- Jörg Porsiel: Maschinelle Übersetzung bei der Volkswagen AG, In: Translation in Transition, Band 2012, Nr. 4, ISSN: 2191-1916. (insbesondere ab Kapitel 3, Seite 9 ff.) (nicht signierter Beitrag von 217.190.181.53 (Diskussion) 08:15, 8. Feb. 2015 (CET))
- Schade, dass dieser Punkt immer noch nicht im Artikel thematisiert wird, zumal die "kostenlosen" Online-Services immer intensiver genutzt werden. Insbesondere im professionellen Umfeld sollte das zu denken geben -- und offensichtlich ist manchem Übersetzer nicht bewusst, dass er durch Nutzung von Online-MÜ-Systemen gegen sämtliche Geheimhaltungsvereinbarungen verstößt, die er unterzeichnet hat... Möglicherweise wäre deshalb eine Differenzierung sinnvoll zwischen Online-Services und Inhouse-Lösungen, die in der Infrastruktur des Anwenders betrieben werden. --Esistzehnvorsieben (Diskussion) 07:09, 5. Jun. 2018 (CEST)
Elfenbeinturm
Mir sieht der Artikel über weite Strecken sehr nach Elfenbeinturm aus: Was ist bpsw. mit der Einbindung in TMS? Oder regulärer Einsatz wie bspw. bei Microsoft? Oder Anwendungen auf kontrollierte Sprachen? Oder mit aktuellen Produkten und ihren konzeptionellen Unterschieden?
Zuguterletzt hinterlässt der Artikel den Eindruck, dass die (guten) Linguisten Hüter der Weisheit sind, auf die die (bösen) Informatiker und Systemhersteller nicht hören wollen.
Kindergarten und fehlender Praxisbezug. Schade bei einem Thema, das zunehmend diskutiert und relevant wird.--79.250.11.19 18:53, 2. Okt. 2012 (CEST)
- Es fehlen folgende Aspekte, die eher praktischen Bezug haben: Abgrenzung trainierte Systeme / Desktop-Systeme / Online-Systeme und Nennung der gängigsten Vertreter; für Dienstleister mögliche Verstöße gegen Geheimhaltungsvereinbarungen; Post-Editing / Edit Distance / Abrechnungsprobleme; Integration in Translation Memory Systeme / Unterschied Vorübersetzungs-MT und "On-the-fly"-MT; Vergleich mit Fuzzy Match aus TMS --79.250.5.27 06:16, 21. Nov. 2012 (CET)
Auch in Deutschland
hat es frühzeitig solche Benühungen gegeben. Ich habe bereits 1976 an einem Programm für eine Forschergruppe der Uni Tübingen mitgewirkt mit folgendem Konzept: Jedes Wort des Quelltextes bekam eine fortlaufende Nummer und einen Kennbuchstaben für seine Wortart (diese Zuordnung war manchmal schwierig und noch fehlerhaft). Dann wurde der Quelltext alphabetisch umsortiert. Für jedes Wort dieser Liste wurde (aber nur einmal) in einer Übersetzungsliste der Ausdruck in der Zielsprache gesucht, wobei auch Mehrfachbedeutungen übernommen wurden (z. B. Zylinder auf dem Kopf und im Motor). Daraus entstand ein Fremdsprachentext mit der ursprünglichen Zahlenfolge. In der nächsten Stufe suchte das Programm für alle mit Mehrfachbedeutungen übersetzten Begriffe im Quelltext "die Textumgebung" durch, für das genannte Zylinder-Beispiel konnte das "Werkstatt", "Auto" usw. oder "Begräbnis", "Mantel" usw. sein und entschied sich für die ihm passend erscheinende Bedeutung (gelegentlich schwierig - da gab es viel zu lachen!). Nun kam die Wortstellung dran, gesteuert durch die Kennbuchstaben, die in der Zielsprache eine andere Reihenfolge bekamen (nach zum Teil grausig komplizierten Vorschriften). Dann kamen die Wortendungen dran - auch komliziert. Das Ergebnis konnte sich durchaus sehen lassen, war verstehbar, wenn auch holprig und keineswegs fehlerfrei. Da sind die heutigen Programme auch kaum besser. Aber damals waren die Computer für eine praktische Nutzung noch viel zu langsam. Gruß -- Dr.cueppers - Disk. 17:43, 14. Dez. 2015 (CET)
Abschnitt "Grammatische Problemgebiete (Diversionen)": Inhaltlich und stilistisch grenzwertig
Die beschriebenen "Problemgebiete" zielen nach meinem Verständnis auf die regelbasierte maschinelle Übersetzung ab, die in der Tat nie alle Regeln abbilden / berücksichtigen können wird. Daher ist der Abschnitt ein Argument gegen die regelbasierte MÜ, aber nicht gegen MÜ an sich. Die (weitaus verbreitetere) SBMT ist von diesen Problemen nur am Rande betroffen. Abgesehen davon mangelt es dem Abschnitt an OMA-Tauglichkeit -- das beginnt schon mit der Überschrift, deren "Diversionen" nicht mal in Wikipedia als Lemma existieren. --Esistzehnvorsieben (Diskussion) 05:54, 17. Aug. 2016 (CEST)
- "die in der Tat nie alle Regeln abbilden / berücksichtigen können wird." - in der Enzyklopädik sollte man mit derlei Prognosen extrem vorsichtig sein und sie besser ganz meiden! Sie wissen schon: "'Es wird nie ein Mensch fliegen' sagte der Erzbischof über den Schneider von Ulm . . ." Doch schon morgen kann sich solch eine Prognose als fataler Irrtum herausstellen. Eine Enzyklopädie sollte deshalb grundsätzlich keine Prognosen aufstellen und keinen ideologischen Einfluß ausüben, in welcher Richtung auch immer - die möglichst vollständige und allseitige(sic.) auch in Widersprüchen und Gewichtungen möglichst realitätskongruente Darstellung des Seienden und Gewesenen reicht vollkommen - schon um sich selbst davor zu schützen, sich dem allgemeinen Urteil der Lächerlichkeit und der Unglaubwürdigkeit auszusetzen - allerdings hat sich bisher kaum jemand an diese naheliegende Forderung gehalten, zu groß ist einfach die Versuchung, eine Enzyklopädie (vermeintlich heimlich und vom Leser "hoffentlich" unbemerkt ;-) - stets ein fataler Irrtum, irgendwer merkt es immer und schlägt die Trommel) für ideologische Manipulationszwecke zu mißbrauchen, diese leider sehr alte Praxis setzt auch wikipedia in recht unrühmlicher Weise fort und vergeigt damit einen Großteil ihrer genialen Grundidee. Leider waren die Initiatoren der Wikipedia schon lange vor derem öffentlichen erscheinen nicht zu überzeugen, diese - damals schon sehr absehbare! - Problematik in ihrem Regelwerk wirksam zu berücksichtigen und möglichst auszuschließen und somit ist eben auch wikipedia nur ein Kind seiner Zeit und keineswegs so zukunftsweisend und epochemachend, wie anfangs von ihren Initiatoren kolportiert ... Hella (nicht signierter Beitrag von 80.132.77.115 (Diskussion) 12:22, 3. Jun. 2017)
Quelle?
- "Die Globalisierung erfordert die Übertragung von immer mehr Texten in immer mehr Sprachen (der Markt für Übersetzung verdoppelt sich alle vier Jahre), während die Popularität des Berufs des Übersetzers/Dolmetschers stagniert."
-- Mfnalex (Diskussion) 16:25, 30. Okt. 2016 (CET)
Gibt es ...
... einen einzigen vernünftigen Grund, einen einzigen, sachlich glaubwürdigen Anhaltspunkt, diesen Satz ernsthaft zu glauben: "... und brachte mit einem Schlag die Forschung für fast 20 Jahre praktisch ganz zum Erliegen. " ??? Belege? Beweise?? Diese Behauptung ist angesichts der hohen Brisanz und Wichtigkeit des Themas "MT" absolut absurd, und wohl eher im Bereich "Verschleierungspropaganda" zu verorten. Wenn dem nicht so ist, dann sollten hier die Beweise dafür auf den Tisch gelegt, andernfalls dieser Satz gelöscht werden. Warum wird solch offensichtlicher Unsinn überhaupt geschrieben und wenigstens nicht sofort bei der ersten Sichtung gelöscht? Die wikipedia-Löschapostel sind doch sonst immer so eifrig an der Arbeit! Hella (nicht signierter Beitrag von 80.132.85.2 (Diskussion) 10:53, 3. Jun. 2017)
Praktische Probleme 3 bis 5 noch relevant?
Nach meinem Verständnis zielen die drei letztgenannten "praktischen" Probleme auf regelbasierte Systeme ab und mit SMT/NMT nicht mehr zeitgemäß. M.E. sollten die drei Punkte entweder ganz entfernt werden oder als historische Probleme / zusätzliche Probleme regelbasierter Systeme gekennzeichnet werden.
Es fehlen m.E. hingegen relevante Probleme für die aktuelle Technologien, z.B. mangelnde Qualität des Ausgangstexte. Im Paper von Porsiel (oben unter "Datensicherheit bei maschineller Übersetzung" aufgeführt) ist das schön beschrieben.
Gibt es dazu Meinungen? --Esistzehnvorsieben (Diskussion) 07:03, 5. Jun. 2018 (CEST)