Voicification

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 9. April 2022 um 17:19 Uhr durch imported>GünniX(73068) (Klammern korrigiert).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)

Als Voicification versteht man die Gestaltung von Mensch-Maschine-Interaktionen mit der menschlichen Stimme als Eingabemedium und/oder Ausgabemedium.

Generelle Beispiele von Nutzungsvorgängen mit Voicification

  • Spracheingabe von Informationen in eine App oder Anwendung (z. B. Lernapps, Terminvereinbarung, Übersetzungsprogramm, automatisierte Meldung von Versicherungsschäden, automatisierte Übermittlung von z. B. Strom- oder Gaszählerständen)
  • Sprachausgabe von Daten (z. B. Patienten-Datenbank, juristische Datenbank mit Gerichtsurteilen)
  • Sprachein- und ausgabe bei Informationssystemen (z. B. Terminals bzw. Kiosk-Systeme in Shopping Malls, Krankenhäusern, Flughäfen)

Prozesskomponenten

Von Voicification kann gesprochen werden, wenn mindestens einer der nachfolgend genannten Prozesskomponenten im Gesamtprozess umgesetzt wird:

Spracheingabe

Technische Konzepte bzw. Methoden der Spracheingabe sind z. B. Speech-to-text (STT) oder Automatic Speech Recognition (ASR). Typische Eingabemedien (wie auch Medien der Sprachausgabe, s. unten) sind sogenannte Smart-Speaker (z. B. Amazon Alexa, Amazon Echo, Google Nest, Apple HomePod, Telekom Smart Speaker) oder Voice Chatbots auf Smartphones oder sprachgesteuerte Software (z. B. Diktiersoftware).

Sprachverarbeitung

Unter Sprachverarbeitung versteht man Konzepte bzw. Methoden, die die vorliegenden Sprachdaten semantisch zuordnen, kategorisieren oder im Sinne des vorliegenden Dienstes für eine Weiterverarbeitung vorbereiten, logisch zuordnen und/oder bearbeiten. Methoden sind z. B. Natural Language Understanding (NLU), Natural language processing (NLP) oder, sofern Formate oder Komponenten künstlicher Intelligenz beteiligt sind, auch Conversational AI (CAI).

Sprachausgabe

Unter Sprachausgabe (siehe auch Sprachsynthese) versteht man die mediale Äußerung von Ausgabeinformationen in Form von akustisch wahrnehmbarer Sprache. Beispiele:

  • Sprachausgabe über Smart-Speaker (Beispiele siehe Kapitel 'Spracheingabe' oben)
  • Sprachausgabe über Smartphones
  • Sprachausgabe über weitere Endgeräte im Haushalte, z. B. Smart TVs
  • Sprachausgabe von Informationen per öffentlicher Lautsprecheransagen (z. B. auf Bahnhöfen)
  • Sprachausgabe von automatisierten Call-Center-Informationen per Telefon

Technische Konzepte bzw. Methoden der Sprachausgabe sind z. B. Speech-to-text (STT).

Modulare Gesamtsysteme

Mittlerweile existieren auf dem Markt eine Reihe von Anbietern, die zu oben genannten Prozesskomponenten modulare Gesamt-, Komplett- oder Plattform-Lösungen anbieten. Kunden haben hier den Vorteil, sich bei Voicification-Erwägungen an einen einzelnen Anbieter zu wenden, der gesamte Projektierung bzw. Implementierung von Einzel- oder Gesamtlösungen übernimmt. Anbieter sind z. B. Microsoft (MS Azure[1]) und Deutsche Telekom (Voicification Suite[2]).

Quellen

Einzelnachweise