Voicification
Als Voicification versteht man die Gestaltung von Mensch-Maschine-Interaktionen mit der menschlichen Stimme als Eingabemedium und/oder Ausgabemedium.
Generelle Beispiele von Nutzungsvorgängen mit Voicification
- Spracheingabe von Informationen in eine App oder Anwendung (z. B. Lernapps, Terminvereinbarung, Übersetzungsprogramm, automatisierte Meldung von Versicherungsschäden, automatisierte Übermittlung von z. B. Strom- oder Gaszählerständen)
- Sprachausgabe von Daten (z. B. Patienten-Datenbank, juristische Datenbank mit Gerichtsurteilen)
- Sprachein- und ausgabe bei Informationssystemen (z. B. Terminals bzw. Kiosk-Systeme in Shopping Malls, Krankenhäusern, Flughäfen)
Prozesskomponenten
Von Voicification kann gesprochen werden, wenn mindestens einer der nachfolgend genannten Prozesskomponenten im Gesamtprozess umgesetzt wird:
Spracheingabe
Technische Konzepte bzw. Methoden der Spracheingabe sind z. B. Speech-to-text (STT) oder Automatic Speech Recognition (ASR). Typische Eingabemedien (wie auch Medien der Sprachausgabe, s. unten) sind sogenannte Smart-Speaker (z. B. Amazon Alexa, Amazon Echo, Google Nest, Apple HomePod, Telekom Smart Speaker) oder Voice Chatbots auf Smartphones oder sprachgesteuerte Software (z. B. Diktiersoftware).
Sprachverarbeitung
Unter Sprachverarbeitung versteht man Konzepte bzw. Methoden, die die vorliegenden Sprachdaten semantisch zuordnen, kategorisieren oder im Sinne des vorliegenden Dienstes für eine Weiterverarbeitung vorbereiten, logisch zuordnen und/oder bearbeiten. Methoden sind z. B. Natural Language Understanding (NLU), Natural language processing (NLP) oder, sofern Formate oder Komponenten künstlicher Intelligenz beteiligt sind, auch Conversational AI (CAI).
Sprachausgabe
Unter Sprachausgabe (siehe auch Sprachsynthese) versteht man die mediale Äußerung von Ausgabeinformationen in Form von akustisch wahrnehmbarer Sprache. Beispiele:
- Sprachausgabe über Smart-Speaker (Beispiele siehe Kapitel 'Spracheingabe' oben)
- Sprachausgabe über Smartphones
- Sprachausgabe über weitere Endgeräte im Haushalte, z. B. Smart TVs
- Sprachausgabe von Informationen per öffentlicher Lautsprecheransagen (z. B. auf Bahnhöfen)
- Sprachausgabe von automatisierten Call-Center-Informationen per Telefon
Technische Konzepte bzw. Methoden der Sprachausgabe sind z. B. Speech-to-text (STT).
Modulare Gesamtsysteme
Mittlerweile existieren auf dem Markt eine Reihe von Anbietern, die zu oben genannten Prozesskomponenten modulare Gesamt-, Komplett- oder Plattform-Lösungen anbieten. Kunden haben hier den Vorteil, sich bei Voicification-Erwägungen an einen einzelnen Anbieter zu wenden, der gesamte Projektierung bzw. Implementierung von Einzel- oder Gesamtlösungen übernimmt. Anbieter sind z. B. Microsoft (MS Azure[1]) und Deutsche Telekom (Voicification Suite[2]).
Quellen
- Michael Wolan: Next Generation Digital Transformation. Springer Gabler, Wiesbaden 2020, ISBN 978-3-658-24935-9
- AI Circle: Vortrag "Voice AI" von Michael Eder und Martin Junius (Weblink)
- Gesellschaft für integrierte Kommunikationsforschung mbH: best4 BRANDS Report 2020, Seiten 36–39 (Weblink)
- Golden.com: Voicification (Weblink)
- Deutsche Telekom: Einfach erklärt: Voicification (Weblink)