Mycroft (Sprachassistent)

aus Wikipedia, der freien Enzyklopädie
Mycroft

Mycroft logo.svg
Basisdaten

Maintainer Mycroft AI Team
Entwickler Mycroft AI, Inc.
Programmiersprache Python 3
mycroft.ai

Mycroft ist ein freier Open-Source-Sprachassistent auf NLU-Basis (Sprachdialogsystem), der vom Unternehmen Mycroft AI, Inc. mit Sitz im amerikanischen Kansas City und einer Open-Source-Community entwickelt wird. Durch vollständige Quellcode-Offenheit und die Möglichkeit, offline betrieben zu werden, unterscheidet sich Mycroft von vielen alternativen Sprachassistenten.[1][2][3][4][5][6] Der Name basiert auf einem fiktionalen Computer aus dem 1966 veröffentlichten Roman The Moon Is a Harsh Mistress. Er wird unter einer freizügigen Open-Source-Lizenz entwickelt.

Entwicklung

Die Idee für Mycroft entstand bei einem Besuch Ryan Sipes und Joshua Montgomerys in einem Makerspace in Kansas City, MO. Montgomery entdeckte einen simplen virtuellen Assistenten, erkannte das Potential dieser Technologie, aber sah mögliche Datenschutz- und Privatsphärebedenken.[7][8] Daraus resultierte das Versprechen, dass Mycroft Transparenz durch Open Source sicherstellen werde.

  • 2016: Auszeichnung im Rahmen der Techweek Kansas City[9]
  • 2016: Teilnahme bei der Sprint-Accelerator-2016-Klasse in Kansas City
  • 2017: Aufnahme in die 500 Startups (Batch 20)[10]
  • 2017: Strategische Investition von Jaguar Land Rover in Mycroft[11][12]

Ablauf einer Benutzeranfrage

Die folgende Grafik stellt den Ablauf einer Kommunikation zwischen Mensch und Mycroft dar. Die abgebildeten Komponenten werden im Nachgang genauer beschrieben.

  1. Benutzer spricht: „Hey Mycroft – wie viel Uhr ist es?“
  2. Mycroft: Wandelt die Sprache in Text um (speech to text)
  3. Mycroft: Prüft den Text auf eine Absicht (intent) – hier: „Uhr“
  4. Mycroft: Gibt die Anfrage an die passende Fähigkeit (skill) weiter – hier „date-time-skill“
  5. Das Skill untersucht die Anfrage des Benutzers und ermittelt die aktuelle Uhrzeit
  6. Mycroft spricht: „Es ist aktuell 04:09 Uhr“ (text to speech)

Mycroft Ablauf.jpg

Softwarekomponenten

Die dazu notwendigen Softwarekomponenten werden auf Github gehostet und dort von Mycroft AI, Inc. und einer freiwilligen Entwicklercommunity aktiv weiterentwickelt. Die Software ist modular aufgebaut und auf folgenden Plattformen lauffähig:

Wake Word

Das „Wake Word“ fungiert als Aktivierungsphrase (standardmäßig „Hey Mycroft“) und muss vom Anwender vor der eigentlichen Anfrage gesprochen werden. Technologisch basiert die Erkennung auf der Precise Wake Word Engine, die im Gegensatz zum früher eingesetzten PocketSphinx auf maschinellem Lernen und neuronalen Netzwerken basiert. Im (optionalen) cloudbasierten Mycroft-Backend können alternative Wake Words ausgewählt werden. Ebenso besteht die Möglichkeit, ein eigenes Wake Word zu trainieren. Die Erkennung der Aktivierungsphrase geschieht immer auf dem Mycroft-Gerät lokal und benötigt keinerlei Internetzugang.

Speech to text (STT)

Als „speech to text“ wird der Prozess bezeichnet, der menschliche Sprache in Text umwandelt. Standardmäßig werden die Anfragen über das Mycroft-Cloud-Backend an weitere Dienstleister gesendet. Die Konfiguration alternativer STT-Dienste ist möglich. Im Rahmen einer Partnerschaft mit Mozilla Common Voice unterstützt Mycroft ebenfalls Deepspeech, das eine lokale Spracherkennung[13] ohne die Notwendigkeit zur Nutzung von Cloud-Diensten ermöglicht.

Text to speech (TTS)

„Text to speech“ bedeutet die Umwandlung von Text in gesprochene Sprache und wird als Sprachsynthese bezeichnet. Die Qualität der Sprachausgabe ist ein entscheidender Faktor zur Benutzerakzeptanz eines Sprachassistenten. Mycroft bietet in diesem Bereich mehrere Möglichkeiten.

Cloudbasierte Spracherzeugung

Mycroft kann für unterschiedliche deutschsprachige TTS-Cloudanbieter (beispielsweise Google TTS oder Amazon Polly) konfiguriert werden. Allerdings funktionieren diese nur bei verfügbarer Internetverbindung und bringen Datenschutzbedenken auf.

Lokale Spracherzeugung

Aufgrund der Zusammenarbeit mit den Mozilla-Common-Voice-Projekten kann Mycroft einen Mozilla-TTS-Server zur Spracherzeugung verwenden. Dieser kann lokal betrieben werden und benötigt keinerlei Internetzugang. Er bietet mit „Thorsten (Stimme)“ eine freie deutschsprachige und kommerziell nutzbare Stimme.[14] Sollte keine andere TTS-Option zur Verfügung stehen, dient Mimic (basiert auf Festival Lite) als Fallback. Dieses bietet im Vergleich jedoch nur eine sehr geringe Qualität.

Skills

Skills bilden den Funktionsumfang von Mycroft ab. Es stehen viele Skills zur Verfügung. Dazu zählen beispielsweise Skills zum Stellen von Timern, Einrichten von Weckern und Erinnerungen, zur Steuerung von Smart Homes und vieles mehr. Neben den Basisskills, die mit jeder Mycroft-Installation ausgeliefert werden, können weitere nach persönlichem Geschmack ergänzt werden.

Skills können direkt aus dem Github-Repository des jeweiligen Entwicklers heruntergeladen werden, haben dann jedoch keine offizielle Freigabe von Mycroft AI Inc. Vom Hersteller geprüfte und freigegebene Skills können im Skill-Marketplace von Mycroft heruntergeladen werden.

Intents

Intents (wörtlich übersetzt: „Absicht“) sind Schlüsselwörter, anhand derer Mycroft erkennt, welches Skill die Anfrage des Benutzers bearbeiten soll. Intents werden anhand der gesprochenen Benutzeranfrage ermittelt. So führt beispielsweise die Benutzeranfrage „Wieviel Uhr ist es?“ dazu, dass das Skill „date-time“ diese Anfrage bearbeitet und eine entsprechende Antwort an den Benutzer erzeugt.

Hardware

Das Mycroft-Projekt arbeitet neben der Software auch an der Erstellung und dem Verkauf von smarten Lautsprechern. Dabei ist das gesamte Hardwarekonzept und Design als Open Source unter der Lizenz CERN Open Hardware[15] öffentlich.

Das erste Hardware-Projekt, der Mark I, richtete sich dabei primär an eine Entwickler-Zielgruppe und wurde anteilig durch eine Kickstarter-Kampagne finanziert. Der Versand der Geräte begann im April 2016.[16]

Im Gegensatz zum Mark I richtet sich die nächste Generation, der Mark II, an keine bestimmte Zielgruppe. Es bietet zusätzlich zum Lautsprecher auch ein großes Display zur optischen Unterstützung der Benutzerinteraktion. Ebenso wie der Vorgänger wurde Mark II durch eine Kickstarter-Kampagne finanziert und erreichte im Februar 2018 das 8-Fache des ursprünglichen Kampagnenziels. Mit Stand Dezember 2020 erfolgte noch keine Auslieferung des Mark II an die Unterstützer.[17]

Im Februar 2021 hat Mycroft damit begonnen, bestellte Mark II Dev Kits auszuliefern[18]. Dieses Kit verwendet Hardwarekomponenten, die mit der geplanten Mark II Hardware identisch sind. Allerdings besteht das Gehäuse des Dev Kit aus einfacheren Materialien. Ziel des Dev Kit ist das problemlose Zusammenspiel der Hardwarekomponenten in größerem Anwenderumfeld zu testen, bevor die finale Herstellung des Mark II begonnen wird.

Siehe auch

Einzelnachweise

  1. Offene Echo-Alternative: Dieser Sprachassistent setzt auf Open Source. Abgerufen am 3. Januar 2021.
  2. Marianne Westenthanner: Eigene Alexa basteln: Dieses coole Gratis-Tool macht's möglich. Abgerufen am 3. Januar 2021.
  3. Stephan Lamprecht: Mit Raspberry Pi smarten Lautsprecher Picroft selbst bauen. 1. Januar 2020, abgerufen am 3. Januar 2021 (deutsch).
  4. Online PC-Das Schweizer Magazin für Computer und Internet: Mycroft: Die Open-Source-Alternative zu Siri und Alexa. Abgerufen am 3. Januar 2021 (deutsch).
  5. Mycroft: Die Open-Source-Alternative zu Siri und Alexa. Abgerufen am 3. Januar 2021 (deutsch).
  6. Mycroft AI – OpenSource Alternative zu Alexa und co. 15. August 2018, abgerufen am 3. Januar 2021 (deutsch).
  7. Rebecca Harrington: Customize An Open-Source HAL For Your Home. In: Popular Science . 1. Januar 2016. Archiviert vom Original am 27. Juni 2018. Abgerufen am 17. März 2017.
  8. Swapnil Bhartiya: Mycroft: Linux's Own AI. In: Linux.com. 17. Januar 2016. Abgerufen am 19. April 2016.
  9. Alexa can you find me a better assistant? | Techweek (en-US). In: Techweek, 11. September 2017. Archiviert vom Original am 9. Juli 2018  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/techweek.com. Abgerufen am 8. Juli 2018. 
  10. Matthew Lynley: Here's the 20th batch of 500 Startups companies. In: TechCrunch, 8. Februar 2017. Abgerufen am 29. September 2017. 
  11. Bobby Burch: Jaguar Land Rover invests in artificial intelligence startup Mycroft. In: Startland News, 27. Februar 2017. Abgerufen am 29. September 2017. 
  12. Mycroft AI. In: StartEngine . Abgerufen am 8. Juli 2018.
  13. Welcome to DeepSpeech’s documentation! — Mozilla DeepSpeech 0.9.3 documentation. Abgerufen am 27. Januar 2022 (englisch).
  14. Thorsten Müller: Open-Source-Sprachassistent Mycroft: Basteln mit Thorsten statt Alexa. In: Golem.de: IT-News für Profis. 26. Januar 2022, abgerufen am 27. Januar 2022.
  15. Github: Mycroft Mark I hardware. In: GitHub . Abgerufen am 18. März 2018.
  16. Kris Adair: Making a Mycroft & First Shipment. In: Mycroft blog . 4. April 2016. Archiviert vom Original am 27. Juni 2018. Abgerufen am 18. März 2018.
  17. Joshua Montgomery: Mycroft Mark II: The Open Voice Assistant. In: Kickstarter.com . 25. Januar 2018. Archiviert vom Original am 19. März 2018. Abgerufen am 18. März 2018.
  18. Kris Gesling: Mark II Dev Kits are shipping 🚢. In: Mycroft. 2. März 2021, abgerufen am 5. März 2021 (amerikanisches Englisch).