Digitale Assistenten in Form intelligenter Lautsprecher sind ein zweischneidiges Schwert. Sie versprechen zwar einfache Interaktion, gefährden aber die Privatsphäre. Zum Glück gibt es freie Alternativen.
Das Bild vom digitalen Assistenten als Lautsprecher (plus Mikro) ist sehr unscharf, denn dabei handelt es sich im Grunde nur um die Benutzerschnittstelle. Das eigentliche Assistenzsystem befindet sich in der Cloud der großen Player und greift dort auf alle wichtigen Ressourcen zu. Dazu zählen insbesondere Spracherkennung (Speech-to-Text, STT) und Sprachausgabe (Text-to-Speech, TTS) sowie eine künstliche Intelligenz (KI), die die Absicht des Sprechers ermitteln soll.
Während der Ressourcenbedarf für die ersten beiden Disziplinen sich inzwischen in Grenzen hält, benötigt die KI so viel Rechenleistung und Daten, wie sie nur gerade bekommen kann. Darüber hinaus braucht sie einen Kontext sowie Schnittstellen zu anderen Anwendungen. Die Frage nach der Abfahrtszeit der nächsten S-Bahn lässt sich ohne das Wissen um den momentanen Standort und die übliche Fahrtrichtung nicht sinnvoll beantworten. Ebenso ergibt ein “setze Milch auf die Einkaufsliste” ohne Zugriff auf eine Einkaufs-App keinerlei Sinn. Die Vorstellung, digitale Assistenten könnten auf magische Weise den Alltag erleichtern, ist also überzogen oder zumindest nur nach aufwendiger Integration ansatzweise möglich. Die Basisfunktionen sollten die digitalen Helfer trotzdem beherrschen und sich dank offener Schnittstellen bei Bedarf in andere Systeme einbinden lassen, wie das Smart Home.
In die Auswahl für unseren Test schafften es zwei Systeme: SEPIA des deutschen Entwicklers Florian Quirin und Mycroft von Mycroft.ai. Beide laufen (auch) auf einem Raspberry Pi. Als Grundausstattung sollten Sie mindestens einen RasPi 3B+ einplanen, besser einen RasPi 4. Als weitere Komponenten kommen ein Mikrofon und ein Lautsprecher dazu. Beim Autor kamen der ReSpeaker von Seeed [1] sowie ein einfacher Lautsprecher am Kopfhörerausgang des Raspberry Pi zum Zug.
SEPIA
Die schicke Homepage von SEPIA [2] beschreibt den Anspruch und die grobe Architektur des Systems (Abbildung 1). Sie fungiert aber nur als Eyecatcher für die eigentlichen Produktseiten, die auf Github [3] gehostet sind und auf vorbildliche Weise eine vollständige Dokumentation bereithalten. SEPIA steht für “Self-hosted Extendable Personal Intelligent Assistant”. Das System setzt sich aus verschiedenen Komponenten zusammen. Der Client liefert das User-Interface und unterstützt Sprache, Text und Touch. Neben einer Lösung auf Basis eines Raspberry Pi gibt es eine Android- sowie eine Web-App.

Abbildung 1: Die komplette SEPIA-Architektur hat der Entwickler Florian Quirin auf Github veröffentlicht. Quelle: Florian Quirin
Der SEPIA-Server bildet die Zentrale und kümmert sich um die Interpretation der Anfrage, den Dialog mit dem Benutzer und die Integration mit Fremdsystemen wie OpenHAB. Eine weitere Server-Komponente (STT-Server) wandelt Sprache in Text um. Die logische Trennung der Server erlaubt außerdem Setups, bei denen die Spracherkennung lokal, die Verarbeitung jedoch in der Cloud stattfindet.
Mycroft Mark II
Während es sich bei SEPIA um das Werk eines engagierten Entwicklers handelt, steckt hinter Mycroft.ai [4] ein Startup. Das Ziel lag wie bei SEPIA darin, einen auf Privatsphäre getrimmten digitalen Assistenten zu schaffen. Mycrofts Produkt kombiniert Soft- und Hardware (Abbildung 2). Aktuell steht der Mark II in den Startlöchern: Die FCC-Zulassung für die USA liegt vor, eine CE-Bescheinigung ist in Arbeit.

Abbildung 2: Beim Mycroft Mark II bekommen Sie neben der Software direkt die nötige Hardware mitgeliefert. Quelle: Mycroft AI, Inc.
Hinter der Bezeichnung Mark II verbirgt sich ein Lautsprecher mit 4,3-Zoll-Display. Im Innern werkelt ein Raspberry Pi 4, auf einer Zusatzplatine sitzen die notwendigen Chips für Sound und Bildschirm. Die Designdateien für das Gehäuse und die Zusatzplatine einschließlich kompletter Produktionsdateien liegen wie die eingesetzte Software als Open Source auf Github [5].
Spekulieren Sie auf einen Mark II, müssen Sie ihn derzeit noch direkt in den USA für 299 US-Dollar plus Versand und Steuern ordern. Zu Redaktionsschluss ließ sich das Gerät jedoch frühestens für Januar 2023 vorbestellen. Die Mycroft-Lösung läuft aber nicht nur auf der vom Hersteller angebotenen Hardware, sondern auch auf einem selbst beschafften Raspberry Pi, dem Sie dann noch ein passendes Mikrofon und einen Lautsprecher spendieren müssen.
Bezüglich der grundlegenden Softwarearchitektur unterscheiden sich die beiden Lösungen kaum. Im Gegensatz zu SEPIA arbeitet Mycroft jedoch als Proxy für Standarddienste in der Cloud. So verwendet es normalerweise die STT- und TTS-Engine von Google. Google sieht dabei nur den Proxy und weiß nicht, ob alle Anfragen von einer Person oder jeweils wenige Anfragen von vielen Anwendern kommen. Die Kosten für das Nutzen der Google-Dienste übernimmt Mycroft. Ohne Benutzerkonto bei Mycroft funktioniert dieses Setup freilich nicht, deshalb müssen Sie zumindest Mycroft vertrauen. Allerdings können Sie neben den Standard-Engines andere, auch selbst gehostete Lösungen konfigurieren.
Mycroft: Installation
Die Installation von SEPIA und Mycroft ist jeweils gut dokumentiert. Engagierten Anwendern wie den Lesern dieses Magazins sollte sie recht mühelos gelingen. Deswegen verzichten wir auf eine detaillierte Anleitung und gehen stattdessen auf die eine oder andere Besonderheit ein.
Der Fokus von SEPIA liegt auf “self-hosted”. Das wirkt sich direkt auf die Systeminstallation aus, weil schlicht mehr Softwarekomponenten im Spiel sind. Deshalb widmen wir uns zuerst der einfacheren Übung Mycroft. Sie benötigen wie erwähnt zunächst ein Benutzerkonto, das Sie über die Mycroft-Homepage anlegen. Neben der freien Variante können Sie eine Version mit monatlicher (2 US-Dollar) oder jährlicher Zahlung (20 Dollar) wählen. Unterschiede in der Funktion gibt es aktuell nicht.
Mycroft stellt mit Picroft ein vorinstalliertes Image für den Raspberry Pi 4 bereit. Es basiert auf “Buster” Lite und liegt wie üblich auf einer SD-Karte. Für den ersten Boot-Vorgang sollten Sie den RasPi ans Ethernet hängen. Darüber hinaus erweisen sich Tastatur und Bildschirm als nützlich. Der alternative Weg via SSH oder WLAN funktioniert ebenfalls und ist in der Doku beschrieben.
Nach der Installation startet ein Wizard (Abbildung 3), sobald Sie sich als der übliche User pi mit dem Passwort mycroft anmelden. Er aktualisiert das System, lädt insbesondere die Mycroft-Software und installiert alle Abhängigkeiten. Anschließend konfiguriert und testet er Mikrofon und Lautsprecher. Die letzten beiden Schritte betreffen die Sicherheit des Systems: So bietet Mycroft an, sudo mit einem Passwort zu schützen, und Sie können ein eigenes Kennwort für den User pi setzen.
Der ReSpeaker des Autors benötigt einen speziellen Treiber, damit Pi OS das Mikrofon erkennt. In so einem Fall brechen Sie den Wizard ab, installieren die Hardware, und der Wizard startet nach dem nächsten Anmelden erneut. Manuell rufen Sie ihn jederzeit über den Befehl mycroft-setup-wizard auf.
Sobald er seine Aufgaben erledigt hat, startet das Programm mycroft-cli-client. In dieser einfach gestrickten Konsolenanwendung sehen Sie, was auf dem System abläuft – zum Beispiel, was es versteht und welche sogenannten Skills es ausprobiert, um Ihre Fragen zu beantworten. Falls das Mikrofon oder die Audioausgabe nicht funktionieren, chatten Sie mithilfe dieser Anwendung direkt mit dem Assistenten.
All das verlangt allerdings nach einer Verknüpfung mit dem Benutzerkonto. Dazu gibt der Lautsprecher beziehungsweise die Anwendung eine Buchstabenfolge aus, die Sie im Benutzerkonto im Web unter Devices eintragen. Im Benutzerkonto wählen Sie außerdem die gewünschte Stimme aus. Hier müssen Sie sich zwischen einer britischen oder einer amerikanischen Männerstimme entscheiden. Die Mycroft-Doku beschreibt zwar die Umstellung auf Deutsch, die technisch auch problemlos funktioniert. Die deutsche Version des Assistenten versteht jedoch kaum etwas, und die zugehörige Stimme schmerzt in den Ohren. Für den deutschen Markt ist das aktuell ein KO-Kriterium.
SEPIA: Installation
Während sich die Mycroft-Installation darauf beschränkt, den intelligenten Lautsprecher einzurichten, müssen Sie sich bei SEPIA zusätzlich um den zentralen Server und den STT-Server kümmern. Die gute Nachricht: Für alle Komponenten existieren vollständige Anleitungen und Skripte [6]. Letztere sind mit einfachen textbasierten Menüs strukturiert, Sie müssen nur die entsprechende Ziffer auswählen (Abbildung 4).

Abbildung 4: SEPIAs textbasiertes Menü führt Sie über Klicks auf die Ziffern direkt an die gewünschte Stelle.
Zuerst richten Sie SEPIA und seine Abhängigkeiten ein. Das Installationsmenü erlaubt darüber hinaus, Nginx als Reverse Proxy einzubinden. Das ist zwar optional, empfiehlt sich aber für spätere Testläufe. Direkt aus dem Menü starten Sie dann das Setup von SEPIA. Der STT-Server glänzt im Menü durch Abwesenheit. Um ihn einzurichten, laden Sie ein Skript von Github [7] herunter und folgen den Anleitungen. Insgesamt läuft die Installation aller Komponenten komplikationsfrei und mit minimaler Benutzerinteraktion ab. Es genügt, sich penibel an die Anleitung zu halten.
Für SEPIA gibt es mehrere Clients; neben einer Android-App kann jeder Webbrowser als Zugang dienen. Die Oberflächen unterscheiden sich dabei nur marginal (Abbildung 5). Der Autor nutzte als Client einen Firefox unter Linux auf einem Notebook. Nach Freigabe des Mikros im Browser chattete der Assistent auch per Sprache. Gut artikulierende deutsche Stimmen mit einer offenen Lizenz fehlen allerdings, und so klingt SEPIAs Assistent etwas blechern.
Damit ist die Server-Einrichtung abgeschlossen. Auch zum Einrichten des intelligenten Lautsprechers findet sich ein Skript auf der Github-Seite von SEPIA [8]. Der Autor integrierte zusätzlich diverse weitverbreitete Hardwarekomponenten in die Installation, wie Mikrofon-HATs oder Displays. Das vereinfachte das Aufsetzen im Vergleich zur Picroft-Variante.
Im Test für diesen Artikel liefen alle Komponenten flüssig auf einem Raspberry Pi 4. Der war zwar großzügig mit 8 GByte ausgestattet, aber das laufende System belegte nie mehr als 1 GByte. Die günstigeren RasPi-4-Varianten genügen also für den Betrieb völlig.
Integration
Sowohl die Anleitung von Mycroft als auch die von SEPIA beschreiben einfache Anwendungsszenarien, die vor allem zum Testen des Setups taugen. Auch die weitergehende Konfiguration behandeln beide. Für Fragen gibt es bei Mycroft ein Forum, bei SEPIA läuft alles über Github.
Mycroft hält sich bei den Erweiterungen an die Begrifflichkeit von Amazon und bietet einen Skill Marketplace an. Eine Übersicht finden Sie über das Dashboard Ihres Mycroft-Accounts [9]. Ein Sprachbefehl stößt die Installation an: “Hey Mycroft, install XYZ“. Das Angebot in diesem Punkt bleibt momentan jedoch noch sehr übersichtlich.
In Sachen Performance macht sich Mycroft überraschend gut. Boot-Vorgang und Systemstart ziehen sich zwar etwas hin, anschließend zeigt sich das System aber sehr reaktionsfreudig und beantwortet Fragen zügig, zur Not fragt es zurück. Das alles funktioniert jedoch nur auf Englisch zufriedenstellend. Eingebaute Features wie ein Wecker und eine Erinnerungsfunktion lassen sich intuitiv nutzen.
Bei Sachfragen liefert der digitale Helfer gemischte Ergebnisse. Die Frage nach Olaf Scholz beantwortete er genauso langatmig wie der betreffende Politiker die Fragen von Journalisten. Statt eines umfassenden Vortrags hätte man sich kurze Fakten mit einer Rückfrage nach der Langversion gewünscht. Das Oktoberfest an sich kannte Mycroft, bei der Frage nach dem Anfangsdatum musste er allerdings passen.
Die Engine hinter SEPIA zieht bei generischen Anfragen eindeutig den Kürzeren, was daran liegt, dass Mycroft Cloud-Dienste nutzt (und bezahlt), während SEPIA sich auf das Selbst-Hosting konzentriert. Abgesehen von dieser Schwäche lässt sich SEPIA einfach in lokale Smart-Home-Systeme integrieren, was das Wiki sehr gut beschreibt.
Fazit
Der Weg zu einem eigenen, smarten Privatsekretär ist holprig. Von der Basisinfrastruktur her betrachtet bieten sowohl Mycroft als auch SEPIA eine gute Grundlage. Bildlich gesprochen versucht Mycroft ein Fertighaus zu liefern, während SEPIA den Rohbau stellt. SEPIA ist dadurch deutlich flexibler. Bei beiden Systemen fällt die eigentliche Arbeit erst bei der Inneneinrichtung an, also während Sie die digitalen Assistenten in die eigene IT-Umgebung einbinden. Ohne gewisse Vorkenntnisse und die Bereitschaft, selbst Hand anzulegen, lässt sich keines der Systeme sinnvoll einsetzen.
SEPIA hat in Deutschland eindeutig die Nase vorn. Das Setup weist keine Abhängigkeiten zur Hardware auf und läuft bei Bedarf auf dem heimischen Server einfach mit. Bei Mycroft steckt zudem im Thema privater Assistent eine gewisse Ambivalenz: Im Vergleich zu den Cloud-Diensten der Konzerne sorgt der Mycroft-Proxy für einen gewissen Schutz, letztlich läuft trotzdem alles über den Server einer fremden Firma.
Insgesamt zeigt der Ausflug in die Welt der Open-Source-Assistenten zwei Dinge: Einerseits hat die Software eine Reife erlangt, die Ihnen ermöglicht, die digitalen Helfer für spezielle Szenarien mit überschaubarem Aufwand einzusetzen. Andererseits hat der Raspberry Pi in der vierten Generation eindeutig genug Reserven für komplexe Anforderungen. (csi)
Der Autor
Bernhard Bablok arbeitet bei der Allianz Technology SE als SAP-HR-Entwickler. Wenn er nicht Musik hört respektive mit dem Rad oder zu Fuß unterwegs ist, beschäftigt er sich mit Themen rund um Linux, Programmierung und Kleincomputer. Sie erreichen ihn unter mailto:mail@bablokb.de.
Infos
-
Seeed ReSpeaker : Bernhard Bablok, “Hört, hört!”, RPG 04/2022, S. 36, https://www.raspi-geek.de/46786
-
SEPIA-Homepage: https://sepia-framework.github.io
-
SEPIA auf Github: https://github.com/SEPIA-Framework
-
Mycroft: https://mycroft.ai
-
Mycroft auf Github: https://github.com/MycroftAI/enclosure-picroft/
-
SEPIA-Installationsskripte: https://github.com/SEPIA-Framework/sepia-docs/wiki/Installation#raspberry-pi-installation-via-script
-
SEPIA-STT-Server einrichten: https://github.com/SEPIA-Framework/sepia-stt-server
-
SEPIA-Client einrichten: https://github.com/SEPIA-Framework/sepia-installation-and-setup/tree/master/sepia-client-installation/rpi
-
Mycroft-Dashboard: https://account.mycroft.ai/dashboard







