KI-Audios ohne Cloud generieren

Mittlerweile mag sich der Eindruck verfestigen, dass IT-Dienste nur in Verbindung mit der Cloud funktionieren. Dabei ist es recht simpel, sich ohne Abhängigkeit zu einem Provider von einer KI aus Texten gesprochene Sprache generieren zu lassen.

Das Ziel des Thorsten-Voice-Projekts liegt darin, eine qualitativ hochwertige, deutsche Stimme für Text-to-Speech-Anwendungen bereitzustellen. Die Ressourcen des Projekts sind kostenfrei und quelloffen. Als technische Grundlage für Thorsten-Voice dient Piper TTS, ein für den RasPi 4 optimiertes TTS-System. Aktuelle Installationsdateien für Windows, Linux und den RasPi finden Sie zum Herunterladen im Git-Repository [1] des Projekts.

Damit aus schriftlichen Texten gesprochene Worte werden, müssen Sie zunächst für die passenden Sprachmodelle [2] sorgen. Ebenso spannend wie potenziell erheiternd ist: Es handelt sich dabei nicht nur um ein deutschsprachiges Modell – es gibt sie auch mit hessischem Dialekt und in emotionalem Tonfall. Letzteres kennt folgende Geschmacksrichtungen: ärgerlich, betrunken, glücklich, angewidert, schläfrig, überrascht und flüsternd. Wenn Sie mehr über das Thorsten-Voice-Projekt erfahren möchten, besuchen Sie dessen Webseite [3]. Dort können Sie außerdem selbst gesprochene Beispiele generieren.

Um zu testen, wie Thorsten-Voice funktioniert, nehmen wir uns einen RasPi 4 aus der Bastelkiste und schreiben mit dem RPI-Imager das aktuelle Abbild von Raspberry Pi OS (64-Bit) darauf (Abbildung 1). Nach dem Start geben Sie im Terminal die Kommandos aus Listing 1 ein – das genügt, um mit dem Textgenerieren zu starten. Die Kommandos installieren den Media-Player Mpv (Zeile 3) für die Kommandozeile, Piper TTS (Zeilen 4 bis 6) und die nötigen Sprachmodelle (ab Zeile 7).

Abbildung 1: Mit den RPI-Imager bereiten Sie die SD-Karte auf ihren Einsatz vor.

Listing 1

Installation der Software

$ sudo apt update
$ sudo apt upgrade
$ sudo apt install mpv
$ wget https://github.com/rhasspy/piper/releases/download/2023.11.14-2/piper_linux_aarch64.tar.gz
$ tar -xvf piper_linux_aarch64.tar.gz
$ cd pipier
$ wget https://huggingface.co/Thorsten-Voice/Hessisch/resolve/main/Thorsten-Voice_Hessisch_2023-10.zip
$ wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx
$ wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx.json
$ unzip Thorsten-Voice_Hessisch_2023-10.zip

Sprache erzeugen

Das Generieren der Sprache mit Piper gestaltet sich relativ einfach. Über die Unix-Pipe (|) leiten Sie den Text zu Piper um, geben die gewünschten Parameter an und bekommen eine Wav-Datei mit dem gesprochenen Wort als Rückgabe. Die können Sie mit einem beliebigen Media-Player abspielen. Bei dem emotionalen Modell gilt es, zusätzlich die Stimme anzugeben, die Sie verwenden möchten. Die Tabelle “Übersicht der Emotionen” zeigt die emotionalen Stimmen mit ihrem Nummerncode. In Listing 2 sehen Sie einige Beispielkommandos zum Erzeugen unterschiedlicher Sprachausgaben.

Nummerncode der Stimme	Emotion
`0`	glücklich / beschwingt
`1`	ärgerlich / wütend
`2`	angewidert / angeekelt
`3`	betrunken
`4`	neutral
`5`	schläfrig
`6`	überrascht
`7`	flüsternd

Listing 2

Sprachausgabe

$ echo "Ei Gude, wie?" | ./piper -m Thorsten-Voice_Hessisch_Piper_high-Oct2023.onnx -f ausgabe.wav
$ echo "Ein schöner Tag" | ./piper -m ./de_DE-thorsten_emotional-medium.onnx -f ausgabe.wav --speaker 0
$ echo "Schon so spät" | ./piper -m ./de_DE-thorsten_emotional-medium.onnx -f ausgabe.wav --speaker 5

Die generierten Dateien spielen Sie mit einem Media-Player Ihrer Wahl ab. Falls Sie ein Freund der Kommandozeile sind, sollten Sie sich den Mpv-Player [4] genauer ansehen. Er verfügt über sehr viele interessante Zusatzfunktionen, die zahlreichen anderen Media-Playern fehlen. Zum Beispiel passt die Option --speed die Geschwindigkeit der Wiedergabe an. Der akzeptierte Wert liegt zwischen 0.01 und 100. 1 entspricht dabei der normalen Wiedergabegeschwindigkeit. So gibt das Kommando mpv --speed=0.9 test1.wav die Testdatei annähernd in Originalgeschwindigkeit wieder. Um sich alle 1154 möglichen Optionen von Mpv anzusehen, nutzen Sie das Kommando mpv --list-options.

Fazit

Wenn Sie sich intensiver mit dem Thema Text-to-Speech beschäftigen möchten, taugt das Thorsten-Voice-Projekt hervorragend als Einstieg. Es verrät viel über die zugrunde liegende Technik und erlaubt es, alles selbst auszuprobieren. Da es sich dabei um ein Open-Source-Projekt handelt, dürfen Sie es frei auf eigener Hardware einsetzen. Außerdem gibt es keinen Cloud-Provider, der ein Preisschild an den Service hängt. (tle)

Der Autor

Martin Mohr hat die komplette Entwicklung der modernen Computertechnik live miterlebt. Nach dem Studium entwickelte er überwiegend Java-Applikationen. Mit dem Raspberry Pi erwachte seine alte Liebe zur Elektronik wieder.

Infos

Quellen von Piper TTS: https://github.com/rhasspy/piper/releases
Thorsten-Voice-Sprachmodelle: https://huggingface.co/Thorsten-Voice
Thorsten-Voice-Homepage: https://www.thorsten-voice.de
Mpv-Media-Player: https://mpv.io/

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF	Umfang: 2 Heftseiten	Preis €0,99 (inkl. 19% MwSt.)	Zur Kasse

LinuxUser 02/2025 KAUFEN
EINZELNE AUSGABE	Print-Ausgaben	Digitale Ausgaben
ABONNEMENTS	Print-Abos	Digitales Abo
TABLET & SMARTPHONE APPS

DIESEN ARTIKEL ALS PDF KAUFEN

EXPRESS-KAUF ALS PDF

Umfang: 2 Heftseiten

Preis €0,99
(inkl. 19% MwSt.)

LinuxUser 02/2025 KAUFEN

EINZELNE AUSGABE

Print-Ausgaben

Digitale Ausgaben

ABONNEMENTS

Print-Abos

Digitales Abo

TABLET & SMARTPHONE APPS

Neues auf der Heft-DVD

Thomas Leichtenstern

- 10. Juli 2026

Nur mit dem optimalen System und der richtigen Software nutzen Sie das volle Potenzial Ihres Rechners. Mit der Heft-DVD erhalten Sie topaktuelle Distributionen zum Ausprobieren, aber auch für den Produktiveinsatz.

Hilfreiche Artikelelemente im Detail erklärt

README

Jörg Luther

- 10. Juli 2026

In jedem Artikel in diesem Heft liefert eine Reihe spezieller Textauszeichnungen und hilfreicher grafischer Elemente wichtige Zusatzinformationen zum Text.

Suche in PDF-Dateien (Teil 1)

Stöbern im Archiv

Harald Zisler

- 10. Juli 2026

Pfiffige Suchwerkzeuge helfen Ihnen, in Ihrer PDF-Sammlung schnell die gewünschten Inhalte zu finden, ohne jede Datei manuell in einem Betrachter öffnen zu müssen.

Die besten und wichtigsten Gnome-Erweiterungen (Teil 2)

Raffinierte Bausteine

Christoph Langner

- 10. Juli 2026

Gnome bleibt bewusst schlank, doch Erweiterungen schließen gezielt Lücken. Darunter finden sich praxisnahe Tools für Zwischenablage, Tiling, Videos, Präsentationen und mehr.

Raspberry-Pi-Projekte für Kinder

Klein anfangen

Marius Quabeck

- 10. Juli 2026

Stets war der RasPi auch ein Lerncomputer, ein geistiger Nachfolger des BBC Micro. Mit ihm starten Kinder und Jugendliche vom ersten eigenen Rechner über tatsächlich auf der ISS-laufenden Python-Code bis zur selbst gelöteten Schachuhr unzählige Projekte. Wir zeigen, worauf Eltern achten sollten.

KI-Audios ohne Cloud generieren

KI-Audios ohne Cloud generieren

Sprachgewandt

Sprache erzeugen

Fazit

Ähnliche Artikel

Neues auf der Heft-DVD

README

Stöbern im Archiv

Raffinierte Bausteine

Klein anfangen