KI-Audios ohne Cloud generieren

Aus LinuxUser 02/2025

KI-Audios ohne Cloud generieren

© Kittipong Jirasukhanont / 123RF.com

Sprachgewandt

Mittlerweile mag sich der Eindruck verfestigen, dass IT-Dienste nur in Verbindung mit der Cloud funktionieren. Dabei ist es recht simpel, sich ohne Abhängigkeit zu einem Provider von einer KI aus Texten gesprochene Sprache generieren zu lassen.

Das Ziel des Thorsten-Voice-Projekts liegt darin, eine qualitativ hochwertige, deutsche Stimme für Text-to-Speech-Anwendungen bereitzustellen. Die Ressourcen des Projekts sind kostenfrei und quelloffen. Als technische Grundlage für Thorsten-Voice dient Piper TTS, ein für den RasPi 4 optimiertes TTS-System. Aktuelle Installationsdateien für Windows, Linux und den RasPi finden Sie zum Herunterladen im Git-Repository [1] des Projekts.

Damit aus schriftlichen Texten gesprochene Worte werden, müssen Sie zunächst für die passenden Sprachmodelle [2] sorgen. Ebenso spannend wie potenziell erheiternd ist: Es handelt sich dabei nicht nur um ein deutschsprachiges Modell – es gibt sie auch mit hessischem Dialekt und in emotionalem Tonfall. Letzteres kennt folgende Geschmacksrichtungen: ärgerlich, betrunken, glücklich, angewidert, schläfrig, überrascht und flüsternd. Wenn Sie mehr über das Thorsten-Voice-Projekt erfahren möchten, besuchen Sie dessen Webseite [3]. Dort können Sie außerdem selbst gesprochene Beispiele generieren.

Um zu testen, wie Thorsten-Voice funktioniert, nehmen wir uns einen RasPi 4 aus der Bastelkiste und schreiben mit dem RPI-Imager das aktuelle Abbild von Raspberry Pi OS (64-Bit) darauf (Abbildung 1). Nach dem Start geben Sie im Terminal die Kommandos aus Listing 1 ein – das genügt, um mit dem Textgenerieren zu starten. Die Kommandos installieren den Media-Player Mpv (Zeile 3) für die Kommandozeile, Piper TTS (Zeilen 4 bis 6) und die nötigen Sprachmodelle (ab Zeile 7).

Abbildung 1: Mit den RPI-Imager bereiten Sie die SD-Karte auf ihren Einsatz vor.

Abbildung 1: Mit den RPI-Imager bereiten Sie die SD-Karte auf ihren Einsatz vor.

Listing 1

Installation der Software

$ sudo apt update
$ sudo apt upgrade
$ sudo apt install mpv
$ wget https://github.com/rhasspy/piper/releases/download/2023.11.14-2/piper_linux_aarch64.tar.gz
$ tar -xvf piper_linux_aarch64.tar.gz
$ cd pipier
$ wget https://huggingface.co/Thorsten-Voice/Hessisch/resolve/main/Thorsten-Voice_Hessisch_2023-10.zip
$ wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx
$ wget https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/de/de_DE/thorsten_emotional/medium/de_DE-thorsten_emotional-medium.onnx.json
$ unzip Thorsten-Voice_Hessisch_2023-10.zip

Sprache erzeugen

Das Generieren der Sprache mit Piper gestaltet sich relativ einfach. Über die Unix-Pipe (|) leiten Sie den Text zu Piper um, geben die gewünschten Parameter an und bekommen eine Wav-Datei mit dem gesprochenen Wort als Rückgabe. Die können Sie mit einem beliebigen Media-Player abspielen. Bei dem emotionalen Modell gilt es, zusätzlich die Stimme anzugeben, die Sie verwenden möchten. Die Tabelle “Übersicht der Emotionen” zeigt die emotionalen Stimmen mit ihrem Nummerncode. In Listing 2 sehen Sie einige Beispielkommandos zum Erzeugen unterschiedlicher Sprachausgaben.

Nummerncode der Stimme

Emotion

0

glücklich / beschwingt

1

ärgerlich / wütend

2

angewidert / angeekelt

3

betrunken

4

neutral

5

schläfrig

6

überrascht

7

flüsternd

Listing 2

Sprachausgabe

$ echo "Ei Gude, wie?" | ./piper -m Thorsten-Voice_Hessisch_Piper_high-Oct2023.onnx -f ausgabe.wav
$ echo "Ein schöner Tag" | ./piper -m ./de_DE-thorsten_emotional-medium.onnx -f ausgabe.wav --speaker 0
$ echo "Schon so spät" | ./piper -m ./de_DE-thorsten_emotional-medium.onnx -f ausgabe.wav --speaker 5

Die generierten Dateien spielen Sie mit einem Media-Player Ihrer Wahl ab. Falls Sie ein Freund der Kommandozeile sind, sollten Sie sich den Mpv-Player [4] genauer ansehen. Er verfügt über sehr viele interessante Zusatzfunktionen, die zahlreichen anderen Media-Playern fehlen. Zum Beispiel passt die Option --speed die Geschwindigkeit der Wiedergabe an. Der akzeptierte Wert liegt zwischen 0.01 und 100. 1 entspricht dabei der normalen Wiedergabegeschwindigkeit. So gibt das Kommando mpv --speed=0.9 test1.wav die Testdatei annähernd in Originalgeschwindigkeit wieder. Um sich alle 1154 möglichen Optionen von Mpv anzusehen, nutzen Sie das Kommando mpv --list-options.

Fazit

Wenn Sie sich intensiver mit dem Thema Text-to-Speech beschäftigen möchten, taugt das Thorsten-Voice-Projekt hervorragend als Einstieg. Es verrät viel über die zugrunde liegende Technik und erlaubt es, alles selbst auszuprobieren. Da es sich dabei um ein Open-Source-Projekt handelt, dürfen Sie es frei auf eigener Hardware einsetzen. Außerdem gibt es keinen Cloud-Provider, der ein Preisschild an den Service hängt. (tle)

Der Autor

Martin Mohr hat die komplette Entwicklung der modernen Computertechnik live miterlebt. Nach dem Studium entwickelte er überwiegend Java-Applikationen. Mit dem Raspberry Pi erwachte seine alte Liebe zur Elektronik wieder.

Infos

  1. Quellen von Piper TTS: https://github.com/rhasspy/piper/releases

  2. Thorsten-Voice-Sprachmodelle: https://huggingface.co/Thorsten-Voice

  3. Thorsten-Voice-Homepage: https://www.thorsten-voice.de

  4. Mpv-Media-Player: https://mpv.io/

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDF
LinuxUser 02/2025 KAUFEN
EINZELNE AUSGABE
ABONNEMENTS
TABLET & SMARTPHONE APPS
E-Mail Benachrichtigung
Benachrichtige mich zu:

Hinweis: Dieser Artikel ist älter als ein Jahr, enthaltene Informationen sind möglicherweise veraltet.

0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben