Telliminator

Sample-Collector
Sprechprobe
Link
Stapelverarbeitung und Grütze im Audio - neuer Zwischenstand

Ich hasse es langsam wirklich. Die ganze Zeit lässt mich das System im Glauben ich würde Audio vom Server als Rückmeldung erhalten, wenn ich der API den Auftrag gebe einen Text in Sprache umzuwandeln. Nein, in Wahrheit bekomme ich lediglich einen Textcontainer in dem drin steht, in welches Verzeichnis der Server vom TTS-System die Datei abgelegt hat.

Zuvor hieß es, ich erhalte das Audiofile als binäres Datenpaket vom Server retour. Dieses vermeidliche Audio wurde nach allen Regeln der Kunst auf Fehler wie Artefakte, leeres Audio, ZeroCross-Level. Schrabbeln, Rauschen usw. überprüft. Ich hatte mich über diese katastrophalen Werte gewundert, die das Audio als schlecht identifiziert haben. Um so spannender ist es, weil es auch Positiv Meldungen gab, welche brav im Gesamt-WAV zusammengeführt wurde, das komischerweise Audio zum Teil drin hatte, wo auch immer er sich das hergenommen hat. Jedenfalls muss ich die Logik nun leicht umbauen und das erzeugte Audio, was definitiv Fehler enthalten kann, neu einlesen und dann verprüfen und entscheiden, du bist so schlecht, wir schicken den Text nochmal zur Genierung ans TTS-System. Ein Problem gibt es jedoch noch - das Dateiformat.

Der Befehl zum Audioeinlesen nutzt im Hintergrund ffmpeg, welches das Audio klangheimlich auf 16Bit ändert statt es auf 32 Bit zu belassen. Es wirft so schon wieder komische Werte, die in keinster Weise nutzbar für die Audio-Qualitäts-Prüfung sind.. Also Hirnschmalz anwerfen und das erzeugte File vom Server Binär von Platte zu laden...

Ich sags Euch er, erkennt wieder viel Müll und ich erhalte trotzdem so nie ein fertiges Audio aus dem Text.
 

Telliminator

Sample-Collector
Sprechprobe
Link
Zwischenstand/Update - Es wird.

Wieder ein Tag voller Dinge getan, von denen ich keine Ahnung habe. Es gab ein Update der XTTS Engine. Und wie es zu erwarten war ging danach erst mal gar nix mehr. Script um Script bis hin zur Neuinstalltione der gesamten Pyfhon- Umgebung und der Engine selbst war erforderlich. Dann konnte ich endlich wieder am eigentlichen Autonatisierungsscript weiter werkeln.

Wir haben jetzt noch ein seltsames Geister-Ton Phänomen. Manchma passt es ganz gut in die Stimmung der Geschichte. - es stört trotzden. Das Abwürgen und Abbrechen von Sätzen im Audio scheint seit dem Update scheinbar ein Ende gefunden zu haben. Jetzt kann ich mich vielleicht mal um bisschen Regiearbeit bemühen und Stimmenzuordnung vornehmen und das Buch per Stapelverarbeitung generieren lassen.

Erster Test mit der neuen Engine.


Es gibt noch Fehler:
- Geleier
- Geschwindigkeitsverlust
- Pausen
- Geisterton
- Komische Aussprache von Wörtern / Verzerrungen

Es steht und fällt mit der Qualität der Basis, der jeweiligen Stimme.

Ziel:
Weitere Audioprüfroutinen in das Ablaufscript einbauen, um den Server dazu zu bringen den Satz erneut zu berechnen. Zun Glück habe ich davon noch viel weniger Ahnung. Das wird spannend herauszufinden wann eine Aufnahme geleiert hat oder Geisterton enthält. Bei Stille wirds vielleicht einfacher, wenn´s denn wirklich Stille ist und nicht irgendein ein tiefes oder sehr hohes leises Frequenzgekrummel was man nur nicht hören kann. Analyse geht weiter. Aber das nächste Buch kann schon mal kommen ...
 
Zuletzt bearbeitet:
Oben