Telliminator

Sample-Collector
Sprechprobe
Link
Stapelverarbeitung und Grütze im Audio - neuer Zwischenstand

Ich hasse es langsam wirklich. Die ganze Zeit lässt mich das System im Glauben ich würde Audio vom Server als Rückmeldung erhalten, wenn ich der API den Auftrag gebe einen Text in Sprache umzuwandeln. Nein, in Wahrheit bekomme ich lediglich einen Textcontainer in dem drin steht, in welches Verzeichnis der Server vom TTS-System die Datei abgelegt hat.

Zuvor hieß es, ich erhalte das Audiofile als binäres Datenpaket vom Server retour. Dieses vermeidliche Audio wurde nach allen Regeln der Kunst auf Fehler wie Artefakte, leeres Audio, ZeroCross-Level. Schrabbeln, Rauschen usw. überprüft. Ich hatte mich über diese katastrophalen Werte gewundert, die das Audio als schlecht identifiziert haben. Um so spannender ist es, weil es auch Positiv Meldungen gab, welche brav im Gesamt-WAV zusammengeführt wurde, das komischerweise Audio zum Teil drin hatte, wo auch immer er sich das hergenommen hat. Jedenfalls muss ich die Logik nun leicht umbauen und das erzeugte Audio, was definitiv Fehler enthalten kann, neu einlesen und dann verprüfen und entscheiden, du bist so schlecht, wir schicken den Text nochmal zur Genierung ans TTS-System. Ein Problem gibt es jedoch noch - das Dateiformat.

Der Befehl zum Audioeinlesen nutzt im Hintergrund ffmpeg, welches das Audio klangheimlich auf 16Bit ändert statt es auf 32 Bit zu belassen. Es wirft so schon wieder komische Werte, die in keinster Weise nutzbar für die Audio-Qualitäts-Prüfung sind.. Also Hirnschmalz anwerfen und das erzeugte File vom Server Binär von Platte zu laden...

Ich sags Euch er, erkennt wieder viel Müll und ich erhalte trotzdem so nie ein fertiges Audio aus dem Text.
 
Oben