Telliminator

Sample-Collector
Sprechprobe
Link
Stapelverarbeitung und Grütze im Audio - neuer Zwischenstand

Ich hasse es langsam wirklich. Die ganze Zeit lässt mich das System im Glauben ich würde Audio vom Server als Rückmeldung erhalten, wenn ich der API den Auftrag gebe einen Text in Sprache umzuwandeln. Nein, in Wahrheit bekomme ich lediglich einen Textcontainer in dem drin steht, in welches Verzeichnis der Server vom TTS-System die Datei abgelegt hat.

Zuvor hieß es, ich erhalte das Audiofile als binäres Datenpaket vom Server retour. Dieses vermeidliche Audio wurde nach allen Regeln der Kunst auf Fehler wie Artefakte, leeres Audio, ZeroCross-Level. Schrabbeln, Rauschen usw. überprüft. Ich hatte mich über diese katastrophalen Werte gewundert, die das Audio als schlecht identifiziert haben. Um so spannender ist es, weil es auch Positiv Meldungen gab, welche brav im Gesamt-WAV zusammengeführt wurde, das komischerweise Audio zum Teil drin hatte, wo auch immer er sich das hergenommen hat. Jedenfalls muss ich die Logik nun leicht umbauen und das erzeugte Audio, was definitiv Fehler enthalten kann, neu einlesen und dann verprüfen und entscheiden, du bist so schlecht, wir schicken den Text nochmal zur Genierung ans TTS-System. Ein Problem gibt es jedoch noch - das Dateiformat.

Der Befehl zum Audioeinlesen nutzt im Hintergrund ffmpeg, welches das Audio klangheimlich auf 16Bit ändert statt es auf 32 Bit zu belassen. Es wirft so schon wieder komische Werte, die in keinster Weise nutzbar für die Audio-Qualitäts-Prüfung sind.. Also Hirnschmalz anwerfen und das erzeugte File vom Server Binär von Platte zu laden...

Ich sags Euch er, erkennt wieder viel Müll und ich erhalte trotzdem so nie ein fertiges Audio aus dem Text.
 

Telliminator

Sample-Collector
Sprechprobe
Link
Zwischenstand/Update - Es wird.

Wieder ein Tag voller Dinge getan, von denen ich keine Ahnung habe. Es gab ein Update der XTTS Engine. Und wie es zu erwarten war ging danach erst mal gar nix mehr. Script um Script bis hin zur Neuinstalltione der gesamten Pyfhon- Umgebung und der Engine selbst war erforderlich. Dann konnte ich endlich wieder am eigentlichen Autonatisierungsscript weiter werkeln.

Wir haben jetzt noch ein seltsames Geister-Ton Phänomen. Manchma passt es ganz gut in die Stimmung der Geschichte. - es stört trotzden. Das Abwürgen und Abbrechen von Sätzen im Audio scheint seit dem Update scheinbar ein Ende gefunden zu haben. Jetzt kann ich mich vielleicht mal um bisschen Regiearbeit bemühen und Stimmenzuordnung vornehmen und das Buch per Stapelverarbeitung generieren lassen.

Erster Test mit der neuen Engine.


Es gibt noch Fehler:
- Geleier
- Geschwindigkeitsverlust
- Pausen
- Geisterton
- Komische Aussprache von Wörtern / Verzerrungen

Es steht und fällt mit der Qualität der Basis, der jeweiligen Stimme.

Ziel:
Weitere Audioprüfroutinen in das Ablaufscript einbauen, um den Server dazu zu bringen den Satz erneut zu berechnen. Zun Glück habe ich davon noch viel weniger Ahnung. Das wird spannend herauszufinden wann eine Aufnahme geleiert hat oder Geisterton enthält. Bei Stille wirds vielleicht einfacher, wenn´s denn wirklich Stille ist und nicht irgendein ein tiefes oder sehr hohes leises Frequenzgekrummel was man nur nicht hören kann. Analyse geht weiter. Aber das nächste Buch kann schon mal kommen ...
 
Zuletzt bearbeitet:

Telliminator

Sample-Collector
Sprechprobe
Link
Der Automatisierungsworkflow

Buch / Geschichte auswählen (manuel Userl)
Text-Format umwandeln PDF->TXT (manuell online / PDF24 Tools)
Text-Analyse handelnde Figuren/Rollen Kontextanalyse (manuell online / K.I.)
Text-Analyse Dialoge erkennen und wer spricht (Script & manuell online / K.I.)
Text-Splitting Erzähler/Erzählertext, sprechende Rolle/Dialogtext (Script & K.I)
Casting / Überlegung welche Rolle, erhält welche Stimme (User manuell)
Script-Anpassung Rollenzuordnung - Stimme (manuell User)
Rollen-Textdatei umwandeln in Audio (Script mit localem TTS-System)
Audioprüfung der fertigen Datei (manuell User)

Das Script zur UmWandlung
Klar, dröseln wir das Skript auf! Im Grunde ist das ein hochentwickeltes TTS-Generierungsskript (Text-to-Speech) für ein Hörbuch, das eine Besonderheit hat: Es vertraut der KI nicht blind.

Statt den generierten Ton einfach zu speichern, jagt das Skript das Audio durch eine brutale physikalische Qualitätskontrolle, um typische KI-Fehler (Rauschen, Fiepen, Rumpeln, abgehackte Sätze) sofort zu erkennen und den Satz im Zweifel so lange neu zu generieren, bis er perfekt klingt.

Hier sind die einzelnen Schritte, aufgeteilt in den logischen Ablauf:

1. Initialisierung & Konfiguration​

  • Stimmen-Zuordnung: Das Skript definiert ein Dictionary (voices), das verschiedenen Rollen (z. B. Erzähler, Figur 1 weiblich, Figur 2 männlich) eine spezifische .wav-Referenzstimme für die AllTalk-TTS-API zuweist.
  • Dateipfade: Es wird festgelegt, wo die API die temporären Dateien ablegt (OUTPUT_FOLDER).

2. Text-Einlesen und Vorbereitung​

Das Skript startet als Hauptprogramm und liest eine Textdatei (Pharao_Rollen_Text.txt) Zeile für Zeile aus:

  • Fortsetzungs-Check: Findet es eine hoerbuch_partiell.wav, fragt es dich im Terminal, ob es dort weitermachen soll (Absturzsicherung).
  • Parsing: Es trennt jede Zeile am |-Zeichen auf, um die Rolle und den gesprochenen Text zu isolieren.
  • Text-Säuberung: Unnötige Zeichen wie Anführungszeichen oder Auslassungspunkte (...) werden entfernt oder korrigiert, damit die KI nicht stolpert.

3. Die Generierung & Der "Parallel-Wächter"​

Jetzt wird es spannend. Für jeden bereinigten Satz startet eine Schleife mit bis zu 10 Versuchen:
  • API-Anfrage:
    Das Skript schickt den Text an lokale AllTalk-TTS-API (generiere_einzelne_api_anfrage).
  • Der Master-Vergleich:
    Es generiert gleichzeitig denselben Satz einmal mit der Problem-Stimme und einmal mit einer stabilen Master-Stimme (""). Warum? Wenn die Master-Stimme auch fehlschlägt, weiß das Skript: Der Text selbst bringt die KI zum Abstürzen, nicht die Stimme.
  • Sicherer Festplatten-Lesezyklus:
    Das Skript wartet aktiv darauf, dass die Datei von der API fertig auf die Festplatte geschrieben wurde, liest die Rohdaten präzise aus (lade_audio_praezise) und wandelt sie sauber in ein pydub-Audioobjekt um.

4. Die "Nackt-Inspektion" & Qualitätskontrolle​

Bevor ein Satz akzeptiert wird, muss er durch ein ganzes Arsenal von mathematischen Filtern:
  • inspiziere_audio_nackt:
    Gibt die technischen Eckdaten (Abtastrate, Kanäle, die ersten 10 Sample-Werte) im Terminal aus.
  • diagnostiziere_audio & ist_audio_brauchbar:
    Hier schlägt die Physik zu.
    Das Skript prüft:
    • Lautstärke: Ist es zu leise? Gibt es Clipping (Verzerrung)?
    • Crest-Faktor: Ist die Dynamik zu flach ("KI-Soundwand")?
    • ZCR (Zero Crossing Rate): Gibt es hochfrequentes digitales Fiepen oder Rauschen?
    • Länge: Ist das Audio im Verhältnis zum Text unnatürlich lang oder viel zu kurz (Verschlucken)?
    • Infraschall-Rumpeln: Gibt es tieffrequentes Ploppen (oft ein Problem bei KI-Stimmen)?
    • Pausen & Hektik: Schweigt die KI zu lang oder rattert sie den Text unnatürlich schnell herunter?

5. Das "Notarzt"-Protokoll (in generiere_audio)​

Falls ein Satz fehlschlägt, hat das Skript verschiedene Eskalationsstufen für die nächsten Versuche:
  • Versuch 2: Es tauscht Punkte gegen Ausrufezeichen (!), um der KI mehr "Sprechenergie" einzuhauchen.
  • Versuch 3 & 4: Es schraubt an der API-Temperatur (Chaos- vs. Sicherheitsmodus).
  • Versuch 5–7 (Der Notarzt): Wenn der Satz zu lang/komplex ist, spaltet das Skript den Satz am Komma oder in der Mitte auf, generiert beide Teile in separaten Unterschleifen einzeln, schneidet die Stille weg (strip_silence) und klebt sie perfekt wieder zusammen.

6. Zusammenbau & Notfall-Rettung​

  • Erfolgsfall: Ist das Audio eines Satzes "brauchbar", wird es an eine Liste (alle_segmente) angehängt. Am Ende werden alle Sätze mit einer kurzen Pause (400ms) dazwischen zu hoerbuch_komplett.wav zusammengefügt.
  • Notfall-Sicherung: Wenn du das Skript per STRG+C abbrichst oder ein unlösbarer Fehler auftritt, fängt der except-Block das ab. Das Skript exportiert sofort alle bis dahin generierten Sätze in die Datei hoerbuch_partiell.wav, damit deine Rechenzeit und deine Token nicht verloren sind.
 
Zuletzt bearbeitet:

Telliminator

Sample-Collector
Sprechprobe
Link
Der Effizienz-Bluff:

Die Versprechen der Tech-Konzerne klingen seit Jahren wie eine Verheißung aus einer fernen, sorgenfreien Zukunft. Künstliche Intelligenz soll den Menschen von monotoner Routine befreien, Prozesse beschleunigen und als genialer digitaler Assistent die Produktivität in ungeahnte Höhen treiben. Doch wer den Blick von den glänzenden Marketingbroschüren abwendet und in die reale Unternehmenspraxis schaut, erlebt derzeit eine fundamentale Ernüchterung. Statt Arbeit zu erleichtern, erweist sich die Technologie in vielen Bereichen als massiver Ineffizienz-Treiber. Sie unterstützt nicht, sie blockiert. Sie schafft keine Freiräume, sondern vernichtet wertvolle Arbeitszeit und zerstört funktionierende Projektstrukturen.

Das größte Problem der aktuellen KI-Systeme liegt in ihrer strukturellen Unzuverlässigkeit, verpackt in absolute Omnipotenz. Weil generative Sprachmodelle darauf trainiert sind, plausible statt korrekte Antworten zu liefern, halluzinieren sie am laufenden Band. Für Unternehmen bedeutet das: Jedes von einer KI generierte Dokument, jedes Stück Code und jede automatisierte Datenanalyse muss von menschlichen Fachkräften akribisch überprüft werden. Diese sogenannte Verifikationsschleife frisst oft mehr Zeit, als die manuelle Erstellung von Anfang an gedauert hätte. Mitarbeiter mutieren von kreativen Schöpfern zu frustrierten Kontrolleuren einer chronisch fehlerhaften Software. Die eigentliche, wertschöpfende Arbeit wird durch diese Sisyphusaufgabe schleichend vernichtet.

Besonders verheerend wirkt sich dieser Effizienz-Bluff auf die interne Projektkultur aus. Unzählige Management-Etagen haben in blindem Aktionismus beschlossen, KI-Tools flächendeckend und ohne ausgereiftes Konzept in bestehende Workflows zu pressen. Das Ergebnis ist kein Innovationsschub, sondern administratives Chaos. Teams verbringen Stunden damit, die Software mit immer komplexeren Prompts zu füttern, um am Ende doch nur digitale Standardware zu erhalten. Projekte, die früher auf klaren Absprachen und menschlicher Expertise basierten, versinken heute in endlosen Feedbackschleifen zwischen Mensch und Maschine. Die Technologie wirkt hier wie Sand im Getriebe: Sie bläht Prozesse auf, verlangsamt Entscheidungswege und legt im schlimmsten Fall ganze Abteilungen lahm, weil das Vertrauen in die eigenen Daten verloren geht.

Gleichzeitig findet eine subtile, aber gefährliche Entwertung von Fachkompetenz statt. Wenn Unternehmen darauf setzen, dass die Maschine die Denkarbeit übernimmt, verkümmern die Fähigkeiten der Belegschaft. Juniormitarbeiter lernen nicht mehr, Probleme von Grund auf selbst zu lösen, weil sie fertige, wenn auch fehlerhafte Lösungen vorgekaut bekommen. Wenn dann die KI-generierten Fehler tief in den Fundamenten eines Softwareprojekts oder einer Marktstrategie vergraben sind, kollabiert das Kartenhaus meist erst Monate später. Die Behebung dieser verdeckten Schäden kostet Firmen am Ende Millionen. Künstliche Intelligenz erweist sich damit in ihrer heutigen Form oft nicht als Werkzeug der Evolution, sondern als teures Missverständnis, das die Substanz gesunder Arbeit von innen heraus zerstört.
 

Telliminator

Sample-Collector
Sprechprobe
Link
Wie die Pyramiden entstanden sind....

Das Nildelta war einst der Sandkasten der stummen Riesen aus dem Orion

1781249030839.png



 
Zuletzt bearbeitet:

Telliminator

Sample-Collector
Sprechprobe
Link
Ich werkel gerade an der Optimierung der Stapelverarbeitung für das Text-zu-Sprache Script in Python. Ich habe einige Audiotechnische Prüfungen integriert um die Sprachtakes vom TTS auf Fehler zu prüfen und lass automatisch neu genierieren, wenn die Berechnung erkennt, dass das Audio fehlerhaft oder nicht ganz sauber ist. Mir machen noch Artefakte wie Geisterton Schwierigkeiten, mathematisch werden sie zwar erkannt, nur leider gibt es im Audio scheinbar ein generelles rechnerisches Problem, dass bei allen erstellten Aufnahmen ein fraktalisiertes Rumpeln erkennt. In der manuellen Prüfung kann man diese Artefakte und nicht stillen Geisterton-Elemente sehen.

1781338916579.png

Diese Geistertöne werden am Anfang und am Ende erzeugt. Ich vermute es sollten eigentlich ein simulierte Atmengeräusche werden.

Nimmt man eine andere Stimme reagiert das System ganz anders bei den Sätzen. Es steht und fällt also mit der jeweiligen Stimme, ob diese Artefakte und Geistertöne erzeugt werden.
1781340365881.png

Sauberes Audip, weil amdere Stimme

Nun kann das System auch Stimmen klonen bzw. aus einem fertigen Audiosample eines Spreches die Charakteristik und Stimmfarbe kopieren und umrechnen. Hier ist wichtig, dass das Sample sauber und nicht zu grpß ist. Mit meiner eigenen Stimme habe ich schon verschiedene Versuche probiert, aber das richtige Sample mit richtiger Aussteuerung in Amplitude, Länge und Format habe ich noch nicht hinbekommen. Es liegt vermutlich auch am Text, den das File enthalten sollte, damit das TTS System später Wörter auch richtig mit der geklonten Stimme ausspricht..

Wenn man nur mit den mitgelieferten onboard Stimmen des TTS-Systems arbeitet wird das Audio fast ohne jegliche Probleme erzeugt.



Fazit:
Es ist nun Feintuning angesagt. Stimmenclone sauber aufnehmen und den Figuren zuordnen. Und dann mit den Optionen rumspielen, damit das zu Hörende mehr "lebenhaft" und nicht so "runtergerasselt" klingt.
 
Zuletzt bearbeitet:

Telliminator

Sample-Collector
Sprechprobe
Link
Das Test Projekt wäre nun soweit, dass man mit Clon-Stimmen in die nächste Phase übergeht. Da meine Versuche mit Testclonen zu bösen Artefakten und schrottigem Auudio führen braucht es nun saubere Basis-Samples. Ich vermute es werden sich nur wenige bereit erklären eine Aufnahme für das Cloning ihrer Stimme bereit zu stellen. Die Verlockung ist groß sich einfach an den hier im Forum zur Verfügung stehenden Stimmproben zu vergreifen, aber ungefragt und ohne Erlaubnis werde ich das auch nicht tun, das steht sich außer Frage.

Daher mache ich hier nun einen Aufruf an Freiwillige, die mir eine zehnsekündige Aufnahme ihrer Stimme mit einem speziellen einzusprechenden Text machen möchten und mir erlauben ihre Stimme ausschließlich nur für diesen Test hier als Clon zu verwenden.

Das Dateiformat muss zwingend WAV mit 24.000 Hz und 16 Bit Mono sein. Das file muss eine Länge von 10 Sekunden haben. Am Anfang darf keine Stille sein. Möglichst natürlich und ruhig sprechen.


Kriterien für den perfekten Testsatz​

  1. Alle Umlaute und Vokale: Der Satz muss ä, ö, ü sowie lange und kurze Vokale enthalten, um die Vokalformanten des Klons sauber zu definieren.
  2. Spezifische Konsonantenkombinationen: Häufige deutsche Laute wie sch, ch1/ch2 (weich/hart), pf, sp, st und das scharfe ß müssen vorkommen.
  3. Natürliche Interpunktion: Der Satz sollte Kommas und einen Punkt enthalten, damit die KI lernt, wie der Sprecher bei Satzmelodien moduliert, atmet und Pausen setzt.

Konkrete Testsätze (Direkt einsetzbar)​

Satz 1: Der phonetisch ausgewogene Allrounder
„Zahlreiche Vögel zwitschern frühmorgens in den hohen Bäumen, während die ersten Sonnenstrahlen den stillen See erwärmen.“
  • Dieser Satz deckt die Umlaute (ä, ö, ü), stimmhafte und stimmlose Laute (z, s, sch, w, b) sowie eine natürliche Sprachmelodie durch das Komma ab.
Satz 2: Der Konsonanten- und Zungenbrecher-Test (Härtetest für saubere Aussprache)

„Zwölf tapfere Pinguine schlängeln sich geschwind durch den tiefen, verschneiten Wald, um fünf gelbe Bälle zu suchen.“
  • Dieser Satz testet extrem fehleranfällige deutsche Konsonantencluster wie zw, pf, schl, sch, schw und st.
Lade ein kurzes, sauberes Audio-Sample (ca. 10 bis 30 Sekunden) deiner Stimme mit den beiden Sätzen hier im Threat hoch. Wichtig, die beiden Sätze müssen natürlich und ohne zu stocken eingesprochen werden. Achte auf eine schallarme und trockene Umgebung wie für die Stimmprobe für eine Freigabe.

Hinweis:
Die Länge und der Reichtum an Phonemen in diesen beiden Sätzen sorgen dafür, dass die neuronalen Filter des Cloners die deutsche Phonetik fehlerfrei greifen und kein verwaschener oder roboterhafter Akzent entsteht.

In der Geschichte gibt es 7 Rollen. ihr müsst keine weiteren Texte sprechen, das übernimmt dann das TTS System mit dem Dialog-File und das Automatisierungskscript.
 
Oben