Telliminator

Sample-Collector
Sprechprobe
Link

Pharao des Eisens - Das Gizeh-Protokoll​


Die Götter wohnen nicht in der Unterwelt. Sie warten im All.

Ägypten im Alten Reich: Die Große Pyramide von Gizeh wächst in den Himmel, doch sie ist kein Grabmal. Unter der brennenden Wüstensonne treibt Pharao Chufu, der „Große Konstrukteur“, sein Reich an den Rand des Zusammenbruchs. Seine Arbeiter bauen kein Monument für die Ewigkeit, sondern eine gigantische, blitzebetriebene Maschine aus Isolatorsteinen, Kupferadern und säuregespeisten Bronzekolossen. Ihr einziger Zweck: Ein Sonnenschiff zu den Sternen des Orion zu schießen.

Drei Schicksale prallen auf dieser titanischen Baustelle aufeinander: Der geniale, von seiner Vision besessene Professor-Pharao. Der furchtlose Gardekommandant Menes, der als stählerne Speerspitze bereit ist, die Grenzen des menschlichen Daseins zu durchbrechen. Und der einfache Steinmetz Kaelo, der das verborgene Flüstern des Steins hören kann, sich aber vor der unendlichen Schwärze des Himmels sträubt.

Als der Tag des großen Feuers anbricht, droht die unbarmherzige Energie der Maschine das Fundament der Erde zu zerreißen. Die Entscheidung über den Aufbruch der Menschheit liegt plötzlich in den Händen des Mannes, dessen Füße für immer im Sand verankert bleiben wollten.

Ein fesselnder utopischer Roman, der antiken Mythos mit visionärer Steampunk-Technologie vereint.
 

Anhänge

  • Pharo_des_Eisens.pdf
    181,7 KB · Aufrufe: 28

Telliminator

Sample-Collector
Sprechprobe
Link
Pharao des Eisens



Downgrade 24kBit MP3 - 44:44 Minuten Laufzeit
Phyton Edge-TTS Audio Testumsetzung / maschinell erzeugte Lesung

Wieder mal was gelernt. Umgang mit Phython und edge-tts.
Was es alles für Möglichkeiten gibt, Dinge zu automatisieren.
Hätten wir weniger Anspruch würde uns Vieles auch schon so reichen.
 

Telliminator

Sample-Collector
Sprechprobe
Link
Es hat nicht sollen sein. Stunde um Stunde habe ich mir die Finger wund getippt und gemacht und getan, bin
aber letztlich im Ergebnis an verfügbaren freien "Credits" gescheitert. Das Projekt. Automatisierte Generierung eines erstellten Textes als Lesung mit verschiedenen Stimmen für die Rollen der Charaktere der Geschichte ist im Prinzip und in der Theorie geglückt, aber in der Praxis an der Kohle gescheitert.

Der Funken Ergebnis den die Credits noch lieferten.... :



Testfile
 

Anhänge

  • Pharo_des_Eisens - Dokumentation.pdf
    94,9 KB · Aufrufe: 17
Zuletzt bearbeitet:

Telliminator

Sample-Collector
Sprechprobe
Link
Projektpause für die Audio-Automatisierung.

Geplante neue Ansätze:
Google Cloud TTS API zum Einsatz bringen
Vorteil; liefert bereits eine Reihe von K.I. gestützten Neuro2-Stimmen.

ToDos:
Einrichtung des Accounts *Dauer 3 Tage, wegen Verifiierzbg
Einrichtung und Installation nötiger Komponenten für Python
Erstellung des ersten Testballons und Check des Scriptes
 

Telliminator

Sample-Collector
Sprechprobe
Link
Zwischenstand.

K.I. ist schön und gut, sie hilft wo sie kann, schmeißt aber auch alles durcheinander. Der formale technische Aufbau, Text, Stimme, gib sie per API an Google Cloud TTS und erhalte MP3 zurück funktioniert. Nur die Aufbereitung des Textes in die richtigen Phrasen mit automatischer Erkennung, was ist Erzähler und welche Figur spricht gerade, ist dem System scheinbar ein unmögliches Unterfangen zu erkennen. Ich bekomme immer wieder Rotze zurück. Es wird gekürzt, es fehlt plötzlich Text, dann wieder ein Sprecher weg. Zuordnungen der Stimmen wieder weg. Ich versteh es einfach nicht. Und zuletzt hat mich das System verarscht und im Scripting nur noch eine Stimme verwendet. Der Text Originale Text wurde auch noch radikal eingekürzt. Diese Kürzung wäre im Grunde genommen vertretbar, würden die unterschiedlichen Stimmen auch benutzt werden.



Wie man hört klappt die Steuerung auch nicht. Es wird durch den Text gehetzt und auch die Betonungen aus der Regie sind im Gulli gelandet.

Das hat die K.I. bisher als Unterstützung geleistet. Das Buch eingelesen und den Text aufgeteilt auf Erzähler und die sprechende Figuren zerlegt. Daraus resultierte eine Steuerdatei, die um Regie-Anweisungen wie Sprechpausen und Impressionen erweitert wurden. Dann wurde das ganze durch ein Script gejagt, was jeden einzelnen Part an die API schickt und fertige MP3 als Ergebnis zurück bekommt. Das ganze noch zusammenrödeln zu einer Datei.

Ich bin von meinem Ziel Buchtext rein, fertiges Audio mit verschiedenen Stimmen als Automatiesierung hinten raus Meilenweit weg. Es ist auch schlichtweg zu teuer. Kostet ja schließlich alles Geld.
 

Telliminator

Sample-Collector
Sprechprobe
Link

Protokoll: Fehlgeschlagene Datenaufbereitung (audio_skript.csv)​

Datum: 01. Juni 2026 Betroffene Datei: audio_skript.csv (aus Pharao des Eisens) Status: Abbruch der Zusammenarbeit

1. Problemstellung​

Der Nutzer benötigte eine lokale Lösung zur korrekten Aufbereitung des Textes „Pharao des Eisens“ für eine Audio-TTS-Anwendung. Das Ziel war eine saubere CSV-Struktur mit den Spalten [Typ], [Sprecher], [Text].

2. Fehleranalyse (Identifizierte Ursachen)​

  • Fehlerhafte Datenstruktur: Die bereitgestellte CSV-Datei enthielt in der dritten Spalte bereits einen kombinierten Datensatz im Format Sprecher|Text.
  • Inkonsistente Logik: Die KI hat mehrfach versucht, den Sprecher anhand externer Regeln oder KI-gestützter Analyse zu bestimmen, anstatt die bereits vorhandenen Informationen im |-Format der Spalte 3 zu nutzen.
  • Dateizugriffsfehler: Durch Annahmen über Dateinamen (_2.txt) und Pfade traten wiederholt FileNotFoundErrors auf, da das lokale Skript die Quelldatei nicht unter den erwarteten Namen fand.
  • Kommunikationsversagen: Die KI hat die vorliegende CSV-Struktur ignoriert und sich auf das "Interpretieren" des Rohtextes konzentriert, was zu ineffizienten und fehlerhaften Skript-Vorschlägen führte.

3. Chronik der Fehlversuche​

  • Versuch 1-2: Fokus auf Regex-Parsing und manuelle Namenslisten (scheiterte an der Komplexität des Roman-Kontextes).
  • Versuch 3: Vorschlag einer lokalen KI-Installation (Ollama), was vom Nutzer als ineffizient und unnötig komplex abgelehnt wurde.
  • Versuch 4-5: Fokus auf CSV-Struktur-Korrektur, wobei die KI jedoch die bereits vorhandene |-Trennung in der dritten Spalte falsch behandelte.

4. Ergebnis​

Die KI konnte die Erwartungen des Nutzers an eine präzise, fehlerfreie und lokal funktionierende Lösung nicht erfüllen. Die wiederholten Fehlversuche führten zum Abbruch durch den Nutzer.
 

Telliminator

Sample-Collector
Sprechprobe
Link
Heute bisschen Recherche-Talk mit der K.I. und neue Ansätze gesucht.

Fazit:
Aktueller Status Das Projekt wird aktuell als gescheitert/eingestellt betrachtet. Der Aufwand, die Textaufbereitung fehlerfrei zu automatisieren (ohne dass die KI den Text kürzt oder Figuren falsch zuordnet), steht in keinem Verhältnis zum Ergebnis, da lokale deutsche TTS-Engines die gewünschten extremen Emotionen (Schreien, Brüllen) rein über Textbefehle schauspielerisch nicht verlässlich abbilden können
 

Anhänge

  • Gespraechsprotokoll_TTS_Hoerbuch.pdf
    5 KB · Aufrufe: 9

Telliminator

Sample-Collector
Sprechprobe
Link
Die One Man Show, der lesene Clon der eigenen Stimme war der neue Ansatz. Aber ich verstricke mich mehr mit technischen Details wie Installation von irgendwelchen Bibliotheken für Python und dem Scripting, dass ich zum eigentlichen Thema, der automatisierten Audioaufbereitung, sowas von nicht wirklich weiter kam, weil mir die Qualität vom Ergebnis Null zugesagt hat.

Ich kämpfte mehr mit technischen und computerbezogenen Problemen, wie dem Scripting des Automatisierungsprogramm als am Wording und der inhaltlichen Textbearbeitung der Geschichte zu werkeln. Klar die Technik muss erst laufen, aber ich fühlte mich dabei so mehr und mehr, wie der Copy Paster Hiwi, um ein Problem nach dem anderen zu lösen. Ihnen fehlt die Biblieothek xyz - installieren sie noch das und jenes. Änderen Siie die Einstellungen hier und da, installieren sie das und dies noch nach. Man wird schier bekloppt und wenn das eigene Script dann nicht laufen will, weil wieder irgendwo eine Zeile falsch eingerückt ist, könnte man aus der Haut hüpfen. Doch auch das Scripting selbst machte mich wahnsinnig. Wobei mir das Coden eigentlich immer sehr viel Spaß macht, vor allem, wenn das Programm auch genau das tut, was man sich gedacht hat.

Allem Aufwand aber zum Trotz, ziehe ich das Fazit vor, es klingt scheiße und funktioniert nicht so einfach, wie ich mir das Vorstelle. Das Simple hier haste das Buch als Text, mach mal Audio draus, geht ziemlich in die Hose, wenn man glaubt man bekäme hier eine brauchbare Qualität.

Nichts destotrotz finde ich diese Technik sehr faszinierend. und die Beschäftigung mit dem ganzen technischen Kram hat meine Synapsen wieder befügellt und mich auf andere Gedanken gebracht. Es ist echt erstaunlich, mit wie wenig eigenem Audio als Basis die Maschine dazu bringt einen täuschend echt klingenden Clon der eigenen Stimme erstellt. Und dieser Clon macht aus Sätzen, die man per Text einfach nur übergibt., wunderschöne Sprachfiles, die Du so nie im Leben gesagt hast. Je besser das K.I. Modell trainiert wurde, ist es in der Lage auch Betonungen mit der Clon-Stimme zu erstellen. Text-To-Speech ist ganz schön modern geworden. Ich erinnere mich noch an die 80er, da konnte ich Dank einer eingebauten Speicherkartenerweiterung in meinem Schneider CPC 464 per Befehl aus den Computer etwas sprechen lassen. Und heute wird nach dem gleichen Prinzip Text per Befehl mit meiner eigenen Stimme zur Tonausgabe des Textes gebracht.

Persönlichkeitsklau, Stimmenklau alles machbar und das innerhalb weniger Stunden und etwas Aufwand auf seinem eigenen Rechner zu Hause und das völlig kostenlos.

Wozu das Ganze hier eigentlich erzählen und warum hab ich mich damit überhaupt beschäftigt? Hier treffen zwei Dinge aufeinander Neugier und Faulheit - Die Idee, ich hab Text, und kann die Maschine die Audio davon machen lassen ohne mich selbst vors Mikrofon zu stellen. Die Gefahr dabei,
man gibt sich vielleicht mit dieser unzureichenden Qualität zufrieden und der Spaß, selbst am Mikrofon zu stehen und zu sprechen, dahinschwinded. Schnell mal durch die K.I. gejagd.


Lerneffekt - Faulheit siegt und K.I.s sind noch dumm, auch wenn sie in vielem uns was das Gedächtnis angeht im Vorteil sind, sie drehen sich gerne mal im Kreis und wenn Du da nicht wachsam bist, dass die K.I. dir wieder Grütze erzählt und Mist macht, hängst Du nur Stunden um Stunden an Problemlösungen, die dich immer weiter von dem fortbringen, was Du eigentlich tun und machen wolltest.

So klingt es übrigens im Auzug, wenn der Clon spricht:



Gulli - und das passiert leider häufig
aber dann auch wieder besser als man es selbst hinbekommen hätte
Manche Sätze haben nun mal Stolperfallen, der K.I.. ist das aber wumpe.
 
Oben