Science Fiction Pharao des Eisens - Das Gizeh-Protokoll

Telliminator · 27 Mai 2026

Pharao des Eisens - Das Gizeh-Protokoll

Die Götter wohnen nicht in der Unterwelt. Sie warten im All.

Ägypten im Alten Reich: Die Große Pyramide von Gizeh wächst in den Himmel, doch sie ist kein Grabmal. Unter der brennenden Wüstensonne treibt Pharao Chufu, der „Große Konstrukteur“, sein Reich an den Rand des Zusammenbruchs. Seine Arbeiter bauen kein Monument für die Ewigkeit, sondern eine gigantische, blitzebetriebene Maschine aus Isolatorsteinen, Kupferadern und säuregespeisten Bronzekolossen. Ihr einziger Zweck: Ein Sonnenschiff zu den Sternen des Orion zu schießen.

Drei Schicksale prallen auf dieser titanischen Baustelle aufeinander: Der geniale, von seiner Vision besessene Professor-Pharao. Der furchtlose Gardekommandant Menes, der als stählerne Speerspitze bereit ist, die Grenzen des menschlichen Daseins zu durchbrechen. Und der einfache Steinmetz Kaelo, der das verborgene Flüstern des Steins hören kann, sich aber vor der unendlichen Schwärze des Himmels sträubt.

Als der Tag des großen Feuers anbricht, droht die unbarmherzige Energie der Maschine das Fundament der Erde zu zerreißen. Die Entscheidung über den Aufbruch der Menschheit liegt plötzlich in den Händen des Mannes, dessen Füße für immer im Sand verankert bleiben wollten.

Ein fesselnder utopischer Roman, der antiken Mythos mit visionärer Steampunk-Technologie vereint.

Telliminator

Pharao des Eisens

Downgrade 24kBit MP3 - 44:44 Minuten Laufzeit
Phyton Edge-TTS Audio Testumsetzung / maschinell erzeugte Lesung

Wieder mal was gelernt. Umgang mit Phython und edge-tts.
Was es alles für Möglichkeiten gibt, Dinge zu automatisieren.
Hätten wir weniger Anspruch würde uns Vieles auch schon so reichen.

Telliminator · 28 Mai 2026

Es hat nicht sollen sein. Stunde um Stunde habe ich mir die Finger wund getippt und gemacht und getan, bin
aber letztlich im Ergebnis an verfügbaren freien "Credits" gescheitert. Das Projekt. Automatisierte Generierung eines erstellten Textes als Lesung mit verschiedenen Stimmen für die Rollen der Charaktere der Geschichte ist im Prinzip und in der Theorie geglückt, aber in der Praxis an der Kohle gescheitert.

Der Funken Ergebnis den die Credits noch lieferten.... :

Testfile

Telliminator

Projektpause für die Audio-Automatisierung.

Geplante neue Ansätze:
Google Cloud TTS API zum Einsatz bringen
Vorteil; liefert bereits eine Reihe von K.I. gestützten Neuro2-Stimmen.

ToDos:
Einrichtung des Accounts *Dauer 3 Tage, wegen Verifiierzbg
Einrichtung und Installation nötiger Komponenten für Python
Erstellung des ersten Testballons und Check des Scriptes

Telliminator

Zwischenstand.

K.I. ist schön und gut, sie hilft wo sie kann, schmeißt aber auch alles durcheinander. Der formale technische Aufbau, Text, Stimme, gib sie per API an Google Cloud TTS und erhalte MP3 zurück funktioniert. Nur die Aufbereitung des Textes in die richtigen Phrasen mit automatischer Erkennung, was ist Erzähler und welche Figur spricht gerade, ist dem System scheinbar ein unmögliches Unterfangen zu erkennen. Ich bekomme immer wieder Rotze zurück. Es wird gekürzt, es fehlt plötzlich Text, dann wieder ein Sprecher weg. Zuordnungen der Stimmen wieder weg. Ich versteh es einfach nicht. Und zuletzt hat mich das System verarscht und im Scripting nur noch eine Stimme verwendet. Der Text Originale Text wurde auch noch radikal eingekürzt. Diese Kürzung wäre im Grunde genommen vertretbar, würden die unterschiedlichen Stimmen auch benutzt werden.

Wie man hört klappt die Steuerung auch nicht. Es wird durch den Text gehetzt und auch die Betonungen aus der Regie sind im Gulli gelandet.

Das hat die K.I. bisher als Unterstützung geleistet. Das Buch eingelesen und den Text aufgeteilt auf Erzähler und die sprechende Figuren zerlegt. Daraus resultierte eine Steuerdatei, die um Regie-Anweisungen wie Sprechpausen und Impressionen erweitert wurden. Dann wurde das ganze durch ein Script gejagt, was jeden einzelnen Part an die API schickt und fertige MP3 als Ergebnis zurück bekommt. Das ganze noch zusammenrödeln zu einer Datei.

Ich bin von meinem Ziel Buchtext rein, fertiges Audio mit verschiedenen Stimmen als Automatiesierung hinten raus Meilenweit weg. Es ist auch schlichtweg zu teuer. Kostet ja schließlich alles Geld.

Telliminator

Protokoll: Fehlgeschlagene Datenaufbereitung (audio_skript.csv)

Datum: 01. Juni 2026 Betroffene Datei: audio_skript.csv (aus Pharao des Eisens) Status: Abbruch der Zusammenarbeit

1. Problemstellung

Der Nutzer benötigte eine lokale Lösung zur korrekten Aufbereitung des Textes „Pharao des Eisens“ für eine Audio-TTS-Anwendung. Das Ziel war eine saubere CSV-Struktur mit den Spalten [Typ], [Sprecher], [Text].

2. Fehleranalyse (Identifizierte Ursachen)

Fehlerhafte Datenstruktur: Die bereitgestellte CSV-Datei enthielt in der dritten Spalte bereits einen kombinierten Datensatz im Format Sprecher|Text.
Inkonsistente Logik: Die KI hat mehrfach versucht, den Sprecher anhand externer Regeln oder KI-gestützter Analyse zu bestimmen, anstatt die bereits vorhandenen Informationen im |-Format der Spalte 3 zu nutzen.
Dateizugriffsfehler: Durch Annahmen über Dateinamen (_2.txt) und Pfade traten wiederholt FileNotFoundErrors auf, da das lokale Skript die Quelldatei nicht unter den erwarteten Namen fand.
Kommunikationsversagen: Die KI hat die vorliegende CSV-Struktur ignoriert und sich auf das "Interpretieren" des Rohtextes konzentriert, was zu ineffizienten und fehlerhaften Skript-Vorschlägen führte.

3. Chronik der Fehlversuche

Versuch 1-2: Fokus auf Regex-Parsing und manuelle Namenslisten (scheiterte an der Komplexität des Roman-Kontextes).
Versuch 3: Vorschlag einer lokalen KI-Installation (Ollama), was vom Nutzer als ineffizient und unnötig komplex abgelehnt wurde.
Versuch 4-5: Fokus auf CSV-Struktur-Korrektur, wobei die KI jedoch die bereits vorhandene |-Trennung in der dritten Spalte falsch behandelte.

4. Ergebnis

Die KI konnte die Erwartungen des Nutzers an eine präzise, fehlerfreie und lokal funktionierende Lösung nicht erfüllen. Die wiederholten Fehlversuche führten zum Abbruch durch den Nutzer.

Telliminator

Heute bisschen Recherche-Talk mit der K.I. und neue Ansätze gesucht.

Fazit:
Aktueller Status Das Projekt wird aktuell als gescheitert/eingestellt betrachtet. Der Aufwand, die Textaufbereitung fehlerfrei zu automatisieren (ohne dass die KI den Text kürzt oder Figuren falsch zuordnet), steht in keinem Verhältnis zum Ergebnis, da lokale deutsche TTS-Engines die gewünschten extremen Emotionen (Schreien, Brüllen) rein über Textbefehle schauspielerisch nicht verlässlich abbilden können

Telliminator

Die One Man Show, der lesene Clon der eigenen Stimme war der neue Ansatz. Aber ich verstricke mich mehr mit technischen Details wie Installation von irgendwelchen Bibliotheken für Python und dem Scripting, dass ich zum eigentlichen Thema, der automatisierten Audioaufbereitung, sowas von nicht wirklich weiter kam, weil mir die Qualität vom Ergebnis Null zugesagt hat.

Ich kämpfte mehr mit technischen und computerbezogenen Problemen, wie dem Scripting des Automatisierungsprogramm als am Wording und der inhaltlichen Textbearbeitung der Geschichte zu werkeln. Klar die Technik muss erst laufen, aber ich fühlte mich dabei so mehr und mehr, wie der Copy Paster Hiwi, um ein Problem nach dem anderen zu lösen. Ihnen fehlt die Biblieothek xyz - installieren sie noch das und jenes. Änderen Siie die Einstellungen hier und da, installieren sie das und dies noch nach. Man wird schier bekloppt und wenn das eigene Script dann nicht laufen will, weil wieder irgendwo eine Zeile falsch eingerückt ist, könnte man aus der Haut hüpfen. Doch auch das Scripting selbst machte mich wahnsinnig. Wobei mir das Coden eigentlich immer sehr viel Spaß macht, vor allem, wenn das Programm auch genau das tut, was man sich gedacht hat.

Allem Aufwand aber zum Trotz, ziehe ich das Fazit vor, es klingt scheiße und funktioniert nicht so einfach, wie ich mir das Vorstelle. Das Simple hier haste das Buch als Text, mach mal Audio draus, geht ziemlich in die Hose, wenn man glaubt man bekäme hier eine brauchbare Qualität.

Nichts destotrotz finde ich diese Technik sehr faszinierend. und die Beschäftigung mit dem ganzen technischen Kram hat meine Synapsen wieder befügellt und mich auf andere Gedanken gebracht. Es ist echt erstaunlich, mit wie wenig eigenem Audio als Basis die Maschine dazu bringt einen täuschend echt klingenden Clon der eigenen Stimme erstellt. Und dieser Clon macht aus Sätzen, die man per Text einfach nur übergibt., wunderschöne Sprachfiles, die Du so nie im Leben gesagt hast. Je besser das K.I. Modell trainiert wurde, ist es in der Lage auch Betonungen mit der Clon-Stimme zu erstellen. Text-To-Speech ist ganz schön modern geworden. Ich erinnere mich noch an die 80er, da konnte ich Dank einer eingebauten Speicherkartenerweiterung in meinem Schneider CPC 464 per Befehl aus den Computer etwas sprechen lassen. Und heute wird nach dem gleichen Prinzip Text per Befehl mit meiner eigenen Stimme zur Tonausgabe des Textes gebracht.

Persönlichkeitsklau, Stimmenklau alles machbar und das innerhalb weniger Stunden und etwas Aufwand auf seinem eigenen Rechner zu Hause und das völlig kostenlos.

Wozu das Ganze hier eigentlich erzählen und warum hab ich mich damit überhaupt beschäftigt? Hier treffen zwei Dinge aufeinander Neugier und Faulheit - Die Idee, ich hab Text, und kann die Maschine die Audio davon machen lassen ohne mich selbst vors Mikrofon zu stellen. Die Gefahr dabei,
man gibt sich vielleicht mit dieser unzureichenden Qualität zufrieden und der Spaß, selbst am Mikrofon zu stehen und zu sprechen, dahinschwinded. Schnell mal durch die K.I. gejagd.

Lerneffekt - Faulheit siegt und K.I.s sind noch dumm, auch wenn sie in vielem uns was das Gedächtnis angeht im Vorteil sind, sie drehen sich gerne mal im Kreis und wenn Du da nicht wachsam bist, dass die K.I. dir wieder Grütze erzählt und Mist macht, hängst Du nur Stunden um Stunden an Problemlösungen, die dich immer weiter von dem fortbringen, was Du eigentlich tun und machen wolltest.

So klingt es übrigens im Auzug, wenn der Clon spricht:

Gulli - und das passiert leider häufig

aber dann auch wieder besser als man es selbst hinbekommen hätte

Manche Sätze haben nun mal Stolperfallen, der K.I.. ist das aber wumpe.

Telliminator

Sie treibt mich schier in den Wahnsinn, meine Idee. Statt zu potte zu kommen gerate ich immer mehr an die Grenzen des TTS Systems und stelle fest es ist alles nur Grütze.

Ich habs tatsächlich hinbekommen, dass mein Text zerlegt wird und automatisch erkannt wird. Was ist Erzähler und was sind Dialoge und zu wem gehören diese Dialoge, dass sie einer Figur zugewiesen werden.

Jetzt hakt es eigentlich an der Audiosierung. Da scheint es technisch noch zu Haken und Phrasen Pausen einzubauen die scheinbar rein willkürlich auftreten. Jedenfalls erkenne ich noch nicht das Muster.

Gulli und Schnulli - nur wieso leiert das Ding so ...

Ich muss mich nochmal hinsetzen und grübeln ...

Jinharana

Ich habe zu der ganzen Thematik mal eine ernst gemeinte Frage.
Ist der Grund der Suche nach Stimmenersetzung durch KI bzw hier erst einmal der Ansatz von einer KI ein Buch oder einen Text sauber lesen lassen zu können, die Sprecher eines Tages ersetzen zu können?
Wenn ich das missverstanden habe dann entschuldige ich mich ... Wenn ja dann wäre dies doch eigentlich genau das falsche meines Erachtens nach für diese Webseite weil wenn man die Sprecher mit KI ersetzen kann dann bräuchte man ja auch die Leute von dieser Seite nicht mehr.
Wie gescheieben. Sollte ich die Intention hinter der Arbeit falsch verstehen lasse ich mich gerne aufklären. ^^

Telliminator · Heute um 08:31

@Jinharana

Mein Ansatz hier ist nicht der, um echte Sprecher eines Tages arbeitslos zu machen oder zu ersetzen. Wie man hören kann ist die Qualität dafür noch unterirdisch und das Sprachmodell nicht in der Lage Wörter im Deutschen immer korrekt zu artikulieren. Das liegt zum Teil an der Tatsache, dass die Software nichts kostet und frei für jedermann ist. Mein Ziel ist, ich möchte ausloten was damit machbar ist, was ich im Stande bin mit meinen beschränkten geistigen Möglichkeiten in Richtung Automatisierung hinbekomme und woran es scheitert und daraus lernen. Wie weit lässt sich der Prozess automatisieren. Gerne Buch als Text rein und hinten Audio fertig und sauber raus. Was derzeit so gar nicht funktioniert, wie ich mir das vorstelle.

Da ist nämlich noch zu viel Handarbeit nötig. Allein schon die Analyse des Textes, um genau zu erkennen, was sind Dialoge, welche Figur spricht gerade. Ohne Unterstützungl einer anderen K.I., die in der Lage ist Texte im Kontext zu verstehen, ist es fast unmöglich einen komplexen Text nur mit einer einfachen Programmierung zu analysieren. Was sehr gut und einfach funktioniert, die Unterscheidung zwischen Dialogtext und Erzählertext. Da bieten sich logische Abfragen und Ansätze an um das zu erkennen.

Das setzt aber voraus, dass der Text eine gewisse gleichbleibende Form hat, z.B. einleitende und ausleitende Anführungszeichen. Schwieriger wird es bei, "Wer spricht`?". Es steht gerne mal am Anfang vor dem Dialogsatz oder auch mal dazischen oder am Ende. Aber leider lässt sich oft auch erst im Verlauf des Textes vorher oder danach im Kontext beim Lesen erkennen, wer spricht. Wenn es z.B. heißt, "Wach auf!", sagte er und vorher erfährt man aus dem Kontext heraus wer "er" überhaupt ist und zu wem es gesagt wird, weil da der Name genannt wurde. Oder perfide wie in meinem Pharao Text, ein und die selbe Figur verwenden verschiedene Namen oder Pronomen - hier zu verstehen, dass ist die gleiche Figur, das muss von der gleichen Stimme gesprochen werden, da verlassen mich meine einfachen Programmierfähigkeiten auf der simpler Wenn-Dann-Sonst Logik.

Daher war ein erster Zwischenschritt manuell nötig, "Hier du schlaue K.I. nimm Buchtext und sag mir welche Rollen sprechen in dem Buch." Die K.I. ist mittlerweile so schlau, dass sie auch Synomyme also andere Namen der Figur aus dem Kontext erkennt und spuckt brav die Texte für Erzähler und jede Figur als Basis für die Audio-Umwandlung aus. Okay, dann den Text nur rein und Audio raus, dachte ich mir so, in meinem jugendlichen Eifer und Leichtsinn. Nein, ganz im Gegenteil - da kommt eben nur, wie man hört, Grütze raus.

Und warum ist das so?
Das versuche ich gerade heraus zu finden. Mal spricht er den Text langsam, dann wieder schneller, dann klingt es wie ein Roboter, urplötzlich fraktalisiert der Ton, im Audio generiert er eine Feedbackrauschschleife, es ist nur Stille generiert, Sätze brechen ab, Wörter sind vernuschelt, klingen unnatürlich betont, alles in allem ist diese Arbeit hier jetzt schon im Ergebnis so mies, dass es sich gar nicht lohnt weiter zu machen. Es wird meinem Qualitätsanspruch nicht gerecht werden. Doch der Ehrgeiz ist, diese komischen Macken bei der Audioerzeugung in den Griff zu kriegen, den Text so vorzubereiten, dass er eben nicht leiert oder das TTS-System anfängt zu hallozinieren und man ein halbwegs hörbares Ergebnis erhält, das einem nicht die Ohren bluten lässt.

Warum dann trotzdem dieser ganze Versuch und Aufwand?
Es gibt da draußen so viele Texte und Bücher, da geht kein Sprecher dran, teils mangels Interesse oder der Inhalt ist so stumpfsinnig und fachchinesich geprägt, dass selber lesen schon keinen Spaß macht. Für sowas mal eben "schnell" in besserer Qualität vorlesen zu lassen, als dem Browser zu sagen lies mal vor, versuche ich das gerade. Cutter sind rar und haben oft auch Anderes zu tun als sich um diese kleinen arbeitsaufwändigigen Geschichten kümmern zu wollen. Warum also nicht ein Versuch starten diese Werke automatisch vorlesen zu lassen und Dialoge mit entsprechenden Stimmen automatisiert generieren zu lassen.?

Bei dem niedrigen Anspruch, den ich hier für meinen Test im Cut und auch allgemein ansetze, nehme ich durch die Automatisierung natürlich dem Cuttemr und auch Sprechern Brot und Lohn weg. Sorry Leute. Aber ganz ehrlich, ich schone den Cutter und seine Ohren und Sprechern ihre Nerven, sich durch komisch zu artikulierende Sätze am Mikrofon zu spielen. Denn das was da als Audio nach der Generierung vom System Retour kommt ist übelst schlecht.

Andere teure kostenpflichte TTS.-Systeme sind ggf. schon weiter und in der Lage Metatext (SSML), also sowas wie Regieanweisungen zum Text, zu verstehen. Da können dann Sprechpausen, Emotionen, Artikulation für den zu lesenden Satz oder einzelner Wörter mitgegeben werden. Das müsste man dann auch aus dem Text her extrahieren, um es automatisieren zu können. Mein Hirn ist da leider zu doof um einem Computer zu sagen, guck mal Text, der wird gesprochen finde bitte heraus wie er Artikuliert werden muss (laut, leise, gebrühlt, geflüstert, liebevoll, ironisch,etc., schnell, langsam, buchstabiert ) und schreibe eine Regieanweisung. Eine K.I. wie Google Gemini kann das aber. Der sagt Dir anhand des kontext, das soll gebrüllt oder geschriehen werden.

Das kostenlose TTS System macht es auch schon ein bisschen, wenn nur eine Stimme verwendet wird, erkennt es aus dem Kontext heraus, dieser Text wird gerade gesprochen, und die Stimme wird für das Auidio so verzerrt und geschoben, dass sie im Klang sich vom Lesetext abhebt und durch Lautstäkrenveränderung der Eindruck entsteht, das es lebendiger gesprochen ist. Leider geht die Kontext-Information flöten, wenn man den Text zuvor in Häppchen und auf Rollen aufteilt, um jede Figur automatisch generieren zu lassen. Aber auch das lässt sich vielleicht lösen. Aber stepp bei stepp.
Ich kämpfe noch mit den banalen Unzulänglichkeiten und den Stolpersteinen, teils auch mit Systemaufbau Nachinstallation irgendwelcher benötigter Bibleothken oder Updates. Auch die Informationen des Textes die dafür sorgen, dass die Audioerstellung aus dem Tritt kommt. Sonderzeichen wie u.a. Punkt, Komma, Strichpunkt, Anführungszeichen - das System ist für engliche Sprache geprägt und kommt da mit mancher Zeichensetzung im Text einfach aus dem Tritt. Hier muss ich noch Hirnschmalz einsetzen wie man die Texte vorher bereinigt und die Häppchen speziell aufbereitet zur Umwandlung gibt. Wenn man jedoch keine ganzen Sätze liefert, kann die Betonung nicht automatisch errechnet werden und es klingt als würde ein Roboter monoton irgendwelche Wörter sprechen, aber keinen Satz vorlesen. Machen wir uns nix vor ein schwieiriges Unterfangen.

Warum das Ganze überhaupt weiter verfolgen, wenn das schlechte Audio-Ergebnis schon klar ist?
Ich bin gezwungen mich beruflich auch mit K.I. und ganz viel anderem Kram zu beschäftigen und sehe das Ganze als Lernen an.
Ich hab keine Ahnung von Python, das braucht es aber, um überhaupt irgendwas zu automatisieren und so einem TTS-System was zum Arbeiten zu übergeben um ein Audio zu erhalten. Klar ging online schon schneller Text rein Audio raus geht da ruckzuck und je nach Anbieter sogar mit einer schön klingenden Stimme in guter Quailtät. Der Lerneffekt ist jedenfalls riesengroß, auf was man da alles kommt und achten muss, damit das überhaupt funktioniert und welche Hürden und Stolpersteine ich bisher schon im Weg hatte, wäre eine Geschichte für sich. So ein bisschen lass ich Euch hier an dieser Geschichte teilhaben. Im Detail sitze ich vor meiner Maschine brülle die K.I. an und überlege mir wie ich was lösen und Fehler behebe.

Marco

Uhiii....das klingt aber noch weit entfernt von flüssigem Vorlesen. Und ja nicht nur das, sondern auch die ganzen Sprechfehler inkl. verschiedener Geschwindigkeiten

Aber mache Dir nichts daraus. Ich wollte mein Hörspielskript mit Hilfe der KI in einen Roman umwandeln. Wie naiv von mir. Das hat natürlich nicht funktioniert.
Hatte ihr das Skript via PDF hochgeladen. Hat aber nichts genützt, da die KI immer wieder vom Skript abgewichen ist und irgendwelche Ereignisse hinzugedichtet hat, die da gar nicht vorkommen. Wäre jetzt auch nicht so schlimm, wenn das hinzugedichtete nicht so völlig fehl am Platze gewesen wäre. Ich habe es dann aufgegeben.

Was Deine Aktion betrifft, hatte ich schon einmal die Überlegung die Stimmen von Prof.van Dusen und Hutchensen Hatch zu clonen und einen neuen van Dusen Fall zu produzieren. Es gibt nämlich noch Geschichten, die noch nicht umgestzt wurden. Zwar nicht aus der Feder von Michael Koser, aber sehr sehr gute Skripte von einem unbekannten Autor.

Aber auch das wird wahrscheinlich in den nächsten Jahren auch noch nicht funktionieren .

Science Fiction Pharao des Eisens - Das Gizeh-Protokoll

Sample-Collector

Pharao des Eisens - Das Gizeh-Protokoll​

Anhänge

Sample-Collector

Sample-Collector

Anhänge

Sample-Collector

Sample-Collector

Sample-Collector

Protokoll: Fehlgeschlagene Datenaufbereitung (audio_skript.csv)​

1. Problemstellung​

2. Fehleranalyse (Identifizierte Ursachen)​

3. Chronik der Fehlversuche​

4. Ergebnis​

Sample-Collector

Anhänge

Sample-Collector

Sample-Collector

Mitglied

Sample-Collector

Fledermausohr, Autor, Sprecher

About Us

Links

Social Media

Statistik des Forums

Pharao des Eisens - Das Gizeh-Protokoll

Protokoll: Fehlgeschlagene Datenaufbereitung (audio_skript.csv)

1. Problemstellung

2. Fehleranalyse (Identifizierte Ursachen)

3. Chronik der Fehlversuche

4. Ergebnis