Marmax

Mitglied
Ohne zu sehr auf die Details einzugehen, möchte ich mal die Frage in die Runde werfen was die hier Anwesenden von den nachfolgenden Sprechprobe halten:
Es geht um ein anstehendes Projekt mit dem vielsagenden Titel "Gasthof zum Burgblick", das eine Novelle von mir ist.

Erzählerin:
 

;-)
 

PeBu34

Mitglied
Sprechprobe
Link
Hallo @Marmax
,
also, für mich klingt das nach einer Computerstimme. Die Betonung klingt jedenfalls ziemlich mechanisch und passt oft auch einfach nicht zum Text. (Aber dem Smiley nach zu urteilen, denke ich, dass das ein Test war, um zu sehen, ob die Stimme als menschlich durchgeht, oder?)

Liebe Grüße von
Peter :)
 

HaPe

Mitglied
Sprechprobe
Link
Ich kann @PeBu34 nur Recht geben:
- teilweise unsaubere Aussprache/Silben
- unsinnige, unnatürliche Betonungen
- merkwürdiges Tempo, kein Fluss
- kein Ausdruck
- ohne Emotion
Erzeugt kein Interesse bei mir als Zuhörer
 
G

Gelöschtes Mitglied 1980

Erzeugt kein Interesse bei mir als Zuhörer

Schreckt mich sogar eher ab, weil es zwar eine überraschend echt klingende, aber dennoch unverkennbar offensichtliche Computerstimme ist.
 

Marmax

Mitglied
Euch alte Hasen kann man natürlich nicht an der Nase herumführen :rolleyes:
Beim Stöbern bin ich tatsächlich auf ein paar Text to Speech Angebote gestoßen und habe etwas damit herum gespielt.
Ich denke aber, es gibt noch viel bessere.
In einem Hörspiel habe ich vorgestern einen sprechenden Computer gehört. Der wiederum klang unechter als so ein richtiger Synthie.
Auch interessant: Bei einem Webangebot (https://www.naturalreaders.com) habe ich den deutschen Text von einem holländischen Computersprecher aufsagen lassen und es hörte sich erstaunlich nah zu einem Holländer an, der mit starkem Akzent Deutsch spricht - oder seine Falschbetonungen fallen so kaum auf.
Vielleicht ist das zukünftig ja mal eine ernstzunehmende Option zumindest im SF Genre wo ja öfters mal Computer sprechen dürfen/sollen/müssen.
Also keiner ist wirklich drauf reingefallen!
 
Zuletzt bearbeitet:
G

Gelöschtes Mitglied 6038

Siri und Alexa haben eine saubere und deutlichere Aussprache. Es hat sich auch in den letzten Jahren deutlich was getan was das angeht.
Wobei man hier unterscheiden muss: Viele der Antworten die Alexa oder Siri geben wurden komplett als ganzer Satz aufgenommen und einige Wortspiele und „Catchphrases“ an die jeweilige Landessprache angepasst. Hat dann weniger mit Sprachsynthese zu tun sondern lediglich "einsprechen".
 

Marmax

Mitglied
@Eric
An Siri und Alexa ( Google, und Bixby und wie sie alle heißen) hatte ich bislang noch garnicht gedacht. Ich benutze sowas nicht, denn ich mag es nicht mit einem Telefon zu sprechen. Aber meine Kinder sehen das schon ganz anders...
 

PeBu34

Mitglied
Sprechprobe
Link
Vielleicht ist das zukünftig ja mal eine ernstzunehmende Option zumindest im SF Genre wo ja öfters mal Computer sprechen dürfen/sollen/müssen.
Die Frage ist nur, wozu wir diese Computerstimmen brauchen, wenn wir so gute Sprecher*Innen haben, wie zum Beispiel @Wednesday8, die hier eine ganz tolle Computerstimme (Liz) "hinlegt": [Ext. Casting] ALI3NS - Hallo, da sind wir! (1m, 1n) | Seite 3 | HoerTalk.de - Hörspiel-Community
So ist mir das viel lieber! :)

Liebe Grüße von
Peter :)
 

Marmax

Mitglied
Ja die Stimme ist wirklich toll. Aber da ich mich neben der Fiction eben auch mit der Science beschäftige, ist es m.M.n. bei einem realitischen SF Szenario anzunehmen, daß Computerstimmen in Zukunft eben nicht so klingen, sondern sich der menschlichen Stimme sehr stark annähern werden. So nah, daß Menschen den Unterschied nicht mehr feststellen werden können. Wir sind noch nicht so weit aber es ist natürlich das Ziel derer die daran arbeiten. Daher würde ich bei einem (realistischen) SF Szenario eine synthetische, möglichst menschlich klingende Stimme einsetzen. Das blechernde Stottern ist eher ein Retro Artefakt. Wo es vom Stoff her reinpasst: fein.
Die Frage stellt sich eher an welchen Aussetzern oder typischen "Fehlern" man in Zukunft einen sprechenden Computer erkennen kann. Versteht er Witze? Wortspiele? Kann er doppeldeutig sein? Ich glaube, da geht es um andere Dinge als die Akustik. Semantik zum Beispiel.
 
G

Gelöschtes Mitglied 1980

So nah, daß Menschen den Unterschied nicht mehr feststellen werden können.

Weiß ich nicht. Bei CGI-Filmen sind wir fast so weit (siehe z.B. Moff Tarkin in Rogoue One) und trotzdem nimmt man wahr, dass da irgendwas nicht passt. Man spricht dabei vom sog. "uncanny valley". Unbewusst nimmt der Mensch wahr, dass das, was da gesehen wird, nicht echt ist. Und ich denke, im akustischen Bereich ist das ähnlich.

*lach* Ich glaube ohnehin seit Jahren, dass die Hörbücher von Rufus Beck von einem Rufus Roboter gesprochen wurden *lach*

(Disclaimer: Das war natürlich nur ein Scherz. Ich bin nur kein Fan von Rufus Beck :D )
 

PeBu34

Mitglied
Sprechprobe
Link
Hallo @Marmax,

das ist jetzt eine ganze Menge "Stoff". :)

Also im Einzelnen:
So nah, daß Menschen den Unterschied nicht mehr feststellen werden können. Wir sind noch nicht so weit aber es ist natürlich das Ziel derer die daran arbeiten.
Vor kurzem gingen doch erst zwei solcher Versuche durch die Medien. Zweimal ist es wohl gelungen am Telefon Menschen in die Irre zu führen. Einmal hat eine KI einen Friseurtermin ausgemacht und einmal wollte sie einen Tisch in einem Restaurant buchen. Darauf gab es in verschiedenen Diskussionen den Vorschlag, dass sich KIs immer als solche zu erkennen geben müssen, damit Menschen wissen, dass sie mit einer KI reden. Ich glaube es ging um diese hier:
KI telefoniert wie echte Menschen: Google Assistant bucht in Kürze eigenständig Termine - Abendzeitung München

Daher würde ich bei einem (realistischen) SF Szenario eine synthetische, möglichst menschlich klingende Stimme einsetzen. Das blechernde Stottern ist eher ein Retro Artefakt. Wo es vom Stoff her reinpasst: fein.
Die Frage stellt sich eher an welchen Aussetzern oder typischen "Fehlern" man in Zukunft einen sprechenden Computer erkennen kann. Versteht er Witze? Wortspiele? Kann er doppeldeutig sein? Ich glaube, da geht es um andere Dinge als die Akustik. Semantik zum Beispiel.
Selbst das Problem, dass die KI etwas falsch versteht, scheint es - jedenfalls laut dem Artikel oben - bei einigen nicht mehr zu geben. - Die Dinger lernen scheinbar verdammt schnell!

Für mich ist die "hörspieltechnische" Frage eine ganz andere, als die die Stimme möglichst realistisch darzustellen. Die Frage lautet: Soll der Hörer von Anfang an wissen, welche Stimme zu einer KI gehört und welche nicht? - Und wenn ja: Woran erkennt er sie normalerweise?

Denk nur mal an das Geräusch eines fliegenden Pfeils, der ein Ziel trifft. Das Geräusch, das dafür in Filmen und Hörspielen verwendet wird, hat mit der Wirklichkeit nichts zu tun, aber: Die Hörer verstehen sofort, was passiert, wenn sie dieses bestimmte Geräusch hören, weil sie es - ungefähr - seit Erol Flynns "Robin Hood" so gewöhnt sind. :)
So muss eben auch eine Roboter- oder KI-Stimme - vor allem im Hörspiel - so dargestellt werden, dass die Hörer verstehen "Hier spricht eine KI oder ein Roboter." Wie man das genau umsetzt, bleibt m.E. dem einzelnen Autor und seinen Sprechern überlassen; und es hängt - wie du ja selbst sagst - von der Geschichte ab, die erzählt werden soll. :) Die Stimme in deiner "Sprechprobe" ist eine von vielen Möglichkeiten. :) (Besserwissermodus: Aus! ;))

Liebe Grüße von
Peter :)
 
Zuletzt bearbeitet:

Synchron

Mitglied
Sprechprobe
Link
In der musik gibt es das Verfahren "humanize" um zu korrekte computerklänge zu vermenschlichen.
 

Marmax

Mitglied
@Pinnie : "uncanny valley" hat hier wohl voll durchgeschlagen. Man merkt einfach, daß das vom Computer stammt. Vielleicht wäre das ja mal eine lohnenswerte Sprechprobe, wenn ein Sprecher es schafft so zu klingen als sei die Aufnahme aus dem Computer? Ist vielleicht gar nicht so einfach...
@PeBu34 :
Guter Einwand. Im "Showgeschäft" muss ja die Botschaft sicher ankommen. Daß die komischen Geräusche bei einem Faustkampf zwischen Coboys nix mit der Wirklichkeit zu tun haben stört da ja keinen, Hauptsache man weiß, daß da gerade geprügelt wird. Meine erste und bislang einzige echte Wirtshausschlägerei habe ich mal in München im Hofbräuhaus zwischen zwei Trunkenbolden erlebt. Es hat mich total irritiert und ich habe die Situation erst nicht verstanden, da man praktisch keine lauten Geräusche gehört hat und ich irgendwie diese Lautmalereien erwartet habe. Ich dachte die machen nur Spaß. So ist das, dann wenn man von Film und Hörspiel verschaukelt wurde.

Ansonsten landet man früher oder später beim Turing Test, der heilige Gral der KI Forscher. Wenn also ein Computer in der Lage ist, ein Gespräch so zu führen, daß er nicht als solcher identifiziert werden kann, dann wird es noch mal spannend.

Also gut, nach meinem Geschmack, ist HAL 900 aus der 2001: Odyssee im Weltraum, produziert im Jahr 1968(!).
Glaube das gibt es auch als sehr gutes deutsches Hörspiel aus den 80ern. Das ist ja wohl überzeugend, trotz/obwohl das Stilmittel "Blechdose" nicht verwendet wurde. Man konzentriert sich auf das Wesentliche einer KI, nämlich ihre Denkweise.
 

Lupin Wolf

Klaus S. - The Evil Master of Deasaster
Sprechprobe
Link
Euch alte Hasen kann man natürlich nicht an der Nase herumführen :rolleyes:
Nope - und schon gar nicht mit so einer billigen Imitation :D

In einem Hörspiel habe ich vorgestern einen sprechenden Computer gehört. Der wiederum klang unechter als so ein richtiger Synthie.
Wäre mal interessatn zu wissen, welches Hörspiel und Computer das war...

Bei einem Webangebot (https://www.naturalreaders.com) habe ich den deutschen Text von einem holländischen Computersprecher aufsagen lassen und es hörte sich erstaunlich nah zu einem Holländer an, der mit starkem Akzent Deutsch spricht - oder seine Falschbetonungen fallen so kaum auf.
Leider doch. In deutsch klingt das kaum besser als dein Eingangsbeispiel - und TTS in einer fremden Sprache mit einem "falschen" Text zu füttern ist genauso, als würde man sich auf reine Übersetzungsprogramme verlassen wollen. Kommt also auch nur Murks bei raus.

Die Frage ist nur, wozu wir diese Computerstimmen brauchen, wenn wir so gute Sprecher*Innen haben,
Zustimm - auch den anderen Ausführungen, wie man sich am besten als Sprecher verhält. Dazu gibts übrigens noch zwei recht junge Threads.

Wie bekomme ich diesen Computerstimmen-Effekt hin? | HoerTalk.de - Hörspiel-Community
Stimme wie Apple`s "Siri" klingen lassen | HoerTalk.de - Hörspiel-Community

Und TTS in Hörspielen einsetzen ist auch früher schon ein paarmal aufgetaucht - alter Hut, bei - ja - noch älteren und schlechteren TTS Systemen.

Aber da ich mich neben der Fiction eben auch mit der Science beschäftige, ist es m.M.n. bei einem realitischen SF Szenario anzunehmen, daß Computerstimmen in Zukunft eben nicht so klingen, sondern sich der menschlichen Stimme sehr stark annähern werden. So nah, daß Menschen den Unterschied nicht mehr feststellen werden können.

Hey, das klingt doch gut - wozu dann ein TTS oder sonstige künstliche Verfremdungen? Wir haben Sprecher dafür, die auch Normal reden können. ;)

Im Ernst, du musst dich entscheiden: künstliches künstlich klingen lassen, oder künstliches natürlich und so gut wie gar nicht unterscheidbar. - Zumindest auf Hörspiele und Film bezogen macht es mehr Sinn, echte Sprecher/Schauspieler zu nehmen und die Stimmen passend zu verfremden.

Beispiele gibts genug: Star Trek klingt schon künstlich genug - stecken aber auch Sprecher dahinter. Data wird von der Stimme her zwar wie ein normaler Mensch, aber Betonungs- und Gefühlsintonation fehlen.
Kleiner modernerer Schwenk: Legends of Tomorrow und The Flash - Gideon basiert in beiden Serien zwar auf die gleiche Zukunftstechnologie, hat aber unterschiedliche Stimmen von echten Menschen, die die gleichen Macken wie die von Data haben - aber es gibt keine seltsamen hoch/runter Toneffekte, keine Ton-Glitches etc. Beeindruckend find ich vor allem Amy Pamberton in Legends, zumal sie in jeder Staffel wenigstens in einer Folge einen Real Life Auftritt hat, weil sich durch irgendwelche Umstände jemand in ihre VR Matrix verirrt. Sie schauspielert Gideon auch als Mensch genausogut, wie Spinner damals Data. (Unbedingt Originale dazu schauen - die deutsche Synchro verfälscht den Eindruck als Fremdstimme evt. dann doch wieder)
Humans und Real Humans - auch hier laufen die Androiden recht künstlich herum, sprechen zwar glatt, aber Gefühlsbetonte Intonierung fehlt meist völlig.
etc. pp. bla bla bla.... die Liste könnt ich jetzt km-weit weiter schreiben. Fakt ist, nirgends kommt man auf die Idee, eine TTS einzusetzen und trotzdem kriegt man genau das, was man haben will oder erwartet.

Selbst das Problem, dass die KI etwas falsch versteht, scheint es - jedenfalls laut dem Artikel oben - bei einigen nicht mehr zu geben. - Die Dinger lernen scheinbar verdammt schnell!
Du mußt aber auch ein Stück weit unterscheiden zwischen KI und Computer generierter Stimme, Peter. Abgesehen mal davon: Google Assistent verwendet genau wie Siri ein Stimmenprofil, Alexa hingegen soll angeblich mit Amazon Lex eine Software sein, die ohne sowas auskommt (wer's glaubt.... :D )

Siri und Alexa haben eine saubere und deutlichere Aussprache. Es hat sich auch in den letzten Jahren deutlich was getan was das angeht.
Wobei man hier unterscheiden muss: Viele der Antworten die Alexa oder Siri geben wurden komplett als ganzer Satz aufgenommen und einige Wortspiele und „Catchphrases“ an die jeweilige Landessprache angepasst. Hat dann weniger mit Sprachsynthese zu tun sondern lediglich "einsprechen".
Wie gesagt, im großen und ganzen stimme ich dem zu. Siri's us Originalstimme ist übrigens die Voice-Over Actress Susan Bennett (vielen auch durch diverse Navigationssysteme und Werbespots bekannt, die ließ sich dadurch gar nicht lange verheimlichen). In dieser Voice Assistent Sache war Apple gewissermaßen Vorreiter. Google hält die Namen der Sprecher unter Verschluss, Amazon behauptet: da gäbe es niemanden. (Ich schreibs nochmal: wers glaubt....? Ich vermute mal, die haben eher unbekannte Mitarbeiter/Externe verwendet, die kaum wer kennt und sich deshalb leicht verheimlichen lassen!), Microsoft Cortana wird im englischem Original von Jennifer Lee (Jen) Taylor gesprochen (sie spricht auch Cortana in der Halo Games Serie, irgendwas bei Left4Dead und noch so einiges mehr - ist auch schlecht zu verheimlichen gewesen durch ihren Bekanntheitsgrad).

In der musik gibt es das Verfahren "humanize" um zu korrekte computerklänge zu vermenschlichen.
Interessant! Das wusste ich noch gar nicht. Wieder was gelernt! :) Danke!
Das betrifft aber auch nur künstlich generiertes, Loops usw. um diverse Fehler einzubauen, damit das eben nicht permanent gleich klingt. In Sachen Loops machen wir das im Hörspiel teils ähnlich, spielen mit ein paar kleinen Effekten oder mischen andere Samples hier und da in der Gesammtlänge unter, um den Loop zu kaschieren.

Ansonsten: in der Musik gibts mehrere Verfahren, die teils auch in normale Sprechaufnahmen verwendung finden:
Melodyne - Gesang, bzw. eine Tonfolge durch eine Menschliche Stimme wie ein Instrument klingen zu lassen (bevorzugt E-Gitarren). Ursprünglich reine Hardware, gibt es aber mitlerweile auch Plugins für. Das ganze ist ein Mix aus diversen Effekten und einem...

...Vocoder. Dazu nimmt man zwei Klangquellen, die einfach ausgedrückt, sich gegenseitig überlagern udn klanglich aufeinander abgestimmt werden. Anders als bei Melodyne nutzt man das nicht nur für Stimmen, sondern für Klänge aller Art.

Robosize, Dalek und Smurf. Hoch und runterziehen der Stimme, kombiniert mit Ringkernmodulator. Ringkern könnte ich nochmal extra aufführen, aber DAS ist im Dalek-Effekt (die KI Konklave (quasi ähnlich den Borgs grins) und Roboter aus Dr. Who) ja schon enthalten ;)

Impuls Response Effects - für einige wird das jetzt "strange" klingen, kennt man IR's (Impulsantworten) eher nur zum simulieren von Raumklang. ABER, es gibt einige IR's die entweder durch Effektbatterien geschoben wurden, andere deren natürliche Umgebungen Klang mit mehr als nur Echo und Hall verändern kann. Entsprechend funktioniert das auch bei Sprache und der eigentliche Zweck der IR's kann damit Zweckentfremdet werden. Spielen mit Wet und Dry bei solchen Impulsantwort-Vorlagen, evt, noch kleine Zusatzeffekte dazu. Aber im Wesentlichen ersparrt man sich so den Aufbau von diversen Effektketten in der DAW - ersetzt also durchaus auch mal auf einen Schlag ein paar Plugins.

Autotune - das wohl modernste im Musikbereich - und grauenhafteste, wenn Sänger es über die ganze Liedlänge brauchen. Damit sollen Melodieunstimmigkeiten der Menscen ausgeglichen werden. Also der Stimmklang künstlich zu Melodie begradigt werden. ABER: das klingt häufig an vielen Stellen eher künstlich, verfremdet die Stimme des Künstlers mehr. Wenn da nicht die Emotionalen Intonierungen drin wären kann man damit einen Menschen in eine TTs Stimme verwandeln, die fast so klingt wie das Beispiel hier in Post 1. Oh, und damit haben wir tatsächlich, wi in den anderne beiden Threads auch shcon was gefunden, um TTS besser ersetzen zu können, und die Aussprache bleibt auch besser verständlich, trotz des künstlichen Kunstklangs! (WOBEI: ich hasse Künstler die damit durchgängig arbeiten. Die meisten können auch real nicht singen und dank Autotune wurde daraus auch noch eine Gesangs-Kult-Form draus gemacht, damit deren eigenen Schwächen gar nicht erst auffallen - bah, igitt. Cher's Belive bleibt eine von den besseren Ausnahmen. Sie singt im Refrain absichtlich und sogar gezielt falsch, damit das Plugin eben den passenden Kunsteffekt an den Stellen auslöst. Das passt viel besser, aber übertreiben sollte mans damit echt nicht).
PS: oft wird Autotune mit Melodyne verglichen - ist aber völliger Blödsinn. Bei Melodyne musst du den Ton schon treffen, im Gegensatz zu Autotune.

Tja, Marmax - wir brauchen wirklich kein TTS um falsch und künstlich zu klingen. Das kriegen wir besser hin ;) :D:D:D
 
Zuletzt bearbeitet:

Marmax

Mitglied
@Lupin Wolf :
Das war jetzt aber viel Informations Input. Die muss meine CPU jetzt erst mal verarbeiten :D
LG Marcel
 

Lupin Wolf

Klaus S. - The Evil Master of Deasaster
Sprechprobe
Link
Verneig: immer wieder gern :)

BTW: ich hab meinen Text nochmal korrigieren müssen. Ringkerngenerator ... lach, ich hab keine Ahnung wie das da rein kam. Ringkernmodulator ist damit gemeint gewesen. Blöde Autokorrektur :D
 
Oben