Sprecher / Teilnehmer gesucht für ein "Künstliche Intelligenz" Projekt

axmiku · 19 Mai 2020

EDIT 17.08.2020:

Nochmals vielen Dank an alle die mitgemacht haben. Wir haben mittlerweile alle Teilnoten zusammen und konnten das finale Projekt funktionsfähig abgeben. Leider mussten wir kurzfristig improvisieren und die zu klassifizierenden Worte nochmals tauschen. Trotz zahlreicher Teilnehmer und Variation der Aufnahmen (engl. "Data Augmentation") konnten rund 1500 Aufnahmen pro Wort keine guten Ergebnisse liefern. Wir haben nach dieser bitteren Erkenntnis auf bestehende Datensätze zurückgegriffen und mit rund 5000 Aufnahmen pro Wort sehr gute Ergebnisse erzielen können – leider nicht mit den Aktionen/Worten die wir uns gewünscht hatten, aber immerhin.

Für die, die es ganz genau interessiert: für das Projekt haben wir 100 von 100 Punkten bekommen – nicht zuletzt auch durch das Engagement, einen eigenen Datensatz aufzubauen, was für viele KI Anwendungen das Bottleneck darstellt. Ihr habt uns also trotz Planänderung sehr sehr weitergeholfen! Danke an alle!

Worum geht es?
Im Rahmen eines Uniprojektes (Studienfach Informatik) trainieren wir eine künstliche Intelligenz darauf Sprachbefehle zu lernen und im Anschluss Aktionen auszuführen. Für das Training benötigen wir einen sehr breiten Datensatz von den Worten, die später verstanden werden sollen. Der Aufwand pro Person hält sich sehr im Rahmen, die große Menge an notwendigen Teilnehmern erschwert uns aber die Datensammlung im Freundes- und Bekanntenkreis.

Was wird gebraucht?
Pro Stimme reicht uns eine durchgängige Sprachaufnahme, in der die Worte create, delete, select, color, move, cube, sphere, plane, red, green, blue, white ausgesprochen werden – das war's.

Verwendung
Die Aufnahme wird von uns zerschnitten, automatisiert in Spektogramme zerlegt und dann angelernt. Ab diesem Zeitpunkt ist keine Zuordnung zwischen Stimme und Herkunft mehr möglich und damit alles anonym und ohne weitere Verwendung. Die Aufnahmen werden anschließend nicht mehr verwendet und nach dem abgeschlossenen Training gelöscht.

Wir würden uns freuen, wenn sich viele nette Menschen finden, die uns bei unserem (benoteten) Projekt unterstützen.

Viele Grüße und ein herzliches Dankeschön,
Alex

Nee

Interessantes Projekt. Teilt ihr die Auswertung auch mit? Mich würde durchaus interessieren, wie groß der Datensatz sein muss, damit die KI die Befehle versteht.

Verbreitet ihr das auch 'international' oder beschränkt ihr euch eher auf einen deutschen Akzent?

Wie "sauber" braucht ihr denn die Aufnahmen? Darf ein bisschen Hintergrundgeräusch dabei sein oder versaut das den Lerneffekt?

axmiku

Nee schrieb:
Interessantes Projekt. Teilt ihr die Auswertung auch mit? Mich würde durchaus interessieren, wie groß der Datensatz sein muss, damit die KI die Befehle versteht.

Verbreitet ihr das auch 'international' oder beschränkt ihr euch eher auf einen deutschen Akzent?

Wie "sauber" braucht ihr denn die Aufnahmen? Darf ein bisschen Hintergrundgeräusch dabei sein oder versaut das den Lerneffekt?

Hallo Nee, das können wir sicherlich machen

Aktuell beschränken wir uns auf einen deutschen Akzent, wobei eine Varianz der Aussprache natürlich prinzipiell umso besser ist: Wenn das System beim Lernen durch die Angabe des gesprochenen Texts lernt damit umzugehen, dann "versteht" es hinterher auch verschiedene Eingaben.

Es muss definitiv keine Studioatmosphäre sein. Solange die Worte im Vordergrund zu verstehen sind (und optisch entsprechend unterscheidbar) sollte das wunderbar funktionieren.

Danke für dein Interesse !

Gelöschtes Mitglied 5339

Hallo @axmiku

also soll man praktisch nur die o.g. Wörter hintereinander einsprechen?

Liebe Grüße von
Peter

SeGreeeen

https://hoertalk.fra1.digitaloceanspaces.com/hpup/upload/up/ki-1589972638.mp3 bitteschön

axmiku

PeBu34 schrieb:
Hallo @axmiku

also soll man praktisch nur die o.g. Wörter hintereinander einsprechen?

Liebe Grüße von
Peter

Genau, das würde uns helfen

axmiku

SeGreeeen schrieb:
https://hoertalk.fra1.digitaloceanspaces.com/hpup/upload/up/ki-1589972638.mp3 bitteschön

Vielen lieben Dank!

Gelöschtes Mitglied 5339

@axmiku Danke für deine Antwort!

Dann will ich mich doch gleich beteiligen!

https://hoertalk.fra1.digitaloceanspaces.com/hpup/upload/up/Ki-Projekt_Axmiku-1589977531.mp3

Liebe Grüße von
Peter

SeGreeeen

@axmiku vielleicht könntest du die Schrift im ersten Post auf Weiß ändern? Man kann das echt schwer lesen

vielleicht machen dann mehr Leute mit

.

Falk Gündel

Da bin ich sehr gern dabei. Die Aufnahmen kann ich morgen hier rein stellen.

axmiku

PeBu34 schrieb:
@axmiku Danke für deine Antwort!

Dann will ich mich doch gleich beteiligen!

https://hoertalk.fra1.digitaloceanspaces.com/hpup/upload/up/Ki-Projekt_Axmiku-1589977531.mp3

Liebe Grüße von
Peter

Auch dir ganz lieben Dank !

axmiku

SeGreeeen schrieb:
@axmiku vielleicht könntest du die Schrift im ersten Post auf Weiß ändern? Man kann das echt schwer lesen vielleicht machen dann mehr Leute mit .

Kannst du nochmal ergänzen wo genau ? Bei mir wird der Beitrag auf weißem Hintergrund mit schwarzer Schrift dargestellt. Verzeiht mir bitte meine Unbeholfenheit

SeGreeeen

Gelöschtes Mitglied 5339

SeGreeeen schrieb:
vielleicht könntest du die Schrift im ersten Post auf Weiß ändern?

Könntest du denn für diesen einen Beitrag deinen Hintergrund auf weiß ändern?

- Nur mal so eine Idee.

Falk Gündel

So, hier wäre mein Beitrag.

axmiku

SeGreeeen schrieb:

Verstehe

Ich hoffe einfach mal, dass die Mehrheit nicht den Darkmode nutzt. Glaube weiß wäre ein ungünstiger Kompromiss für den Rest

axmiku

Falk Gündel schrieb:
So, hier wäre mein Beitrag.

Merci vielmals und ein schönes Wochenende !

Marco

Wenn es nur ein paar Wörter sind, warum könnt ihr die nicht selber einsprechen?

axmiku

Marco schrieb:
Wenn es nur ein paar Wörter sind, warum könnt ihr die nicht selber einsprechen?

Bei KI Systemen lernt das System daraus viele Inputs zu bekommen, die entsprechend angelernt werden. Etwa so, wie einem Kind das Wort Ball zu sagen und auf einen Ball zu zeigen. Damit das Kind später verschiedene Bälle klassifizieren kann, muss es zahlreiche Bälle sehen und dabei das Wort gesagt bekommen. Man braucht also sehr viele unterschiedliche Stimmen, Aussprachen und entdprechend Personen. Wir helfen natürlich mit Hall, EQ etc. nach um den Datensatz zusätzlich zu "verbreitern".

Hoffe das hilft fürs Verständnis

RoronoaRica

Hallo braucht ihr denn noch eine Stimme? Ihr habt ja nicht angegeben bis wann die Frist ist. Grüße ^^

Sprecher / Teilnehmer gesucht für ein "Künstliche Intelligenz" Projekt

Mitglied

Mitglied

Mitglied

Gelöschtes Mitglied 5339

Kaaaaarakaluuuuuuuhhhh!!!!

Mitglied

Mitglied

Gelöschtes Mitglied 5339

Kaaaaarakaluuuuuuuhhhh!!!!

Mitglied

Mitglied

Mitglied

Kaaaaarakaluuuuuuuhhhh!!!!

Gelöschtes Mitglied 5339

Mitglied

Mitglied

Mitglied

Fledermausohr, Autor, Sprecher

Mitglied

Neues Mitglied

About Us

Links

Social Media

Statistik des Forums