axmiku

Mitglied
EDIT 17.08.2020:

Nochmals vielen Dank an alle die mitgemacht haben. Wir haben mittlerweile alle Teilnoten zusammen und konnten das finale Projekt funktionsfähig abgeben. Leider mussten wir kurzfristig improvisieren und die zu klassifizierenden Worte nochmals tauschen. Trotz zahlreicher Teilnehmer und Variation der Aufnahmen (engl. "Data Augmentation") konnten rund 1500 Aufnahmen pro Wort keine guten Ergebnisse liefern. Wir haben nach dieser bitteren Erkenntnis auf bestehende Datensätze zurückgegriffen und mit rund 5000 Aufnahmen pro Wort sehr gute Ergebnisse erzielen können – leider nicht mit den Aktionen/Worten die wir uns gewünscht hatten, aber immerhin.


Für die, die es ganz genau interessiert: für das Projekt haben wir 100 von 100 Punkten bekommen – nicht zuletzt auch durch das Engagement, einen eigenen Datensatz aufzubauen, was für viele KI Anwendungen das Bottleneck darstellt. Ihr habt uns also trotz Planänderung sehr sehr weitergeholfen! Danke an alle!


Worum geht es?

Im Rahmen eines Uniprojektes (Studienfach Informatik) trainieren wir eine künstliche Intelligenz darauf Sprachbefehle zu lernen und im Anschluss Aktionen auszuführen. Für das Training benötigen wir einen sehr breiten Datensatz von den Worten, die später verstanden werden sollen. Der Aufwand pro Person hält sich sehr im Rahmen, die große Menge an notwendigen Teilnehmern erschwert uns aber die Datensammlung im Freundes- und Bekanntenkreis.

Was wird gebraucht?
Pro Stimme reicht uns eine durchgängige Sprachaufnahme, in der die Worte
create, delete, select, color, move, cube, sphere, plane, red, green, blue, white ausgesprochen werden – das war's.

Verwendung
Die Aufnahme wird von uns zerschnitten, automatisiert in Spektogramme zerlegt und dann angelernt. Ab diesem Zeitpunkt ist keine Zuordnung zwischen Stimme und Herkunft mehr möglich und damit alles anonym und ohne weitere Verwendung. Die Aufnahmen werden anschließend nicht mehr verwendet und nach dem abgeschlossenen Training gelöscht.

Wir würden uns freuen, wenn sich viele nette Menschen finden, die uns bei unserem (benoteten) Projekt unterstützen.

Viele Grüße und ein herzliches Dankeschön,
Alex
 
Zuletzt bearbeitet:

Nee

Mitglied
Sprechprobe
Link
Interessantes Projekt. Teilt ihr die Auswertung auch mit? Mich würde durchaus interessieren, wie groß der Datensatz sein muss, damit die KI die Befehle versteht.

Verbreitet ihr das auch 'international' oder beschränkt ihr euch eher auf einen deutschen Akzent?

Wie "sauber" braucht ihr denn die Aufnahmen? Darf ein bisschen Hintergrundgeräusch dabei sein oder versaut das den Lerneffekt?
 

axmiku

Mitglied
Interessantes Projekt. Teilt ihr die Auswertung auch mit? Mich würde durchaus interessieren, wie groß der Datensatz sein muss, damit die KI die Befehle versteht.

Verbreitet ihr das auch 'international' oder beschränkt ihr euch eher auf einen deutschen Akzent?

Wie "sauber" braucht ihr denn die Aufnahmen? Darf ein bisschen Hintergrundgeräusch dabei sein oder versaut das den Lerneffekt?

Hallo Nee, das können wir sicherlich machen :) Aktuell beschränken wir uns auf einen deutschen Akzent, wobei eine Varianz der Aussprache natürlich prinzipiell umso besser ist: Wenn das System beim Lernen durch die Angabe des gesprochenen Texts lernt damit umzugehen, dann "versteht" es hinterher auch verschiedene Eingaben.

Es muss definitiv keine Studioatmosphäre sein. Solange die Worte im Vordergrund zu verstehen sind (und optisch entsprechend unterscheidbar) sollte das wunderbar funktionieren.

Danke für dein Interesse ! :)
 

PeBu34

Mitglied
Sprechprobe
Link
Hallo @axmiku

also soll man praktisch nur die o.g. Wörter hintereinander einsprechen?

Liebe Grüße von
Peter :)
 

SeGreeeen

Kaaaaarakaluuuuuuuhhhh!!!!
Teammitglied
@axmiku vielleicht könntest du die Schrift im ersten Post auf Weiß ändern? Man kann das echt schwer lesen :D vielleicht machen dann mehr Leute mit :).
 

axmiku

Mitglied
@axmiku vielleicht könntest du die Schrift im ersten Post auf Weiß ändern? Man kann das echt schwer lesen :D vielleicht machen dann mehr Leute mit :).
@axmiku vielleicht könntest du die Schrift im ersten Post auf Weiß ändern? Man kann das echt schwer lesen :D vielleicht machen dann mehr Leute mit :).
Kannst du nochmal ergänzen wo genau ? Bei mir wird der Beitrag auf weißem Hintergrund mit schwarzer Schrift dargestellt. Verzeiht mir bitte meine Unbeholfenheit :rolleyes:
 

SeGreeeen

Kaaaaarakaluuuuuuuhhhh!!!!
Teammitglied
r1scEoU.png
 

Marco

Mitglied
Teammitglied
Sprechprobe
Link
Wenn es nur ein paar Wörter sind, warum könnt ihr die nicht selber einsprechen?
 

axmiku

Mitglied
Wenn es nur ein paar Wörter sind, warum könnt ihr die nicht selber einsprechen?
Bei KI Systemen lernt das System daraus viele Inputs zu bekommen, die entsprechend angelernt werden. Etwa so, wie einem Kind das Wort Ball zu sagen und auf einen Ball zu zeigen. Damit das Kind später verschiedene Bälle klassifizieren kann, muss es zahlreiche Bälle sehen und dabei das Wort gesagt bekommen. Man braucht also sehr viele unterschiedliche Stimmen, Aussprachen und entdprechend Personen. Wir helfen natürlich mit Hall, EQ etc. nach um den Datensatz zusätzlich zu "verbreitern".

Hoffe das hilft fürs Verständnis :)
 

RoronoaRica

Neues Mitglied
Hallo braucht ihr denn noch eine Stimme? Ihr habt ja nicht angegeben bis wann die Frist ist. Grüße ^^
 
Oben