I komplekse miljøer kan mennesker forstå betydningen av tale bedre enn AI, fordi vi bruker ikke bare ørene våre, men også øynene våre.
For eksempel ser vi noens munn bevege seg og kan intuitivt vite at lyden vi hører må komme fra den personen.
Meta AI jobber med et nytt AI-dialogsystem, som skal lære AI å også lære å gjenkjenne subtile sammenhenger mellom det den ser og hører i en samtale.
VisualVoice lærer på en lignende måte som hvordan mennesker lærer å mestre nye ferdigheter, og muliggjør audiovisuell taleseparasjon ved å lære visuelle og auditive signaler fra umerkede videoer.
For maskiner skaper dette bedre persepsjon, mens menneskelig oppfatning forbedres.
Tenk deg å kunne delta i gruppemøter i metaversen med kolleger fra hele verden, og bli med i mindre gruppemøter mens de beveger seg gjennom det virtuelle rommet, der lydreverbene og klangene i scenen tilpasser seg miljøet.
Det vil si at den kan få lyd-, video- og tekstinformasjon samtidig, og har en rikere miljøforståelsesmodell som lar brukerne ha en "veldig wow" lydopplevelse.
Innleggstid: 20. juli 2022