Denne roboten forutsier når du kommer til å smile – så gliser tilbake rett på signal

Denne roboten forutsier når du kommer til å smile – så gliser tilbake rett på signal

Denne roboten forutsier når du kommer til å smile – så gliser tilbake rett på Cue PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Komedieklubber er mine favorittutflukter i helgene. Samle noen venner, ta noen drinker, og når en vits lander for oss alle – det er et magisk øyeblikk når øynene våre møtes, og vi deler et frekt glis.

Å smile kan gjøre fremmede til de kjæreste venner. Det sporrer møte-søt Hollywood plotter, reparerer ødelagte forhold og er uløselig knyttet til uklare, varme følelser av glede.

I hvert fall for folk. For roboter faller forsøkene deres på ekte smil ofte ned i den uhyggelige dalen – nær nok til å ligne et menneske, men forårsaker et snev av uro. Logisk sett vet du hva de prøver å gjøre. Men magefølelsen forteller deg at noe ikke stemmer.

Det kan være på grunn av timing. Roboter er opplært til å etterligne ansiktsuttrykket til et smil. Men de vet ikke når de skal skru på gliset. Når mennesker kobles sammen, smiler vi oppriktig i tandem uten noen bevisst planlegging. Roboter bruker tid på å analysere en persons ansiktsuttrykk for å gjengi et glis. For et menneske reiser selv millisekunders forsinkelse hår på baksiden av nakken – som en skrekkfilm føles noe manipulerende og feil.

Forrige uke, et team ved Columbia University viste frem en algoritme som lærer roboter å dele et smil med sine menneskelige operatører. AI-en analyserer små ansiktsendringer for å forutsi operatørenes uttrykk omtrent 800 millisekunder før de skjer – akkurat nok tid til at roboten gliser tilbake.

Teamet trente et mykt robotaktig menneskelignende ansikt kalt Emo for å forutse og matche uttrykkene til dens menneskelige følgesvenn. Med et silikonansikt som er tonet i blått, ser Emo ut som et science fiction-romvesen fra 60-tallet. Men den gliste lett sammen med sin menneskelige partner på samme "emosjonelle" bølgelengde.

Humanoide roboter er ofte klønete og stilige når de kommuniserer med mennesker, skrev Dr. Rachael Jack ved University of Glasgow, som ikke var involvert i studien. ChatGPT og andre store språkalgoritmer kan allerede få en AIs tale til å høres menneskelig ut, men ikke-verbal kommunikasjon er vanskelig å replikere.

Å programmere sosiale ferdigheter - i det minste for ansiktsuttrykk - til fysiske roboter er et første skritt mot å hjelpe "sosiale roboter til å bli med i den menneskelige sosiale verden," skrev hun.

Under the Hood

Fra robotaksis til robo-servere som gir deg mat og drikke, autonome roboter kommer stadig mer inn i livene våre.

I London, New York, München og Seoul, autonom roboter zip gjennom kaotiske flyplasser som tilbyr kundehjelp – sjekke inn, finne en gate eller gjenopprette tapt bagasje. I Singapore, flere syv fot høye roboter med 360-graders syn streife rundt på en flyplass flagge potensielle sikkerhetsproblemer. Under pandemien, robothunder påtvunget sosial distansering.

Men roboter kan gjøre mer. For farlige jobber – som å rense vraket av ødelagte hus eller broer – kan de være banebrytende for redningsarbeid og øke sikkerheten for førstehjelp. Med en stadig aldrende global befolkning, kan de hjelpe sykepleiere med å støtte eldre.

Gjeldende humanoide roboter er tegneserieaktig søte. Men hovedingrediensen for at roboter skal komme inn i vår verden er tillit. Ettersom forskere bygger roboter med stadig mer menneskelignende ansikter, vil vi at uttrykkene deres skal matche forventningene våre. Det handler ikke bare om å etterligne et ansiktsuttrykk. Et ekte delt «ja, jeg vet»-smil over en grusom vits danner et bånd.

Ikke-verbal kommunikasjon – uttrykk, håndbevegelser, kroppsstillinger – er verktøy vi bruker for å uttrykke oss selv. Med ChatGPT og annet generativ AImaskiner kan allerede "kommunisere i video og verbalt," sa studie forfatter Dr. Hod Lipson til Vitenskap.

Men når det kommer til den virkelige verden – der et blikk, et blunk og et smil kan utgjøre hele forskjellen – er det "en kanal som mangler akkurat nå," sa Lipson. «Å smile til feil tid kan gi tilbakeslag. [Hvis til og med noen få millisekunder for sent], føles det som om du lurer kanskje.»

Si ost

For å få roboter til ikke-verbal handling, fokuserte teamet på ett aspekt – et felles smil. Tidligere studier har forhåndsprogrammert roboter for å etterligne et smil. Men fordi de ikke er spontane, forårsaker det en liten, men merkbar forsinkelse og får gliset til å se falskt ut.

"Det er mange ting som går inn i ikke-verbal kommunikasjon" som er vanskelig å kvantifisere, sa Lipson. "Grunnen til at vi må si "ost" når vi tar et bilde, er fordi det faktisk er ganske vanskelig å smile på forespørsel."

Den nye studien fokuserte på timing.

Teamet konstruerte en algoritme som forutser en persons smil og får et menneskelignende animatronisk ansikt til å smile i tandem. Kalt Emo, har robotansiktet 26 gir – tenk på kunstige muskler – innhyllet i en elastisk silikon-"hud". Hvert tannhjul er festet til det viktigste robotskelettet med magneter for å bevege øyenbrynene, øynene, munnen og nakken. Øynene til Emo har innebygde kameraer for å registrere omgivelsene og kontrollere øyeeplebevegelsene og blinkende bevegelser.

Av seg selv kan Emo spore sine egne ansiktsuttrykk. Målet med den nye studien var å hjelpe den til å tolke andres følelser. Teamet brukte et triks enhver innadvendt tenåring kanskje kjenner til: De ba Emo se seg i speilet for å lære å kontrollere girene og danne et perfekt ansiktsuttrykk, for eksempel et smil. Roboten lærte seg gradvis å matche uttrykkene med motoriske kommandoer – for eksempel «løft kinnene». Teamet fjernet deretter all programmering som potensielt kunne strekke ansiktet for mye, og skade robotens silisiumhud.

"Det viste seg at...[å lage] et robotansikt som kan smile var utrolig utfordrende fra et mekanisk synspunkt. Det er vanskeligere enn å lage en robothånd,” sa Lipson. «Vi er veldig flinke til å oppdage uautentiske smil. Så vi er veldig følsomme for det.»

For å motvirke den uhyggelige dalen, trente teamet Emo til å forutsi ansiktsbevegelser ved å bruke videoer av mennesker som ler, overrasket, rynker pannen, gråter og gir andre uttrykk. Følelser er universelle: Når du smiler, krøller munnvikene til en halvmåne. Når du gråter, rynker brynene seg sammen.

AI analyserte ansiktsbevegelser av hver scene bilde for bilde. Ved å måle avstander mellom øynene, munnen og andre "ansiktslandemerker" fant den avslørende tegn som tilsvarer en bestemt følelse - for eksempel antyder en opptur i munnviken et snev av et smil, mens en nedadgående bevegelse kan gå ned i en rynke.

Etter å ha blitt trent, tok AI mindre enn et sekund å gjenkjenne disse ansiktslandemerkene. Når du slår på Emo, kunne robotansiktet forutse et smil basert på menneskelig interaksjon i løpet av et sekund, slik at det gliste sammen med deltakeren.

For å være tydelig, "føles ikke AI". Snarere oppfører den seg som et menneske ville gjort når den humrer til en morsom stand-up med et ekte tilsynelatende smil.

Ansiktsuttrykk er ikke de eneste signalene vi legger merke til når vi samhandler med mennesker. Subtile hoderistinger, nikk, hevede øyenbryn eller håndbevegelser setter alle preg. Uavhengig av kulturer er «ums», «ahhs» og «likes» – eller ekvivalenter – integrert i hverdagslige interaksjoner. For nå er Emo som en baby som lærte å smile. Den forstår ennå ikke andre sammenhenger.

«Det er mye mer igjen» sa Lipson. Vi skraper bare i overflaten av ikke-verbal kommunikasjon for AI. Men "hvis du synes det er interessant å engasjere seg med ChatGPT, bare vent til disse tingene blir fysiske, og alle spill er av."

Bilde Credit: Yuhang Hu, Columbia Engineering via YouTube

Tidstempel:

Mer fra Singularity Hub