Den här roboten förutsäger när du kommer att le – sedan flinar tillbaka direkt på kö

Den här roboten förutsäger när du kommer att le – sedan flinar tillbaka direkt på kö

Den här roboten förutsäger när du kommer att le — sedan flinar tillbaka direkt på Cue PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Komediklubbar är mina favorithelger. Samla några vänner, ta några drinkar och när ett skämt landar för oss alla – det finns ett magiskt ögonblick när våra ögon möts och vi delar ett fräckt leende.

Att le kan förvandla främlingar till de käraste vännerna. Det sporrar träffa-gullig Hollywood planerar, reparerar trasiga relationer och är oupplösligt kopplad till luddiga, varma glädjekänslor.

Åtminstone för människor. För robotar faller deras försök till äkta leenden ofta ner i den kusliga dalen - tillräckligt nära för att likna en människa, men orsakar en touch av oro. Logiskt sett vet du vad de försöker göra. Men magkänslorna säger att något inte stämmer.

Det kan bero på timing. Robotar är tränade för att efterlikna ansiktsuttrycket av ett leende. Men de vet inte när de ska sätta på flinet. När människor ansluter, ler vi genuint tillsammans utan någon medveten planering. Robotar tar tid att analysera en persons ansiktsuttryck för att återskapa ett leende. För en människa höjer till och med millisekunders fördröjning hår i nacken - som en skräckfilm känns något manipulativt och fel.

Förra veckan, ett team på Columbia University visade upp en algoritm som lär robotar att dela ett leende med sina mänskliga operatörer. AI:n analyserar små ansiktsförändringar för att förutsäga operatörernas uttryck cirka 800 millisekunder innan de inträffar – precis tillräckligt med tid för roboten att flina tillbaka.

Teamet tränade ett mjukt robotiskt mänskligt ansikte som heter Emo för att förutse och matcha uttrycken hos dess mänskliga följeslagare. Med ett silikonansikte tonat i blått ser Emo ut som en 60-tals science fiction-utomjording. Men den flinade lätt tillsammans med sin mänskliga partner på samma "emotionella" våglängd.

Humanoida robotar är ofta klumpiga och stiliga när de kommunicerar med människor, skrev Dr Rachael Jack vid University of Glasgow, som inte var involverad i studien. ChatGPT och andra stora språkalgoritmer kan redan få en AI:s tal att låta mänskligt, men icke-verbal kommunikation är svår att replikera.

Att programmera sociala färdigheter - åtminstone för ansiktsuttryck - i fysiska robotar är ett första steg mot att hjälpa "sociala robotar att gå med i den mänskliga sociala världen", skrev hon.

Under huven

Från robotax till robo-servrar som ger dig mat och dryck, autonoma robotar kommer allt mer in i våra liv.

I London, New York, München och Seoul, autonoma robotar zippa igenom kaotiska flygplatser och erbjuda kundhjälp – checka in, hitta en gate eller återställa förlorat bagage. I Singapore flera sju fot höga robotar med 360 graders sikt ströva runt på en flygplats flagga potentiella säkerhetsproblem. Under pandemin, robothundar påtvingad social distansering.

Men robotar kan göra mer. För farliga jobb – som att städa vraket av förstörda hus eller broar – kan de vara pionjärer i räddningsinsatser och öka säkerheten för de första insatserna. Med en alltmer åldrande global befolkning skulle de kunna hjälpa sjuksköterskor att stödja äldre.

Aktuella humanoid robotar är tecknat bedårande. Men huvudingrediensen för att robotar ska komma in i vår värld är förtroende. När forskare bygger robotar med allt mer mänskliga ansikten vill vi att deras uttryck ska matcha våra förväntningar. Det handlar inte bara om att efterlikna ett ansiktsuttryck. Ett äkta delat "ja, jag vet"-leende över ett skrämmande skämt bildar ett band.

Icke-verbal kommunikation – uttryck, handgester, kroppsställningar – är verktyg vi använder för att uttrycka oss själva. Med ChatGPT och annat generativ AI, maskiner kan redan "kommunicera i video och verbalt", sade studie författare Dr Hod Lipson till Vetenskap.

Men när det kommer till den verkliga världen – där en blick, en blinkning och ett leende kan göra hela skillnaden – är det "en kanal som saknas just nu", sa Lipson. "Att le vid fel tidpunkt kan slå tillbaka. [Om till och med några millisekunder för sent], känns det som att du tjatar kanske.”

Säg omelett

För att få robotar till icke-verbal handling fokuserade teamet på en aspekt – ett gemensamt leende. Tidigare studier har förprogrammerade robotar för att efterlikna ett leende. Men eftersom de inte är spontana, orsakar det en liten men märkbar fördröjning och får flinet att se falskt ut.

"Det finns många saker som går in i icke-verbal kommunikation" som är svåra att kvantifiera, sa Lipson. "Anledningen till att vi måste säga "ost" när vi tar ett foto är för att det faktiskt är ganska svårt att le på begäran."

Den nya studien fokuserade på timing.

Teamet konstruerade en algoritm som förutser en persons leende och får ett mänskligt animatroniskt ansikte att flina samtidigt. Kallas Emo, robotansiktet har 26 växlar - tänk konstgjorda muskler - insvept i en stretchig silikon "hud". Varje kugghjul är fäst vid det huvudsakliga robotskelettet med magneter för att flytta ögonbrynen, ögonen, munnen och halsen. Emos ögon har inbyggda kameror för att registrera sin omgivning och kontrollera ögonglobens rörelser och blinkande rörelser.

Emo kan själv spåra sina egna ansiktsuttryck. Målet med den nya studien var att hjälpa den att tolka andras känslor. Teamet använde ett knep som alla introverta tonåringar kanske känner till: De bad Emo att titta sig i spegeln för att lära sig att kontrollera dess växlar och forma ett perfekt ansiktsuttryck, som ett leende. Roboten lärde sig gradvis att matcha sina uttryck med motoriska kommandon – säg "lyft kinderna." Teamet tog sedan bort all programmering som potentiellt kunde sträcka ut ansiktet för mycket och skada robotens silikonhud.

"Det visade sig att...[att göra] ett robotansikte som kan le var otroligt utmanande ur mekanisk synvinkel. Det är svårare än att göra en robothand”, sa Lipson. "Vi är väldigt bra på att upptäcka oäkta leenden. Så vi är väldigt känsliga för det.”

För att motverka den kusliga dalen tränade teamet Emo att förutsäga ansiktsrörelser med hjälp av videor av människor som skrattar, förvånade, rynkar pannan, gråter och gör andra uttryck. Känslor är universella: När du ler krullar mungitarna till en halvmåne. När du gråter rynkas ögonbrynen ihop.

AI:n analyserade ansiktsrörelser för varje scen bild-för-bildruta. Genom att mäta avstånden mellan ögonen, munnen och andra "ansiktsmärken" hittade den kontrollampa tecken som motsvarar en viss känsla - till exempel kan en uppstickning av mungipan antyda en antydan till ett leende, medan en nedåtgående rörelse kan gå ner i en rynka pannan.

När AI väl tränats tog det mindre än en sekund att känna igen dessa ansiktslandmärken. När Emo startade, kunde robotansiktet förutse ett leende baserat på mänskliga interaktioner inom en sekund, så att det flinade med sin deltagare.

För att vara tydlig, AI:n "känns" inte. Snarare beter den sig som en människa skulle göra när den skrattar till en rolig stand-up med ett äkta leende.

Ansiktsuttryck är inte de enda signalerna vi lägger märke till när vi interagerar med människor. Subtila skakningar på huvudet, nickningar, höjda ögonbryn eller handgester gör alla ett märke. Oavsett kultur är "ums", "ahhs" och "likes" – eller deras motsvarigheter – integrerade i vardagliga interaktioner. För nu är Emo som en bebis som lärde sig att le. Den förstår ännu inte andra sammanhang.

"Det finns mycket mer kvar" sade Lipson. Vi skrapar bara på ytan av icke-verbal kommunikation för AI. Men "om du tycker att det är intressant att engagera dig med ChatGPT, vänta bara tills dessa saker blir fysiska och alla spel är avstängda."

Image Credit: Yuhang Hu, Columbia Engineering via YouTube

Tidsstämpel:

Mer från Singularity Hub