Tech Rivals Race to Launch Multimodal AI Wearables - Rapport

Tech Rivals Race for å lansere multimodale AI Wearables – Rapport

Store teknologiselskaper som Microsoft, Google, OpenAI og andre kappløper for å integrere multimodal AI for å bygge smarte briller og andre bærbare enheter med front-looking kameraer.

Multimodal AI er en kraftig form for teknologien som kombinerer mange datakilder for å gå utover enkle genererte tekstsvar. Den kan forstå tekst, bilder, lyd, video, tale og til og med håndbevegelser.

As rapportert av The Information satser store teknologiselskaper på at multimodale systemer kan passe godt for smarte briller med innebygde kameraer foran samt annen bærbar teknologi.

Les også: Metas Ray-Ban-briller har nå AI-funksjoner for lyd og syn

Ny kamp om AI-dominans

Visjonen er i ferd med å bli et nøkkelområde for utvikling og AI-rivalisering for Big Tech i 2024. Mange av selskapene har snakket om denne visjonen eller jobbet med den i flere år, heter det i rapporten.

Nå er de sikre på at de kan selge smarte briller drevet av AI. For eksempel, OpenAI diskuterte å «bygge inn» objektgjenkjenningsprogramvaren, GPT-4 med Vision, i Snapchats brilleutstyr.

Avtalen med Snap, morselskapet til Snapchat, kan resultere i nye funksjoner for de smarte brillene, skrev The Information. Firmaet har slitt med å gjøre enheten om til et massemarkedsprodukt.

Tech Rivals Race to Launch Multimodal AI Wearables - Rapport

Tech Rivals Race to Launch Multimodal AI Wearables - Rapport

I februar antydet Snap hvordan de planlegger å integrere generativ kunstig intelligens i sine foto- og videoopptaksbriller, Spectacles. Administrerende direktør Evan Spiegel sa at AI kan brukes til å "forbedre oppløsningen og klarheten til en Snap etter at brukeren fanger den." ifølge til bransjemedier.

Den kan til og med brukes til "mer ekstreme transformasjoner", som å redigere bilder eller lage snaps basert på tekstinndata, la han til.

OpenAI og Microsoft jobber allerede med oppstart av AI Human, som nylig lanserte en enhet kalt Hei Pin som bruker et laserprojeksjonssystem for å vise tekst og bilder på en brukers hånd.

Innretningen er designet for å bæres på klær og kan trykkes for å snakke med en virtuell assistent drevet av OpenAIs GPT-4-teknologi og skydatakraft fra Microsoft.

Metas AI-drevne Ray-Ban-briller skaper røre på sosiale medier

Metas AI-drevne Ray-Ban-briller skaper røre på sosiale medier

Meta leder bransjefremstøtet

Den teknologiske industriens fremstøt kommer da Meta i forrige uke avslørte den nyeste versjonen av sine Ray-Ban smarte briller, som bruker AI til å "se, høre og identifisere ting via et innebygd kamera og mikrofon."

Når den er aktivert, kan Ray-Ban svare på en talekommando som "Er denne teen koffeinfri?" ved å ta et bilde, analysere det og deretter gi et svar, sa Meta-sjef Mark Zuckerberg.

Men en test av CNET viser at Ray-Bans hallusinerer - brillene så ting som egentlig ikke var tilstede og fortsatte med å gi en beskrivelse av gjenstandene. Det er en felles problem med generativ AI.

Når det gjelder Google, begynte selskapet i 2013 å selge en prototype av sine tidligste smarte briller, kjent som Glass, for 1,500 dollar. Brillene slo ikke til, og ble kritisert som en trussel mot personvernet.

Til slutt, Google stoppet produserer glass. Selskapet legger nå multimodal kunstig intelligens til ChatGPT-konkurrenten Gemini og forventes også å inkorporere teknologien i sine wearables.

Integreringen av multimodal AI i wearables som augmented reality smarte briller har vanligvis som mål å forbedre funksjonaliteten deres og tilby brukerne en mer oppslukende opplevelse.

Den kan også brukes til mange praktiske applikasjoner, inkludert oversettelse av språk, fjernstøtte for ingeniører og sanntidsdatadeling for soldater i kamp.

I 2022 ble det globale wearables-markedet verdsatt til rundt 61 milliarder dollar, ifølge estimater. Sektoren forventes å vokse med 15 % hvert år frem til 2030 – raskere enn smarttelefonmarkedet.

Tidstempel:

Mer fra MetaNews