Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin

Julkaissut Platon

seuraajia: 0

Nopeasta suunnittelusta on tullut olennainen taito kaikille, jotka työskentelevät suurten kielimallien (LLM) kanssa korkealaatuisten ja relevanttien tekstien luomiseksi. Vaikka tekstikehotusten suunnittelusta on keskusteltu laajasti, visuaalinen kehotussuunnittelu on nouseva ala, joka vaatii huomiota. Visuaaliset kehotteet voivat sisältää rajauslaatikoita tai maskeja, jotka ohjaavat näkömalleja luomaan asiaankuuluvia ja tarkkoja tuloksia. Tässä viestissä tutkimme visuaalisen nopean suunnittelun perusteita, sen etuja ja kuinka sitä voidaan käyttää tietyn käyttötapauksen ratkaisemiseen: kuvan segmentointi autonomista ajamista varten.

Viime vuosina tietokonenäön alalla on tapahtunut merkittäviä edistysaskeleita kuvan segmentoinnin alalla. Yksi tällainen läpimurto on Segmentoi kaikki malli (SAM) Meta AI, jolla on potentiaalia mullistaa objektitason segmentointi nolla- tai muutaman laukauksen harjoituksella. Tässä postauksessa käytämme SAM-mallia esimerkkinä perustan visiomallina ja tutkimme sen soveltamista BDD100K tietojoukko, monipuolinen autonomisen ajon tietojoukko heterogeeniseen monitehtäväoppimiseen. Yhdistämällä SAM:n vahvuudet BDD100K:n tarjoamaan rikkaaseen dataan esittelemme visuaalisen nopean suunnittelun mahdollisuudet eri SAM-versioilla. Innoittamana LangChain kielimallien puitteissa ehdotamme visuaalista ketjua visuaalisten kehotteiden suorittamiseksi yhdistämällä objektintunnistusmalleja SAM:iin.

Vaikka tämä viesti keskittyy autonomiseen ajamiseen, käsitellyt käsitteet soveltuvat laajalti aloille, joilla on runsaasti visioon perustuvia sovelluksia, kuten terveydenhuolto ja biotieteet sekä media ja viihde. Aloitetaan oppimalla hieman enemmän siitä, mitä SAM:n kaltaisen perustavanlaatuisen visiomallin taustalla on. Me käytimme Amazon SageMaker Studio tämän viestin ml.g5.16xlarge-esiintymässä.

Segmentoi kaikki malli (SAM)

Perusmallit ovat suuria koneoppimismalleja (ML), jotka on koulutettu suureen tietomäärään ja joita voidaan pyytää tai hienosäätää tehtäväkohtaisiin käyttötapauksiin. Täällä tutkimme Segment Anything -mallia (SAM), joka on perusmalli näkemykselle, erityisesti kuvan segmentoinnille. Se on valmiiksi koulutettu massiiviselle 11 miljoonan kuvan ja 1.1 miljardin maskin tietojoukolle, mikä tekee siitä kirjoitettaessa suurimman segmentointitietojoukon. Tämä laaja tietojoukko kattaa laajan valikoiman objekteja ja luokkia tarjoten SAM:lle monipuolisen ja laajan koulutustietolähteen.

SAM-malli on koulutettu ymmärtämään objekteja ja se voi tulostaa segmentointimaskeja mille tahansa kohteelle kuvissa tai videokehyksissä. Malli mahdollistaa visuaalisen nopean suunnittelun, jonka avulla voit syöttää syötteitä, kuten tekstiä, pisteitä, rajausruutuja tai maskeja, tarrojen luomiseksi alkuperäistä kuvaa muuttamatta. SAM:ia on saatavana kolmessa koossa: perus (ViT-B, 91 miljoonaa parametria), suuri (ViT-L, 308 miljoonaa parametria) ja valtava (ViT-H, 636 miljoonaa parametria), jotka vastaavat erilaisia laskentavaatimuksia ja käyttötapauksia.

SAM:n ensisijainen motivaatio on parantaa kohdetason segmentointia minimaalisilla harjoitusnäytteillä ja -jaksoilla kaikille kiinnostaville kohteille. SAMin voima piilee sen kyvyssä mukautua uusiin kuvajakeluihin ja tehtäviin ilman aiempaa tietoa. Tämä ominaisuus tunnetaan nimellä nollakuvan siirto. Tämä mukautumiskyky saavutetaan harjoittelemalla laajaa SA-1B-tietoaineistoa, joka on osoittanut vaikuttavan nollakuvan suorituskyvyn, ylittäen monet aiemmat täysin valvotut tulokset.

Kuten seuraavassa SAM-arkkitehtuurissa näkyy, segmentointimaskien luontiprosessi sisältää kolme vaihetta:

Kuvakooderi tuottaa kertaluonteisen upotuksen kuvalle.
Kehotekooderi muuntaa minkä tahansa kehotteen kehotteen upotusvektoriksi.
Kevyt dekooderi yhdistää kuvakooderista ja kehotekooderista tulevat tiedot segmentointimaskien ennustamiseksi.

Esimerkkinä voimme tarjota syötteen kuvalla ja rajauslaatikolla kyseisen kuvan kiinnostavan kohteen ympärille (esim. hopea auto tai ajokaista) ja SAM-malli tuottaa segmentointimaskeja tälle objektille.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Visuaalinen nopea suunnittelu

Nopea suunnittelu viittaa syötteiden strukturointiin malliin, joka saa mallin ymmärtämään tarkoituksen ja tuottaa halutun tuloksen. Tekstikehotteen suunnittelulla voit jäsentää syötetyn tekstin muunnoksilla, kuten valinnalla sanoja, muotoilua, järjestystä ja muuta saadaksesi halutun tulosteen. Visuaalisen kehotteen suunnittelu olettaa, että käyttäjä työskentelee visuaalisella tavalla (kuva tai video), ja antaa syötteitä. Seuraavassa on ei-tyhjentävä luettelo mahdollisista tavoista antaa syötettä generatiiviseen tekoälymalliin visuaalisessa toimialueessa:

Piste – Yksittäinen (x, y) koordinaattipiste kuvatasossa
Pisteet – Useita (x, y) koordinaattipisteitä, jotka eivät välttämättä liity toisiinsa
Rajauslaatikko – Neljän arvon joukko (x, y, w, h), jotka määrittelevät suorakaiteen muotoisen alueen kuvatasossa
Contour – Joukko (x, y) koordinaattipisteitä kuvatasossa, jotka muodostavat suljetun muodon
Mask – Matriisi, joka on samankokoinen kuin kuva, jossa on kiinnostavan kohteen osittainen maski

Tarkastellaan visuaaliset nopeat suunnittelutekniikat, miten tätä voidaan soveltaa SAM:n esikoulutettuun malliin. Olemme käyttäneet esikoulutetun mallin perusversiota.

Nollakuvaus esiopetetulla SAM-mallilla

Aluksi tutkitaan nollakuvan lähestymistapaa. Seuraava on esimerkkikuva harjoitustietojoukosta, joka on otettu ajoneuvon etukamerasta.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme saada segmentointimaskeja kaikille kohteille kuvasta ilman erityistä visuaalista kehotusta luovat automaattisesti maskeja pelkällä syöttökuvalla. Seuraavassa kuvassa nähdään auton osat, tie, liikennemerkit, rekisterikilvet, ylikulkusilta, pylväät, kyltit ja paljon muuta segmentoituna.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tämä tulos ei kuitenkaan ole heti hyödyllinen seuraavista syistä:

Autoja ei ole segmentoitu kokonaisuutena, vaan osiin. Esimerkiksi useimmissa havaintomalleissa emme todellakaan välitä siitä, että jokaisella renkaalla on erillinen tehomaski. Tämä pitää paikkansa, kun etsitään myös muita tunnettuja kiinnostavia kohteita, kuten tie, kasvillisuus, opasteet ja niin edelleen.
Kuvan osat, jotka ovat hyödyllisiä loppupään tehtävissä, kuten ajettava alue, on jaettu ilman selitystä. Toisaalta samanlaiset esiintymät tunnistetaan erikseen, ja saatamme olla kiinnostuneita samanlaisten objektien ryhmittelystä (panoptinen vs. ilmentymien segmentointi).

Visuaalinen nopea suunnittelu esikoulutetulla SAM-mallilla

Onneksi SAM tukee syöttökehotteiden antamista, ja voimme käyttää syötteinä pisteitä, pistetaulukoita ja rajausruutuja. Näiden ohjeiden avulla odotamme SAM:n onnistuvan paremmin segmentoinneissa, jotka keskittyvät tiettyihin pisteisiin tai alueisiin. Tätä voidaan verrata kielikehotemalliin
"What is a good name for a company that makes {product}?"
jossa käyttäjän syöte ja tämä kehotemalli on {product}. {product} on syöttöpaikka. Visuaalisissa kehotuksissa rajaruudut, pisteet tai maskit ovat syöttöpaikkoja.

Seuraava kuva tarjoaa alkuperäisen maan totuusrajauksen ajoneuvojen ympärillä ja ajettavan alueen korjaustiedoston BDD100K maan totuustiedoista. Kuvassa näkyy myös syöttöpiste (keltainen X) vihreän rajauslaatikon keskellä, johon viitataan seuraavissa osissa.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yritetään luoda maski vasemmalla olevalle autolle vihreällä rajauslaatikolla syötteenä SAM:iin. Kuten seuraavassa esimerkissä näkyy, SAM:n perusmalli ei oikeastaan löydä mitään. Tämä näkyy myös alhaisessa segmentointipisteessä. Kun tarkastelemme segmentointimaskeja tarkemmin, huomaamme, että on pieniä alueita, jotka on palautettu maskeiksi (osoitti punaisilla nuolilla), joita ei voi käyttää mihinkään loppupään sovelluksiin.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kokeillaan rajoituslaatikon ja pisteen yhdistelmää visuaalisena syöttökehotteena. Keltainen risti edellisessä kuvassa on rajoitusruudun keskikohta. Tämän pisteen (x,y) koordinaattien antaminen kehotteena yhdessä rajoituslaatikon rajoituksen kanssa antaa seuraavan maskin ja hieman korkeamman pistemäärän. Tämä ei ole edelleenkään käyttökelpoinen millään tavalla.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Lopuksi, esiopetetulla perusmallilla voimme tarjota vain syöttöpisteen kehotteena (ilman rajoitusruutua). Seuraavissa kuvissa näkyy kaksi kolmesta parhaasta maskista, joita pidimme mielenkiintoisina.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Maski 1 segmentoi koko auton, kun taas maski 3 segmentoi alueen, joka pitää auton rekisterikilven lähellä keltaista ristiä (syöttökehote). Mask 1 ei vieläkään ole tiukka, puhdas maski auton ympärillä; Tämä viittaa mallin laatuun, jonka voimme olettaa kasvavan mallin koon myötä.

Voimme kokeilla suurempia esikoulutettuja malleja samalla syöttökehotteella. Seuraavissa kuvissa näkyy meidän tulokset. Valtavaa SAM-esikoulutettua mallia käytettäessä Mask 3 on koko auto, kun taas Maskilla 1 ja 2 voidaan ottaa rekisterikilpi pois.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

SAM-mallin suuri versio tarjoaa myös samanlaisia lähtöjä.

Prosessi, jonka käymme läpi tässä, on samanlainen kuin sinulle ehkä jo tuttu manuaalinen kehotteiden suunnittelu. Huomaa, että SAM-mallin viimeaikainen parannus segmentoida mitä tahansa korkealaatuista tarjoaa paljon parempia kohde- ja kontekstikohtaisia tuloksia. Meidän tapauksessamme havaitsemme, että teksti- ja visuaaliset kehotteet (piste-, laatikko- ja piste- ja laatikkosyötteet) eivät paranna tuloksia merkittävästi, kuten yllä näimme.

Kehotusmalleja ja visuaalisia ketjuja

Kuten voimme nähdä edellisistä nollakuvan esimerkeistä, SAM kamppailee tunnistaakseen kaikki kohteet kohtauksessa. Tämä on hyvä esimerkki siitä, missä voimme hyödyntää kehotemalleja ja visuaalisia ketjuja. Visuaalinen ketju on saanut inspiraationsa suositun kielisovellusten LangChain-kehyksen ketjukonseptista. Se auttaa ketjuttamaan tietolähteet ja LLM:n tuottamaan tulosteen. Voimme esimerkiksi käyttää API-ketjua kutsumaan API:ta ja kutsua LLM:n vastaamaan kysymykseen API-vastauksen perusteella.

LangChainin inspiroimana ehdotamme peräkkäistä visuaalista ketjua, joka näyttää seuraavalta kuvalta. Käytämme työkalua (kuten esiopetettua objektintunnistusmallia) saadaksemme alkuperäiset rajoituslaatikot, laskemme pisteen rajauslaatikon keskellä ja käytämme tätä SAM-mallin kysymiseen syötekuvalla.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Esimerkiksi seuraava kuva näyttää segmentointimaskit tämän ketjun suorittamisen seurauksena.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Toinen esimerkkiketju voi sisältää sen objektin tekstinsyötön, jonka käyttäjä on kiinnostunut tunnistamaan. Tämän toteuttamiseksi rakensimme putkilinjan käyttämällä DINO maadoitus, objektintunnistusmalli, joka kehottaa SAM:ia segmentoimaan.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Maadoitus DINO on nollakuvan kohteen tunnistusmalli, joka voi suorittaa objektien havaitsemisen tekstillä, joka tarjoaa luokkien nimet (kuten "liikennevalot" tai "kuorma-auto") ja ilmaisuja (kuten "keltainen kuorma-auto"). Se hyväksyy tekstin ja kuvan pareja kohteen havaitsemiseen. Se perustuu muuntajaarkkitehtuuriin ja mahdollistaa ristikkäiset modaliteetit teksti- ja kuvadatan kanssa. Lisätietoja DINO:n maadoituksesta on kohdassa Maadoitus DINO: DINO:n yhdistäminen maadoitetun esikoulutuksen kanssa avoimen objektin havaitsemiseen. Tämä luo rajoituslaatikoita ja tarroja, ja sitä voidaan käsitellä edelleen keskipisteiden luomiseksi, suodatus tarrojen, kynnysten ja muiden perusteella. Tätä käytetään (laatikot tai pisteet) SAM-kehotteena segmentointia varten, joka tulostaa maskeja.

Seuraavassa on joitain esimerkkejä syötteestä, DINO-lähdöstä (rajoituslaatikot) ja lopullisesta SAM-lähdöstä (segmentointimaskit).

Seuraavissa kuvissa näkyy tulos "keltaiselle kuorma-autolle".

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraavissa kuvissa näkyy "hopeaauto" tulos.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraavassa kuvassa näkyy tulos "ajokaistalle".

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voimme käyttää tätä putkistoa visuaalisen ketjun rakentamiseen. Seuraava koodinpätkä selittää tämän käsitteen:

pipeline = [object_predictor, segment_predictor]
image_chain = ImageChain.from_visual_pipeline(pipeline, image_store, verbose=True)
image_chain.run('All silver cars', image_id='5X3349')

Vaikka tämä on yksinkertainen esimerkki, tätä konseptia voidaan laajentaa käsittelemään syötteitä ajoneuvojen kameroista kohteen seurannan, henkilökohtaisten tunnistetietojen (PII) tietojen poistamiseksi ja paljon muuta. Voimme saada rajoituslaatikot myös pienemmistä malleista tai joissain tapauksissa tavallisilla tietokonenäkötyökaluilla. On melko yksinkertaista käyttää esikoulutettua mallia tai Amazon Rekognitionin kaltaista palvelua saadaksesi ensimmäiset (visuaaliset) tarrat kehotteisiin. Tätä kirjoittaessa Amazon SageMaker Jumpstartissa on saatavilla yli 70 mallia objektien havaitsemiseen. Amazonin tunnistus tunnistaa jo kuvista useita hyödyllisiä esineluokkia, mukaan lukien autot, jalankulkijat ja muut ajoneuvot.

Seuraavaksi tarkastellaan joitain kvantitatiivisia tuloksia, jotka liittyvät SAM-mallien suorituskykyyn BDD100K-tietojen osajoukon kanssa.

Kvantitatiiviset tulokset

Tavoitteenamme on verrata kolmen esikoulutetun mallin suorituskykyä, kun heille annetaan sama visuaalinen kehotus. Tässä tapauksessa käytämme visuaalisena syötteenä objektin sijainnin keskipistettä. Vertailemme suorituskykyä kohteen kokojen suhteen (suhteessa kuvan kokoon) – pieni (pinta-ala < 0.11 %), keskikokoinen (0.11 % < pinta-ala < 1 %) ja suuri (pinta-ala > 1 %). Rajauslaatikon alueen kynnysarvot määritellään COCO:n (Common Objects in Context) avulla. arviointitiedot [Lin ym., 2014].

Arviointi tapahtuu pikselitasolla ja käytämme seuraavia arviointimittareita:

Tarkkuus = (oleellisten ja haettujen ilmentymien lukumäärä) / (hakujen kokonaismäärä)
Recall = (oleellisten ja noutavien esiintymien määrä) / (oleellisten esiintymien kokonaismäärä)
Instanssit ovat tässä jokainen pikseli kiinnostuksen kohteena olevan kohteen rajoitusruudun sisällä

Seuraavassa taulukossa kerrotaan SAM-mallin kolmen eri version (perus, suuri ja valtava) suorituskyky. Näissä versioissa on kolme erilaista enkooderia: ViT-B (base), ViT-L (suuri), ViT-H (valtava). Enkoodereilla on eri parametrien määrä, jolloin perusmallissa on vähemmän parametreja kuin suurissa ja suurissa on pienempiä kuin valtava. Vaikka parametrien lukumäärän lisääminen parantaa suorituskykyä suurempien kohteiden kanssa, tämä ei koske pienempiä kohteita.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Hienosäätää SAM käyttötarpeeseesi

Monissa tapauksissa suoraan valmiiksi koulutetun SAM-mallin käyttäminen ei välttämättä ole kovin hyödyllistä. Katsotaanpa esimerkiksi tyypillistä kohtausta liikenteessä – seuraava kuva on SAM-mallin tulos, jossa vasemmalla on satunnaisesti poimitut kehotepisteet, ja oikealla BDD100K:n semanttisen segmentointitehtävän varsinaiset nimikkeet. Nämä ovat selvästikin hyvin erilaisia.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

AV:n havaintopinot voivat helposti käyttää toista kuvaa, mutta ei ensimmäistä. Toisaalta ensimmäisestä kuvasta on joitain hyödyllisiä tulosteita, joita voidaan käyttää, ja että mallia ei ole erityisesti koulutettu esimerkiksi kaistamerkinnöistä, jalkakäytävien segmentoinnista, rekisterikilven maskeista ja niin edelleen. Voimme hienosäätää SAM-mallia segmentointitulosten parantamiseksi. Tämän hienosäädön suorittamiseksi loimme harjoitustietojoukon käyttämällä instanssien segmentoinnin osajoukkoa (500 kuvaa) BDD10K-tietojoukosta. Tämä on hyvin pieni osa kuvista, mutta tarkoituksenamme on todistaa, että perusnäkömallit (kuten LLM:t) voivat toimia hyvin käyttötapauksessasi yllättävän pienellä määrällä kuvia. Seuraavassa kuvassa näkyy syöttökuva, lähtömaski (sininen, vasemmalla auton punainen reunus) ja mahdolliset kehotteet (rajoitusruutu vihreällä ja keskipiste X keltaisella).

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Teimme hienosäädön käyttämällä Hugging Face -kirjastoa Amazon SageMaker Studio. Käytimme ilmentymää ml.g4dn.xlarge SAM-perusmallitesteissä ja ml.g4dn.2xlarge SAM-suurmallin testeissä. Alkukokeissamme havaitsimme, että perusmallin hienosäätö pelkillä rajoituslaatikoilla ei onnistunut. Hienosäädetyt ja esikoulutetut mallit eivät pystyneet oppimaan autokohtaisia totuusmaskeja alkuperäisistä tietojoukoista. Kyselypisteiden lisääminen hienosäätöön ei myöskään parantanut koulutusta.

Seuraavaksi voimme yrittää hienosäätää SAM valtavaa mallia 30 aikakaudelle erittäin pienellä tietojoukolla (500 kuvaa). Alkuperäinen maan totuuden maski näyttää seuraavalta kuvalta etikettityyppiselle autolle.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kuten seuraavissa kuvissa näkyy, valtavan mallin alkuperäinen esikoulutettu versio, jossa on erityinen rajoitusruutukehote (vihreänä), ei anna tulosta, kun taas hienosäädetty versio antaa tulosteen (ei silti tarkka, mutta hienosäätö leikattiin pois päältä 40 jakson jälkeen ja erittäin pienellä 500 kuvan harjoitustietojoukolla). Alkuperäinen, esikoulutettu valtava malli ei kyennyt ennustamaan maskeja millekään testaamallemme kuvalle. Esimerkkinä loppupään sovelluksesta hienosäädettyä mallia voidaan käyttää esimerkintätyönkuluissa, kuten esim. Automaattinen merkintämoduuli syvään oppimiseen perustuville Advanced Driver Assistance Systems -järjestelmille AWS:ssä.

Perusnäkömallit ja visuaalinen nopea suunnittelu autonomisiin ajosovelluksiin | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhteenveto

Tässä viestissä keskustelimme perustavanlaatuisesta visiomallista, joka tunnetaan nimellä Segment Anything Model (SAM) ja sen arkkitehtuurista. Käytimme SAM-mallia visuaalisten kehotteiden ja visuaalisten kehotteiden suunnittelun eri syötteistä keskustelemiseen. Tutkimme erilaisten visuaalisten kehotteiden suorituskykyä ja niiden rajoituksia. Kuvasimme myös, kuinka visuaaliset ketjut lisäävät suorituskykyä käyttämällä vain yhtä kehotetta, kuten LangChain API. Seuraavaksi teimme kvantitatiivisen arvion kolmesta esikoulutetusta mallista. Lopuksi keskustelimme hienosäädetystä SAM-mallista ja sen tuloksista verrattuna alkuperäiseen perusmalliin. Perusmallien hienosäätö auttaa parantamaan mallien suorituskykyä tietyissä tehtävissä, kuten segmentoinnissa. On huomattava, että SAM-malli rajoittaa resurssivaatimustensa vuoksi käyttöä reaaliaikaisissa käyttötapauksissa ja päättelemistä reunalla nykyisessä tilassaan. Toivomme, että tulevat iteraatiot ja parannetut tekniikat vähentäisivät laskentavaatimuksia ja parantaisivat latenssia.

Toivomme, että tämä viesti rohkaisee sinua tutkimaan visuaalisia kehotuksia käyttötapauksissasi. Koska tämä on yhä nouseva nopean suunnittelun muoto, visuaalisten kehotteiden, visuaalisten ketjujen ja näiden työkalujen suorituskyvyn suhteen on paljon löydettävää. Amazon Sage Maker on täysin hallittu ML-alusta, jonka avulla rakentajat voivat tutkia suuria kieli- ja visuaalisia malleja ja rakentaa generatiivisia tekoälysovelluksia. Aloita tulevaisuuden rakentaminen AWS:n avulla jo tänään.

Tietoja kirjoittajista

Gopi Krishnamurthy on vanhempi AI/ML Solutions -arkkitehti Amazon Web Servicesissä New Yorkissa. Hän työskentelee suurten Automotive-asiakkaiden kanssa heidän luotettuna neuvonantajana, joka muuttaa heidän koneoppimistyökuormituksensa ja siirtyy pilveen. Hänen keskeisiä kiinnostuksen kohteitaan ovat syväoppiminen ja palvelimettomat teknologiat. Työn ulkopuolella hän viettää mielellään aikaa perheensä kanssa ja tutkii monenlaista musiikkia.

Shreyas Subramanian on johtava AI/ML-spesialistinen ratkaisuarkkitehti, joka auttaa asiakkaita koneoppimisen avulla ratkaisemaan liiketoimintahaasteitaan AWS-alustan avulla. Shreyasilla on laajan mittakaavan optimoinnin ja koneoppimisen tausta sekä koneoppimisen ja vahvistusoppimisen käyttö optimointitehtävien nopeuttamiseksi.

Sujitha Martin on soveltuva tutkija Generatiivisen tekoälyn innovaatiokeskuksessa (GAIIC). Hänen asiantuntemuksensa on tietokonenäön ja luonnollisen kielenkäsittelyn koneoppimisratkaisujen rakentaminen eri toimialoihin. Erityisesti hänellä on laaja kokemus työskentelystä ihmiskeskeisen tilannetietoisuuden ja tietopohjaisen oppimisen parissa erittäin autonomisissa järjestelmissä.

Francisco Calderon on Data Scientist Generative AI Innovation Centerissä (GAIIC). GAIIC:n jäsenenä hän auttaa löytämään mahdollisuuksien taiteen AWS-asiakkaiden kanssa käyttämällä generatiivisia tekoälytekniikoita. Vapaa-ajallaan Francisco tykkää soittaa musiikkia ja kitaraa, pelata jalkapalloa tyttäriensä kanssa ja viettää aikaa perheensä kanssa.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/foundational-vision-models-and-visual-prompt-engineering-for-autonomous-driving-applications/

Aikaleima: Marraskuussa 15, 2023

Aikaleima: Voi 25, 2023

Julkaissut Platon

Yksinkertaista iteratiivista koneoppimismallin kehitystä lisäämällä ominaisuuksia olemassa oleviin ominaisuusryhmiin Amazon SageMaker Feature Storessa

T-Mobile US, Inc. käyttää tekoälyä Amazon Transcriben ja Amazon Translaten kautta toimittaakseen puhepostin asiakkaidensa valitsemalla kielellä | Amazon Web Services

Mittaa Amazon Personalize -suositusten vaikutusta liiketoimintaan

Kuinka OCX Cognition lyhensi ML-mallin kehitysaikaa viikoista päiviin ja mallin päivitysaikaa päivistä reaaliajaksi käyttämällä AWS Step Functionsia ja Amazon SageMakeria | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili