A digitális kiadók folyamatosan keresik a módokat médiamunkafolyamataik egyszerűsítésére és automatizálására annak érdekében, hogy a lehető leggyorsabban hozzanak létre és tegyenek közzé új tartalmat, de a minőség feladása nélkül.
Ha képeket ad hozzá a szöveg lényegének megragadásához, az javíthatja az olvasási élményt. A gépi tanulási technikák segíthetnek az ilyen képek felfedezésében. "A feltűnő kép az egyik leghatékonyabb módja annak, hogy megragadja a közönség figyelmét és elköteleződést keltsen a történetében – de ennek értelme is kell legyen.. "
A előző poszt megvitatták, hogyan használhatja az Amazon gépi tanulási (ML) szolgáltatásait, hogy kulcsszavak beírása nélkül megtalálja a legjobb képeket, amelyeket el lehet helyezni egy cikkhez vagy TV-összefoglalóhoz. Az előző bejegyzésben használtad Amazon felismerés metaadatok kinyeréséhez egy képből. Ezután egy szövegbeágyazási modell segítségével létrehozta a metaadatok szóbeágyazását, amelyet később felhasználhat a legjobb képek megtalálásához.
Ebben a bejegyzésben megtudhatja, hogyan használhatja az Amazon Titan alapozó modelleket a cikk gyors megértéséhez és a hozzá tartozó legjobb képek megtalálásához. Ezúttal közvetlenül a képből hozza létre a beágyazást.
A szemantikai keresés egyik kulcsfogalma a beágyazás. A beágyazás valamilyen bemenet – kép, szöveg vagy mindkettő – numerikus megjelenítése vektor formájában. Ha sok vektorral rendelkezik, megmérheti a köztük lévő távolságot, és a közeli vektorok szemantikailag hasonlóak vagy rokonok.
Amazon alapkőzet egy teljesen felügyelt szolgáltatás, amely a vezető mesterséges intelligencia-cégek, köztük az AI21 Labs, az Anthropic, a Cohere, a Meta, a Stability AI és az Amazon nagy teljesítményű alapozó modelljei (FM) választékát kínálja egyetlen API-val, valamint a lehetőségek széles skálájával. segít létrehozni a generatív AI-alkalmazásokat, leegyszerűsítve a fejlesztést, miközben megőrzi a magánéletet és a biztonságot.
Amazon Titan a közelmúltban egy új beágyazási modellel bővült a kollekciója, a Titan Multimodal Embeddings. Ez az új modell használható multimodális kereséshez, ajánlórendszerekhez és egyéb downstream alkalmazásokhoz.
A multimodális modellek többféle módon is képesek megérteni és elemezni az adatokat, például szöveget, képet, videót és hangot. Ez a legújabb Amazon Titan modell szöveget, képeket vagy mindkettőt képes fogadni. Ez azt jelenti, hogy ugyanazt a modellt használja a képek és szövegek beágyazásának létrehozásához, és ezekkel a beágyazásokkal számítja ki, mennyire hasonlít a kettő.
A megoldás áttekintése
A következő képernyőképen láthatja, hogyan készíthet mini cikket, hogyan végezhet keresést, és hogyan találhat a cikkre rezonáló képeket. Ebben a példában egy olyan mondatot veszünk, amely leírja Werner Vogelst, aki fehér sálat visel Indiában. A mondat vektora szemantikailag kapcsolódik Werner sálat viselő képeinek vektoraihoz, ezért a keresésben a legjobb képként tért vissza.
Magas szinten egy kép feltöltődik ide Amazon Simple Storage Service (Amazon S3) és a metaadatok kinyerése, beleértve a kép beágyazását is.
Szöveges metaadatok kinyeréséhez a képből használja a híresség felismerő funkció és a címkefelismerési funkció in Amazon felismerés. Az Amazon Rekognition automatikusan felismer több tízezer jól ismert személyiséget a képeken és videókon az ML segítségével. Ezzel a funkcióval felismerheti a képeken szereplő hírességeket, és tárolhatja ezeket a metaadatokat Amazon OpenSearch szolgáltatás. A címkeészlelés objektumokat és fogalmakat talál a képen, például az előző képernyőképen, ahol a címke metaadatai a kép alatt találhatók.
A Titan Multimodal Embeddings modellt használja a kép beágyazásának létrehozásához, amely szintén kereshető metaadatok.
Ezután az összes metaadat tárolásra kerül OpenSearch szolgáltatás későbbi keresési lekérdezésekhez, amikor egy képet vagy képeket kell találnia.
Az architektúra második része egy cikk beküldése az újonnan bevitt képek megtalálásához.
A cikk elküldésekor ki kell bontani, és át kell alakítani a cikket az OpenSearch szolgáltatás keresési bemenetévé. Használod Amazon Comprehend hogy felismerjen a szövegben olyan neveket, amelyek potenciális hírességek lehetnek. Ön foglalja össze a cikket, mivel valószínűleg csak egy vagy két képet választ ki, hogy megragadja a cikk lényegét. A szöveg összefoglalásának elkészítése jó módja annak, hogy megbizonyosodjon arról, hogy a beágyazás megragadja a történet lényeges pontjait. Ehhez használja a Amazon Titan Text G1 – Express modellt egy felszólítással, mint például: „Kérem, adja meg a következő szöveg összefoglalását. Ne adjon hozzá olyan információt, amely nem szerepel az alábbi szövegben." Az összefoglaló cikkben az Amazon Titan Multimodal Embeddings modellt használja az összefoglaló cikk beágyazásának létrehozásához. A beágyazási modell maximális token bemeneti számmal is rendelkezik, ezért a cikk összegzése még fontosabb, hogy a beágyazás során a lehető legtöbb információhoz jusson. Egyszerűen fogalmazva, a token egyetlen szó, részszó vagy karakter.
Ezután keresést hajt végre az OpenSearch Service ellen a cikk neveivel és beágyazásával, hogy olyan képeket keressen, amelyek szemantikailag hasonlóak az adott híresség jelenlétéhez, ha jelen van.
Felhasználóként csak képeket keres, bemenetként egy cikket használva.
Végigjátszás
A következő diagram bemutatja az architektúrát, amely ezt a használati esetet biztosítja.
A következő lépések a szemantikus kép- és hírességek keresését lehetővé tevő műveletek sorozatát mutatják be (az ábrán látható).
- Feltölt egy képet egy Amazon S3 vödör.
- Amazon EventBridge meghallgatja ezt az eseményt, majd elindít egy AWS Step Functions lépést.
- A Lépésfüggvények lépés a Amazon S3 a kép részleteit, és három párhuzamos műveletet hajt végre:
- API hívás a címre Amazon felismerés DetectLabels objektum metaadatok kinyerésére
- API hívás a címre Amazon felismerés Ismerd fel a hírességeket API-k az ismert hírességek kinyeréséhez
- A AWS Lambda funkció átméretezi a képet az ML beágyazási modellben elfogadott maximális méretekre, és közvetlenül a képbemenetből generál beágyazást.
- A Lambda A függvény ezután beszúrja a képobjektum metaadatait és a hírességek neveit, ha vannak, és a beágyazást k-NN vektorként egy OpenSearch Service indexbe.
- Amazon S3 egy egyszerű statikus webhelyet ad otthont, amelyet egy Amazon CloudFront. A front-end felhasználói felület (UI) lehetővé teszi az alkalmazással történő hitelesítést Amazon Cognito képek kereséséhez.
- Egy cikket vagy szöveget küld be a felhasználói felület használatával.
- Másik Lambda függvényhívások Amazon Comprehend hogy a szövegben szereplő neveket potenciális hírességként észlelje.
- A függvény ezután összefoglalja a szöveget, hogy a Titan Text G1 – Express segítségével megkapja a cikk vonatkozó pontjait.
- A funkció az összefoglaló cikk beágyazását hozza létre az Amazon Titan Multimodal Embeddings modell segítségével.
- A függvény ezután megkeresi a OpenSearch szolgáltatás képindex a híresség nevének és a k-legközelebbi szomszédok használó vektorhoz koszinusz hasonlóság segítségével Pontos k-NN pontozási szkripttel.
- amazonfelhőóra és a AWS röntgen megfigyelhetőséget biztosít a végpontok közötti munkafolyamatba, hogy figyelmeztesse Önt a problémákra.
A következő ábra a Step Functions munkafolyamat vizuális munkafolyamat-tervezőjét mutatja be.
Íme egy példa a beágyazásra:
Az előző számtömb az, ami a szöveg- vagy képobjektum jelentését rögzíti olyan formában, amely alapján számításokat és függvényeket hajthat végre.
A beágyazások nagy dimenziójúak, néhány száztól sok ezer méretig. Ennek a modellnek a dimenziója 1,024, vagyis az előző tömbnek 1,024 eleme lesz, amelyek az adott objektum szemantikáját rögzítik.
Multimodális beágyazás versus szövegbeágyazás
A szemantikus képkeresés két lehetőségét tárgyaljuk, ahol a fő különbség az, hogy hogyan hozza létre a képek beágyazását. Miénkben előző poszt, létrehoz egy beágyazást a szöveges metaadatokból, amelyeket az Amazon Rekognition segítségével kinyerünk. Ebben a bejegyzésben a Titan Multimodal Embeddings modellt használja, és közvetlenül létrehozhatja a kép beágyazását.
Ha egy gyors tesztet végez, és lekérdezést futtat a felhasználói felületen a két megközelítéssel szemben, láthatja, hogy az eredmények észrevehetően eltérőek. A példalekérdezési cikk a következő: „Werner Vogels imád fehér sálat viselni, miközben körbeutazik Indiában.”
A multimodális modell eredménye magasabbra értékeli a jelenlévő sállal rendelkező képeket. A szó sál jelen van a beküldött cikkünkben, és a beágyazás ezt felismerte.
A felhasználói felületen láthatja az Amazon Rekognition által kinyert metaadatokat, és a metaadatok nem tartalmazzák a scarf szót, ezért hiányzott néhány információ a képről, amiről feltételezhető, hogy a képbeágyazási modell nem, és ezért a multimodális modell. a használati esettől függően előnyös lehet. Az Amazon Rekognition használatával kiszűrheti a képen észlelt objektumokat a beágyazás létrehozása előtt, és így más alkalmazható használati esetek is rendelkezésre állnak, amelyek a kívánt eredménytől függően jobban működhetnek.
A következő ábra az Amazon Titan Multimodal Embeddings modell eredményeit mutatja be.
A következő ábra az Amazon Titan szövegbeágyazási modell eredményeit mutatja, amely az Amazon Rekognition által kivont metaadatokat használja a beágyazás létrehozásához.
Előfeltételek
Ehhez az áttekintéshez a következő előfeltételekkel kell rendelkeznie:
- An AWS-fiók
- AWS kiszolgáló nélküli alkalmazásmodell parancssori interfész (AWS SAM CLI)
- A megoldás az AWS SAM parancssori felületet használja a telepítéshez.
- Győződjön meg arról, hogy az AWS SAM CLI legújabb verzióját használja.
- Dokkmunkás
- A megoldás az AWS SAM CLI opciót használja a konténerbe való beépítéshez, hogy elkerülje a helyi függőségek szükségességét. Ehhez Docker kell.
- Csomópont
- Ennek a megoldásnak a kezelőfelülete egy React webalkalmazás, amely a Node segítségével helyileg futtatható.
- NPM
- A webalkalmazás helyi futtatásához vagy távoli telepítéshez szükséges csomagok telepítéséhez npm szükséges.
Készítse el és telepítse a teljes verem alkalmazást
- A tár klónozása
- Módosítsa a könyvtárat az újonnan klónozott projektre.
- Futtassa az npm install parancsot az alkalmazás futtatásához szükséges összes csomag letöltéséhez.
- Futtasson egy telepítési parancsfájlt, amely sorozatban futtatja a parancsfájlokat, amelyek a sam build, sam telepíteni, frissítse a konfigurációs fájlokat, majd tárolja a webalkalmazás-fájlokat az Amazon S3-ban, készen az Amazon CloudFronton keresztül történő kiszolgálásra
- A szkript egyik végső kimenete egy Amazon CloudFront URL, így érheti el az alkalmazást. A bejelentkezéshez új felhasználót kell létrehoznia az AWS Management Console-ban. Jegyezze fel az URL-t a későbbi használatra.
A következő képernyőkép azt mutatja, hogy a szkript hogyan használta az AWS SAM-ot a verem telepítéséhez, és hogyan adott ki egy Amazon CloudFront URL-t, amellyel elérheti az alkalmazást.
Hozzon létre egy új felhasználót az alkalmazásba való bejelentkezéshez
- Menj a Amazon Cognito konzolt, és válassza ki az újat Felhasználói csoport.
- Hozzon létre egy új felhasználót új jelszóval.
Jelentkezzen be, és tesztelje a webalkalmazást
- Keresse meg a Amazon CloudFront URL a bejelentkezési oldal eléréséhez. Ez az utolsó sorban jelenik meg az előző képernyőképen látható módon.
- A bejelentkezéshez adja meg új felhasználónevét és jelszavát.
- Töltsön fel néhány mintaképet a felhasználói felület segítségével.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Válassz fájlt majd válassza ki Feltöltés.
Jegyzet: Tömegesen is feltölthet közvetlenül az S3 tárolóba, ha fájlokat ad hozzá a /feltöltések mappát. - Írjon vagy másoljon és illesszen be egy cikket, és válassza ki Küld hogy megnézze, a képeket a várt sorrendben visszaküldik-e.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Válassz fájlt majd válassza ki Feltöltés.
Takarítás
A jövőbeni költségek elkerülése érdekében törölje az erőforrásokat.
- Keresse meg az ezzel a megoldással telepített S3 vödröt, és ürítse ki.
- Nyissa meg a CloudFormation konzolt, válassza ki a korábban említett telepítési szkripten keresztül telepített veremet, és törölje a veremet.
Következtetés
Ebben a bejegyzésben láthatta, hogyan használhatja az Amazon Rekognition, az Amazon Comprehend, az Amazon Bedrock és az OpenSearch Service szolgáltatást metaadatok kinyerésére a képekből, majd ML technikák segítségével a hírességek és a szemantikai keresés segítségével a szorosan kapcsolódó tartalmak automatikus felfedezéséhez. Ez különösen fontos a kiadói ágazatban, ahol a sebesség számít a friss tartalom gyors és több platformra történő eljuttatásában.
Következő lépésként telepítse a megoldást AWS-fiókjában, és töltse fel saját képeit, hogy tesztelje, hogyan működik a szemantikus keresés az Ön számára. Mondja el nekem néhány visszajelzését az alábbi megjegyzésekben.
A szerzőkről
Mark Watkins a Media and Entertainment csapat megoldástervezője, aki számos adat- és ML probléma megoldásában támogatja ügyfeleit. A szakmai élettől távol szeret a családjával tölteni az időt, és nézni, ahogy két kicsike felnő.
Dan Johns Megoldásépítészmérnök, aki támogatja ügyfeleit az AWS-re való építkezésben és az üzleti követelmények teljesítésében. A szakmai élettől távol szeret olvasni, a családjával tölteni az időt, és automatizálni az otthoni feladatokat.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/easily-build-semantic-image-search-using-amazon-titan/
- :van
- :is
- :nem
- :ahol
- $ UP
- 1
- 100
- 24
- 7
- a
- Elfogad!
- elfogadott
- hozzáférés
- kísér
- Fiók
- cselekvések
- hozzá
- hozzáadott
- hozzáadásával
- Előny
- ellen
- AI
- Éber
- Minden termék
- lehetővé teszi, hogy
- mentén
- Is
- amazon
- Amazon Comprehend
- Amazon gépi tanulás
- Amazon felismerés
- Az Amazon Web Services
- an
- elemez
- és a
- Antropikus
- bármilyen
- api
- API-k
- alkalmazható
- Alkalmazás
- alkalmazások
- megközelít
- építészet
- VANNAK
- körül
- Sor
- cikkben
- AS
- feltételezni
- figyelem
- hang-
- hitelesíteni
- automatizált
- automatikusan
- automatizálás
- elkerülése érdekében
- el
- AWS
- AWS felügyeleti konzol
- AWS lépésfunkciók
- BE
- előtt
- lent
- BEST
- Jobb
- között
- mindkét
- széles
- épít
- üzleti
- de
- by
- számít
- számítások
- hívás
- kéri
- TUD
- Kaphat
- képességek
- elfog
- rögzített
- fogások
- Rögzítése
- eset
- esetek
- hírességek
- híresség
- karakter
- díjak
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- közel
- szorosan
- CO
- gyűjtemény
- kombináció
- Hozzászólások
- Companies
- megért
- koncepció
- fogalmak
- Configuration
- Konzol
- Konténer
- tartalom
- folyamatosan
- tudott
- teremt
- létrehozása
- Ügyfelek
- dátum
- szállít
- átadó
- függőségek
- attól
- telepíteni
- telepített
- bevetés
- Tervező
- kívánatos
- részletek
- kimutatására
- észlelt
- Érzékelés
- Fejlesztés
- különbség
- különböző
- méretek
- közvetlen
- közvetlenül
- felfedez
- megvitatni
- tárgyalt
- távolság
- megosztott
- do
- Dokkmunkás
- Nem
- letöltés
- könnyen
- Hatékony
- elemek
- beágyazás
- lehetővé
- végén
- végtől végig
- eljegyzés
- mérnök
- Szórakozás
- lényeg
- Még
- esemény
- példa
- várható
- tapasztalat
- expressz
- kivonat
- család
- Funkció
- Visszacsatolás
- kevés
- Ábra
- Fájlok
- szűrő
- utolsó
- Találjon
- leletek
- következő
- A
- forma
- Alapítvány
- friss
- ból ből
- front
- Front end
- Tele
- Teljes verem
- teljesen
- funkció
- funkciók
- jövő
- g1
- generál
- generál
- generáló
- nemző
- Generatív AI
- kap
- szerzés
- Ad
- adott
- jó
- Növekvő
- Legyen
- he
- segít
- ennélfogva
- Magas
- nagy teljesítményű
- <p></p>
- övé
- Kezdőlap
- vendéglátó
- hosts
- Hogyan
- How To
- HTML
- HTTPS
- száz
- if
- kép
- Image Search
- képek
- fontos
- javul
- in
- tartalmaz
- Beleértve
- index
- India
- ipar
- információ
- beavatottak
- bemenet
- Betétek
- belső
- telepíteni
- telepítés
- Felület
- bele
- kérdések
- IT
- ITS
- újságírás
- jpg
- éppen
- Kulcs
- kulcsszavak
- Ismer
- ismert
- Címke
- Labs
- a későbbiekben
- legutolsó
- vezető
- tanulás
- hadd
- szint
- élet
- Valószínű
- vonal
- figyel
- kis
- helyi
- helyileg
- keres
- szeret
- gép
- gépi tanulás
- Fő
- fenntartása
- csinál
- sikerült
- vezetés
- sok
- egyező
- számít
- maximális
- me
- jelenti
- eszközök
- intézkedés
- Média
- említett
- meta
- Metaadatok
- esetleg
- megszakított
- ML
- modell
- modellek
- több
- a legtöbb
- sok
- többszörös
- kell
- név
- nevek
- Szükség
- Új
- újonnan
- következő
- csomópont
- megjegyezni
- szemmel láthatóan
- számok
- tárgy
- objektumok
- of
- Ajánlatok
- on
- ONE
- azok
- csak
- opció
- Opciók
- or
- érdekében
- Más
- mi
- ki
- Eredmény
- teljesítmény
- kimenetek
- saját
- csomagok
- oldal
- Párhuzamos
- rész
- különösen
- Jelszó
- Teljesít
- Személyiségek
- szedés
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- pont
- lehetséges
- állás
- potenciális
- előfeltételek
- jelenlét
- be
- előző
- korábban
- magánélet
- Adatvédelem és biztonság
- problémák
- szakmai
- program
- ad
- közzétesz
- kiadók
- Kiadás
- világítás
- lekérdezések
- Quick
- gyorsan
- gyorsan
- Reagál
- Olvasás
- kész
- nemrég
- elismerés
- elismerik
- elismert
- elismeri
- Ajánlást
- összefüggő
- távoli
- raktár
- képviselet
- szükség
- kötelező
- követelmények
- rezonátor
- Tudástár
- eredményez
- Eredmények
- futás
- futás
- fut
- Sam
- azonos
- látta
- sál
- pontozás
- forgatókönyv
- szkriptek
- Keresés
- keresések
- keres
- Második
- biztonság
- lát
- válasszuk
- szemantika
- mondat
- Sorozat
- Series of
- vagy szerver
- szolgáltatás
- Szolgáltatások
- szolgáló
- készlet
- mutatott
- Műsorok
- <p></p>
- hasonló
- Egyszerű
- egyszerűsítése
- egyetlen
- megoldások
- Megoldások
- SOLVE
- néhány
- sebesség
- Költési
- Stabilitás
- verem
- Stacks
- statikus
- Lépés
- Lépései
- tárolás
- tárolni
- memorizált
- Történet
- áramvonal
- beküldése
- benyújtott
- ilyen
- összegez
- ÖSSZEFOGLALÓ
- Támogató
- biztos
- szinopszis
- Systems
- Vesz
- tart
- Beszél
- feladatok
- csapat
- technikák
- tíz
- feltételek
- teszt
- Tesztelés
- szöveg
- szövegi
- hogy
- A
- azok
- Őket
- akkor
- ebből adódóan
- Ezek
- ők
- ezt
- azok
- ezer
- három
- Keresztül
- idő
- titán-
- nak nek
- jelképes
- felső
- Átalakítás
- utazik
- tv
- kettő
- ui
- megért
- Frissítések
- feltöltve
- URL
- használ
- használati eset
- használt
- használó
- felhasználói felület
- használ
- segítségével
- változat
- Ellen
- videó
- Videók
- vizuális
- végigjátszás
- őrzés
- Út..
- módon
- háló
- webalkalmazás
- webes szolgáltatások
- weboldal
- jól ismert
- Mit
- amikor
- ami
- míg
- fehér
- Wikipedia
- lesz
- val vel
- belül
- nélkül
- szó
- Munka
- munkafolyamat
- munkafolyamatok
- te
- A te
- zephyrnet