A IIIT Allahabad kutatói a T2CI GAN-t javasolják: egy mély tanulási modellt, amely tömörített képeket generál szövegből

Újra kiadta Platón

Követő: 0

Az elmúlt néhány évben a vizuális adatok szöveges leírásának elkészítése nyomós kutatási kérdéssé vált. Az írott leírásokból származó vizuális adatok előállításának problémafelvetése azonban még mindig sokkal nehezebb, mert a természetes nyelvi feldolgozás és a számítógépes látás technikáinak egyesítését igényli. A rendelkezésre álló technikák szöveges leírásokból tömörítetlen képeket hoznak létre a Generatív ellenséges hálózatok (GAN) segítségével. A generatív ellenséges hálózatok olyan gépi tanulási keretrendszerek, amelyek szövegeket, fényképeket, videókat és hangfelvételeket készíthetnek. Korábban a GAN-okat sikeresen használták képadatkészletek előállítására más mélytanulási algoritmusok betanítására, filmek vagy animációk készítésére bizonyos célokra, valamint megfelelő feliratok készítésére a fényképekhez.

A valóságban a legtöbb vizuális bemenetet tömörített formában dolgozzák fel és továbbítják. A tárolási és számítási hatékonyság elérése érdekében a javasolt munka arra törekszik, hogy vizuális adatokat közvetlenül előállítson tömörített reprezentációs formában, mély konvolúciós GAN-ok (DCGAN) felhasználásával. A közelmúltban a IIIT Allahabad és az indiai Vignan Egyetem Computer Vision and Biometrics Lab kutatói készítettek egy új GAN-alapú modellt, a T2CI-GAN-t, amely tömörített képeket képes előállítani szöveges leírásokból. Ez a megközelítés kiindulópontként szolgálhat a képtárolás és a tartalommegosztás különböző okoseszközök közötti lehetőségeinek vizsgálatához.

Korábbi munkájuk során a kutatók GAN-okat és más mély tanulási modelleket használtak különféle feladatok megoldására, mint például az adatokból való funkciók kinyerése, szöveg- és képadatok szegmentálása, szófelismerés hosszú szövegkivonatokban és tömörített JPEG-képek létrehozása. Ez az új modell kibővíti ezeket a korábbi kezdeményezéseket egy olyan számítástechnikai probléma megoldására, amely eddig kevés figyelmet kapott a szakirodalomban. Csak néhány mély tanuláson alapuló technika, amelyet más kutatócsoportok használtak szöveges leírásokból képek létrehozására, hoznak létre tömörített képeket. Ezenkívül a legtöbb létező képek előállítására és tömörítésére szolgáló rendszer önállóan közelíti meg ezt a problémát, ami megnöveli a számítási és feldolgozási időt.

A javasolt T2CI-GAN egy mély tanuláson alapuló modell, amely tömörített vizuális képeket ad ki a szöveges leírásokból bemenetként. Ez jelentős eltérés a hagyományos megközelítésektől, amelyek a szöveges leírásokból vizuális reprezentációkat generálnak, és tovább tömörítik ezeket a képeket. A modell elsődleges értékesítési jellemzője a szöveges leírások leképezésének és a tömörített képek közvetlen létrehozásának képessége.

A kutatócsoport két GAN-alapú modellt hozott létre, hogy szöveges leírásokból tömörített képeket állítson elő. Az első ilyen modellek betanításához tömörített JPEG DCT (diszkrét koszinusz transzformáció) képekből álló adatkészletet használtak. A betanítást követően ez a modell tömörített képeket tudott előállítani szöveges leírásokból. Másrészt egy sor RGB-fotót használtak a kutatók második GAN-alapú modelljének betanításához. Ez a modell kifejlesztette azt a képességet, hogy JPEG-ben tömörített DCT-reprezentációkat készítsen képekről, amelyek egyenletként kifejezik egy sor adatpontot. A javasolt modelleket a jól ismert nyílt forráskódú benchmark adatkészlet, az Oxford-102 Flower images RGB és JPEG tömörített változatával értékelték ki. A JPEG-tömörített tartományban a modell rendkívül biztató, korszerű teljesítményt ért el.

Ha a mellékelt fényképeket okostelefonokkal vagy más intelligens eszközökkel való egyszerű megosztásra szánják, a T2CI-GAN modell felhasználható az automatikus képvisszakereső rendszerek fejlesztésére. Ezenkívül értékes eszköz lehet a média- és kommunikációs szakértők számára, lehetővé téve számukra, hogy megtalálják bizonyos fényképek könnyebb változatait az interneten való közzététel céljából.

A közelmúlt technológiai fejlődésének köszönhetően világunk a gép-gép és ember-gép kapcsolatok felé halad. A T2CI-GAN ebben a helyzetben kulcsfontosságú lesz, mert a gépeknek tömörített formában kell a tényeket elolvasni vagy megérteni. A modell jelenleg csak JPEG tömörített formában készít fényképeket. A kutatók hosszú távú célja tehát az, hogy a tömörítési algoritmus korlátozása nélkül bármilyen tömörített formában készítsenek képeket. A csapat kutatási cikkének megjelenése után a modell forráskódja is elérhető lesz a nagyközönség számára.

Ezt a cikket a Marktechpost Staff kutatási összefoglaló cikkeként írta a kutatási dokumentum alapjánT2CI-GAN: Szöveg tömörített képpé generálása Generatív Adversarial Network használatával'. A kutatásért minden elismerés a projekt kutatóit illeti. Nézze meg a papír és a referencia cikk.

Kérjük, ne felejtsen el csatlakozni ML Subredditünk

Khushboo Gupta tanácsadó gyakornok a MarktechPostnál. Jelenleg a goai Indiai Technológiai Intézetben (IIT) folytatja B.Tech tanulmányait. Szenvedélyesen rajong a gépi tanulás, a természetes nyelvi feldolgozás és a webfejlesztés területeiért. Szívesen tanul többet a műszaki területről azáltal, hogy számos kihíváson vesz részt.

<!–

Időbélyeg: Október 29, 2022Október 31, 2022