A 4chan és más webcsatornák bekerültek a Google mega-könyvtárába az ML képzéséhez

A 4chan és más webcsatornák bekerültek a Google mega-könyvtárába az ML képzéséhez

4chan and other web sewers scraped up into Google's mega-library for training ML PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A problémás, rasszista és pornográf webes tartalmakat látszólag a Google nagy nyelvi modelljeinek betanítására használják, annak ellenére, hogy igyekeznek kiszűrni a mérgező és káros szövegrétegeket.

An vizsgálat A Washington Post és az Allen Institute for AI a Google hatalmas nyilvánosságát elemezte C4 adatkészlet, amelyet tudományos kutatásra bocsátottak ki, hogy jobban megértsük, milyen típusú webhelyeket használnak általában nagy nyelvi modellek betanításához.

A C4 adatkészletet a Google T5 szöveg-szöveg átviteli transzformátorának, valamint a Facebook Large Language Model Meta AI-jének (LLaMA) betanításához használták. felhúzta a vészharangokat.

Úgy tűnik, a C4 bekebelezett olyan anyagokat, amelyeket a következő generációs gépi tanulási rendszerek felépítéséhez használnak fel. Ez potenciálisan azt okozhatja, hogy ezek a rendszerek nem megfelelően és megbízhatatlanul viselkednek.

Szabályos Regisztráció az olvasók tisztában lesznek azzal, hogy újra és újra rámutattunk a képzési adatkészletekkel kapcsolatos problémákra, például egy sokat idézett halmaz szörnyű hátterére. az MIT kurátora.

A legújabb szonda

A Post and Allen Institute elemzői az internetes tartalomként megjelenő szövegek egyezése alapján rangsorolták a C10-ben szereplő 4 millió legnépszerűbb webhelyet. Bár a C4 a Common Crawl adatkészlet kisebb, letisztultabb változata, amely több milliárd webhely szövegét tartalmazza, még mindig tartalmazott nemkívánatos anyagokat az internet sötét sarkaiból.

Rasszista, transz-ellenes és mérgező szövegeket kapartak ki olyan webhelyekről, mint a fajgyűlölet-menedék, a Stormfront, a doxxing fórum, a Kiwi Farms és a 4chan mérgező üzenőfal. Ezért nem meglepő, hogy az ezen a korpuszon alapuló nyelvi modellek nem megfelelő tartalmat generálhatnak, összeesküvés-elméletekről beszélnek, vagy kétes ideológiákat hoznak fel.

A C4 emellett számos személyes adatot tartalmazó webhelyekből áll, például szavazói regisztrációs adatbázisokból. Ennek hátterében Olaszországban, Kanadában, Spanyolországban és Franciaországban több szabályozó ügynökség is vizsgálatot indított az OpenAI ChatGPT-jével kapcsolatban adatvédelmi aggályok miatt, mivel a modell érzékeny információkat képes feldolgozni és generálni.

Az AI chatbotokat működtető nagy nyelvi modellek nem intelligensek és nem tudatosak, akármilyen varázslatosnak is tűnnek: úgy írnak, hogy megjósolják a szavak és mondatok áramlását, válaszul a felhasználók vagy akár más robotok utasításaira, kérdéseire és utasításaira. Ez magában foglalja az adatok hegyeinek felhasználását, amelyekre betanították őket, és tanulnak belőlük, hogy utánozzák azt, amit egy személy írna.

Ezek a jóslatok ezért tükrözik az emberiség által készített szövegek mintáit, például internetes bejegyzéseket, hírcikkeket, költészetet és regényeket, amelyek mindegyike hatalmas képzési adathalmazokba van felszívva.

Ezek a rendszerek nem tudják megkülönböztetni a tényeket a fikcióktól, hatalmas mennyiségű, az internetről kikapart adatot táplálnak be, és pontatlan eredményeket generálhatnak, valamint információkat gyűjthetnek vissza. 

A nagy nyelvi modelleket építő vállalatok a képzési és következtetési szakaszban megpróbálják kiszűrni a nem kívánt tartalmat, bár az ellenőrzési folyamataik tökéletlenek. Az is elkeserítő, hogy a kereskedelmi mesterségesintelligencia-modellek – például az OpenAI ChatGPT, a Microsoft új Bing vagy a Google Bard chat – készítői nem mindig hozzák nyilvánosságra, hogyan szerezték be, hogyan súrolták és dolgozták fel képzési adataikat. 

Szerencsére a C4 adatkészlet nem olyan rossz, mint a többi: többnyire jóindulatú weboldalakról kapart anyagokat tartalmaz az újságírás, a szoftverfejlesztés, az orvostudomány és a tartalomkészítés területén. Szövegének nagy része a Google szabadalmakból, a Wikipédiából és a Scribd-ből származik. A New York Times és a PLOS tudományos kiadó tudományos folyóiratai a negyedik, illetve az ötödik helyet foglalták el kötet szerint az adatkészletben. A C4 tartalmat is tartalmaz magánszemélyek blogjairól, vallási webhelyeiről stb. 

A szerzői jog által védett anyagok is bekerülnek az adatkészletbe, és a © szimbólum több mint 200 milliószor jelenik meg. Nem világos, hogy a védett alkotásokat tartalmazó képzési adatok alapján mesterséges intelligencia termékeket építő cégek felelősek-e a szellemi tulajdonjogok megsértéséért.

A Stability AI-t, a szöveg-képké eszközöket fejlesztő startup céget beperelték, mert szerzői joggal védett képeket rakott le stock fotóplatformokról. Az OpenAI perrel is szembesül, amelyben megtámadják a GitHubon tárolt nyilvános kódgyűjteményét, amelyet a Microsoft mesterséges intelligencia-páros programozó Copilot eszközének létrehozásához használtak.

Reddit csak bejelentés API-szolgáltatásaira vonatkozó feltételek frissítése, amely megköveteli a vállalatoktól, hogy fizessenek az adatok lekaparásához szükséges licencekért. „Új prémium hozzáférési pontot vezetünk be harmadik felek számára, akiknek további képességekre, magasabb használati korlátokra és szélesebb használati jogokra van szükségük” – áll kedden.

A C4 2019-ig tartalmaz tartalmat az internetről, de mivel más, újabb modelleket is hasonló adatgyűjtési gyakorlattal építettek fel, ez a kutatás rávilágít arra, hogy az AI chatbotok hogyan tudnak problémás kimenetet produkálni.

A regisztráció további megjegyzéseket kért az Allen Institute of AI-tól. ®

Időbélyeg:

Még több A regisztráció