4chan And Other Web Sewers Scraped Up Into Google's Mega-library For Training ML

Újra kiadta Platón

Követő: 0

4chan and other web sewers scraped up into Google's mega-library for training ML PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A problémás, rasszista és pornográf webes tartalmakat látszólag a Google nagy nyelvi modelljeinek betanítására használják, annak ellenére, hogy igyekeznek kiszűrni a mérgező és káros szövegrétegeket.

An vizsgálat A Washington Post és az Allen Institute for AI a Google hatalmas nyilvánosságát elemezte C4 adatkészlet, amelyet tudományos kutatásra bocsátottak ki, hogy jobban megértsük, milyen típusú webhelyeket használnak általában nagy nyelvi modellek betanításához.

A C4 adatkészletet a Google T5 szöveg-szöveg átviteli transzformátorának, valamint a Facebook Large Language Model Meta AI-jének (LLaMA) betanításához használták. felhúzta a vészharangokat.

Úgy tűnik, a C4 bekebelezett olyan anyagokat, amelyeket a következő generációs gépi tanulási rendszerek felépítéséhez használnak fel. Ez potenciálisan azt okozhatja, hogy ezek a rendszerek nem megfelelően és megbízhatatlanul viselkednek.

Szabályos Regisztráció az olvasók tisztában lesznek azzal, hogy újra és újra rámutattunk a képzési adatkészletekkel kapcsolatos problémákra, például egy sokat idézett halmaz szörnyű hátterére. az MIT kurátora.

A legújabb szonda

A Post and Allen Institute elemzői az internetes tartalomként megjelenő szövegek egyezése alapján rangsorolták a C10-ben szereplő 4 millió legnépszerűbb webhelyet. Bár a C4 a Common Crawl adatkészlet kisebb, letisztultabb változata, amely több milliárd webhely szövegét tartalmazza, még mindig tartalmazott nemkívánatos anyagokat az internet sötét sarkaiból.

Rasszista, transz-ellenes és mérgező szövegeket kapartak ki olyan webhelyekről, mint a fajgyűlölet-menedék, a Stormfront, a doxxing fórum, a Kiwi Farms és a 4chan mérgező üzenőfal. Ezért nem meglepő, hogy az ezen a korpuszon alapuló nyelvi modellek nem megfelelő tartalmat generálhatnak, összeesküvés-elméletekről beszélnek, vagy kétes ideológiákat hoznak fel.

A C4 emellett számos személyes adatot tartalmazó webhelyekből áll, például szavazói regisztrációs adatbázisokból. Ennek hátterében Olaszországban, Kanadában, Spanyolországban és Franciaországban több szabályozó ügynökség is vizsgálatot indított az OpenAI ChatGPT-jével kapcsolatban adatvédelmi aggályok miatt, mivel a modell érzékeny információkat képes feldolgozni és generálni.

Az AI chatbotokat működtető nagy nyelvi modellek nem intelligensek és nem tudatosak, akármilyen varázslatosnak is tűnnek: úgy írnak, hogy megjósolják a szavak és mondatok áramlását, válaszul a felhasználók vagy akár más robotok utasításaira, kérdéseire és utasításaira. Ez magában foglalja az adatok hegyeinek felhasználását, amelyekre betanították őket, és tanulnak belőlük, hogy utánozzák azt, amit egy személy írna.

Ezek a jóslatok ezért tükrözik az emberiség által készített szövegek mintáit, például internetes bejegyzéseket, hírcikkeket, költészetet és regényeket, amelyek mindegyike hatalmas képzési adathalmazokba van felszívva.

Ezek a rendszerek nem tudják megkülönböztetni a tényeket a fikcióktól, hatalmas mennyiségű, az internetről kikapart adatot táplálnak be, és pontatlan eredményeket generálhatnak, valamint információkat gyűjthetnek vissza.

A nagy nyelvi modelleket építő vállalatok a képzési és következtetési szakaszban megpróbálják kiszűrni a nem kívánt tartalmat, bár az ellenőrzési folyamataik tökéletlenek. Az is elkeserítő, hogy a kereskedelmi mesterségesintelligencia-modellek – például az OpenAI ChatGPT, a Microsoft új Bing vagy a Google Bard chat – készítői nem mindig hozzák nyilvánosságra, hogyan szerezték be, hogyan súrolták és dolgozták fel képzési adataikat.

Szerencsére a C4 adatkészlet nem olyan rossz, mint a többi: többnyire jóindulatú weboldalakról kapart anyagokat tartalmaz az újságírás, a szoftverfejlesztés, az orvostudomány és a tartalomkészítés területén. Szövegének nagy része a Google szabadalmakból, a Wikipédiából és a Scribd-ből származik. A New York Times és a PLOS tudományos kiadó tudományos folyóiratai a negyedik, illetve az ötödik helyet foglalták el kötet szerint az adatkészletben. A C4 tartalmat is tartalmaz magánszemélyek blogjairól, vallási webhelyeiről stb.

A szerzői jog által védett anyagok is bekerülnek az adatkészletbe, és a © szimbólum több mint 200 milliószor jelenik meg. Nem világos, hogy a védett alkotásokat tartalmazó képzési adatok alapján mesterséges intelligencia termékeket építő cégek felelősek-e a szellemi tulajdonjogok megsértéséért.

A Stability AI-t, a szöveg-képké eszközöket fejlesztő startup céget beperelték, mert szerzői joggal védett képeket rakott le stock fotóplatformokról. Az OpenAI perrel is szembesül, amelyben megtámadják a GitHubon tárolt nyilvános kódgyűjteményét, amelyet a Microsoft mesterséges intelligencia-páros programozó Copilot eszközének létrehozásához használtak.

Reddit csak bejelentés API-szolgáltatásaira vonatkozó feltételek frissítése, amely megköveteli a vállalatoktól, hogy fizessenek az adatok lekaparásához szükséges licencekért. „Új prémium hozzáférési pontot vezetünk be harmadik felek számára, akiknek további képességekre, magasabb használati korlátokra és szélesebb használati jogokra van szükségük” – áll kedden.

A C4 2019-ig tartalmaz tartalmat az internetről, de mivel más, újabb modelleket is hasonló adatgyűjtési gyakorlattal építettek fel, ez a kutatás rávilágít arra, hogy az AI chatbotok hogyan tudnak problémás kimenetet produkálni.

A regisztráció további megjegyzéseket kért az Allen Institute of AI-tól. ®

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
Forrás: https://go.theregister.com/feed/www.theregister.com/2023/04/20/google_c4_data_nasty_sources/

Időbélyeg: April 20, 2023

Időbélyeg: 13. március 2024.

A 4chan és más webcsatornák bekerültek a Google mega-könyvtárába az ML képzéséhez

Újra kiadta Platón

A legújabb szonda

Még több A regisztráció

Mutasd meg nekünk a szósz kódját… Wendy's és a Google teszteljék a rendelés-felvevő robotot

Az OpenAI szünetelteti a Bing keresési funkciót a fizetőfal megkerülési hibája miatt

Meta nyolc pert indított, azt állítva, hogy a közösségi média bántja a gyerekeket

Az Egyesült Államok Igazságügyi Osztálya állítólag ellenőrzi a mesterséges intelligencia bérleti díját, a RealPage-et

A GenAI testreszabott megközelítése

Azt az internetet kapod, amit megérdemelsz

A kiszivárgott dokumentum szerint a Google további SiFive magokat vásárolhat a TPU-khoz

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók