A problémás, rasszista és pornográf webes tartalmakat látszólag a Google nagy nyelvi modelljeinek betanítására használják, annak ellenére, hogy igyekeznek kiszűrni a mérgező és káros szövegrétegeket.
An vizsgálat A Washington Post és az Allen Institute for AI a Google hatalmas nyilvánosságát elemezte C4 adatkészlet, amelyet tudományos kutatásra bocsátottak ki, hogy jobban megértsük, milyen típusú webhelyeket használnak általában nagy nyelvi modellek betanításához.
A C4 adatkészletet a Google T5 szöveg-szöveg átviteli transzformátorának, valamint a Facebook Large Language Model Meta AI-jének (LLaMA) betanításához használták. felhúzta a vészharangokat.
Úgy tűnik, a C4 bekebelezett olyan anyagokat, amelyeket a következő generációs gépi tanulási rendszerek felépítéséhez használnak fel. Ez potenciálisan azt okozhatja, hogy ezek a rendszerek nem megfelelően és megbízhatatlanul viselkednek.
Szabályos Regisztráció az olvasók tisztában lesznek azzal, hogy újra és újra rámutattunk a képzési adatkészletekkel kapcsolatos problémákra, például egy sokat idézett halmaz szörnyű hátterére. az MIT kurátora.
A legújabb szonda
A Post and Allen Institute elemzői az internetes tartalomként megjelenő szövegek egyezése alapján rangsorolták a C10-ben szereplő 4 millió legnépszerűbb webhelyet. Bár a C4 a Common Crawl adatkészlet kisebb, letisztultabb változata, amely több milliárd webhely szövegét tartalmazza, még mindig tartalmazott nemkívánatos anyagokat az internet sötét sarkaiból.
Rasszista, transz-ellenes és mérgező szövegeket kapartak ki olyan webhelyekről, mint a fajgyűlölet-menedék, a Stormfront, a doxxing fórum, a Kiwi Farms és a 4chan mérgező üzenőfal. Ezért nem meglepő, hogy az ezen a korpuszon alapuló nyelvi modellek nem megfelelő tartalmat generálhatnak, összeesküvés-elméletekről beszélnek, vagy kétes ideológiákat hoznak fel.
A C4 emellett számos személyes adatot tartalmazó webhelyekből áll, például szavazói regisztrációs adatbázisokból. Ennek hátterében Olaszországban, Kanadában, Spanyolországban és Franciaországban több szabályozó ügynökség is vizsgálatot indított az OpenAI ChatGPT-jével kapcsolatban adatvédelmi aggályok miatt, mivel a modell érzékeny információkat képes feldolgozni és generálni.
Az AI chatbotokat működtető nagy nyelvi modellek nem intelligensek és nem tudatosak, akármilyen varázslatosnak is tűnnek: úgy írnak, hogy megjósolják a szavak és mondatok áramlását, válaszul a felhasználók vagy akár más robotok utasításaira, kérdéseire és utasításaira. Ez magában foglalja az adatok hegyeinek felhasználását, amelyekre betanították őket, és tanulnak belőlük, hogy utánozzák azt, amit egy személy írna.
Ezek a jóslatok ezért tükrözik az emberiség által készített szövegek mintáit, például internetes bejegyzéseket, hírcikkeket, költészetet és regényeket, amelyek mindegyike hatalmas képzési adathalmazokba van felszívva.
Ezek a rendszerek nem tudják megkülönböztetni a tényeket a fikcióktól, hatalmas mennyiségű, az internetről kikapart adatot táplálnak be, és pontatlan eredményeket generálhatnak, valamint információkat gyűjthetnek vissza.
A nagy nyelvi modelleket építő vállalatok a képzési és következtetési szakaszban megpróbálják kiszűrni a nem kívánt tartalmat, bár az ellenőrzési folyamataik tökéletlenek. Az is elkeserítő, hogy a kereskedelmi mesterségesintelligencia-modellek – például az OpenAI ChatGPT, a Microsoft új Bing vagy a Google Bard chat – készítői nem mindig hozzák nyilvánosságra, hogyan szerezték be, hogyan súrolták és dolgozták fel képzési adataikat.
Szerencsére a C4 adatkészlet nem olyan rossz, mint a többi: többnyire jóindulatú weboldalakról kapart anyagokat tartalmaz az újságírás, a szoftverfejlesztés, az orvostudomány és a tartalomkészítés területén. Szövegének nagy része a Google szabadalmakból, a Wikipédiából és a Scribd-ből származik. A New York Times és a PLOS tudományos kiadó tudományos folyóiratai a negyedik, illetve az ötödik helyet foglalták el kötet szerint az adatkészletben. A C4 tartalmat is tartalmaz magánszemélyek blogjairól, vallási webhelyeiről stb.
A szerzői jog által védett anyagok is bekerülnek az adatkészletbe, és a © szimbólum több mint 200 milliószor jelenik meg. Nem világos, hogy a védett alkotásokat tartalmazó képzési adatok alapján mesterséges intelligencia termékeket építő cégek felelősek-e a szellemi tulajdonjogok megsértéséért.
A Stability AI-t, a szöveg-képké eszközöket fejlesztő startup céget beperelték, mert szerzői joggal védett képeket rakott le stock fotóplatformokról. Az OpenAI perrel is szembesül, amelyben megtámadják a GitHubon tárolt nyilvános kódgyűjteményét, amelyet a Microsoft mesterséges intelligencia-páros programozó Copilot eszközének létrehozásához használtak.
Reddit csak bejelentés API-szolgáltatásaira vonatkozó feltételek frissítése, amely megköveteli a vállalatoktól, hogy fizessenek az adatok lekaparásához szükséges licencekért. „Új prémium hozzáférési pontot vezetünk be harmadik felek számára, akiknek további képességekre, magasabb használati korlátokra és szélesebb használati jogokra van szükségük” – áll kedden.
A C4 2019-ig tartalmaz tartalmat az internetről, de mivel más, újabb modelleket is hasonló adatgyűjtési gyakorlattal építettek fel, ez a kutatás rávilágít arra, hogy az AI chatbotok hogyan tudnak problémás kimenetet produkálni.
A regisztráció további megjegyzéseket kért az Allen Institute of AI-tól. ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2023/04/20/google_c4_data_nasty_sources/
- :van
- :is
- 10 millió $
- $ UP
- 10
- 2019
- 7
- a
- egyetemi
- tudományos kutatás
- hozzáférés
- További
- ügynökségek
- AI
- riasztás
- Minden termék
- Bár
- mindig
- Összegek
- Az elemzők
- és a
- api
- megjelent
- VANNAK
- cikkek
- AS
- háttér
- Rossz
- alapján
- BE
- óta
- hogy
- Jobb
- milliárd
- Bing
- blogok
- bizottság
- botok
- hoz
- tágabb
- épít
- építők
- Épület
- épült
- by
- TUD
- Kanada
- nem tud
- képességek
- Okoz
- kihívást
- chatbots
- ChatGPT
- idézett
- világos
- CO
- kód
- gyűjtemény
- megjegyzés
- kereskedelmi
- Közös
- Companies
- aggodalmak
- Körülmények
- öntudatos
- Összeesküvés
- tartalmaz
- tartalom
- tartalomalkotás
- sarkok
- tudott
- teremt
- teremtés
- sötét
- dátum
- Adatvédelem
- adatbázisok
- adatkészletek
- Ellenére
- Fejlesztés
- nyilvánosságra
- rajz
- erőfeszítések
- Még
- arcok
- Farms
- Jellemzők
- Fed
- Fiction
- szűrő
- áramlási
- A
- Fórum
- Negyedik
- Franciaország
- ból ből
- frusztráló
- további
- generál
- kap
- GitHub
- káros
- Legyen
- <p></p>
- nagyon
- házigazdája
- tárhely
- Hogyan
- HTTPS
- Emberiség
- ideológiák
- képek
- óriási
- in
- pontatlan
- beleértve
- egyének
- információ
- Intézet
- utasítás
- szellemi
- szellemi tulajdon
- Intelligens
- Internet
- bevezetéséről
- Laboratóriumi vizsgálatok eredményei
- IT
- Olaszország
- ITS
- újságírás
- jpg
- nyelv
- nagy
- indított
- per
- tanulás
- engedélyek
- fény
- határértékek
- Láma
- készült
- mágia
- egyező
- anyag
- Anyag
- orvostudomány
- üzenet
- meta
- microsoft
- millió
- ML
- modell
- modellek
- több
- a legtöbb
- Új
- New York
- New York Times
- hír
- of
- on
- OpenAI
- Más
- Egyéb
- teljesítmény
- felett
- fél
- Szabadalmak
- minták
- Fizet
- person
- személyes
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- Költészet
- pont
- állás
- Hozzászólások
- potenciálisan
- Bekapcsolom
- gyakorlat
- előrejelzésére
- Tippek
- prémium
- magánélet
- problémák
- Feldolgozott
- Folyamatok
- gyárt
- Termékek
- ingatlan
- védett
- nyilvános
- kiadó
- Kérdések
- rangsorolt
- olvasók
- új
- tükröznie
- Bejegyzés
- szabályozók
- felszabaduló
- szükség
- kutatás
- válasz
- Eredmények
- Kritika
- jogok
- s
- tudományos
- érzékeny
- Szolgáltatások
- készlet
- számos
- hasonló
- óta
- kisebb
- szoftver
- szoftverfejlesztés
- Spanyolország
- állapota
- indítás
- meghatározott
- Még mindig
- készlet
- ilyen
- beperelte
- szimbólum
- Systems
- Beszél
- tensorflow
- feltételek
- Felhasználási feltételeket
- hogy
- A
- A New York Times
- The Washington Post
- azok
- ebből adódóan
- Harmadik
- harmadik felek
- alkalommal
- nak nek
- is
- szerszám
- szerszámok
- felső
- Top 10
- Vonat
- kiképzett
- Képzések
- átruházás
- Kedd
- típusok
- jellemzően
- megértés
- felesleges
- Frissítések
- Használat
- használt
- Felhasználók
- Változat
- Hatalmas
- Ve
- változat
- kötet
- washington
- washingtoni posta
- háló
- honlapok
- JÓL
- Mit
- vajon
- ami
- WHO
- Wikipedia
- lesz
- val vel
- szavak
- művek
- lenne
- ír
- zephyrnet