Why You Need To Know Your AI's Ancestry

Republicat de Platon

Urmaritori: 0

Why You Need to Know Your AI's Ancestry PlatoBlockchain Data Intelligence. Vertical Search. Ai.

COMENTARIU

Inteligența artificială (AI) modifică rapid aproape fiecare aspect al vieții noastre de zi cu zi, de la modul în care lucrăm la modul în care ingeram informații și la modul în care ne determinăm liderii. Ca în orice tehnologie, AI este amorală, dar poate fi folosită pentru a promova societatea sau face rău.

Datele sunt genele care alimentează aplicațiile AI. Este ADN și ARN, toate înfășurate într-unul singur. Așa cum se spune adesea atunci când se construiește sisteme software: „gunoi intră / gunoi afară”. Tehnologia AI este la fel de precisă, sigură și funcțională ca și sursele de date pe care se bazează. Cheia pentru a ne asigura că AI își îndeplinește promisiunea și evită coșmarurile constă în capacitatea de a ține gunoiul și de a preveni proliferarea și replicarea acestuia în milioane de aplicații AI.

Aceasta se numește proveniența datelor și nu putem aștepta încă o zi pentru a implementa controale care împiedică viitorul nostru AI să devină o grămadă masivă de gunoi.

Datele proaste duc la modele AI care pot propaga vulnerabilități de securitate cibernetică, dezinformare și alte atacuri la nivel global în câteva secunde. Azi AI generativă Modelele (GenAI) sunt incredibil de complexe, dar, în esență, modelele GenAI prezic pur și simplu cea mai bună bucată următoare de date de scos, având în vedere un set de date anterioare existente.

O măsurare a preciziei

Un model de tip ChatGPT evaluează setul de cuvinte care alcătuiesc întrebarea inițială adresată și toate cuvintele din răspunsul model până acum pentru a calcula următorul cel mai bun cuvânt de scos. Face acest lucru în mod repetat până când decide că a dat un răspuns suficient. Să presupunem că evaluați capacitatea modelului de a înșira cuvinte care alcătuiesc propoziții bine formate, corecte din punct de vedere gramatical, care sunt la subiect și, în general, relevante pentru conversație. În acest caz, modelele de astăzi sunt uimitor de bune - o măsură a preciziei.

Scufundă-te mai adânc în dacă textul produs de AI transmite întotdeauna informații „corecte”. și indică în mod corespunzător nivelul de încredere al informațiilor transmise. Acest lucru dezvăluie probleme care provin de la modele care prezic foarte bine în medie, dar nu atât de bine în cazurile marginale - reprezentând o problemă de robustețe. Poate fi agravat atunci când datele slabe din modelele AI sunt stocate online și utilizate ca date de antrenament viitoare pentru aceste modele și alte modele.

Ieșirile slabe se pot reproduce la o scară pe care nu am văzut-o niciodată, provocând o buclă de deznădejde AI în jos.

Dacă un actor rău dorea să ajute acest proces, ar putea încuraja în mod intenționat să fie produse, stocate și propagate date suplimentare proaste - ceea ce duce la și mai multe informații greșite care iese din chatboți sau ceva la fel de nefast și înfricoșător precum modelele de autopilot care decid că trebuie să facă acest lucru. Virați rapid o mașină la dreapta, în ciuda faptului că obiectele le stau în cale dacă „văd” o imagine special creată în fața lor (ipotetic, desigur).

După zeci de ani, industria de dezvoltare software – condusă de Agenția de Securitate a Infrastructurii de Securitate Cibernetică – implementează în sfârșit un sigur-după-proiectare cadru. Securizat prin proiectare impune ca securitatea cibernetică să fie la baza procesului de dezvoltare a software-ului, iar una dintre principiile sale de bază este să solicite catalogarea fiecărei componente de dezvoltare software - o lista de materiale software (SBOM) — pentru a consolida securitatea și reziliența. În cele din urmă, securitatea înlocuiește viteza ca cel mai important factor de lansare pe piață.

Securizarea designurilor AI

AI are nevoie de ceva similar. Bucla de feedback AI previne tehnicile comune anterioare de apărare a securității cibernetice, cum ar fi urmărirea semnăturilor malware, construirea de perimetre în jurul resurselor de rețea sau scanarea codului scris de om pentru vulnerabilități. Trebuie să facem ca designurile AI sigure să fie o cerință în perioada incipiente a tehnologiei, astfel încât AI să poată fi asigurată cu mult înainte ca cutia Pandorei să fie deschisă.

Deci, cum rezolvăm această problemă? Ar trebui să scoatem o pagină din lumea academică. Antrenăm studenți cu date de formare foarte bine îngrijite, interpretate și transmise acestora printr-o industrie de profesori. Continuăm această abordare pentru a-i învăța pe adulți, dar se așteaptă ca adulții să facă ei înșiși mai multă conservare a datelor.

Instruirea modelului AI trebuie să adopte o abordare a datelor în două etape. Pentru început, modelele AI de bază ar fi antrenate folosind metodologiile actuale folosind cantități masive de seturi de date mai puțin curate. Aceste modele de limbaj mari de bază (LLM) ar fi aproximativ analoge cu un nou-născut. Modelele de la nivel de bază vor fi apoi antrenate cu seturi de date foarte bine îngrijite, similare modului în care copiii sunt învățați și crescuți pentru a deveni adulți.

Efortul de a construi seturi mari de date de antrenament pentru toate tipurile de obiective nu va fi mic. Acest lucru este analog cu tot efortul pe care părinții, școlile și societatea le depun pentru a oferi copiilor un mediu de calitate și informații de calitate pe măsură ce aceștia devin (sperăm) contribuitori funcționali și cu valoare adăugată pentru societate. Acesta este nivelul de efort necesar pentru a construi seturi de date de calitate pentru a antrena modele AI de calitate, funcționale și minim corupte, și ar putea duce la o întreagă industrie de AI și oameni să lucreze împreună pentru a învăța modelele AI să fie bune în munca lor. .

Starea procesului de formare AI de astăzi arată câteva semne ale acestui proces în două etape. Dar, din cauza tehnologiei GenAI și a industriei incipiente, prea multă pregătire necesită abordarea mai puțin curată, prima etapă.

Când vine vorba de securitatea AI, nu ne putem permite să așteptăm o oră, darămite un deceniu. AI are nevoie de o aplicație 23andMe care să permită revizuirea completă a „genealogiei algoritmilor”, astfel încât dezvoltatorii să poată înțelege pe deplin istoria „familială” a AI pentru a preveni replicarea problemelor cronice, infectarea sistemelor critice pe care ne bazăm în fiecare zi și creând prejudicii economice și societale. care poate fi ireversibil.

Securitatea noastră națională depinde de asta.