Hvorfor du trenger å kjenne din AIs aner

Hvorfor du trenger å kjenne din AIs aner

Hvorfor du trenger å kjenne din AIs Ancestry PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

KOMMENTAR

Kunstig intelligens (AI) endrer raskt nesten alle aspekter av våre daglige liv, fra hvordan vi jobber til hvordan vi inntar informasjon til hvordan vi bestemmer lederne våre. Som med all teknologi er AI amoralsk, men kan brukes til å fremme samfunnet eller levere skade.

Data er genene som driver AI-applikasjoner. Det er DNA og RNA pakket inn i ett. Som det ofte sies når man bygger programvaresystemer: "søppel inn/søppel ut." AI-teknologi er bare så nøyaktig, sikker og funksjonell som datakildene den er avhengig av. Nøkkelen til å sikre at AI oppfyller løftet og unngår marerittene ligger i muligheten til å holde søppel ute og forhindre at det sprer seg og replikerer på tvers av millioner av AI-applikasjoner.

Dette kalles dataopprinnelse, og vi kan ikke vente en dag til med å implementere kontroller som forhindrer vår AI-fremtid fra å bli en massiv søppelhaug.

Dårlige data fører til AI-modeller som kan spre cybersikkerhetssårbarheter, feilinformasjon og andre angrep globalt på sekunder. Dagens generativ AI (GenAI)-modeller er utrolig komplekse, men i kjernen forutsier GenAI-modeller ganske enkelt den beste neste mengde data som skal sendes ut, gitt et sett med eksisterende tidligere data.

En måling av nøyaktighet

En modell av ChatGPT-typen evaluerer settet med ord som utgjør det opprinnelige spørsmålet og alle ordene i modellsvaret så langt for å beregne det nest beste ordet å skrive ut. Den gjør dette gjentatte ganger til den bestemmer seg for at den har gitt nok svar. Anta at du vurderer modellens evne til å sette sammen ord som utgjør velformede, grammatisk korrekte setninger som er på temaet og generelt sett relevante for samtalen. I så fall er dagens modeller utrolig gode - en måling av nøyaktighet.

Dykk dypere inn om den AI-produserte teksten alltid formidler «riktig» informasjon og angir på passende måte konfidensnivået til den formidlede informasjonen. Dette avslører problemer som kommer fra modeller som forutsier svært godt i gjennomsnitt, men ikke så godt på kantsaker – som representerer et robusthetsproblem. Det kan forsterkes når dårlig datautgang fra AI-modeller lagres online og brukes som fremtidige treningsdata for disse og andre modeller.

De dårlige utgangene kan replikere i en skala vi aldri har sett, noe som forårsaker en nedadgående AI-doomloop.

Hvis en dårlig aktør ønsket å hjelpe denne prosessen, kunne de med vilje oppmuntre ekstra dårlige data til å produseres, lagres og spres – noe som fører til enda mer feilinformasjon som kommer ut av chatbots, eller noe så grusomt og skummelt som bilautopilotmodeller som bestemmer seg for at de må sving en bil raskt til høyre til tross for at objekter er i veien hvis de "ser" et spesiallaget bilde foran seg (hypotetisk, selvfølgelig).

Etter flere tiår implementerer programvareutviklingsindustrien – ledet av Cybersecurity Infrastructure Security Agency – endelig en sikker-for-design rammeverk. Sikker-by-design pålegger at cybersikkerhet er grunnlaget for programvareutviklingsprosessen, og en av kjerneprinsippene er å kreve katalogisering av hver programvareutviklingskomponent – ​​en programvareliste (SBOM) – for å styrke sikkerhet og motstandskraft. Til slutt erstatter sikkerhet hastighet som den mest kritiske gå-til-markedet-faktoren.

Sikring av AI-design

AI trenger noe lignende. AI-tilbakemeldingssløyfen forhindrer vanlige tidligere cybersikkerhetsforsvarsteknikker, for eksempel sporing av skadevaresignaturer, bygging av omkrets rundt nettverksressurser eller skanning av menneskeskreven kode for sårbarheter. Vi må gjøre sikker AI-design til et krav i teknologiens spede begynnelse, slik at AI kan gjøres sikker lenge før Pandoras boks åpnes.

Så hvordan løser vi dette problemet? Vi bør ta en side ut av den akademiske verden. Vi trener studenter med svært kuraterte opplæringsdata, tolket og formidlet til dem gjennom en bransje av lærere. Vi fortsetter denne tilnærmingen for å undervise voksne, men voksne forventes å gjøre mer datakurering selv.

AI-modellopplæring må ha en to-trinns kuratert datatilnærming. Til å begynne med vil grunnleggende AI-modeller bli trent ved å bruke gjeldende metoder ved bruk av enorme mengder mindre kuraterte datasett. Disse grunnleggende store språkmodellene (LLM) vil være omtrent analoge med en nyfødt baby. Modellene på basisnivået vil deretter bli trent med svært kuraterte datasett som ligner på hvordan barn læres og oppdras til å bli voksne.

Arbeidet med å bygge store, kuraterte treningsdatasett for alle typer mål vil ikke være liten. Dette er analogt med all innsatsen som foreldre, skoler og samfunnet legger ned for å gi et kvalitetsmiljø og kvalitetsinformasjon for barn når de vokser til (forhåpentligvis) fungerende, verdiøkende bidragsytere til samfunnet. Det er innsatsnivået som kreves for å bygge kvalitetsdatasett for å trene opp kvalitet, velfungerende, minimalt ødelagte AI-modeller, og det kan føre til at en hel industri av AI og mennesker jobber sammen for å lære AI-modeller å være gode i måljobben. .

Tilstanden til dagens AI-treningsprosess viser noen tegn på denne to-trinns prosessen. Men på grunn av GenAI-teknologiens og industriens spede begynnelse, tar for mye opplæring den mindre kurerte, trinn-en-tilnærmingen.

Når det gjelder AI-sikkerhet, har vi ikke råd til å vente en time, enn si et tiår. AI trenger en 23andMe-applikasjon som muliggjør full gjennomgang av "algoritmens slektsforskning", slik at utviklere fullt ut kan forstå "familiehistorien" til AI for å forhindre at kroniske problemer replikeres, infisere de kritiske systemene vi er avhengige av hver dag, og skape økonomisk og samfunnsmessig skade som kan være irreversible.

Vår nasjonale sikkerhet avhenger av det.

Tidstempel:

Mer fra Mørk lesning