Hvorfor du skal kende din AI's herkomst

Hvorfor du skal kende din AI's herkomst

Hvorfor du skal kende din AI's Ancestry PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

KOMMENTAR

Kunstig intelligens (AI) ændrer hurtigt næsten alle aspekter af vores daglige liv, fra hvordan vi arbejder til hvordan vi indtager information til hvordan vi bestemmer vores ledere. Som med enhver teknologi er AI amoralsk, men kan bruges til at fremme samfundet eller give skade.

Data er de gener, der driver AI-applikationer. Det er DNA og RNA alle pakket ind i ét. Som det ofte siges, når man bygger softwaresystemer: "skrald ind/skrald ud." AI-teknologi er kun så nøjagtig, sikker og funktionel som de datakilder, den er afhængig af. Nøglen til at sikre, at AI opfylder sit løfte og undgår dets mareridt, ligger i evnen til at holde affaldet ude og forhindre det i at sprede sig og replikere på tværs af millioner af AI-applikationer.

Dette kaldes data herkomst, og vi kan ikke vente endnu en dag med at implementere kontroller, der forhindrer vores AI-fremtid i at blive en massiv affaldsbunke.

Dårlige data fører til AI-modeller, der kan udbrede cybersikkerhedssårbarheder, misinformation og andre angreb globalt på få sekunder. Dagens generativ AI (GenAI)-modeller er utroligt komplekse, men i kernen forudsiger GenAI-modeller simpelthen den bedste næste chunk af data til output, givet et sæt eksisterende tidligere data.

En måling af nøjagtighed

En model af ChatGPT-typen evaluerer det sæt af ord, der udgør det oprindelige stillede spørgsmål, og alle ordene i modelsvaret indtil videre for at beregne det næstbedste ord til output. Det gør det gentagne gange, indtil det beslutter, at det har givet nok svar. Antag, at du vurderer modellens evne til at sammensætte ord, der udgør velformede, grammatisk korrekte sætninger, der er om emnet og generelt er relevante for samtalen. I så fald er nutidens modeller forbløffende gode - en måling af nøjagtighed.

Dyk dybere ned i om den AI-producerede tekst altid formidler "korrekt" information og angiver på passende måde konfidensniveauet af den formidlede information. Dette afslører problemer, der kommer fra modeller, der i gennemsnit forudsiger meget godt, men ikke så godt på kantsager - hvilket repræsenterer et robusthedsproblem. Det kan forværres, når dårligt dataoutput fra AI-modeller gemmes online og bruges som fremtidige træningsdata for disse og andre modeller.

De dårlige output kan replikere i en skala, vi aldrig har set, hvilket forårsager en nedadgående AI-doom-loop.

Hvis en dårlig skuespiller ønskede at hjælpe denne proces, kunne de med vilje tilskynde til, at ekstra dårlige data blev produceret, lagret og udbredt - hvilket førte til, at der kommer endnu mere misinformation ud af chatbots, eller noget så uhyggeligt og skræmmende som autopilotmodeller, der beslutter sig for, at de skal svinge en bil hurtigt til højre på trods af, at objekter er i vejen, hvis de "ser" et specielt udformet billede foran dem (hypotetisk, selvfølgelig).

Efter årtier implementerer softwareudviklingsindustrien - ledet af Cybersecurity Infrastructure Security Agency - endelig en sikker-by-design rammer. Sikker-by-design påbyder, at cybersikkerhed er grundlaget for softwareudviklingsprocessen, og en af ​​dens kerneprincipper er at kræve katalogisering af enhver softwareudviklingskomponent - en softwarestykliste (SBOM) — at styrke sikkerhed og modstandsdygtighed. Endelig erstatter sikkerheden hastigheden som den mest kritiske go-to-market-faktor.

Sikring af AI-design

AI har brug for noget lignende. AI-feedbacksløjfen forhindrer tidligere gængse cybersikkerhedsforsvarsteknikker, såsom sporing af malware-signaturer, opbygning af perimeter omkring netværksressourcer eller scanning af menneskeskreven kode for sårbarheder. Vi skal stille sikre AI-designs til et krav i teknologiens barndom, så AI kan gøres sikker længe før Pandoras æske åbnes.

Så hvordan løser vi dette problem? Vi burde tage en side ud af den akademiske verden. Vi træner elever med højt kurateret træningsdata, fortolket og formidlet til dem gennem en industri af lærere. Vi fortsætter denne tilgang til at undervise voksne, men voksne forventes at lave mere datakurering selv.

AI-modeltræning skal tage en to-trins kurateret datatilgang. Til at starte med ville basis AI-modeller blive trænet ved hjælp af nuværende metoder ved hjælp af enorme mængder af mindre kurerede datasæt. Disse grundlæggende store sprogmodeller (LLM'er) ville være nogenlunde analoge med en nyfødt baby. Modellerne på basisniveauet vil derefter blive trænet med højt kurerede datasæt svarende til, hvordan børn undervises og opdrages til at blive voksne.

Indsatsen på at bygge store, kurerede træningsdatasæt til alle typer mål vil ikke være lille. Dette er analogt med al den indsats, som forældre, skoler og samfundet gør for at give et kvalitetsmiljø og kvalitetsinformation til børn, efterhånden som de vokser til (forhåbentlig) fungerende, værdiskabende bidragydere til samfundet. Det er det indsatsniveau, der kræves for at bygge kvalitetsdatasæt for at træne kvalitets-, velfungerende, minimalt beskadigede AI-modeller, og det kan føre til, at en hel industri af AI og mennesker arbejder sammen om at lære AI-modeller at være gode til deres måljob. .

Status for dagens AI-træningsproces viser nogle tegn på denne to-trins proces. Men på grund af GenAI-teknologiens og industriens barndom tager for meget træning den mindre kurerede, etape-et tilgang.

Når det kommer til AI-sikkerhed, har vi ikke råd til at vente en time, endsige et årti. AI har brug for en 23andMe-applikation, der muliggør fuld gennemgang af "algoritmeslægtsforskning", så udviklere fuldt ud kan forstå AI's "familiehistorie" for at forhindre kroniske problemer i at replikere, inficere de kritiske systemer, vi er afhængige af hver dag, og skabe økonomisk og samfundsmæssig skade der kan være irreversible.

Vores nationale sikkerhed afhænger af det.

Tidsstempel:

Mere fra Mørk læsning