Varför du behöver känna till din AI:s härkomst

Varför du behöver känna till din AI:s härkomst

Varför du behöver känna till din AI:s Ancestry PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

KOMMENTAR

Artificiell intelligens (AI) förändrar snabbt nästan alla aspekter av vårt dagliga liv, från hur vi arbetar till hur vi får in information till hur vi bestämmer våra ledare. Som med all teknik är AI omoralisk, men kan användas för att främja samhället eller ge skada.

Data är generna som driver AI-applikationer. Det är DNA och RNA som alla är inlindade i ett. Som ofta sägs när man bygger mjukvarusystem: "skräp in/skräp ut." AI-teknik är bara så exakt, säker och funktionell som de datakällor den förlitar sig på. Nyckeln till att säkerställa att AI uppfyller sitt löfte och undviker sina mardrömmar ligger i förmågan att hålla skräpet ute och förhindra att det sprider sig och replikerar i miljontals AI-applikationer.

Detta kallas dataproveniens, och vi kan inte vänta en dag till med att implementera kontroller som förhindrar vår AI-framtid från att bli en enorm pappershög.

Dålig data leder till AI-modeller som kan sprida cybersäkerhetssårbarheter, desinformation och andra attacker globalt på några sekunder. Dagens generativ AI (GenAI)-modeller är otroligt komplexa, men i grunden förutsäger GenAI-modeller helt enkelt den bästa nästa bit av data som ska matas ut, givet en uppsättning befintliga tidigare data.

Ett mått på noggrannhet

En modell av ChatGPT-typ utvärderar uppsättningen av ord som utgör den ursprungliga frågan och alla ord i modellsvaret hittills för att beräkna det näst bästa ordet att mata ut. Den gör detta upprepade gånger tills den beslutar att den har gett tillräckligt med svar. Anta att du utvärderar modellens förmåga att sätta ihop ord som utgör välformade, grammatiskt korrekta meningar som är på ämnet och allmänt relevanta för samtalet. I så fall är dagens modeller fantastiskt bra — ett mått på noggrannhet.

Dyk djupare in i om den AI-producerade texten alltid förmedlar "korrekt" information och indikerar på lämpligt sätt konfidensnivån för den förmedlade informationen. Detta avslöjar problem som kommer från modeller som förutsäger mycket bra i genomsnitt, men inte så bra på kantfall - vilket representerar ett robusthetsproblem. Det kan förvärras när dålig datautgång från AI-modeller lagras online och används som framtida träningsdata för dessa och andra modeller.

De dåliga utsignalerna kan replikera i en skala vi aldrig har sett, vilket orsakar en nedåtgående AI-doomloop.

Om en dålig skådespelare ville hjälpa den här processen, kunde de avsiktligt uppmuntra extra dålig data att produceras, lagras och spridas – vilket leder till att ännu mer felaktig information kommer ut från chatbots, eller något så skändligt och skrämmande som bilautopilotmodeller som bestämmer sig för att de behöver sväng en bil snabbt åt höger trots att föremål är i vägen om de "ser" en specialtillverkad bild framför sig (hypotetiskt förstås).

Efter decennier implementerar mjukvaruutvecklingsindustrin – ledd av Cybersecurity Infrastructure Security Agency – äntligen en säker-by-design ramverk. Säkert genom design kräver att cybersäkerhet är grunden för mjukvaruutvecklingsprocessen, och en av dess kärnprinciper kräver katalogisering av varje programvaruutvecklingskomponent – ​​en mjukvaruförteckning (SBOM) — För att stärka säkerhet och motståndskraft. Slutligen ersätter säkerhet hastighet som den mest kritiska faktorn för att gå till marknaden.

Säkra AI-designer

AI behöver något liknande. AI-återkopplingsslingan förhindrar vanliga tidigare tekniker för cybersäkerhetsförsvar, som att spåra skadliga signaturer, bygga omkretsar runt nätverksresurser eller skanna mänskligt skriven kod efter sårbarheter. Vi måste göra säker AI-design till ett krav under teknikens linda så att AI kan göras säker långt innan Pandoras ask öppnas.

Så hur löser vi detta problem? Vi borde ta en sida ur den akademiska världen. Vi utbildar studenter med välutbildad utbildningsdata, tolkad och förmedlad till dem genom en bransch av lärare. Vi fortsätter detta tillvägagångssätt för att undervisa vuxna, men vuxna förväntas göra mer datakurering själva.

AI-modellträning måste ha en tvåstegs kurerad datametod. Till att börja med skulle basmodeller för AI tränas med hjälp av nuvarande metoder med enorma mängder mindre kurerade datamängder. Dessa grundläggande stora språkmodeller (LLM) skulle vara ungefär analoga med ett nyfött barn. Modellerna på basnivån skulle sedan tränas med välutvalda datamängder som liknar hur barn lärs och uppfostras till att bli vuxna.

Ansträngningen att bygga stora, utvalda träningsdatauppsättningar för alla typer av mål kommer inte att vara liten. Detta är analogt med alla ansträngningar som föräldrar, skolor och samhället lägger ner på att tillhandahålla en kvalitetsmiljö och kvalitetsinformation för barn när de växer till (förhoppningsvis) fungerande, värdeskapande bidragsgivare till samhället. Det är den ansträngningsnivå som krävs för att bygga kvalitetsdatauppsättningar för att träna kvalitativa, välfungerande, minimalt skadade AI-modeller, och det kan leda till att en hel industri av AI och människor arbetar tillsammans för att lära AI-modeller att bli bra på sitt måljobb .

Tillståndet för dagens AI-träningsprocess visar några tecken på denna tvåstegsprocess. Men på grund av GenAI-teknologins och industrins linda, tar för mycket utbildning den mindre kurerade, steg-ett-metoden.

När det gäller AI-säkerhet har vi inte råd att vänta en timme, än mindre ett decennium. AI behöver en 23andMe-applikation som möjliggör en fullständig granskning av "algoritmens genealogi" så att utvecklare till fullo kan förstå AI:s "familjehistoria" för att förhindra kroniska problem från att replikera, infektera de kritiska system vi litar på varje dag och skapa ekonomisk och samhällelig skada som kan vara oåterkalleligt.

Vår nationella säkerhet beror på det.

Tidsstämpel:

Mer från Mörk läsning