Hvorfor du skal kende din AI's herkomst

Genudgivet af Platon

Abonnenter: 0

Hvorfor du skal kende din AI's Ancestry PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

KOMMENTAR

Kunstig intelligens (AI) ændrer hurtigt næsten alle aspekter af vores daglige liv, fra hvordan vi arbejder til hvordan vi indtager information til hvordan vi bestemmer vores ledere. Som med enhver teknologi er AI amoralsk, men kan bruges til at fremme samfundet eller give skade.

Data er de gener, der driver AI-applikationer. Det er DNA og RNA alle pakket ind i ét. Som det ofte siges, når man bygger softwaresystemer: "skrald ind/skrald ud." AI-teknologi er kun så nøjagtig, sikker og funktionel som de datakilder, den er afhængig af. Nøglen til at sikre, at AI opfylder sit løfte og undgår dets mareridt, ligger i evnen til at holde affaldet ude og forhindre det i at sprede sig og replikere på tværs af millioner af AI-applikationer.

Dette kaldes data herkomst, og vi kan ikke vente endnu en dag med at implementere kontroller, der forhindrer vores AI-fremtid i at blive en massiv affaldsbunke.

Dårlige data fører til AI-modeller, der kan udbrede cybersikkerhedssårbarheder, misinformation og andre angreb globalt på få sekunder. Dagens generativ AI (GenAI)-modeller er utroligt komplekse, men i kernen forudsiger GenAI-modeller simpelthen den bedste næste chunk af data til output, givet et sæt eksisterende tidligere data.

En måling af nøjagtighed

En model af ChatGPT-typen evaluerer det sæt af ord, der udgør det oprindelige stillede spørgsmål, og alle ordene i modelsvaret indtil videre for at beregne det næstbedste ord til output. Det gør det gentagne gange, indtil det beslutter, at det har givet nok svar. Antag, at du vurderer modellens evne til at sammensætte ord, der udgør velformede, grammatisk korrekte sætninger, der er om emnet og generelt er relevante for samtalen. I så fald er nutidens modeller forbløffende gode - en måling af nøjagtighed.

Dyk dybere ned i om den AI-producerede tekst altid formidler "korrekt" information og angiver på passende måde konfidensniveauet af den formidlede information. Dette afslører problemer, der kommer fra modeller, der i gennemsnit forudsiger meget godt, men ikke så godt på kantsager - hvilket repræsenterer et robusthedsproblem. Det kan forværres, når dårligt dataoutput fra AI-modeller gemmes online og bruges som fremtidige træningsdata for disse og andre modeller.

De dårlige output kan replikere i en skala, vi aldrig har set, hvilket forårsager en nedadgående AI-doom-loop.

Hvis en dårlig skuespiller ønskede at hjælpe denne proces, kunne de med vilje tilskynde til, at ekstra dårlige data blev produceret, lagret og udbredt - hvilket førte til, at der kommer endnu mere misinformation ud af chatbots, eller noget så uhyggeligt og skræmmende som autopilotmodeller, der beslutter sig for, at de skal svinge en bil hurtigt til højre på trods af, at objekter er i vejen, hvis de "ser" et specielt udformet billede foran dem (hypotetisk, selvfølgelig).

Efter årtier implementerer softwareudviklingsindustrien - ledet af Cybersecurity Infrastructure Security Agency - endelig en sikker-by-design rammer. Sikker-by-design påbyder, at cybersikkerhed er grundlaget for softwareudviklingsprocessen, og en af dens kerneprincipper er at kræve katalogisering af enhver softwareudviklingskomponent - en softwarestykliste (SBOM) — at styrke sikkerhed og modstandsdygtighed. Endelig erstatter sikkerheden hastigheden som den mest kritiske go-to-market-faktor.

Sikring af AI-design

AI har brug for noget lignende. AI-feedbacksløjfen forhindrer tidligere gængse cybersikkerhedsforsvarsteknikker, såsom sporing af malware-signaturer, opbygning af perimeter omkring netværksressourcer eller scanning af menneskeskreven kode for sårbarheder. Vi skal stille sikre AI-designs til et krav i teknologiens barndom, så AI kan gøres sikker længe før Pandoras æske åbnes.

Så hvordan løser vi dette problem? Vi burde tage en side ud af den akademiske verden. Vi træner elever med højt kurateret træningsdata, fortolket og formidlet til dem gennem en industri af lærere. Vi fortsætter denne tilgang til at undervise voksne, men voksne forventes at lave mere datakurering selv.

AI-modeltræning skal tage en to-trins kurateret datatilgang. Til at starte med ville basis AI-modeller blive trænet ved hjælp af nuværende metoder ved hjælp af enorme mængder af mindre kurerede datasæt. Disse grundlæggende store sprogmodeller (LLM'er) ville være nogenlunde analoge med en nyfødt baby. Modellerne på basisniveauet vil derefter blive trænet med højt kurerede datasæt svarende til, hvordan børn undervises og opdrages til at blive voksne.

Indsatsen på at bygge store, kurerede træningsdatasæt til alle typer mål vil ikke være lille. Dette er analogt med al den indsats, som forældre, skoler og samfundet gør for at give et kvalitetsmiljø og kvalitetsinformation til børn, efterhånden som de vokser til (forhåbentlig) fungerende, værdiskabende bidragydere til samfundet. Det er det indsatsniveau, der kræves for at bygge kvalitetsdatasæt for at træne kvalitets-, velfungerende, minimalt beskadigede AI-modeller, og det kan føre til, at en hel industri af AI og mennesker arbejder sammen om at lære AI-modeller at være gode til deres måljob. .

Status for dagens AI-træningsproces viser nogle tegn på denne to-trins proces. Men på grund af GenAI-teknologiens og industriens barndom tager for meget træning den mindre kurerede, etape-et tilgang.

Når det kommer til AI-sikkerhed, har vi ikke råd til at vente en time, endsige et årti. AI har brug for en 23andMe-applikation, der muliggør fuld gennemgang af "algoritmeslægtsforskning", så udviklere fuldt ud kan forstå AI's "familiehistorie" for at forhindre kroniske problemer i at replikere, inficere de kritiske systemer, vi er afhængige af hver dag, og skabe økonomisk og samfundsmæssig skade der kan være irreversible.

Vores nationale sikkerhed afhænger af det.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://www.darkreading.com/vulnerabilities-threats/why-you-need-to-know-your-ai-ancestry

Tidsstempel: Marts 13, 2024

Tidsstempel: December 15, 2022

Hvorfor du skal kende din AI's herkomst

Genudgivet af Platon

En måling af nøjagtighed

Sikring af AI-design

Mere fra Mørk læsning

Læk af Intel Boot Guard-nøgler kan have sikkerhedsmæssige konsekvenser i årevis

Sikkerhed skal styrke AI-udviklere nu

En frontlinjerapport om kinesiske trusselsaktørers taktikker og teknikker

Hvordan AI kan levere den næste fase af skalerbarhed

NSA opdeler 5G-mobilsikkerhedsrisici

Software Supply Chain-strategier til at parere afhængighedsforvirringsangreb

CrowdStrike Investment Spotlights API-sikkerhed

NIST går endelig på pension SHA-1, slags

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto