Waarom u de afkomst van uw AI moet kennen

Waarom u de afkomst van uw AI moet kennen

Waarom u de afkomst van uw AI moet kennen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

COMMENTAAR

Kunstmatige intelligentie (AI) verandert snel bijna elk aspect van ons dagelijks leven, van de manier waarop we werken tot de manier waarop we informatie opnemen tot de manier waarop we onze leiders bepalen. Zoals elke technologie is AI amoreel, maar kan het worden gebruikt om de samenleving vooruit te helpen schade opleveren.

Data zijn de genen die AI-toepassingen aandrijven. Het is DNA en RNA, allemaal in één verpakt. Zoals vaak wordt gezegd bij het bouwen van softwaresystemen: ‘garbage in/garbage out’. AI-technologie is slechts zo nauwkeurig, veilig en functioneel als de gegevensbronnen waarop zij vertrouwt. De sleutel om ervoor te zorgen dat AI zijn belofte waarmaakt en zijn nachtmerries vermijdt, ligt in het vermogen om het afval buiten te houden en te voorkomen dat het zich verspreidt en repliceert in miljoenen AI-toepassingen.

Dit wordt de herkomst van gegevens genoemd, en we kunnen niet nog een dag wachten met het implementeren van controles die voorkomen dat onze AI-toekomst een enorme vuilnisbelt wordt.

Slechte data leiden tot AI-modellen die cybersecurity-kwetsbaarheden, desinformatie en andere aanvallen binnen enkele seconden wereldwijd kunnen verspreiden. Vandaag generatieve AI (GenAI)-modellen zijn ongelooflijk complex, maar in de kern voorspellen GenAI-modellen eenvoudigweg het beste volgende stuk gegevens dat moet worden uitgevoerd, gegeven een reeks bestaande eerdere gegevens.

Een meting van nauwkeurigheid

Een model van het ChatGPT-type evalueert de reeks woorden waaruit de oorspronkelijke vraag bestaat en alle woorden in het modelantwoord tot nu toe om het volgende beste woord te berekenen dat kan worden uitgevoerd. Het doet dit herhaaldelijk totdat het besluit dat het voldoende antwoord heeft gegeven. Stel dat u het vermogen van het model evalueert om woorden aan elkaar te rijgen die goed gevormde, grammaticaal correcte zinnen vormen die over het onderwerp gaan en over het algemeen relevant zijn voor het gesprek. In dat geval zijn de huidige modellen verbazingwekkend goed: een maatstaf voor nauwkeurigheid.

Duik er dieper in of de door AI geproduceerde tekst altijd ‘juiste’ informatie overbrengt en geeft op passende wijze het betrouwbaarheidsniveau van de overgebrachte informatie aan. Dit brengt problemen aan het licht die voortkomen uit modellen die gemiddeld zeer goed voorspellen, maar niet zo goed in randgevallen – wat een robuustheidsprobleem vertegenwoordigt. Dit kan nog verergeren als de slechte gegevensuitvoer van AI-modellen online wordt opgeslagen en wordt gebruikt als toekomstige trainingsgegevens voor deze en andere modellen.

De slechte resultaten kunnen zich herhalen op een schaal die we nog nooit hebben gezien, waardoor een neerwaartse AI-doemloop ontstaat.

Als een slechte actor dit proces zou willen helpen, zouden ze met opzet kunnen aanmoedigen dat er extra slechte gegevens worden geproduceerd, opgeslagen en verspreid – wat zou leiden tot nog meer verkeerde informatie uit chatbots, of tot zoiets schandelijks en beangstigends als automatische pilootmodellen van auto’s die besluiten dat ze dat moeten doen. stuur een auto snel naar rechts ondanks dat er objecten in de weg zitten als ze een speciaal vervaardigd beeld voor zich ‘zien’ (hypothetisch natuurlijk).

Na tientallen jaren implementeert de softwareontwikkelingsindustrie – onder leiding van de Cybersecurity Infrastructure Security Agency – eindelijk een veilig-door-ontwerp kader. Beveiligd door ontwerp stelt dat cyberbeveiliging de basis vormt van het softwareontwikkelingsproces, en een van de kernprincipes ervan vereist het catalogiseren van elke softwareontwikkelingscomponent – ​​een software stuklijst (SBOM) – om de veiligheid en veerkracht te vergroten. Ten slotte vervangt beveiliging snelheid als de meest kritische go-to-market-factor.

Beveiliging van AI-ontwerpen

AI heeft iets soortgelijks nodig. De AI-feedbacklus voorkomt veelgebruikte cyberbeveiligingstechnieken uit het verleden, zoals het volgen van malwarehandtekeningen, het bouwen van perimeters rond netwerkbronnen of het scannen van door mensen geschreven code op kwetsbaarheden. We moeten veilige AI-ontwerpen tot een vereiste maken tijdens de kinderschoenen van de technologie, zodat AI veilig kan worden gemaakt lang voordat de doos van Pandora wordt geopend.

Dus, hoe lossen we dit probleem op? We moeten een pagina uit de wereld van de academische wereld halen. We leiden studenten op met zeer zorgvuldig samengestelde trainingsgegevens, geïnterpreteerd en aan hen overgedragen via een branche van leraren. We zetten deze aanpak voort om volwassenen les te geven, maar van volwassenen wordt verwacht dat ze zelf meer aan datacuratie doen.

AI-modeltraining moet een samengestelde databenadering in twee fasen volgen. Om te beginnen zouden basis-AI-modellen worden getraind met behulp van de huidige methodologieën en met behulp van enorme hoeveelheden minder goed samengestelde datasets. Deze basismodellen voor grote talen (LLM's) zouden grofweg analoog zijn aan die van een pasgeboren baby. De modellen op basisniveau zouden vervolgens worden getraind met zeer samengestelde datasets, vergelijkbaar met de manier waarop kinderen worden onderwezen en opgevoed om volwassenen te worden.

De inspanning om grote, samengestelde trainingsdatasets te bouwen voor alle soorten doelen zal niet klein zijn. Dit is analoog aan alle inspanningen die ouders, scholen en de samenleving steken in het bieden van een kwaliteitsomgeving en kwaliteitsinformatie voor kinderen terwijl ze uitgroeien tot (hopelijk) functionerende bijdragers met toegevoegde waarde aan de samenleving. Dat is het inspanningsniveau dat nodig is om hoogwaardige datasets te bouwen om kwalitatieve, goed functionerende, minimaal gecorrumpeerde AI-modellen te trainen, en het zou ertoe kunnen leiden dat een hele industrie van AI en mensen gaat samenwerken om AI-modellen te leren goed te zijn in hun doel. .

De huidige stand van zaken op het gebied van AI-training vertoont enkele tekenen van dit tweefasenproces. Maar vanwege de kinderschoenen van de GenAI-technologie en de industrie wordt voor te veel training de minder gecureerde fase-één-aanpak gevolgd.

Als het om AI-beveiliging gaat, kunnen we het ons niet veroorloven om een ​​uur te wachten, laat staan ​​tien jaar. AI heeft een 23andMe-applicatie nodig die de volledige herziening van de ‘algoritme-genealogie’ mogelijk maakt, zodat ontwikkelaars de ‘familiegeschiedenis’ van AI volledig kunnen begrijpen om te voorkomen dat chronische problemen zich vermenigvuldigen, de kritieke systemen infecteren waar we dagelijks op vertrouwen en economische en maatschappelijke schade veroorzaken. dat kan onomkeerbaar zijn.

Onze nationale veiligheid hangt ervan af.

Tijdstempel:

Meer van Donkere lezing