Microsoft forbedrer forsvaret i Azure AI

Microsoft forbedrer forsvaret i Azure AI

Microsoft forbedrer forsvaret i Azure AI PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Microsoft annonserte flere nye funksjoner i Azure AI Studio som selskapet sier skal hjelpe utviklere med å bygge generative AI-apper som er mer pålitelige og motstandsdyktige mot ondsinnet modellmanipulasjon og andre nye trusler.

I et blogginnlegg 29. mars påpekte Microsofts produktsjef for ansvarlig AI, Sarah Bird, til økende bekymring for trusselaktører som bruker umiddelbare injeksjonsangrep å få AI-systemer til å oppføre seg på farlige og uventede måter som den primære drivkraften for de nye verktøyene.

«Organisasjoner er det også opptatt av kvalitet og pålitelighet» sa Bird. "De ønsker å sikre at deres AI-systemer ikke genererer feil eller legger til informasjon som ikke er dokumentert i applikasjonens datakilder, noe som kan erodere brukertilliten."

Azure AI Studio er en vertsbasert plattform som organisasjoner kan bruke til å bygge tilpassede AI-assistenter, copiloter, roboter, søkeverktøy og andre applikasjoner, basert på sine egne data. Lansert i november 2023, er plattformen vert for Microsofts maskinlæringsmodeller og også modeller fra flere andre kilder, inkludert OpenAI. Meta, Hugging Face og Nvidia. Det lar utviklere raskt integrere multimodale evner og ansvarlige AI-funksjoner i modellene sine.

Andre store aktører som Amazon og Google har hastet ut på markedet med lignende tilbud det siste året for å utnytte den økende interessen for AI-teknologier over hele verden. En fersk IBM-oppdragsstudie fant det 42% av organisasjonene med mer enn 1,000 ansatte bruker allerede AI aktivt på en eller annen måte, og mange av dem planlegger å øke og akselerere investeringene i teknologien i løpet av de neste årene. Og ikke alle fortalte IT på forhånd om AI-bruken deres.

Beskyttelse mot prompt engineering

De fem nye funksjonene som Microsoft har lagt til – eller snart vil legge til – til Azure AI Studio er: Prompt Shields; deteksjon av jordethet; meldinger om sikkerhetssystem; sikkerhetsevalueringer; og risiko- og sikkerhetsovervåking. Funksjonene er designet for å møte noen betydelige utfordringer som forskere har avdekket nylig – og fortsetter å avdekke på rutinebasis – med hensyn til bruk av store språkmodeller og generative AI-verktøy.

Spør Shields for eksempel er Microsofts kompensasjon for det som er kjent som indirekte hurtigangrep og jailbreaks. Funksjonen bygger på eksisterende avgrensninger i Azure AI Studio mot jailbreak-risiko. I umiddelbare ingeniørangrep, bruker motstandere meldinger som virker ufarlige og ikke åpenlyst skadelige for å prøve å styre en AI-modell til å generere skadelige og uønskede svar. Rask konstruksjon er blant de farligste i en voksende klasse av angrep som prøver og jailbreak AI-modeller eller få dem til å oppføre seg på en måte som er inkonsistent med eventuelle filtre og begrensninger som utviklerne kan ha innebygd i dem.  

Forskere har nylig vist hvordan motstandere kan delta i umiddelbare ingeniørangrep for å få generative AI-modeller til søle treningsdataene deres, for å spy ut personlig informasjon, generere feilinformasjon og potensielt skadelig innhold, for eksempel instruksjoner om hvordan du kobler en bil.

Med Prompt Shields kan utviklere integrere funksjoner i modellene sine som hjelper til med å skille mellom gyldige og potensielt upålitelige systeminndata; angi skilletegn for å markere begynnelsen og slutten av inndatatekst, og bruk datamerking for å markere inndatatekster. Prompt Shields er for øyeblikket tilgjengelig i forhåndsvisningsmodus i Azure AI Content Safety og vil bli generelt tilgjengelig snart, ifølge Microsoft.

Begrensninger for modellhallusinasjoner og skadelig innhold

Med deteksjon av jordethet har Microsoft i mellomtiden lagt til en funksjon til Azure AI Studio som den sier kan hjelpe utviklere med å redusere risikoen for at AI-modellene deres "halusinerer". Modellhallusinasjon er en tendens hos AI-modeller til å generere resultater som virker plausible, men som er fullstendig oppfunnet og ikke basert på treningsdataene. LLM-hallusinasjoner kan være enormt problematiske hvis en organisasjon skulle ta resultatet som fakta og handle ut fra det på en eller annen måte. I et programvareutviklingsmiljø kan for eksempel LLM-hallusinasjoner føre til at utviklere potensielt introduserer sårbar kode i applikasjonene sine.

Azure AI Studio er nytt jordingsdeteksjon kapasitet handler i bunn og grunn om å hjelpe med å oppdage – mer pålitelig og i større skala – potensielt ujordede generative AI-utganger. Målet er å gi utviklere en måte å teste sine AI-modeller mot det Microsoft kaller jordethetsmålinger, før de distribuerer modellen til produktet. Funksjonen fremhever også potensielt ugrunnede utsagn i LLM-utganger, slik at brukere vet å faktasjekke utdataene før de bruker det. Deteksjon av jordethet er ikke tilgjengelig ennå, men skal være tilgjengelig i nær fremtid, ifølge Microsoft.

Den nye systemmeldingsrammeverk tilbyr en måte for utviklere å klart definere modellens evner, dens profil og begrensninger i deres spesifikke miljø. Utviklere kan bruke muligheten til å definere formatet på utdataene og gi eksempler på tiltenkt oppførsel, slik at det blir lettere for brukere å oppdage avvik fra tiltenkt oppførsel. Det er en annen ny funksjon som ikke er tilgjengelig ennå, men som bør være snart.

Azure AI Studio er nylig annonsert sikkerhetsvurderinger kapasitet og dens risiko- og sikkerhetsovervåking funksjoner er begge tilgjengelige i forhåndsvisningsstatus. Organisasjoner kan bruke førstnevnte til å vurdere sårbarheten til deres LLM-modell for jailbreak-angrep og generering av uventet innhold. Risiko- og sikkerhetsovervåkingsevnen lar utviklere oppdage modellinndata som er problematiske og sannsynligvis vil utløse hallusinert eller uventet innhold, slik at de kan implementere avbøtende tiltak mot det.

"Generativ AI kan være en kraftmultiplikator for hver avdeling, bedrift og industri," sa Bird fra Microsoft. "Samtidig introduserer grunnmodeller nye utfordringer for sikkerhet og sikkerhet som krever nye avbøtende tiltak og kontinuerlig læring."

Tidstempel:

Mer fra Mørk lesning