Meta AI-modeller åpnet med eksponerte API-tokens

Meta AI-modeller åpnet med eksponerte API-tokens

Meta AI-modeller åpnet med eksponerte API-tokens PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Forskere var nylig i stand til å få full lese- og skrivetilgang til Metas Bloom-, Meta-Llama- og Pythia-lagre for store språkmodeller (LLM), i en urovekkende demonstrasjon av forsyningskjederisikoen for organisasjoner som bruker disse depotene til å integrere LLM-funksjoner i applikasjonene deres. og operasjoner.

Tilgangen ville ha tillatt en motstander å stille forgiftning av treningsdata i disse mye brukte LLM-ene, stjele modeller og datasett, og potensielt utføre andre ondsinnede aktiviteter som ville øke sikkerhetsrisikoen for millioner av nedstrømsbrukere.

Eksponerte tokens på klemende ansikt

Det er ifølge forskere ved AI-sikkerhetsoppstarten Lasso Security, som fikk tilgang til de Meta-eide modelllagrene ved å bruke usikrede API-tilgangstokener de oppdaget på GitHub og Hugging Face plattform for LLM-utviklere.

Tokenene de oppdaget for Meta-plattformene var blant over 1,500 lignende tokens de fant på Hugging Face og GitHub som ga dem ulik grad av tilgang til depoter som tilhører totalt 722 andre organisasjoner. Blant dem var Google, Microsoft og VMware.

"Organisasjoner og utviklere bør forstå at Hugging Face og andre likeledes plattformer ikke fungerer [for å sikre] brukernes eksponerte tokens," sier Bar Lanyado, en sikkerhetsforsker ved Lasso. Det er opp til utviklere og andre brukere av disse plattformene å ta de nødvendige grepene for å beskytte tilgangen deres, sier han.

"Opplæring er nødvendig mens du arbeider og integrerer generative AI- og LLM-baserte verktøy generelt," bemerker han. "Denne forskningen er en del av vår tilnærming til å kaste lys over denne typen svakheter og sårbarheter, for å styrke sikkerheten til denne typen problemer."

Hugging Face er en plattform som mange LLM-fagfolk bruker som kilde for verktøy og andre ressurser for LLM-prosjekter. Selskapets hovedtilbud inkluderer Transformers, et åpen kildekode-bibliotek som tilbyr APIer og verktøy for nedlasting og tuning forhåndstrente modeller. Selskapet er vertskap – på GitHub-lignende måte – mer enn 500,000 250,000 AI-modeller og XNUMX XNUMX datasett, inkludert de fra Meta, Google, Microsoft og VMware. Den lar brukere legge ut sine egne modeller og datasett til plattformen og få tilgang til dem fra andre gratis via en Hugging Face API. Selskapet har så langt samlet inn rundt 235 millioner dollar fra investorer som inkluderer Google og Nvidia.

Gitt plattformens brede bruk og økende popularitet, bestemte forskere ved Lasso seg for å se nærmere på registeret og dets sikkerhetsmekanismer. Som en del av øvelsen prøvde forskerne i november 2023 å se om de kunne finne eksponerte API-tokens som de kunne bruke for å få tilgang til datasett og modeller på Hugging Face. De skannet etter eksponerte API-tokens på GitHub og på Hugging Face. I utgangspunktet ga skanningene bare et svært begrenset antall resultater, spesielt på Hugging Face. Men med en liten justering av skanneprosessen, lyktes forskerne med å finne et relativt stort antall eksponerte tokens, sier Lanyado.

Overraskende enkelt å finne synlige tokens

"Når jeg gikk inn i denne forskningen, trodde jeg at vi ville være i stand til å finne en stor mengde eksponerte tokens," sier Lanyado. "Men jeg var fortsatt veldig overrasket over funnene, så vel som enkelheten [med] som vi var i stand til å få tilgang til disse tokens."

Lasso-forskere var i stand til å få tilgang til tokens som tilhører flere toppteknologiselskaper - inkludert de med et høyt sikkerhetsnivå - og få full kontroll over noen av dem, sier Lanyado.

Lasso-sikkerhetsforskere fant totalt 1,976 tokens på både GitHub og Hugging Face, hvorav 1,681 viste seg å være gyldige og brukbare. Av dette var 1,326 på GitHub og 370 på Hugging Face. Så mange som 655 av symbolene som Lasso oppdaget hadde skrivetillatelser på Hugging Face. Forskerne fant også tokens som ga dem full tilgang til 77 organisasjoner som bruker Meta-Lama, Pythia og Bloom. "Hvis en angriper hadde fått tilgang til disse API-tokenene, kunne de stjele selskapers modeller som i noen tilfeller er hovedvirksomheten deres," sier Lanyado. En angriper med skriverettigheter kan erstatte de eksisterende modellene med ondsinnede modeller eller lage en helt ny ondsinnet modell i deres navn. Slike handlinger ville ha tillatt en angriper å få fotfeste på alle systemer som bruker de kompromitterte modellene, eller stjele brukerdata og/eller spre manipulert informasjon, bemerker han.

I følge Lanyado fant Lasso-forskere flere tokens knyttet til Meta, hvorav en hadde skrivetillatelser til Meta Llama, og to hver med skrivetillatelser til Pythia og Bloom. API-tokenene knyttet til Microsoft og VMware hadde bare leserettigheter, men de tillot Lasso-forskere å se alle deres private datasett og modeller, sier han.

Lasso avslørte funnene sine til alle berørte brukere og organisasjoner med en anbefaling om å tilbakekalle deres eksponerte tokens og slette dem fra deres respektive depoter. Sikkerhetsleverandøren varslet også Hugging Face om problemet.

"Mange av organisasjonene (Meta, Google, Microsoft, VMware og flere) og brukere tok veldig raske og ansvarlige handlinger," ifølge Lassos rapport. "De tilbakekalte tokenene og fjernet den offentlige tilgangstokenkoden samme dag som rapporten ble rapportert."

Tidstempel:

Mer fra Mørk lesning