Bedste praksis for implementering af sprogmodeller

Genudgivet af Platon

Abonnenter: 0

Bedste praksis for implementering af sprogmodeller

Cohere, OpenAI og AI21 Labs har udviklet et foreløbigt sæt af bedste praksis, der gælder for enhver organisation, der udvikler eller implementerer store sprogmodeller. Computere, der kan læse og skrive, er her, og de har potentialet til grundlæggende at påvirke dagligdagen. Fremtiden for menneske-maskine-interaktion er fuld af muligheder og løfter, men enhver kraftfuld teknologi kræver omhyggelig implementering.

Den fælles erklæring nedenfor repræsenterer et skridt i retning af at opbygge et fællesskab for at løse de globale udfordringer, som AI-fremskridt giver, og vi opfordrer andre organisationer, der gerne vil deltage, til at tage kontakt.

Fælles anbefaling for udrulning af sprogmodel

Vi anbefaler flere nøgleprincipper for at hjælpe udbydere af store sprogmodeller (LLM'er) med at mindske risiciene ved denne teknologi for at opnå dens fulde løfte om at øge menneskelige evner.

Selvom disse principper blev udviklet specifikt baseret på vores erfaring med at levere LLM'er gennem en API, håber vi, at de vil være nyttige uanset udgivelsesstrategi (såsom open-sourcing eller brug i en virksomhed). Vi forventer, at disse anbefalinger vil ændre sig væsentligt over tid, fordi de kommercielle anvendelser af LLM'er og medfølgende sikkerhedsovervejelser er nye og under udvikling. Vi lærer aktivt om og adresserer LLM-begrænsninger og muligheder for misbrug, og vi vil opdatere disse principper og praksis i samarbejde med det bredere samfund over tid.

Vi deler disse principper i håb om, at andre LLM-udbydere kan lære af og adoptere dem, og for at fremme offentlig diskussion om LLM-udvikling og -implementering.

Forbyd misbrug

Udgiv retningslinjer for brug og brugsbetingelser af LLM'er på en måde, der forbyder materiel skade på enkeltpersoner, samfund og samfund, såsom gennem spam, bedrageri eller astroturfing. Retningslinjer for brug bør også specificere domæner, hvor LLM-brug kræver ekstra undersøgelse og forbyde højrisikobrugstilfælde, som ikke er passende, såsom klassificering af personer baseret på beskyttede egenskaber.

Byg systemer og infrastruktur for at håndhæve retningslinjer for brug. Dette kan omfatte hastighedsgrænser, indholdsfiltrering, applikationsgodkendelse før produktionsadgang, overvågning for unormal aktivitet og andre begrænsninger.

Afbød utilsigtet skade

Afbød proaktivt skadelig modeladfærd. Bedste praksis omfatter omfattende modelevaluering for korrekt at vurdere begrænsninger, minimering af potentielle kilder til skævhed i træningskorpora og teknikker til at minimere usikker adfærd, såsom gennem at lære af menneskelig feedback.

Dokumenter kendte svagheder og sårbarheder, såsom bias eller evnen til at producere usikker kode, da i nogle tilfælde ingen grad af forebyggende handling helt kan eliminere potentialet for utilsigtet skade. Dokumentation bør også omfatte model- og use-case-specifikke bedste praksis for sikkerhed.

Gennemtænksomt samarbejde med interessenter

Byg teams med forskellig baggrund og anmode om brede input. Forskellige perspektiver er nødvendige for at karakterisere og adressere, hvordan sprogmodeller vil fungere i mangfoldigheden af den virkelige verden, hvor de, hvis de ikke kontrolleres, kan forstærke skævheder eller ikke fungere for nogle grupper.

Offentliggør erfaringer fra LLM-sikkerhed og misbrug for at muliggøre udbredt adoption og hjælp til tværfaglig iteration af bedste praksis.

Behandl al arbejdskraft i sprogmodellens forsyningskæde med respekt. For eksempel bør udbydere have høje standarder for arbejdsforholdene for dem, der gennemgår modeloutput internt, og holde leverandørerne til velspecificerede standarder (f.eks. sikre etiketteringsvirksomheder er i stand til at fravælge en given opgave).

Som LLM-udbydere repræsenterer udgivelsen af disse principper et første skridt i samarbejdet med at vejlede sikrere udvikling og implementering af store sprogmodeller. Vi er glade for at fortsætte samarbejdet med hinanden og med andre parter for at identificere andre muligheder for at reducere utilsigtede skader fra og forhindre ondsindet brug af sprogmodeller.

Download som PDF

Støtte fra andre organisationer

"Selvom LLM'er lover meget, har de betydelige iboende sikkerhedsproblemer, som der skal arbejdes med. Disse bedste praksisser tjener som et vigtigt skridt til at minimere skaderne ved disse modeller og maksimere deres potentielle fordele."

– Antropisk

"I takt med at store sprogmodeller (LLM'er) er blevet stadig mere kraftfulde og udtryksfulde, bliver risikoreduktion stadig vigtigere. Vi glæder os over disse og andre bestræbelser på proaktivt at søge at afbøde skader og fremhæve områder for brugere, der kræver ekstra omhu. De her skitserede principper er et vigtigt bidrag til den globale samtale."

—John Bansemer, direktør for CyberAI Project og Senior Fellow, Center for Security and Emerging Technology (CSET)

"Google bekræfter vigtigheden af omfattende strategier til at analysere model- og træningsdata for at mindske risikoen for skade, skævhed og urigtige fremstillinger. Det er et tankevækkende skridt taget af disse AI-udbydere for at fremme principperne og dokumentationen for AI-sikkerhed."

—Google Cloud Platform (GCP)

”Sikkerheden ved funderingsmodeller, såsom store sprogmodeller, er en voksende social bekymring. Vi roser Cohere, OpenAI og AI21 Labs for at tage et første skridt til at skitsere principper på højt niveau for ansvarlig udvikling og implementering fra modeludvikleres perspektiv. Der er stadig meget arbejde at gøre, og vi mener, at det er vigtigt at engagere flere stemmer fra den akademiske verden, industrien og civilsamfundet til at udvikle mere detaljerede principper og samfundsnormer. Som vi anfører i vores seneste blogindlæg, det er ikke kun slutresultatet, men legitimiteten af processen, der betyder noget."

—Percy Liang, direktør for Stanford Center for Research on Foundation Models (CRFM)

Bliv involveret

Hvis du udvikler sprogmodeller eller arbejder på at mindske deres risici, vil vi meget gerne tale med dig. Kontakt venligst kl bestpractices@openai.com.

Tidsstempel: 2. Juni, 2022