Vi lanserar en klassificerare som är utbildad för att skilja mellan AI-skriven och mänsklig skriven text.
Vi har utbildat en klassificerare för att skilja mellan text skriven av en människa och text skriven av AI:er från en mängd olika leverantörer. Även om det är omöjligt att på ett tillförlitligt sätt upptäcka all AI-skriven text, tror vi att bra klassificerare kan informera om begränsningar för falska påståenden om att AI-genererad text skrevs av en människa: till exempel körning automatiserade desinformationskampanjer, använda AI-verktyg för akademisk oärlighet och positionera en AI-chattbot som en människa.
Vår klassificerare är inte helt tillförlitlig. I våra utvärderingar av en "utmaningsuppsättning" av engelska texter identifierar vår klassificerare korrekt 26 % av AI-skriven text (true positives) som "sannolikt AI-skriven", medan den felaktigt märkte mänskligt skriven text som AI-skriven 9 % av tiden (falskt positiva). Vår klassificerares tillförlitlighet förbättras vanligtvis när längden på inmatningstexten ökar. Jämfört med vår tidigare släppt klassificerare, är denna nya klassificerare betydligt mer tillförlitlig på text från nyare AI-system.
Vi gör denna klassificerare offentligt tillgänglig för att få feedback om huruvida ofullkomliga verktyg som det här är användbara. Vårt arbete med att detektera AI-genererad text kommer att fortsätta, och vi hoppas kunna dela med oss av förbättrade metoder i framtiden.
Prova vår gratis klassificerare för pågående arbete själv:
Begränsningar
Vår klassificerare har ett antal viktiga begränsningar. Det bör inte användas som ett primärt beslutsfattande verktyg, men istället som ett komplement till andra metoder för att bestämma källan till ett textstycke.
- Klassificeraren är mycket opålitlig på korta texter (under 1,000 XNUMX tecken). Även längre texter är ibland felaktigt märkta av klassificeraren.
- Ibland kommer mänskligt skriven text att vara felaktigt men säkert märkt som AI-skriven av vår klassificerare.
- Vi rekommenderar att du endast använder klassificeraren för engelsk text. Den presterar betydligt sämre på andra språk och den är opålitlig på kod.
- Text som är mycket förutsägbar kan inte identifieras på ett tillförlitligt sätt. Det är till exempel omöjligt att förutsäga om en lista med de första 1,000 XNUMX primtalen skrevs av AI eller människor, eftersom det korrekta svaret alltid är detsamma.
- AI-skriven text kan redigeras för att undvika klassificeraren. Klassificerare som vår kan uppdateras och omskolas baserat på framgångsrika attacker, men det är oklart om detektion har en fördel på lång sikt.
- Klassificerare baserade på neurala nätverk är kända för att vara dåligt kalibrerade utanför deras träningsdata. För indata som skiljer sig mycket från text i vår träningsuppsättning är klassificeraren ibland extremt säker på en felaktig förutsägelse.
Att träna klassificeraren
Vår klassificerare är en språkmodell finjusterad på en datauppsättning av par av mänskligt skriven text och AI-skriven text om samma ämne. Vi samlade in denna datauppsättning från en mängd olika källor som vi tror är skrivna av människor, såsom förträningsdata och mänskliga demonstrationer på uppmaningar som skickats till Instruera GPT. Vi delade upp varje text i en uppmaning och ett svar. På dessa uppmaningar genererade vi svar från en mängd olika språkmodeller som utbildats av oss och andra organisationer. För vår webbapp justerar vi konfidensgränsen för att hålla den falska positiva frekvensen låg; med andra ord, vi markerar bara text som sannolikt AI-skriven om klassificeraren är mycket säker.
Påverka pedagoger och efterlysa input
Vi inser att identifiering av AI-skriven text har varit en viktig diskussionspunkt bland lärare, och lika viktigt är att inse gränserna och effekterna av AI-genererade textklassificerare i klassrummet. Vi har utvecklat en preliminär resurs om användningen av ChatGPT för lärare, som beskriver några av användningarna och tillhörande begränsningar och överväganden. Även om den här resursen är inriktad på utbildare, förväntar vi oss att våra klassificerare och tillhörande klassificeringsverktyg ska ha en inverkan på journalister, forskare som är felaktiga/dessinforma och andra grupper.
Vi samarbetar med lärare i USA för att lära sig vad de ser i sina klassrum och för att diskutera ChatGPT:s möjligheter och begränsningar, och vi kommer att fortsätta att bredda vår räckvidd när vi lär oss. Dessa är viktiga samtal att ha som en del av vårt uppdrag är att distribuera stora språkmodeller säkert, i direkt kontakt med drabbade samhällen.
Om du påverkas direkt av dessa problem (inklusive men inte begränsat till lärare, administratörer, föräldrar, elever och utbildningsleverantörer), vänligen ge oss feedback med hjälp av denna form. Direkt feedback på preliminär resurs är till hjälp, och vi välkomnar också alla resurser som lärare utvecklar eller har funnit användbara (t.ex. kursriktlinjer, hederskod och policyuppdateringar, interaktiva verktyg, AI-läskunnighetsprogram).
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text/
- 000
- 1
- 26%
- 7
- a
- akademiska
- administratörer
- Fördel
- AI
- AI chatbot
- Alla
- alltid
- bland
- och
- svara
- app
- associerad
- Attacker
- tillgänglig
- baserat
- därför att
- tro
- nedan
- mellan
- bredda
- Ring
- kan inte
- kapacitet
- tecken
- chatbot
- ChatGPT
- hävdar
- koda
- samhällen
- jämfört
- Komplement
- förtroende
- säker
- självsäkert
- överväganden
- kontakta
- fortsätta
- konversationer
- Kurs
- datum
- Beslutsfattande
- distribuera
- Detektering
- bestämmande
- utvecklade
- utveckla
- olika
- rikta
- direkt
- diskutera
- diskussion
- skilja på
- dividerat
- varje
- Utbildning
- lärare
- engagerande
- Engelska
- lika
- utvärderingar
- Även
- exempel
- förvänta
- extremt
- återkoppling
- Förnamn
- fokuserade
- hittade
- Fri
- från
- fullständigt
- framtida
- genereras
- skaffa sig
- god
- Gruppens
- riktlinjer
- hjälp
- hoppas
- HTTPS
- humant
- Människa
- identifierade
- identifierar
- identifiera
- Inverkan
- påverkade
- Konsekvenser
- med Esport
- omöjligt
- förbättras
- in
- I andra
- Inklusive
- felaktigt
- Ökar
- ingång
- istället
- interaktiva
- problem
- IT
- journalister
- Ha kvar
- känd
- märkning
- språk
- Språk
- Large
- lansera
- LÄRA SIG
- Längd
- sannolikt
- begränsningar
- Begränsad
- gränser
- Lista
- läskunnighet
- lång sikt
- längre
- Låg
- Framställning
- markera
- metoder
- desinformation
- Mission
- modell
- modeller
- mer
- nätverk
- neurala nätverk
- Nya
- antal
- nummer
- ONE
- OpenAI
- organisationer
- Övriga
- konturer
- uppsökande
- utanför
- par
- föräldrar
- del
- utför
- bit
- plato
- Platon Data Intelligence
- PlatonData
- snälla du
- Punkt
- policy
- positionering
- positiv
- förutse
- Förutsägbar
- förutsägelse
- primär
- Prime
- Program
- ge
- leverantörer
- publicly
- Betygsätta
- senaste
- känner igen
- rekommenderar
- frigörs
- tillförlitlighet
- pålitlig
- forskare
- resurs
- Resurser
- respons
- rinnande
- på ett säkert sätt
- Samma
- se
- service
- tjänsteleverantörer
- in
- Dela
- Kort
- skall
- signifikant
- några
- Källa
- Källor
- Studenter
- lämnats
- framgångsrik
- sådana
- System
- lärare
- Smakämnen
- källan
- deras
- tröskelvärde
- till
- verktyg
- ämne
- tränad
- Utbildning
- sann
- typiskt
- uppdaterad
- Uppdateringar
- us
- användning
- mängd
- webb
- välkommen
- Vad
- om
- som
- medan
- kommer
- ord
- Arbete
- skriven
- Fel
- själv
- zephyrnet