AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services

AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services

Videopeliteollisuudella on arvioitu yli 3 miljardin käyttäjäkunnan maailmanlaajuisesti1. Se koostuu valtavista määristä pelaajia, jotka ovat käytännössä vuorovaikutuksessa toistensa kanssa joka ikinen päivä. Valitettavasti, kuten todellisessa maailmassa, kaikki pelaajat eivät kommunikoi asianmukaisesti ja kunnioittavasti. Pyrkiessään luomaan ja ylläpitämään sosiaalisesti vastuullista peliympäristöä AWS Professional Services -palvelua pyydettiin rakentamaan mekanismi, joka havaitsee sopimattoman kielen (myrkyllisen puheen) online-pelaajien vuorovaikutuksessa. Liiketoiminnan kokonaistuloksena oli parantaa organisaation toimintaa automatisoimalla olemassa oleva manuaalinen prosessi ja parantaa käyttökokemusta lisäämällä nopeutta ja laatua pelaajien välisten sopimattomien vuorovaikutusten havaitsemisessa, mikä lopulta edistää puhtaampaa ja terveellisempää peliympäristöä.

Asiakkaan pyyntö oli luoda englanninkielinen ilmaisin, joka luokittelee ääni- ja tekstiotteita omiin mukautettujen myrkyllisten kielten luokkiin. He halusivat ensin määrittää, onko annettu kielenote myrkyllinen, ja sitten luokitella otteen tiettyyn asiakkaan määrittelemään myrkyllisyysluokkaan, kuten kiroukseen tai loukkaavaan kielenkäyttöön.

AWS ProServe ratkaisi tämän käyttötapauksen Generative AI Innovation Centerin (GAIIC) ja ProServe ML Delivery Teamin (MLDT) yhteisellä ponnistelulla. AWS GAIIC on AWS ProServen ryhmä, joka yhdistää asiakkaat ja asiantuntijat kehittämään generatiivisia tekoälyratkaisuja monenlaisiin yrityskäyttötapauksiin käyttämällä proof of concept (PoC) -rakenteita. AWS ProServe MLDT vie sitten PoC:n tuotannon läpi skaalaamalla, karkaisemalla ja integroimalla ratkaisun asiakkaalle.

Tämä asiakaskäyttötapaus esitellään kahdessa erillisessä postauksessa. Tämä viesti (osa 1) on syvällinen sukellus tieteelliseen metodologiaan. Siinä selitetään ratkaisun takana oleva ajatusprosessi ja kokeilu, mukaan lukien mallin koulutus- ja kehitysprosessi. Osassa 2 perehdytään tuotantoratkaisuun, selitetään suunnittelupäätökset, tiedonkulku sekä mallin koulutus- ja käyttöönottoarkkitehtuurin havainnollistaminen.

Tämä viesti käsittelee seuraavia aiheita:

  • Haasteet, jotka AWS ProServe joutui ratkaisemaan tässä käyttötapauksessa
  • Historiallinen konteksti suurista kielimalleista (LLM) ja siitä, miksi tämä tekniikka sopii täydellisesti tähän käyttötapaukseen
  • AWS GAIIC:n PoC ja AWS ProServe MLDT:n ratkaisu datatieteen ja koneoppimisen (ML) näkökulmasta

Datan haaste

Suurin haaste, jonka AWS ProServe kohtasi myrkyllisen kielen luokittelijan koulutuksessa, oli saada asiakkaalta tarpeeksi merkittyjä tietoja, jotta tarkka malli voidaan opettaa tyhjästä. AWS sai noin 100 näytettä merkittyä dataa asiakkaalta, mikä on paljon vähemmän kuin 1,000 XNUMX näytettä, jota suositellaan LLM:n hienosäätöön datatiedeyhteisössä.

Luontaisena lisähaasteena luonnollisen kielen käsittelyn (NLP) luokittimien on historian tiedetty olevan erittäin kalliita kouluttaa ja vaativat suuren joukon sanastoa, joka tunnetaan nimellä corpus, tuottaa tarkkoja ennusteita. Tiukka ja tehokas NLP-ratkaisu, jos tarjotaan riittävä määrä merkittyä dataa, olisi kouluttaa mukautettu kielimalli käyttämällä asiakkaan merkittyjä tietoja. Mallia opetettaisiin pelkästään pelaajien pelisanastolla, jolloin se räätälöidään peleissä havaittuun kieleen. Asiakkaalla oli sekä kustannus- että aikarajoitteita, jotka tekivät tästä ratkaisusta kannattamattoman. AWS ProServe joutui löytämään ratkaisun tarkan kielen myrkyllisyysluokittajan kouluttamiseen suhteellisen pienellä merkityllä tietojoukolla. Ratkaisu löytyi ns siirrä oppimista.

Siirto-oppimisen ideana on käyttää valmiiksi koulutetun mallin tietoa ja soveltaa sitä erilaiseen, mutta suhteellisen samanlaiseen ongelmaan. Jos esimerkiksi kuvan luokittelija on koulutettu ennustamaan, sisältääkö kuva kissan, voit käyttää mallin koulutuksen aikana hankkimaa tietoa muiden eläinten, kuten tiikerien, tunnistamiseen. Tätä kielenkäyttötapausta varten AWS ProServen oli löydettävä aiemmin koulutettu kielten luokitin, joka oli koulutettu tunnistamaan myrkyllinen kieli ja hienosäätämään sitä asiakkaan merkittyjen tietojen avulla.

Ratkaisu oli löytää ja hienosäätää LLM myrkyllisen kielen luokittelua varten. LLM:t ovat hermoverkkoja, joita on koulutettu käyttämällä valtavaa määrää parametreja, tyypillisesti miljardeja, käyttämällä merkitsemätöntä dataa. Ennen kuin siirryt AWS-ratkaisuun, seuraavassa osiossa on yleiskatsaus LLM:ien historiaan ja niiden historiallisiin käyttötapauksiin.

Hyödynnä LLM:ien voimaa

LLM:t ovat äskettäin tulleet keskipisteeksi yrityksille, jotka etsivät uusia ML-sovelluksia, siitä lähtien, kun ChatGPT valloitti julkisen mielen jakamisen olemalla historian nopeimmin kasvava kuluttajasovellus.2, saavuttaa 100 miljoonaa aktiivista käyttäjää tammikuussa 2023, vain 2 kuukautta sen julkaisun jälkeen. LLM:t eivät kuitenkaan ole uusi teknologia ML-avaruudessa. Niitä on käytetty laajasti NLP-tehtävien suorittamiseen, kuten tunteiden analysointiin, tiivistelmien tekemiseen, avainsanojen poimimiseen, puheen kääntämiseen ja tekstin luokitteluun.

Tekstin peräkkäisyyden vuoksi toistuvat neuroverkot (RNN:t) olivat olleet NLP-mallinnuksen huippua. Tarkemmin sanottuna kooderi-dekooderi verkkoarkkitehtuuri muotoiltiin, koska se loi RNN-rakenteen, joka pystyy ottamaan mielivaltaisen pituisen syötteen ja generoimaan mielivaltaisen pituisen lähdön. Tämä oli ihanteellinen NLP-tehtäviin, kuten kääntämiseen, jossa yhden kielen tuloslause voitiin ennustaa toisen kielen syöttölauseesta, tyypillisesti eri sanamäärällä syötteen ja tulosteen välillä. Transformer-arkkitehtuuri3 (Vaswani, 2017) oli läpimurto parannus enkooderi-dekooderiin; se esitteli käsitteen itse huomiota, jonka ansiosta malli pystyi keskittämään huomionsa eri sanoihin syöttö- ja lähtölauseissa. Tyypillisessä kooderi-dekooderissa malli tulkitsee jokaisen sanan samalla tavalla. Koska malli prosessoi peräkkäin syöttölauseen jokaisen sanan, alussa oleva semanttinen tieto saattaa kadota lauseen loppuun mennessä. Itsehuomiomekanismi muutti tämän lisäämällä huomiokerroksen sekä enkooderi- että dekooderilohkoon, jotta malli saattoi asettaa eri painotuksia syöttölauseesta tietyille sanoille generoidessaan tiettyä sanaa tuloslausekkeessa. Näin syntyi muuntajamallin perusta.

Muuntaja-arkkitehtuuri oli perusta kahdelle tunnetuimmasta ja suosituimmasta LLM:stä, joita käytetään nykyään, Transformersin bidirectional Encoder Representations (BERT) -muodossa.4 (Radford, 2018) ja Generative Pretraained Transformer (GPT)5 (Devlin 2018). GPT-mallin myöhemmät versiot, nimittäin GPT3 ja GPT4, ovat moottori, joka käyttää ChatGPT-sovellusta. Viimeinen osa reseptiä, joka tekee LLM:istä niin tehokkaita, on kyky tislata tietoa laajoista tekstikappaleista ilman laajaa etiketöintiä tai esikäsittelyä ULMFit-nimisen prosessin avulla. Tässä menetelmässä on esikoulutusvaihe, jossa voidaan kerätä yleistä tekstiä ja mallia koulutetaan tehtävään ennustaa seuraava sana aiempien sanojen perusteella; etuna tässä on se, että kaikki koulutukseen käytettävä teksti tulee luonnostaan ​​esimerkittynä tekstin järjestyksen perusteella. LLM:t pystyvät todella oppimaan Internetin mittakaavan datasta. Esimerkiksi alkuperäinen BERT-malli oli esikoulutettu BookCorpuksessa ja kokonaisissa englanninkielisissä Wikipedian tekstiaineistoissa.

Tämä uusi mallinnusparadigma on synnyttänyt kaksi uutta käsitettä: perusmallit (FM) ja generatiivinen tekoäly. Toisin kuin mallin opettaminen tyhjästä tehtäväkohtaisilla tiedoilla, mikä on tavanomainen tapaus klassisessa ohjatussa oppimisessa, LLM:t on esikoulutettu poimimaan yleistietoa laajasta tekstitietojoukosta ennen kuin niitä mukautetaan tiettyihin tehtäviin tai alueisiin, joilla on paljon pienempi. tietojoukko (tyypillisesti satojen näytteiden luokkaa). Uusi ML-työnkulku alkaa nyt esikoulutetulla mallilla, jota kutsutaan perusmalliksi. On tärkeää rakentaa oikealle perustalle, ja vaihtoehtoja, kuten uusia, on yhä enemmän Amazon Titan FM:t, jonka AWS julkaisee osana Amazonin kallioperä. Näitä uusia malleja pidetään myös generatiivisina, koska niiden tuotokset ovat ihmisen tulkittavissa ja samassa tietotyypissä kuin syöttödata. Vaikka aiemmat ML-mallit olivat kuvailevia, kuten kissojen ja koirien kuvien luokittelu, LLM:t ovat generatiivisia, koska niiden tulos on seuraava syöttösanoihin perustuva sanajoukko. Sen avulla he voivat käyttää interaktiivisia sovelluksia, kuten ChatGPT:tä, jotka voivat olla ilmeikkäitä luomassaan sisällössä.

Hugging Face on tehnyt yhteistyötä AWS:n kanssa demokratisoida FM-lähetyksiä ja tehdä niistä helppo pääsy ja niiden avulla rakentaa. Hugging Face on luonut a Transformers API joka yhdistää yli 50 erilaista muuntaja-arkkitehtuuria erilaisissa ML-kehyksissä, mukaan lukien pääsy valmiiksi koulutettuihin mallipainoihin. Malli Hub, joka on kasvanut yli 200,000 XNUMX malliksi tämän viestin kirjoittamisen jälkeen. Seuraavissa osioissa perehdymme konseptin todisteeseen, ratkaisuun sekä testatuihin ja pohjaksi valittuihin FM:ihin tämän myrkyllisen puheluokituksen käyttötapauksen ratkaisemiseksi asiakkaalle.

AWS GAIIC todiste konseptista

AWS GAIIC päätti kokeilla LLM-perustusmalleja BERT-arkkitehtuurilla hienosäätääkseen myrkyllistä kielen luokittelijaa. Hugging Facen mallikeskuksesta testattiin yhteensä kolme mallia:

Kaikki kolme malliarkkitehtuuria perustuvat BERTweet arkkitehtuuri. BERTweet on koulutettu perustuen Roberta koulutusta edeltävä menettely. RoBERTa-esikoulutusmenettely on tulos BERT-esikoulutuksen replikaatiotutkimuksesta, jossa arvioitiin hyperparametrien virityksen ja harjoitussarjan koon vaikutukset BERT-mallien koulutusreseptin parantamiseksi.6 (Liu 2019). Kokeessa pyrittiin löytämään esikoulutusmenetelmä, joka paransi BERT:n suorituskykyä muuttamatta taustalla olevaa arkkitehtuuria. Tutkimuksen päätelmissä todettiin, että seuraavat koulutusta edeltävät muutokset paransivat merkittävästi BERT:n suorituskykyä:

  • Mallin kouluttaminen suuremmilla erillä enemmän dataa varten
  • Poistetaan seuraavan lauseen ennakointiobjekti
  • Harjoittelu pidemmillä sarjoilla
  • Muuttaa dynaamisesti harjoitustietoihin sovellettavaa peittokuviota

Bertweet-perusmalli käyttää edellistä RoBERTa-tutkimuksen esikoulutusmenettelyä alkuperäisen BERT-arkkitehtuurin esiopettamiseen käyttämällä 850 miljoonaa englanninkielistä twiittiä. Se on ensimmäinen julkinen laajamittainen kielimalli, joka on esikoulutettu englanninkielisiä twiittejä varten.

Tweettejä käyttävien valmiiksi koulutettujen FM-laitteiden uskottiin sopivan käyttötapaukseen kahdesta pääasiallisesta teoreettisesta syystä:

  • Tweetin pituus on hyvin samanlainen kuin nettipelikeskusteluista löytyvän sopimattoman tai myrkyllisen lauseen pituus
  • Tweetit tulevat väestöstä, jolla on suuri määrä erilaisia ​​käyttäjiä, samanlainen kuin pelialustojen väestö

AWS päätti ensin hienosäätää BERTweetin asiakkaan merkityillä tiedoilla saadakseen lähtötilanteen. Sitten päätti hienosäätää kahta muuta FM-ääntä bertweet-base-offensive- ja bert-weet-base-hate-sovelluksissa, jotka oli edelleen esikoulutettu erityisesti merkityksellisemmille myrkyllisille twiiteille, jotta saavutettaisiin mahdollisesti suurempi tarkkuus. Bertweet-base-hyökkäysmalli käyttää perus BertTweet FM:ää ja on edelleen esikoulutettu 14,100 XNUMX huomautuksilla varustetulle twiitille, joita pidettiin loukkaavina.7 (Zampieri 2019). Bertweet-base-hate -malli käyttää myös BertTweet FM -perusmallia, mutta se on edelleen esikoulutettu 19,600 XNUMX vihapuheena pidetyssä twiitissä.8 (Basilia 2019).

Parantaakseen edelleen PoC-mallin suorituskykyä AWS GAIIC teki kaksi suunnittelupäätöstä:

  • Luotiin kaksivaiheinen ennustevirta, jossa ensimmäinen malli toimii binääriluokittajana, joka luokittelee, onko teksti myrkyllinen vai myrkytön. Toinen malli on hienorakeinen malli, joka luokittelee tekstin asiakkaan määrittämien myrkyllisten tyyppien perusteella. Vain jos ensimmäinen malli ennustaa tekstin myrkyllisenä, se siirtyy toiseen malliin.
  • Laajensi harjoitustietoja ja lisäsi osajoukon kolmannen osapuolen leimaamaa myrkyllistä tekstiä julkisesta Kaggle-kilpailusta (Jigsaw Myrkyllisyys) asiakkaalta saatuihin alkuperäisiin 100 näytteeseen. He kartoittivat Jigsaw-tarrat niihin liittyviin asiakkaan määrittämiin myrkyllisyystarroihin ja tekivät 80 %:n jaon harjoitustietona ja 20 %:n jaon testitiedona mallin validoimiseksi.

AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

AWS GAIIC käytetty Amazon Sage Maker muistikirjat suorittamaan hienosäätökokeilunsa ja havaitsivat, että bertweet-base-hyökkäysmalli saavutti validointijoukon parhaat pisteet. Seuraavassa taulukossa on yhteenveto havaituista mittauspisteistä.

Malli Tarkkuus Palauttaa mieleen F1 AUC
Binaarinen .92 .90 .91 .92
Hienojakoinen .81 .80 .81 .89

Tästä hetkestä lähtien GAIIC luovutti PoC:n AWS ProServe ML Delivery Teamille PoC:n tuotantoa varten.

AWS ProServe ML Delivery Team -ratkaisu

Malliarkkitehtuurin tuotantoa varten asiakas pyysi AWS ProServe ML Delivery Teamiä (MLDT) luomaan ratkaisun, joka on skaalautuva ja helppo ylläpitää. Kaksivaiheisessa mallissa oli muutamia ylläpitohaasteita:

  • Mallit vaatisivat kaksinkertaisen määrän malliseurantaa, mikä tekee uudelleenkoulutuksen ajoituksesta epäjohdonmukaista. Joskus yksi malli on ehkä koulutettava uudelleen useammin kuin toinen.
  • Kahden mallin käyttökustannukset kasvavat yhden sijaan.
  • Päättelyn nopeus hidastuu, koska päättely kulkee kahden mallin läpi.

Vastatakseen näihin haasteisiin AWS ProServe MLDT:n täytyi keksiä, kuinka kaksivaiheinen malliarkkitehtuuri muutetaan yhden mallin arkkitehtuuriksi, samalla kun pystyttiin säilyttämään kaksivaiheisen arkkitehtuurin tarkkuus.

Ratkaisu oli kysyä ensin asiakkaalta lisää harjoitustietoja ja sitten hienosäätää bertweet-base-offensive -malli kaikissa tarroissa, mukaan lukien myrkyttömät näytteet, yhdeksi malliksi. Ajatuksena oli, että yhden mallin hienosäätäminen, jossa on enemmän dataa, johtaisi samanlaisiin tuloksiin kuin kaksivaiheisen malliarkkitehtuurin hienosäätö pienemmällä datamäärällä. Kaksivaiheisen malliarkkitehtuurin hienosäätämiseksi AWS ProServe MLDT päivitti esikoulutetun mallin usean etiketin luokituspään sisältämään yhden ylimääräisen solmun, joka edustaa myrkytöntä luokkaa.

Seuraavassa on esimerkkikoodi siitä, kuinka voit hienosäätää esikoulutetun mallin Hugging Face -mallikeskittimestä käyttämällä muuntajaalustaa ja muuttamalla mallin usean etiketin luokituspäätä ennustamaan halutun luokkamäärän. AWS ProServe MLDT käytti tätä suunnitelmaa perustana hienosäädölle. Se olettaa, että junatiedot ja validointitiedot ovat valmiina ja oikeassa syöttömuodossa.

Ensin tuodaan Python-moduulit sekä haluttu esikoulutettu malli Hugging Face -mallikeskuksesta:

# Imports.
from transformers import ( AutoModelForSequenceClassification, AutoTokenizer, DataCollatorWithPadding, PreTrainedTokenizer, Trainer, TrainingArguments,
) # Load pretrained model from model hub into a tokenizer.
model_checkpoint = “cardiffnlp/bertweet-base-offensive”
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

Tämän jälkeen esikoulutettu malli ladataan ja valmistetaan hienosäätöä varten. Tämä on vaihe, jossa määritetään myrkyllisten luokkien lukumäärä ja kaikki malliparametrit:

# Load pretrained model into a sequence classifier to be fine-tuned and define the number of classes you want to classify in the num_labels parameter. model = AutoModelForSequenceClassification.from_pretrained( model_checkpoint, num_labels=[number of classes] ) # Set your training parameter arguments. The below are some key parameters that AWS ProServe MLDT tuned:
training_args = TrainingArguments( num_train_epochs=[enter input] per_device_train_batch_size=[enter input] per_device_eval_batch_size=[enter input] evaluation_strategy="epoch", logging_strategy="epoch", save_strategy="epoch", learning_rate=[enter input] load_best_model_at_end=True, metric_for_best_model=[enter input] optim=[enter input], )

Mallin hienosäätö alkaa syöttämällä polkuja koulutus- ja validointitietosarjoihin:

# Finetune the model from the model_checkpoint, tokenizer, and training_args defined assuming train and validation datasets are correctly preprocessed.
trainer = Trainer( model=model, args=training_args, train_dataset=[enter input], eval_dataset=[enter input], tokenizer=tokenizer, data_collator=data_collator, ) # Finetune model command.
trainer.train()

AWS ProServe MLDT vastaanotti vielä noin 5,000 3,000 merkittyä datanäytettä, joista 2,000 5,000 oli myrkytöntä ja 80 20 myrkyllistä, ja hienosääti kaikki kolme bertweet-pohjaista mallia yhdistämällä kaikki tarrat yhdeksi malliksi. He käyttivät näitä tietoja PoC:n XNUMX XNUMX näytteen lisäksi uusien yksivaiheisten mallien hienosäätämiseen käyttämällä samaa XNUMX % junasarjaa, XNUMX % testisarjaa. Seuraava taulukko osoittaa, että suorituskykypisteet olivat verrattavissa kaksivaiheisen mallin arvoihin.

Malli Tarkkuus Palauttaa mieleen F1 AUC
bertweet-base (1-vaihe) .76 .72 .74 .83
bertweet-base-hate (1-vaihe) .85 .82 .84 .87
bertweet-base-hyökkäys (1-vaihe) .88 .83 .86 .89
bertweet-base-hyökkäys (2-vaihe) .91 .90 .90 .92

Yksivaiheisen mallin lähestymistapa paransi kustannuksia ja ylläpitoa, mutta alensi tarkkuutta vain 3 %. Punnitusten jälkeen asiakas valitsi AWS ProServe MLDT:n tuotantoon yksivaiheisen mallin.

Hienosäätämällä yhtä mallia, jossa on enemmän merkittyjä tietoja, AWS ProServe MLDT pystyi toimittamaan ratkaisun, joka täytti asiakkaan mallin tarkkuuden kynnyksen, sekä toimittamaan heidän pyynnöstään helpon huollon, alentaen samalla kustannuksia ja lisäämällä kestävyyttä.

Yhteenveto

Suuri peliasiakas etsi tapaa havaita myrkyllistä kieltä viestintäkanavissaan edistääkseen sosiaalisesti vastuullista peliympäristöä. AWS GAIIC loi myrkyllisen kielenilmaisimen PoC:n hienosäätämällä LLM:ää myrkyllisen kielen havaitsemiseksi. AWS ProServe MLDT päivitti sitten mallin koulutusvirran kaksivaiheisesta yksivaiheiseen lähestymistapaan ja tuotti LLM:n asiakkaalle käytettäväksi mittakaavassa.

Tässä viestissä AWS osoittaa LLM:n hienosäädön tehokkuuden ja käytännöllisyyden tämän asiakkaan käyttötapauksen ratkaisemiseksi, jakaa kontekstin perustusmallien ja LLM:ien historiaan ja esittelee AWS Generative AI Innovation Centerin ja AWS ProServe ML:n välisen työnkulun. Toimitustiimi. Tämän sarjan seuraavassa postauksessa sukeltamme syvemmälle siihen, kuinka AWS ProServe MLDT tuotti tuloksena olevan yksivaiheisen mallin SageMakerin avulla.

Jos olet kiinnostunut työskentelemään AWS:n kanssa luodaksesi generatiivisen tekoälyratkaisun, ota yhteyttä GAIIC. He arvioivat käyttötapauksesi, rakentavat generatiiviseen tekoälyyn perustuvan konseptin todisteen ja heillä on vaihtoehtoja laajentaa yhteistyötä AWS:n kanssa, jotta tuloksena oleva PoC voidaan ottaa käyttöön tuotantoon.

Viitteet

  1. Pelaajien demografiset tiedot: Faktoja ja tilastoja maailman suosituimmasta harrastuksesta
  2. ChatGPT teki nopeimmin kasvavan käyttäjäkunnan ennätyksen – analyytikkohuomautus
  3. Vaswani et al., "Huomio on kaikki mitä tarvitset"
  4. Radford et al., "Kielen ymmärtämisen parantaminen generatiivisen esikoulutuksen avulla"
  5. Devlin et al., "BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding"
  6. Yinhan Liu et al., "RoBERTa: A Robustly Optimized BERT Pretraining Approach"
  7. Marcos Zampieri ym., "SemEval-2019 Tehtävä 6: Loukkaavan kielen tunnistaminen ja luokittelu sosiaalisessa mediassa (OffensEval)"
  8. Valerio Basile et al., "SemEval-2019 Task 5: Monikielinen havaitseminen vihapuheesta maahanmuuttajia ja naisia ​​vastaan ​​Twitterissä"

Tietoja kirjoittajista

AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.James Poquiz on AWS Professional Services -tutkija Orange Countyssa, Kaliforniassa. Hän on suorittanut tietojenkäsittelytieteen BS-tutkinnon Kalifornian yliopistosta Irvinestä, ja hänellä on useiden vuosien kokemus työskentelystä data-alalla useissa eri tehtävissä. Nykyään hän työskentelee skaalautuvien ML-ratkaisujen toteuttamisessa ja käyttöönotossa saavuttaakseen liiketoimintatuloksia AWS-asiakkaille.

AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Han mies on Senior Data Science & Machine Learning Manager AWS Professional Services -palvelussa San Diegossa, Kaliforniassa. Hän on koulutukseltaan tekniikan tohtori Northwestern Universitystä ja hänellä on usean vuoden kokemus liikkeenjohdon konsulttina, joka neuvoo asiakkaita valmistuksessa, rahoituspalveluissa ja energia-alalla. Nykyään hän työskentelee intohimoisesti useiden eri toimialojen avainasiakkaiden kanssa kehittääkseen ja ottaakseen käyttöön ML- ja GenAI-ratkaisuja AWS:ssä.

AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Safa Tinaztepe on täyden pinon datatieteilijä, jolla on AWS Professional Services. Hän on suorittanut tietojenkäsittelytieteen BS-tutkinnon Emory Universitystä ja hän on kiinnostunut MLOpsista, hajautetuista järjestelmistä ja web3:sta.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen