Veebivestlused on tänapäeva elus üldlevinud, hõlmates tööstusharusid videomängudest telekommunikatsioonini. See on kaasa toonud veebivestluste andmete hulga hüppelise kasvu, mis on aidanud välja töötada kaasaegseid loomuliku keele töötlemise (NLP) süsteeme, nagu vestlusrobotid ja loomuliku keele genereerimise (NLG) mudelid. Aja jooksul on välja arenenud ka erinevad tekstianalüüsi NLP tehnikad. See tingib vajaduse täielikult hallatava teenuse järele, mida saab API-kõnede abil rakendustesse integreerida, ilma et oleks vaja ulatuslikke masinõppe (ML) teadmisi. AWS pakub eelkoolitatud AWS AI teenuseid nagu Amazoni mõistmine, mis suudab tõhusalt käsitleda NLP kasutusjuhtumeid, mis hõlmavad liigitamist, teksti kokkuvõtet, olemi tuvastamist ja palju muud, et koguda tekstist teadmisi.
Lisaks on veebivestlused viinud laialt levinud ebatraditsioonilise keelekasutuse nähtuseni. Traditsioonilised NLP tehnikad toimivad sageli nende tekstiandmete puhul halvasti, kuna erinevatel platvormidel eksisteerivad pidevalt arenevad ja domeenispetsiifilised sõnavarad, aga ka sõnade olulised leksikaalsed kõrvalekalded õigest inglise keelest kas juhuslikult või tahtlikult võistleva rünnakuna. .
Selles postituses kirjeldame AWS-is saadaolevate tööriistade ja teenustega veebivestluste teksti klassifitseerimiseks mitmeid ML-i lähenemisviise.
Eeldused
Enne sellesse kasutusjuhtumisse süvenemist täitke järgmised eeltingimused:
- Seadistage AWS-i konto ja luua IAM-i kasutaja.
- Seadistage AWS CLI ja AWS-i SDK-d.
- (Valikuline) Seadistage oma Cloud9 IDE keskkond.
Andmebaas
Selle postituse jaoks kasutame Pusle Toksilisuse klassifikatsiooni andmestiku tahtmatu kallutatus, võrguvestluste mürgisuse klassifitseerimise konkreetse probleemi etalon. Andmekogum sisaldab toksilisuse silte ja mitmeid alarühma atribuute, nagu nilbe, identiteedi rünnak, solvang, ähvardus ja seksuaalselt vulgaarne. Sildid esitatakse murdosa väärtustena, mis näitavad inimestest annotaatorite osakaalu, kes uskusid, et antud tekstilõigu puhul rakendati atribuuti, mis on harva üksmeelsed. Binaarsete siltide (nt mürgised või mittetoksilised) loomiseks rakendatakse murdarvudele lävi 0.5 ja lävest suuremate väärtustega kommentaare käsitletakse selle sildi positiivse klassina.
Alamsõnade manustamine ja RNN-id
Oma esimese modelleerimismeetodi jaoks kasutame teksti klassifitseerimismudelite koolitamiseks alamsõnade manustamise ja korduvate närvivõrkude (RNN-de) kombinatsiooni. Alamsõnade manustamise võttis kasutusele Bojanowski jt. aastal 2017 täiustuseks varasematele sõnatasemel manustamismeetoditele. Traditsioonilised Word2Vec vahelejätmise grammi mudelid on koolitatud õppima sihtsõna staatilist vektorkujutust, mis ennustab optimaalselt selle sõna konteksti. Alamsõnamudelid seevastu kujutavad iga sihtsõna n-grammide märgina, millest see sõna koosneb, kus n-gramm koosneb n järjestikuse tähemärgi komplektist. See meetod võimaldab manustamismudelil paremini esindada korpuses olevate seotud sõnade aluseks olevat morfoloogiat, samuti uudsete, sõnavaraväliste (OOV) sõnade manustamist. See on eriti oluline veebivestluste kontekstis – probleemne ruum, kus kasutajad kirjutavad sageli sõnu valesti (mõnikord tahtlikult tuvastamisest kõrvale hoidmiseks) ja kasutavad ka ainulaadset, pidevalt arenevat sõnavara, mida üldine koolituskorpus ei pruugi tabada.
Amazon SageMaker muudab teie enda domeenispetsiifilise tekstiandmete korpuse põhjal järelevalveta alamsõna manustamismudeli treenimise ja optimeerimise lihtsaks sisseehitatud funktsiooniga. BlazingTexti algoritm. Samuti saame alla laadida olemasolevaid üldotstarbelisi mudeleid, mis on koolitatud suurte võrguteksti andmehulkade jaoks, nagu järgmised Ingliskeelsed mudelid on saadaval otse fastTextist. Eelkoolitatud fastTexti mudeli allalaadimiseks käivitage SageMakeri märkmiku eksemplaris lihtsalt järgmine toiming:
Olenemata sellest, kas olete BlazingTextiga ise manustamist õpetanud või eelkoolitatud mudeli alla laadinud, on tulemuseks pakitud mudeli binaarfail, mida saate kasutada koos gensim teegiga, et manustada antud sihtsõna vektorina selle koostisosade alamsõnade alusel:
Pärast etteantud tekstisegmendi eeltöötlemist saame kasutada seda lähenemisviisi, et genereerida iga koostisosa (tühikutega eraldatud) jaoks vektoresitus. Seejärel kasutame SageMakerit ja süvaõpperaamistikku (nt PyTorch), et koolitada kohandatud RNN-i binaarse või mitme märgistusega klassifitseerimise eesmärgiga, et ennustada, kas tekst on mürgine või mitte, ja märgistatud koolitusnäidete põhjal toksilisuse spetsiifilist alamtüüpi.
Eeltöödeldud teksti üleslaadimiseks aadressile Amazoni lihtne salvestusteenus (Amazon S3), kasutage järgmist koodi:
Skaleeritava mitme GPU mudeli koolituse alustamiseks SageMakeriga sisestage järgmine kood:
Jooksul , määratleme PyTorchi andmestiku, mida kasutab train.py
tekstiandmete ettevalmistamiseks koolitamiseks ja mudeli hindamiseks:
Pange tähele, et see kood eeldab, et vectors.zip
fail, mis sisaldab teie fastTexti või BlazingTexti manuseid .
Lisaks saate hõlpsasti juurutada eelnevalt koolitatud fastTexti mudeleid, et luua SageMakeri lõpp-punktid, et arvutada käigupealt manustamisvektoreid, mida kasutada asjakohastes sõnatasandi ülesannetes. Vaadake järgmist GitHubi näide rohkem üksikasju.
Kallistava näoga transformerid
Teise modelleerimismeetodi puhul läheme üle käesolevas dokumendis tutvustatud transformaatorite kasutamisele Tähelepanu on kõik, mida vajate. Transformerid on süvaõppe mudelid, mis on loodud selleks, et tahtlikult vältida RNN-ide lõkse, tuginedes enesetähelepanumehhanismile, et tõmmata sisendi ja väljundi vahel globaalseid sõltuvusi. Transformeri mudeli arhitektuur võimaldab oluliselt paremat paralleelsust ja suudab saavutada kõrge jõudluse suhteliselt lühikese treeningajaga.
Toetudes ajakirjas tutvustatud Transformersi, BERTi edule BERT: sügavate kahesuunaliste trafode eelkoolitus keele mõistmiseks, lisatud kahesuunaline keeleesituse eelkoolitus. Cloze ülesandest inspireerituna on BERT eelnevalt koolitatud maskeeritud keele modelleerimisega (MLM), mille käigus mudel õpib taastama juhuslikult maskeeritud märkide originaalsõnu. BERT-i mudel on ka eelkoolitatud järgmise lause ennustamise (NSP) ülesande jaoks, et ennustada, kas kaks lauset on õiges lugemisjärjestuses. Alates selle tulekust 2018. aastal on BERTi ja selle variatsioone tekstide klassifitseerimise ülesannetes laialdaselt kasutatud.
Meie lahendus kasutab BERT-i varianti, mida tuntakse RoBERTa nime all ja mida selles artiklis tutvustati RoBERTa: Tugevalt optimeeritud BERT eelkoolitus. RoBERTa parandab veelgi BERTi jõudlust mitmesuguste loomuliku keele ülesannete puhul optimeeritud mudelikoolituse kaudu, sealhulgas 10 korda suurema korpuse pikemate koolitusmudelite abil, optimeeritud hüperparameetreid, dünaamilist juhuslikku maskeerimist, NSP-ülesande eemaldamist ja palju muud.
Meie RoBERTa-põhised mudelid kasutavad Kallistavad näomuundurid raamatukogu, mis on populaarne avatud lähtekoodiga Pythoni raamistik, mis pakub mitmesuguste NLP-ülesannete jaoks kõikvõimalike tipptasemel Transformeri mudelite kvaliteetseid teostusi. Hugging Face on teinud koostööd AWS-iga et saaksite SageMakeris hõlpsasti treenida ja juurutada Transformeri mudeleid. See funktsioon on saadaval kaudu Kallistava näoga AWS-i süvaõppe konteineri pildid, mis hõlmavad Transformerite, Tokenisaatorite ja Andmekogumite teeke ning optimeeritud integratsiooni SageMakeriga mudelikoolituse ja järelduste tegemiseks.
Oma juurutamisel pärime RoBERTa arhitektuuri selgroo Hugging Face Transformersi raamistikult ja kasutame SageMakerit oma teksti klassifitseerimismudeli koolitamiseks ja juurutamiseks, mida nimetame RoBERToxiks. RoBERTox kasutab baitpaari kodeeringut (BPE), mis võeti kasutusele aastal Haruldaste sõnade närvimasintõlge alamsõnaühikutega, et muuta sisendtekst alamsõna esitusteks. Seejärel saame koolitada oma mudeleid ja žetoone Pusle andmete või mis tahes suure domeenispetsiifilise korpuse (nt konkreetse mängu vestluslogid) põhjal ja kasutada neid kohandatud teksti klassifitseerimiseks. Määratleme oma kohandatud klassifitseerimismudeli klassi järgmises koodis:
Enne treenimist valmistame ette oma tekstiandmed ja sildid, kasutades Hugging Face'i andmekogumite teeki ning laadime tulemuse Amazon S3-sse:
Alustame modelli koolitust sarnaselt RNN-iga:
Lõpuks illustreerib järgmine Pythoni koodilõik RoBERToxi teenindamise protsessi reaalajas SageMakeri lõpp-punkti kaudu JSON-päringu teksti reaalajas klassifitseerimiseks:
Mudeli jõudluse hindamine: pusle tahtmatu kallutatuse andmestik
Järgmine tabel sisaldab jõudlusmõõdikuid mudelite kohta, mida on koolitatud ja hinnatud Pusle toksilisuse tuvastamise kaggle'i võistluse tahtmatu eelarvamuse põhjal. Koolitasime mudeleid kolme erineva, kuid omavahel seotud ülesande jaoks:
- Binaarne juhtum – Mudelit koolitati kogu treeninguandmestiku põhjal, et ennustada
toxicity
ainult silt - Peeneteraline korpus – treeningandmete alamhulk, mille jaoks
toxicity>=0.5
kasutati teiste toksilisuse alatüübi märgiste ennustamiseks (obscene
,threat
,insult
,identity_attack
,sexual_explicit
) - Multitegumjuhtum – Kõigi kuue märgistuse üheaegseks ennustamiseks kasutati täielikku treeningandmestikku
Koolitasime RNN- ja RoBERTa-mudeleid nende kolme ülesande jaoks, kasutades Pusle pakutavaid murdosa silte, mis vastavad annotaatorite osakaalule, kes arvasid, et silt on teksti jaoks sobiv, samuti kahendsiltidega, mis on kombineeritud klasside kaaludega võrgus. kaotusfunktsioon. Binaarses märgistusskeemis määrati proportsioonid iga saadaoleva sildi jaoks 0.5, 1-ni (0.5, kui silt> = 0, XNUMX, muidu XNUMX) ja mudeli kadumise funktsioone kaaluti iga binaarse sildi suhtelise osakaalu alusel koolituse andmekogus. Kõigil juhtudel leidsime, et murdosa siltide kasutamine andis otseselt parima tulemuse, mis näitab annotaatorite vahelisele kokkuleppele omase teabe lisaväärtust.
Kuvame kaks mudelimõõdikut: keskmine täpsus (AP), mis annab kokkuvõtte täpsus-taaskutsumise kõverast, arvutades iga klassifikatsiooniläve juures saavutatud täpsusväärtuste kaalutud keskmise, ja vastuvõtja töökarakteristiku kõvera alune pindala (AUC). , mis koondab mudeli jõudluse klassifikatsioonilävede vahel tõelise positiivse ja valepositiivse määra suhtes. Pange tähele, et testkomplekti antud tekstieksemplari tõene klass vastab sellele, kas tegelik osakaal on suurem või võrdne 0.5-ga (1, kui silt>=0.5, muul juhul 0).
. | Alamsõna manustamine + RNN | RoBERTa | ||
. | Murdmärgised | Binaarsed sildid + klassi kaalumine | Murdmärgised | Binaarsed sildid + klassi kaalumine |
Binaarne | AP = 0.746, AUC = 0.966 | AP = 0.730, AUC = 0.963 | AP = 0.758, AUC = 0.966 | AP = 0.747, AUC = 0.963 |
Peeneteraline | AP = 0.906, AUC = 0.909 | AP = 0.850, AUC = 0.851 | AP = 0.913, AUC = 0.913 | AP = 0.911, AUC = 0.912 |
Multitask | AP = 0.721, AUC = 0.972 | AP = 0.535, AUC = 0.907 | AP = 0.740, AUC = 0.972 | AP = 0.711, AUC = 0.961 |
Järeldus
Selles postituses tutvustasime kahte teksti klassifitseerimise lähenemisviisi veebivestluste jaoks, kasutades AWS ML teenuseid. Saate neid lahendusi üldistada kõigis võrgusuhtlusplatvormides, kusjuures sellised tööstusharud nagu hasartmängud saavad kahjuliku sisu tuvastamise parandamisest kasu. Tulevastes postitustes kavatseme täiendavalt arutada täielikku arhitektuuri mudelite sujuvaks juurutamiseks teie AWS-i kontole.
Kui soovite abi ML-i kasutamise kiirendamisel oma toodetes ja protsessides, võtke ühendust Amazon ML Solutions Lab.
Autoritest
Ryan Brand on andmeteadlane Amazoni masinõppelahenduste laboris. Tal on spetsiifilised kogemused masinõppe rakendamisel tervishoiu ja bioteaduste probleemide lahendamisel ning vabal ajal loeb ta meelsasti ajalugu ja ulmet.
Sourav Bhabesh on andmeteadlane Amazon ML Solutions Labis. Ta arendab AI/ML-lahendusi AWS-i klientidele erinevates tööstusharudes. Tema eriala on loomuliku keele töötlemine (NLP) ja ta on kirglik süvaõppesse. Väljaspool tööd meeldib talle raamatuid lugeda ja reisida.
Liutong Zhou on Amazon ML Solutions Labi rakendusteadlane. Ta ehitab AWS-i klientidele eri tööstusharudes eritellimusel AI/ML-lahendusi. Ta on spetsialiseerunud loomuliku keele töötlemisele (NLP) ja on kirglik multimodaalse süvaõppe vastu. Ta on lüüriline tenor ja talle meeldib väljaspool tööd oopereid laulda.
Sia Gholami on vanemandmeteadlane Amazon ML Solutions Labis, kus ta ehitab AI/ML lahendusi klientidele erinevatest tööstusharudest. Ta on kirglik loomuliku keele töötlemise (NLP) ja sügava õppimise vastu. Väljaspool tööd veedab Sia meelsasti looduses ja mängib tennist.
Daniel Horowitz on rakendusliku AI teaduse juht. Ta juhib Amazon ML Solutions Labi teadlaste meeskonda, kes tegeleb klientide probleemide lahendamisega ja ML-i pilve kasutuselevõtu edendamisega.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/text-classification-for-online-conversations-with-machine-learning-on-aws/
- '
- "
- 10
- 100
- 7
- a
- võime
- MEIST
- kiirendades
- konto
- Saavutada
- saavutada
- üle
- lisatud
- Vastuvõtmine
- Kokkulepe
- AI
- AI teenused
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- Amazon
- summa
- analüüs
- API
- rakendused
- rakendatud
- kehtima
- Rakendades
- lähenemine
- lähenemisviisid
- asjakohane
- arhitektuur
- PIIRKOND
- atribuudid
- saadaval
- keskmine
- AWS
- kott
- võrrelda
- kasu
- BEST
- Parem
- vahel
- suurem
- Raamatud
- Ehitab
- sisseehitatud
- helistama
- juhul
- juhtudel
- märki
- klass
- klassifikatsioon
- Cloud
- kood
- kombinatsioon
- kombineeritud
- kommentaarid
- KOMMUNIKATSIOON
- konkurents
- täitma
- koostatud
- arvutamine
- Arvutama
- arvutustehnika
- järjestikune
- pidevalt
- kontakt
- Konteiner
- sisaldab
- sisu
- Vestlus
- vestlused
- looma
- kõver
- tava
- klient
- Kliendid
- andmed
- andmeteadlane
- sügav
- juurutada
- kasutuselevõtu
- kirjeldama
- kavandatud
- detailid
- Detection
- Määrama
- & Tarkvaraarendus
- erinev
- mõõde
- otse
- arutama
- Ekraan
- lae alla
- ajam
- ajal
- dünaamiline
- iga
- kergesti
- tõhusalt
- võimaldama
- Lõpuks-lõpuni
- Lõpp-punkt
- Inglise
- sisene
- üksus
- hindamine
- areneb
- näide
- näited
- olemasolevate
- kogemus
- teadmised
- ulatuslik
- nägu
- mood
- Ilukirjandus
- esimene
- Järel
- vorm
- edasi
- avastatud
- murdosa
- Raamistik
- tasuta
- Alates
- täis
- funktsioon
- funktsionaalsus
- funktsioonid
- edasi
- tulevik
- mäng
- Mängud
- mäng
- Üldine
- Üldine otstarve
- tekitama
- põlvkond
- Globaalne
- suurem
- Kasv
- käepide
- juhataja
- tervishoid
- aitama
- aitas
- Suur
- kvaliteetne
- ajalugu
- HTTPS
- inim-
- Identity
- täitmine
- oluline
- paranenud
- paranemine
- sisaldama
- Kaasa arvatud
- tööstusharudes
- info
- omane
- sisend
- teadmisi
- inspireeritud
- Näiteks
- Solvang
- integreeritud
- integratsioon
- IT
- Pusle
- töö
- võtmed
- teatud
- labor
- silt
- märgistamine
- Labels
- keel
- suur
- suurem
- kiht
- Leads
- Õppida
- õppimine
- Led
- Raamatukogu
- Maaülikooli
- Tõenäoliselt
- elama
- koormus
- masin
- masinõpe
- tegema
- TEEB
- juhitud
- juht
- mask
- Maskid
- Vastama
- maatriks
- mehhanism
- Mälu
- meetodid
- Meetrika
- võib
- ML
- mudel
- mudelid
- rohkem
- mitmekordne
- Natural
- loodus
- võrk
- võrgustikud
- järgmine
- märkmik
- number
- Pakkumised
- Internetis
- tegutsevad
- optimeerima
- optimeeritud
- et
- originaal
- Muu
- muidu
- enda
- Paber
- eriti
- partnerlusega
- kirglik
- jõudlus
- tükk
- Platvormid
- mängimine
- palun
- populaarne
- positiivne
- Postitusi
- ennustada
- ennustus
- Valmistama
- eelmine
- Probleem
- probleeme
- protsess
- Protsessid
- töötlemine
- Toodet
- Projektsioon
- tingimusel
- annab
- Lugemine
- reaalajas
- Taastuma
- asjakohane
- eemaldades
- esindama
- esindamine
- esindavad
- taotleda
- tagasipöördumine
- Tulu
- Roll
- jooks
- skaalautuvia
- kava
- teadus
- TEADUSED
- teadlane
- teadlased
- sujuv
- segment
- teenus
- Teenused
- teenindavad
- komplekt
- mitu
- Lühike
- märkimisväärne
- sarnane
- lihtne
- alates
- SIX
- SUURUS
- lahendus
- Lahendused
- LAHENDAGE
- Ruum
- tühikud
- spetsialiseerunud
- Eriala
- konkreetse
- Kulutused
- modernne
- Ühendriigid
- ladustamine
- edu
- süsteemid
- sihtmärk
- ülesanded
- meeskond
- tehnikat
- telekommunikatsioon
- test
- .
- kolm
- künnis
- Läbi
- aeg
- korda
- märgid
- töövahendid
- tõrvik
- traditsiooniline
- Rong
- koolitus
- üleminek
- Tõlge
- Reisimine
- all
- ainulaadne
- kasutama
- Kasutajad
- kinnitamine
- väärtus
- sort
- eri
- Video
- Videomängude
- kas
- WHO
- jooksul
- ilma
- sõnad
- Töö
- töö
- Sinu