Microsoft vähendab tehisintellekti Phi-3 Mini abil tasku suuruseni

Microsoft vähendab tehisintellekti Phi-3 Mini abil tasku suuruseni

Microsoft vähendab tehisintellekti taskusuuruseks, kasutades Phi-3 Mini PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Microsoft väidab, et selle kerge Phi-3 Mini AI mudeli uusim kehastus konkureerib konkurentidega, nagu GPT-3.5, olles samas piisavalt väike, et seda telefonis kasutada.

Phi-3 Mini on 3.8 miljardi parameetriga keelemudel, mis on treenitud 3.3 triljonil märgil. See arv on suurem kui Microsofti Phi-2.7 2 miljardit parameetrit sisse detsembris 2023.

Selle asemel, et koolitusmudelitesse võimalikult palju kühveldada, keskenduti arutluskäigule. Microsoft ütles: "Näiteks võib Premier League'i mängu tulemus konkreetsel päeval olla head treeningandmed piiriäärsete mudelite jaoks, kuid me peame sellise teabe eemaldama, et jätta mudelitele rohkem võimalusi "arutlusvõime" jaoks mini-suuruses mudelitele. .”

Sihipärane lähenemine tähendab, et kuigi Phi-3-l ei pruugi olla nii laialdasi teadmisi kui konkurentidel, on see arutluskäigus vähemalt sama hea, kui mitte parem, või nii väidab Microsoft. Sees uurimustöö [PDF] märgib Microsoft, et see võimaldas tema väikesel keelemudelil "jõuda suure võimekusega mudelite, nagu GPT-3.5 või Mixtral, tasemele ainult 3.8 miljardi parameetriga (samal ajal kui Mixtralil on näiteks 45 miljardit parameetrit)."

Uuringus märgitakse ka, et kasutatud koolitusandmed koosnesid "tugevalt filtreeritud veebiandmetest … erinevatest avatud Interneti-allikatest" ja LLM-i loodud andmetest. Teema on LLM-ide koolitamiseks kasutatavad andmeallikad mitu kohtuasja.

Meile öeldakse, et Phi-3 Mini väike suurus tähendab, et see võib nutitelefonis võrguühenduseta töötada. Teadlased ütlesid, et selle saab hõivata umbes 1.8 GB mälu ja proovisid seda võrguühenduseta iPhone 14-ga, mille seadmes töötab A16 Bionic kiip. Töös näitavad teadlased ekraanipilte Phi-3 Minist, mis kirjutab luuletust ja soovitab Houstonis tegevusi.

Teadlased toovad esile ka keele mõistmisele ja arutluskäigule keskendumisele omased varjuküljed. „Mudel lihtsalt ei suuda talletada liiga palju „faktilisi teadmisi”, mida saab teatud määral leevendada, täiendades seda otsingumootoriga. See aga kaotaks võimaluse seda võrguühenduseta käivitada.

Praegu piirdub keel enamasti inglise keelega ja enamikule LLM-idele omaseid probleeme – hallutsinatsioonid, eelarvamuste võimendamine ja sobimatu sisu genereerimine – võib leida ka Phi-3 Minis.

Teadlased ütlevad dokumendis: "Nende väljakutsete täielikuks lahendamiseks on ees märkimisväärne töö."

Suuremad mudelid – suhteliselt öeldes – on välja kuulutatud ka Phi-3 Small ja Phi-3 Medium kujul, millel on vastavalt 7 ja 14 miljardit parameetrit.

Victor Botev, tehnoloogiadirektor ja ettevõtte kaasasutaja Iris.ai, ütles meile: "Microsofti teade Phi-3 mudeli kohta esindab jätkuvat suundumust tehisintellekti arendamises. Üha suuremate mudelite jahtimise asemel töötab Microsoft välja tööriistu, millel on hoolikamalt kureeritud andmed ja eriväljaõpe. See võimaldab parandada jõudlust ja arutlusvõimet ilma triljonite parameetritega mudelite tohutute arvutuskuludeta. Selle lubaduse täitmine tähendaks AI-lahendusi otsivate ettevõtete jaoks tohutu kasutuselevõtubarjääri mahavõtmist.

„Microsoft vaatab targalt mõtteviisist „suurem, seda parem” kaugemale. Laialt levinud äri- ja tarbijate tehisintellekti rakenduste puhul on teostatavus ja spetsiifilisus olulisemad kui suured parameetrid. Mudelid nagu Phi-3 näitavad selgelt, et õigete andmete ja koolituse lähenemisviisiga ei pea täiustatud AI-võimalused nõudma üha suuremate mudelite ehitamist – see on otsustav tegur ettevõtete jaoks, kus hinna ja kvaliteedi suhe on kriitiline. ®

Ajatempel:

Veel alates Register