Microsoft krymper AI till fickstorlek med Phi-3 Mini

Microsoft krymper AI till fickstorlek med Phi-3 Mini

Microsoft shrinks AI down to pocket size with Phi-3 Mini PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Microsoft hävdar att den senaste inkarnationen av sin lätta Phi-3 Mini AI-modell konkurrerar med konkurrenter som GPT-3.5 samtidigt som den är tillräckligt liten för att kunna användas på en telefon.

Phi-3 Mini är en språkmodell med 3.8 miljarder parametrar som tränas på 3.3 biljoner tokens. Denna siffra är upp från 2.7 miljarder parametrar för Phi-2, som Microsoft introducerade I december 2023.

Snarare än att skotta in så mycket som möjligt i träningsmodellerna låg fokus på resonemang. Microsoft sa: "Som ett exempel kan resultatet av ett spel i Premier League en viss dag vara bra träningsdata för frontiermodeller, men vi måste ta bort sådan information för att lämna mer modellkapacitet för "resonemang" för minimodellerna .”

Det riktade tillvägagångssättet innebär att även om Phi-3 kanske inte har den stora kunskapsbredden hos sina konkurrenter, så är den minst lika bra, om inte bättre, när det kommer till resonemang, eller så hävdar Microsoft. I en uppsats [PDF], noterar Microsoft att detta gjorde det möjligt för dess lilla språkmodell "att nå nivån för mycket kapabla modeller som GPT-3.5 eller Mixtral med endast 3.8B totala parametrar (medan Mixtral har 45B totala parametrar till exempel)."

Forskningen noterar också att utbildningsdata som användes bestod av "starkt filtrerad webbdata ... från olika öppna internetkällor" och LLM-genererad data. De datakällor som används för att utbilda LLM är föremål för flera rättegångar.

Den lilla storleken på Phi-3 Mini betyder att den kan köras offline på en smartphone, får vi veta. Forskare sa att den kunde fås att uppta cirka 1.8 GB minne och provade den offline på en iPhone 14 med ett A16 Bionic-chip som körs inbyggt på en enhet. I tidningen visar forskare skärmdumpar av Phi-3 Mini som skriver en dikt och föreslår saker att göra i Houston.

Forskarna lyfter också fram nackdelarna med att fokusera på språkförståelse och resonemang. "Modellen har helt enkelt inte kapacitet att lagra för mycket "faktisk kunskap", något som kan mildras till viss del genom att utöka den med en sökmotor. Det skulle dock besegra poängen med att kunna köra den offline.

Språket är för närvarande för det mesta begränsat till engelska, och problem som är inneboende i de flesta LLM:er – hallucinationer, bias-förstärkning och generering av olämpligt innehåll – kan också hittas i Phi-3 Mini.

Forskare säger i tidningen: "Det finns ett betydande arbete framför oss för att till fullo ta itu med dessa utmaningar."

Större modeller – relativt sett – har även aviserats i form av Phi-3 Small och Phi-3 Medium med 7 respektive 14 miljarder parametrar.

Victor Botev, CTO och medgrundare på Iris.ai, berättade för oss: "Microsofts tillkännagivande av Phi-3-modellen representerar en fortsatt trend inom AI-utveckling. Istället för att jaga allt större modeller, utvecklar Microsoft verktyg med mer noggrant utvalda data och specialiserad utbildning. Detta möjliggör förbättrad prestanda och resonemangsförmåga utan de enorma beräkningskostnaderna för modeller med biljoner parametrar. Att uppfylla detta löfte skulle innebära att riva ner en enorm adoptionsbarriär för företag som letar efter AI-lösningar.

"Microsoft ser klokt bortom tankesättet 'större är bättre'. För utbredda AI-tillämpningar för företag och konsumenter är genomförbarhet och specificitet viktigare än massiva parametrar. Modeller som Phi-3 visar tydligt att med rätt data- och utbildningsmetod behöver avancerad AI-kapacitet inte bygga allt större modeller – en avgörande faktor för företag där förhållandet mellan kostnad och kvalitet är avgörande.” ®

Tidsstämpel:

Mer från Registret