Per il negozio medio di intelligenza artificiale, modelli sparsi e memoria economica vinceranno PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Per il negozio di intelligenza artificiale medio, vinceranno i modelli scarsi e la memoria economica

Per quanto avvincenti possano essere i principali modelli linguistici su larga scala, resta il fatto che solo le aziende più grandi hanno le risorse per implementarli e addestrarli effettivamente su scala significativa.

Per le aziende desiderose di sfruttare l'IA per un vantaggio competitivo, un'alternativa più economica e ridotta potrebbe essere più adatta, soprattutto se può essere ottimizzata per settori o domini particolari.

È qui che un insieme emergente di startup AI sperano di ritagliarsi una nicchia: costruendo modelli sparsi e su misura che, forse non così potenti come GPT-3, sono sufficientemente buoni per casi d'uso aziendali e funzionano su hardware che elimina la costosa memoria HBM (High Bandwidth Memory) per DDR di consumo.

La startup tedesca di intelligenza artificiale Aleph Alpha ne è un esempio. Fondata nel 2019, la società con sede a Heidelberg, in Germania Luminoso il modello in linguaggio naturale vanta molte delle stesse funzionalità di acquisizione dei titoli del GPT-3 di OpenAI: copywriting, classificazione, riepilogo e traduzione, solo per citarne alcuni.

La startup del modello ha collaborato con Graphcore per esplorare e sviluppare modelli linguistici sparsi sugli inglesi hardware del produttore di chip.

"Le IPU di Graphcore rappresentano un'opportunità per valutare gli approcci tecnologici avanzati come la sparsità condizionale", ha affermato il CEO di Aleph Alpha Jonas Andrulius in un dichiarazione. "Queste architetture giocheranno senza dubbio un ruolo nella ricerca futura di Aleph Alpha".

La grande scommessa di Graphcore sulla scarsità

I modelli condizionalmente sparsi, a volte chiamati mix di esperti o modelli instradati, elaborano i dati solo in base ai parametri applicabili, cosa che può ridurre significativamente le risorse di calcolo necessarie per eseguirli.

Ad esempio, se un modello linguistico è stato addestrato in tutte le lingue su Internet e poi viene posta una domanda in russo, non avrebbe senso eseguire quei dati attraverso l'intero modello, solo i parametri relativi alla lingua russa, ha spiegato il CTO di Graphcore Simon Knowles, in un'intervista con Il registro.

“È completamente ovvio. È così che funziona il tuo cervello, ed è anche come dovrebbe funzionare un'IA", ha detto. "L'ho detto molte volte, ma se un'IA può fare molte cose, non ha bisogno di accedere a tutte le sue conoscenze per fare una cosa".

Knowles, la cui azienda costruisce acceleratori su misura per questo tipo di modelli, non sorprende che siano il futuro dell'IA. "Sarei sorpreso se, entro il prossimo anno, qualcuno costruisse modelli con linguaggio denso", ha aggiunto.

HBM-2 costoso? Cache invece su DDR

I modelli linguistici sparsi non sono privi di sfide. Uno dei più urgenti, secondo Knowles, ha a che fare con la memoria. La HBM utilizzata nelle GPU di fascia alta per ottenere la larghezza di banda e le capacità necessarie richieste da questi modelli è costosa e collegata a un acceleratore ancora più costoso.

Questo non è un problema per i modelli con linguaggio denso in cui potresti aver bisogno di tutto quel calcolo e memoria, ma pone un problema per i modelli sparsi, che favoriscono la memoria rispetto al calcolo, ha spiegato.

La tecnologia di interconnessione, come NVLink di Nvidia, può essere utilizzata per raggruppare la memoria su più GPU, ma se il modello non richiede tutto quel calcolo, le GPU potrebbero rimanere inattive. "È un modo davvero costoso per acquistare memoria", ha detto Knowles.

Gli acceleratori di Graphcore tentano di eludere questa sfida prendendo in prestito una tecnica vecchia quanto l'informatica stessa: la memorizzazione nella cache. Ciascuna IPU è dotata di una cache SRAM relativamente grande, 1 GB, per soddisfare i requisiti di larghezza di banda di questi modelli, mentre la capacità grezza si ottiene utilizzando grandi pool di memoria DDR4 a basso costo.

"Più SRAM hai, minore è la larghezza di banda DRAM di cui hai bisogno, e questo è ciò che ci consente di non utilizzare HBM", ha affermato Knowles.

Disaccoppiando la memoria dall'acceleratore, per le aziende è molto meno costoso, il costo di pochi moduli DDR di consumo, supportare modelli di intelligenza artificiale più grandi.

Oltre a supportare una memoria più economica, Knowles afferma che le IPU dell'azienda hanno anche un vantaggio architettonico rispetto alle GPU, almeno quando si tratta di modelli sparsi.

Invece di funzionare su un piccolo numero di grandi moltiplicatori di matrice, come si trova in un'unità di elaborazione tensoriale, i chip di Graphcore presentano un gran numero di unità matematiche a matrice più piccole che possono indirizzare la memoria in modo indipendente.

Ciò fornisce una maggiore granularità per i modelli sparsi, in cui "è necessaria la libertà di recuperare sottoinsiemi pertinenti e più piccola è l'unità che si è obbligati a recuperare, maggiore è la libertà che si ha", ha spiegato.

Il verdetto è ancora fuori

Messo insieme, Knowles sostiene che questo approccio consente alle sue IPU di addestrare modelli AI/ML di grandi dimensioni con centinaia di miliardi o addirittura trilioni di parametri, a costi sostanzialmente inferiori rispetto alle GPU.

Tuttavia, il mercato dell'IA aziendale è ancora agli inizi e Graphcore deve affrontare una forte concorrenza in questo spazio da parte di rivali più grandi e affermati.

Quindi, mentre è improbabile che lo sviluppo su modelli linguistici ultra-sparsi e ridotti per l'IA si riduca presto, resta da vedere se saranno le IPU di Graphcore o l'acceleratore di qualcun altro che finirà per alimentare i carichi di lavoro dell'IA aziendale. ®

Timestamp:

Di più da Il registro