Nvidia non ce la fa? Gli ultimi chip AI di Google e Amazon sono arrivati ​​su PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Nvidia non lo taglia? Sono arrivati ​​gli ultimi chip AI di Google e Amazon

La formazione sull'intelligenza artificiale basata sul cloud è diventata un po' più diversificata questa settimana dopo che Amazon Web Services (AWS) e Google Cloud hanno annunciato la disponibilità generale dei loro ultimi acceleratori IA personalizzati.

Dando il via alle cose con Amazon, i chip Trainium del fornitore di servizi cloud sono ora generalmente disponibili su AWS. Primo in anteprima All'AWS re:Invent dello scorso anno, le istanze Trn1n basate su Trainium di Amazon sono progettate per addestrare modelli di apprendimento automatico di grandi dimensioni, come quelli utilizzati nell'elaborazione del linguaggio naturale e nel riconoscimento delle immagini.

Amazon afferma che le istanze offrono prestazioni superiori tra il 40% e il 250% nei carichi di lavoro BF16 e TensorFlow a 32 bit rispetto alle istanze P100d basate su Nvidia A4, secondo i benchmark interni di Amazon. L'acceleratore supporta anche FP32, FP16, UINT8 e un tipo di dati FP8 configurabile. L’8° PQ ha diventare popolare nel mondo dell’intelligenza artificiale negli ultimi anni come mezzo per scambiare la precisione con prestazioni grezze.

Le istanze sono disponibili in due dimensioni: trn1.2xlarge di Amazon abbina otto vCPU con un singolo chip Trainium, 64 GB di memoria divisa equamente tra CPU e acceleratore, rete da 12.5 Gbit/sec e 500 GB di spazio di archiviazione SSD locale. Nel frattempo, per carichi di lavoro più grandi, trn1.32xlarge è 16 volte più grande e racchiude 128 vCPU, 16 chip Trainium, 1 TB di memoria combinata e 800 Gbit/sec di larghezza di banda di rete per istanza.

Per l'addestramento di modelli su larga scala, è possibile raggruppare più istanze trn1.32xlarge utilizzando il servizio di storage FSx Lustre di Amazon e gli switch top-of-rack non bloccanti di “classe petabit”.

L'acceleratore utilizza lo stesso Neuron SDK del chip di inferenza Inferentia precedentemente annunciato da Amazon, che viene fornito con un compilatore, estensioni del framework, una libreria runtime e strumenti di sviluppo. Nel loro insieme, i carichi di lavoro di Amazon scritti nei più diffusi framework ML, come PyTorch e TensorFlow, possono essere adattati per essere eseguiti su Trainium con un refactoring minimo.

Le istanze Trn1n sono disponibili questa settimana nelle regioni Amazon degli Stati Uniti orientali e degli Stati Uniti occidentali.

Il TPU v4 di Google è ora disponibile a livello generale

Google ha anche presentato un pacchetto di aggiornamenti hardware al suo evento Cloud Next questa settimana, incluso il disponibilità generale delle sue Tensor Processing Unit (TPU) di quarta generazione.

Le macchine virtuali basate su TPU v4 di Google Cloud sono disponibili in configurazioni che vanno da quattro chip (un singolo modulo TPU) a un pod contenente fino a 4,096 chip, tutti collegati su un tessuto ad alta velocità.

Per coloro che non hanno familiarità, gli acceleratori TPU di Google sono stati progettati specificamente per accelerare nell'hardware modelli di apprendimento automatico di grandi dimensioni, come quelli utilizzati nell'elaborazione del linguaggio naturale, nei sistemi di raccomandazione e nella visione artificiale.

Ad alto livello, l'acceleratore è essenzialmente un gruppo di grandi motori matematici a matrice bfloat chiamati MXU, supportati da una memoria a larghezza di banda elevata e da alcuni core della CPU per renderlo programmabile; i core della CPU vengono incaricati di alimentare le operazioni matematiche AI ​​di un carico di lavoro negli MXU per l'elaborazione ad alta velocità. Ogni VM TPU è composta da quattro chip, ciascuno con due core di elaborazione, e un totale di 128 GB di memoria.

Per un'analisi completa dell'ultima architettura TPU di Google, consigliamo controllando il nostro sito gemello La prossima piattaforma.

Gli acceleratori personalizzati sono stati progettati per accelerare i carichi di lavoro dell'intelligenza artificiale di Google, ma sono stati successivamente aperti ai clienti su GCP. Come prevedibile, le TPU supportano una varietà di framework ML popolari tra cui JAX, PyTorch e TensorFlow. E secondo Google, il TPU v4 è più del doppio più veloce del suo predecessore, offrendo allo stesso tempo prestazioni superiori del 40% per dollaro.

Le sezioni Pod TPU v4 sono ora disponibili nella regione dell'Oklahoma di GCP, a una tariffa compresa tra $ 0.97 e $ 3.22 per chip all'ora. Per l'istanza più piccola di Google, ciò equivale a 5,924 dollari al mese con un impegno di un anno.

Google offre uno sguardo alle CPU Intel di nuova generazione, gli smartNIC

Anche le CPU Intel Sapphire Rapids e le IPU Mount Evans sono apparse su Google Cloud come anteprima privata questa settimana.

Clienti selezionati possono ora offrire Intel lungo ritardo Le CPU Sapphire Rapids hanno fatto un giro, tuttavia, l'annuncio di oggi offre pochi indizi su cosa possiamo aspettarci dai microprocessori. Invece, il business ha sfruttato le IPU Mount Evans sviluppate in collaborazione con Intel.

"Le VM C3, prime nel loro genere in qualsiasi cloud pubblico, eseguiranno carichi di lavoro su processori scalabili Intel Xeon di quarta generazione, liberando l'elaborazione di pacchetti programmabili sulle IPU in modo sicuro a velocità di linea di 4 Gbit/sec", Nick McKeown, a capo della rete Intel. e gruppo marginale, detto in a dichiarazione.

Annunciato all'Intel Architecture Day lo scorso anno, Mount Evans, ora rinominato E2000, è il primo ASIC IPU di Intel. L'IPU è un'unità di elaborazione dell'infrastruttura, fondamentalmente un altro acceleratore hardware per attività di rete e archiviazione.

Il chip di classe smartNIC verrà utilizzato per accelerare i carichi di lavoro dell'infrastruttura cloud di Google. Uno dei primi sarà lo stoccaggio. Il fornitore di servizi cloud afferma che le sue istanze C3 potenziate da IPU offrono IOPS 10 volte più elevati e 4 volte il throughput delle sue istanze C2 in uscita, quando si utilizza il suo ha recentemente annunciato Servizio iperdisco.

IPU, unità di elaborazione dati e SmartNIC non sono certo un fenomeno nuovo nel mondo del cloud. Amazon, Microsoft Azure e Alibaba Cloud utilizzano anche gli SmartNIC per scaricare le attività dell'infrastruttura, come rete, archiviazione e sicurezza dall'host, liberando cicli della CPU per l'utilizzo da parte dei carichi di lavoro dei tenant nel processo.

Sapphire Rapids di Intel è ancora bloccato nel cloud

Nonostante le istanze C3 siano state definite la “prima VM nel cloud pubblico” basata su Sapphire Rapids, “pubblico” è probabilmente la parola sbagliata qui. Le istanze C3 di Google rimangono limitate a clienti selezionati per applicazione, presumibilmente sotto una rigorosa NDA.

A partire da questa settimana, Intel deve ancora annunciare una data di lancio per la sua famiglia di processori Sapphire Rapids, che è già in ritardo di oltre un anno. Tuttavia, con il lancio dei processori AMD Epyc di quarta generazione previsto per questo autunno, Intel sembra più ansiosa che mai di mettere i suoi chip per data center di nuova generazione nelle mani di alcuni clienti, almeno virtualmente.

Google è solo l'ultimo partner Intel a rendere disponibili ai clienti in qualche modo le risorse basate su Sapphire Rapids. Mentre Google offre VM cloud, Supermicro e Intel offrono l'accesso remoto ai sistemi bare metal per offrire ai clienti l'opportunità di esplorare le nuove funzionalità rese possibili dai chip.

Intel ha iniziato a fornire processori scalabili Xeon di quarta generazione basati su Sapphire-Rapids ad alcuni OEM, partner cloud e agenzie governative. Tuttavia, non è chiaro quanti chip il titano x86 sia riuscito a distribuire ai clienti. ®

Timestamp:

Di più da Il registro