Perché OpenAI potrebbe proteggere le sue scommesse sull'intelligenza artificiale quantistica

Perché OpenAI potrebbe proteggere le sue scommesse sull'intelligenza artificiale quantistica

Perché OpenAI potrebbe proteggere le sue scommesse sull'intelligenza artificiale quantistica PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Analisi L'informatica quantistica è rimasta a un decennio di distanza ormai da oltre un decennio, ma secondo gli esperti del settore potrebbe contenere il segreto per frenare l'appetito insaziabile dell'intelligenza artificiale.

Con il passare dei mesi compaiono modelli più grandi e più densi di parametri e la portata delle implementazioni dell’intelligenza artificiale si espande di pari passo. Solo quest’anno gli hyperscaler come Meta hanno in programma di farlo schierare centinaia di migliaia di acceleratori. Anche il fondatore di OpenAI, Sam Altman, lo è ancora convinto avremo bisogno di una quantità esponenzialmente maggiore di calcolo se vogliamo sviluppare ulteriormente l'intelligenza artificiale.

Quindi non dovrebbe sorprendere che con il suo ultimo noleggio, OpenAI sarebbe coprire le sue scommesse sull’informatica quantistica nella remota possibilità che possa. La settimana scorsa, il colosso dell’intelligenza artificiale ha aggiunto ai suoi ranghi Ben Bartlett, un ex architetto di sistemi quantistici presso PsiQuantum.

Abbiamo contattato Open AI per saperne di più su cosa farà Bartlett al trendsetter dell'IA e non abbiamo ricevuto risposta. Comunque suo bio offre alcuni suggerimenti poiché gran parte della sua ricerca si è concentrata sull'intersezione tra fisica quantistica, apprendimento automatico e nanofotonica, e "sostanzialmente consiste nel progettare piccole piste da corsa per fotoni che li inducono a eseguire calcoli utili"

Quindi cosa potrebbe volere esattamente OpenAI da un fisico quantistico? Bene, ci sono un paio di possibilità che vanno dall'utilizzo dell'ottimizzazione quantistica per semplificare i set di dati di addestramento o l'utilizzo di unità di elaborazione quantistica (QPU) per scaricare database grafici complessi, all'utilizzo dell'ottica per scalare oltre i limiti del moderno packaging dei semiconduttori.

Le reti neurali sono solo un altro problema di ottimizzazione

L'informatica quantistica ha il potenziale per migliorare drasticamente l'efficienza dell'addestramento di grandi modelli di intelligenza artificiale, consentendo loro di ottenere risposte più accurate da modelli con meno parametri, spiega Murray Thom di D-Wave Il registro.

Dato che si dice che GPT-4 superi i trilioni di parametri, non è difficile capire perché questo potrebbe essere interessante. Senza ricorrere alla quantizzazione e ad altre strategie di compressione, i modelli di intelligenza artificiale necessitano di circa 1 GB di memoria per ogni miliardo di parametri quando vengono eseguiti con precisione FP8 o Int8 e con precisione più elevata, sostanzialmente di più.

Trilioni di modelli di parametri si stanno avvicinando ai limiti di ciò che un singolo server AI può gestire in modo efficiente. È possibile collegare più server insieme per supportare modelli più grandi, ma lasciare la scatola incide negativamente sulle prestazioni.

E questo è oggi. E se Altman ha ragione, questi modelli diventeranno sempre più grandi e prevalenti. Pertanto, qualsiasi tecnologia che possa consentire a OpenAI di aumentare la capacità dei suoi modelli senza aumentare significativamente il conteggio dei parametri potrebbe dargli un vantaggio.

"Mentre stai addestrando un modello, il numero di parametri che entrano nel modello determina davvero il costo e la complessità dell'addestramento del modello", dice Trevor Lanting, vicepresidente software e algoritmi di D-Wave Il registro.

Per aggirare questo problema, spiega, gli sviluppatori spesso sottoselezionano le funzionalità che ritengono saranno le più importanti per l'addestramento di quel particolare modello, il che a sua volta riduce il numero di parametri richiesti.

Ma invece di provare a farlo utilizzando sistemi convenzionali, D-Wave sostiene che gli algoritmi di ottimizzazione quantistica potrebbero essere più efficaci nel determinare quali caratteristiche lasciare dentro o fuori.

Se non li conosci, i problemi di ottimizzazione, come quelli comunemente riscontrati nell'individuazione dei percorsi o nella logistica, si sono rivelati finora una delle applicazioni più promettenti dell'informatica quantistica.

"Ciò in cui i nostri computer quantistici sono davvero bravi è ottimizzare le cose in cui le cose stanno accadendo o non stanno accadendo: come a qualcuno a cui viene assegnato un programma particolare o a cui viene assegnata una consegna particolare", ha detto Thom. "Se tali decisioni fossero indipendenti, andrebbe bene, e sarebbe facile da fare per un computer classico, ma in realtà influenzano le altre risorse nel pool e c'è una sorta di effetto di rete."

In altre parole, il mondo reale è disordinato. Potrebbero esserci più veicoli sulla strada, strade chiuse, eventi meteorologici e così via. Rispetto ai computer classici, gli attributi unici inerenti ai computer quantistici consentono loro di esplorare questi fattori simultaneamente per identificare il percorso migliore.

Questo "è del tutto analogo a una rete neurale in cui i neuroni si attivano o non si attivano e hanno connessioni sinaptiche con gli altri neuroni, che eccitano o inibiscono l'attivazione degli altri neuroni", spiega Thom.

Ciò significa che gli algoritmi quantistici possono essere utilizzati per ottimizzare i set di dati di addestramento dell’IA per requisiti specifici, il che, una volta addestrati, si traduce in un modello più snello e accurato, ha affermato Lanting.

Campionamento e scarico quantistico

A lungo termine, D-Wave e altri stanno cercando modi per implementare le QPU più in profondità nel processo di formazione.

Uno di questi casi d’uso prevede l’applicazione del calcolo quantistico al campionamento. Il campionamento si riferisce al modo in cui i modelli di intelligenza artificiale, come gli LLM, determinano quale dovrebbe essere la parola successiva, o più specificamente il token, in base a una distribuzione di probabilità. Questo è il motivo per cui si scherza spesso sul fatto che gli LLM siano solo completati automaticamente con steroidi.

“L'hardware è molto efficace nel produrre campioni e puoi ottimizzare la distribuzione, quindi puoi ottimizzare la ponderazione di tali campioni. E quello che stiamo esplorando è: è questo un buon modo per inserire effettivamente la ricottura del calcolo quantistico in modo più diretto e intenso nel carico di lavoro di formazione”, ha spiegato Lanting.

Anche la startup francese di calcolo quantistico Pasqal sta giocando con l’applicazione del calcolo quantistico per scaricare set di dati strutturati a grafico che si trovano comunemente nelle reti neurali.

"Nell'apprendimento automatico non esiste un modo semplice e reale di rappresentare i dati in modo classico, perché il grafico è un oggetto complesso", ha spiegato il co-CEO di Pasqal Loïc Henriet in un'intervista a Il registro. “È possibile incorporare dati strutturati in grafici nella dinamica quantistica in modo relativamente naturale, il che dà origine ad alcuni nuovi modi di trattare questi dati”.

Tuttavia, prima che ciò possa essere raggiunto, i sistemi quantistici dovranno diventare molto più grandi e molto più veloci, ha spiegato Henriet.

“Grandi set di dati non sono pratici per il momento”, ha detto. “Ecco perché stiamo spingendo il numero di qubit; il tasso di ripetizione. Perché con più qubit puoi incorporare più dati.”

Quanto tempo dovremo aspettare prima che le reti neurali a grafo quantistico diventino utilizzabili è difficile da dire. Pasqal ha già un sistema da 10,000 qubit nelle opere. Sfortunatamente, la ricerca suggerisce che anche un sistema con 10,000 qubit di correzione degli errori, o circa un milione di qubit fisici, potrebbe non essere sufficiente per competere con le moderne GPU.

Un gioco di fotonica del silicio?

A parte i casi d'uso esotici dell'intelligenza artificiale quantistica, ci sono altre tecnologie che OpenAI potrebbe perseguire e di cui Bartlett sembra essere un esperto.

In particolare, PsiQuantum, ex datore di lavoro di Bartlett, ha sviluppato sistemi basati sulla fotonica del silicio. Ciò suggerisce che la sua assunzione potrebbe essere correlata a OpenAI segnalati lavorare su un acceleratore AI personalizzato.

Diverse startup nel campo della fotonica del silicio, tra cui Ayar Labs, Lightmatter e Celestial AI, hanno spinto la tecnologia come mezzo per superare i limiti della larghezza di banda, che è diventato un fattore limitante nel ridimensionare le prestazioni dell’apprendimento automatico.

L'idea qui è che puoi inviare molti più dati su una distanza molto più lunga con la luce di quanto potresti fare con un segnale puramente elettrico. In molti di questi progetti, la luce viene effettivamente trasportata da guide d'onda incise nel silicio, il che suona molto simile a "progettare piccole piste da corsa per fotoni".

Materia leggera crede questa tecnologia consentirà a più acceleratori di funzionare come uno solo senza incorrere in una penalizzazione della larghezza di banda per i dati che lasciano il chip. Nel frattempo Celestial vede un Opportunità per aumentare notevolmente la quantità di memoria a larghezza di banda elevata disponibile per le GPU eliminando la necessità di co-confezionare i moduli direttamente adiacenti al die dell'acceleratore. Entrambe queste funzionalità sarebbero interessanti per un’azienda che lavora con sistemi di intelligenza artificiale su vasta scala.

Resta da vedere se alla fine OpenAI perseguirà l'intelligenza artificiale quantistica o la fotonica del silicio, ma per un'azienda il cui fondatore non è estraneo a fare investimenti a lungo termine, non sarebbe la cosa più strana che Altman abbia sostenuto. ®

Timestamp:

Di più da Il registro