Yapay Zeka Bilgi İşlemin Yüksek Maliyetinde Gezinme

Yapay Zeka Bilgi İşlemin Yüksek Maliyetinde Gezinme

Yapay Zeka Bilgi İşleminin Yüksek Maliyetini Yönetme PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
Kaynak: Midjourney

Üretken AI patlaması, hesaplamaya bağlıdır. Daha fazla bilgi işlem eklemenin doğrudan daha iyi bir ürünle sonuçlanması gibi benzersiz bir özelliği vardır. Genellikle, Ar-Ge yatırımı, bir ürünün ne kadar değerli olduğuna daha doğrudan bağlıdır ve bu ilişki belirgin bir şekilde doğrusaldır. Ancak bu, şu anda yapay zeka için geçerli değil ve sonuç olarak, bugün endüstriyi yönlendiren baskın bir faktör, basitçe eğitim ve çıkarım maliyetidir. 

Gerçek sayıları bilmesek de, saygın kaynaklardan bilgi işlem arzının çok kısıtlı olduğunu duyduk, talep onu 10(!) kat geride bıraktı. bilgi işlem kaynaklarına erişim - en düşük toplam maliyetle - yapay zeka şirketlerinin başarısı için belirleyici bir faktör haline geldi.

Aslında, birçok şirketin toplam sermayelerinin %80'inden fazlasını bilgi işlem kaynaklarına harcadığını gördük!

Bu yazıda, bir AI şirketi için maliyet faktörlerini parçalamaya çalışıyoruz. Mutlak sayılar elbette zaman içinde değişecektir, ancak yapay zeka şirketlerinin bilgi işlem kaynaklarına erişimleri ile sınırlandırılmasından hemen bir rahatlama görmüyoruz. Umarım bu, manzarayı derinlemesine düşünmek için yararlı bir çerçevedir. 

AI modelleri hesaplama açısından neden bu kadar pahalı?

Çok çeşitli üretken AI modelleri vardır ve çıkarım ve eğitim maliyetleri, modelin boyutuna ve türüne bağlıdır. Neyse ki günümüzde en popüler modeller, GPT-3, GPT-J veya BERT gibi popüler büyük dil modellerini (LLM'ler) içeren çoğunlukla transformatör tabanlı mimarilerdir. Transformatörlerin çıkarımı ve öğrenimi için kesin işlem sayısı modele özgü olsa da (bkz. Bu kağıt), yalnızca modelin parametre sayısına (yani, sinir ağlarının ağırlıkları) ve girdi ve çıktı belirteçlerinin sayısına bağlı oldukça doğru bir pratik kural vardır. 

Belirteçler, esasen birkaç karakterden oluşan kısa dizilerdir. Kelimelere veya kelimelerin bölümlerine karşılık gelirler. Belirteçler için bir sezgi edinmenin en iyi yolu, halka açık çevrimiçi belirteçlerle (örn. OpenAI). GPT-3 için bir jetonun ortalama uzunluğu 4 karakterdir

Transformatörler için temel kural, bir model için ileri geçişin (yani çıkarım) olmasıdır. p uzunluğunda bir giriş ve çıkış sırası için parametreler n token kazanabilirsiniz. her, yaklaşık sürer 2*n*p kayan nokta işlemleri (FLOPS)¹. Aynı model için eğitim yaklaşık 6*s Belirteç başına FLOPS (yani, ek geriye doğru geçiş, dört işlem daha gerektirir²). Bunu, eğitim verilerindeki belirteç miktarıyla çarparak toplam eğitim maliyetine yaklaşabilirsiniz.

Transformatörler için bellek gereksinimleri de model boyutuna bağlıdır. Çıkarım için ihtiyacımız olan p parametreleri belleğe sığdırmak için modelleyin. Öğrenme için (yani geriye yayılım), ileri ve geri geçiş arasında parametre başına ek ara değerler saklamamız gerekir. 32 bit kayan noktalı sayılar kullandığımızı varsayarsak, bu parametre başına ek 8 bayttır. 175 milyar parametreli bir modeli eğitmek için, bellekte bir terabayttan fazla veri tutmamız gerekir - bu, günümüzde var olan herhangi bir GPU'yu aşar ve modeli kartlara bölmemizi gerektirir. Çıkarım ve eğitim için bellek gereksinimleri, daha kısa uzunluklardaki kayan nokta değerleri kullanılarak optimize edilebilir; 16-bit yaygınlaşır ve yakın gelecekte 8-bit olması beklenir.

Yapay Zeka Bilgi İşleminin Yüksek Maliyetini Yönetme PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yukarıdaki tabloda, birkaç popüler model için boyutlar ve işlem maliyetleri yer almaktadır. GPT-3, yaklaşık 175 milyar parametreye sahiptir ve 1,024 belirteçlik giriş ve çıkış için yaklaşık 350 trilyon kayan nokta işlemi (yani Teraflops veya TFLOPS) hesaplama maliyetiyle sonuçlanır. GPT-3 gibi bir modeli eğitmek, yaklaşık 3.14*10^23 kayan nokta işlemi gerektirir. Meta'nın LLaMA'sı gibi diğer modellerde hatta daha yüksek hesaplama gereksinimleri. Böyle bir modeli eğitmek, insanlığın şimdiye kadar üstlendiği hesaplama açısından daha yoğun görevlerden biridir. 

Özetlemek gerekirse: AI altyapısı pahalıdır çünkü altta yatan algoritmik problemler hesaplama açısından son derece zordur. Bir milyon giriş içeren bir veritabanı tablosunu sıralamanın algoritmik karmaşıklığı, GPT-3 ile tek bir kelime oluşturmanın karmaşıklığıyla karşılaştırıldığında önemsizdir. Bu, kullanım durumunuzu çözen en küçük modeli seçmek istediğiniz anlamına gelir. 

İyi haber şu ki, transformatörler için, belirli bir boyuttaki bir modelin ne kadar bilgi işlem ve bellek tüketeceğini kolayca tahmin edebiliyoruz. Ve bu nedenle, doğru donanımı seçmek bir sonraki husus haline gelir. 

GPU'lar için zaman ve maliyet argümanı

Hesaplama karmaşıklığı zamana nasıl çevrilir? Bir işlemci çekirdeği tipik olarak döngü başına 1-2 talimat yürütebilir ve işlemci saat hızları, son 3 yılda 15 GHz civarında sabit kalmıştır. Dennard Ölçeklendirme. Herhangi bir paralel mimariden yararlanmadan tek bir GPT-3 çıkarım işlemi yürütmek, yaklaşık 350 TFLOPS/(3 GHz*1 FLOP) veya 116,000 saniye veya 32 saat sürer. Bu son derece pratik değildir; bunun yerine bu görevi hızlandıran özel çiplere ihtiyacımız var.

Uygulamada, günümüzde tüm AI modelleri, çok sayıda özel çekirdek kullanan kartlarda çalışır. Örneğin, bir NVIDIA A100 GPU, tek bir döngüde 512×4 matris çarpımı (4 çarpma ve toplamaya veya 64 FLOPS'a eşdeğerdir) gerçekleştirebilen 128 "tensör çekirdeğine" sahiptir. Yapay Zeka hızlandırıcı kartlarına genellikle GPU'lar (grafik işlem birimleri) denir, çünkü mimari orijinal olarak masaüstü oyunları için geliştirilmiştir. Gelecekte yapay zekanın giderek daha belirgin bir ürün ailesi haline gelmesini bekliyoruz. 

A100'ün nominal performansı 312 TFLOPS bu da teorik olarak GPT-3 için çıkarımı yaklaşık 1 saniyeye düşürür. Ancak bu, birkaç nedenden dolayı aşırı basitleştirilmiş bir hesaplamadır. İlk olarak, çoğu kullanım durumunda darboğaz, GPU'nun işlem gücü değil, özel grafik belleğinden tensör çekirdeklerine veri alma yeteneğidir. İkincisi, 175 milyar ağırlık 700 GB yer kaplar ve herhangi bir GPU'nun grafik belleğine sığmaz. Bölümleme ve ağırlık akışı gibi tekniklerin kullanılması gerekir. Ve üçüncü olarak, hesaplamayı hızlandırmak için kullanılan bir dizi optimizasyon vardır (örneğin, FP16, FP8 veya seyrek matrisler gibi daha kısa kayan nokta gösterimleri kullanmak). Ancak, genel olarak, yukarıdaki matematik bize bugünün LLM'lerinin genel hesaplama maliyetinin bir sezgisini verir.

Bir dönüştürücü modeli eğitmek, çıkarım yapmak kadar belirteç başına yaklaşık üç kat daha uzun sürer. Bununla birlikte, eğitim veri setinin bir çıkarım isteminden yaklaşık 300 milyon kat daha büyük olduğu göz önüne alındığında, eğitim 1 milyar kat daha uzun sürer. Tek bir GPU'da eğitim onlarca yıl alırdı; pratikte bu, özel veri merkezlerindeki büyük bilgi işlem kümelerinde veya daha büyük olasılıkla bulutta yapılır. Güncellenen ağırlıkların düğümler arasında değiş tokuş edilmesi gerektiğinden, eğitimi paralel hale getirmek çıkarım yapmaktan daha zordur. GPU'lar arasındaki bellek ve bant genişliği, yüksek hızlı ara bağlantılar ve özel yapılar yaygın olduğundan, genellikle çok daha önemli bir faktör haline gelir. Çok büyük modelleri eğitmek için uygun bir ağ kurulumu oluşturmak birincil zorluk olabilir. Geleceğe bakıldığında, AI hızlandırıcıların kartta ve hatta çipte ağ oluşturma yetenekleri olacaktır. 

Bu hesaplama karmaşıklığı maliyete nasıl dönüşüyor? Yukarıda gördüğümüz gibi, bir A3'de yaklaşık 1 saniye süren bir GPT-100 çıkarımı, 0.0002 jeton için 0.0014 USD ile 1,000 USD arasında bir ham işlem maliyetine sahip olacaktır (bu, OpenAI'nin 0.002 USD/1000 jeton fiyatlandırmasıyla karşılaştırılır). Günde 100 çıkarım isteği oluşturan bir kullanıcının yıllık maliyeti yaklaşık dolar olacaktır. Bu çok düşük bir fiyat noktasıdır ve insanlar tarafından metin tabanlı AI'nın çoğu kullanım durumunu finansal olarak uygun hale getirir.

Eğitim GPT-3 ise çok daha pahalıdır. Yine yukarıdaki oranlarda yalnızca 3.14*10^23 FLOPS için işlem maliyetinin hesaplanması bize bir A560,000 kart için yaklaşık 100 ABD doları verir. tek antrenman koşusu. Uygulamada, eğitim için GPU'da yaklaşık %100 verimlilik elde edemeyiz; ancak eğitim süresini azaltmak için optimizasyonları da kullanabiliriz. GPT-3 eğitim maliyetine ilişkin diğer tahminler $500,000 için $ 4.6 milyon, donanım varsayımlarına bağlıdır. Bunun tek bir çalışmanın maliyeti olduğunu ve genel maliyet olmadığını unutmayın. Muhtemelen birden fazla çalıştırma gerekecek ve bulut sağlayıcıları uzun vadeli taahhütler isteyeceklerdir (bununla ilgili daha fazlası aşağıda). Birinci sınıf modelleri eğitmek pahalı olmaya devam ediyor, ancak iyi finanse edilen bir start-up'ın ulaşabileceği bir mesafede.

Özetlemek gerekirse, üretken yapay zeka, bugün yapay zeka altyapısına büyük yatırımlar gerektiriyor. Bunun yakın gelecekte değişeceğine inanmak için hiçbir sebep yok. GPT-3 gibi bir modeli eğitmek, insanlığın şimdiye kadar üstlendiği hesaplama açısından en yoğun görevlerden biridir. GPU'lar hızlanırken ve biz eğitimi optimize etmenin yollarını bulurken, yapay zekanın hızlı genişlemesi bu iki etkiyi de ortadan kaldırıyor.

Yapay zeka altyapısıyla ilgili hususlar

Bu noktaya kadar, yapay zeka modellerinin eğitimini ve çıkarımını yapmak için gereken ölçek ve bunları yönlendiren temel parametrelerin neler olduğu konusunda size biraz fikir vermeye çalıştık. Bu bağlamda, şimdi hangi yapay zeka altyapısının kullanılacağına nasıl karar verileceği konusunda bazı pratik rehberlik sağlamak istiyoruz.

Harici ve şirket içi altyapı

Kabul edelim: GPU'lar harika. Pek çok mühendis ve mühendislik odaklı kurucu, yalnızca model eğitimi üzerinde ayrıntılı kontrol sağladığı için değil, aynı zamanda büyük miktarlarda bilgi işlem gücünden yararlanmanın eğlenceli bir yanı olduğu için kendi AI donanımlarını sağlamaya yönelik bir önyargıya sahiptir (sergi A).

Ancak gerçek şu ki, birçok startup, özellikle uygulama şirketleri, kendi yapay zeka altyapısını oluşturmaya ihtiyaç duymaz. Bunun yerine, OpenAI veya Hugging Face (dil için) ve Replicate (görüntü üretimi için) gibi barındırılan model hizmetleri, kurucuların temeldeki altyapıyı veya modelleri yönetmeye gerek kalmadan ürün-pazar uyumu için hızla arama yapmasına olanak tanır.

Bu hizmetler o kadar iyi hale geldi ki birçok şirket onlardan asla mezun olmuyor. Geliştiriciler, hızlı mühendislik ve üst düzey ince ayar soyutlamaları (yani, API çağrıları aracılığıyla ince ayar) yoluyla model performansı üzerinde anlamlı kontrol elde edebilir. Bu hizmetlerin fiyatlandırması tüketime dayalıdır, dolayısıyla genellikle ayrı bir altyapı çalıştırmaktan daha ucuzdur. Başlık altında barındırılan model hizmetleri çalıştıran, 50 milyon dolardan fazla ARR üreten ve değeri 1 milyar doları aşan uygulama şirketleri gördük.

Kapak tarafında, bazı girişimler - özellikle yeni temel modelleri eğitenler veya dikey olarak entegre yapay zeka uygulamaları oluşturanlar, kendi modellerini doğrudan çalıştırmaktan kaçınamazlar GPU'larda. Ya model etkili bir şekilde ürün olduğundan ve ekip "model-pazar uyumu" aradığından ya da belirli yeteneklere ulaşmak veya büyük ölçekte marjinal maliyeti azaltmak için eğitim ve/veya çıkarım üzerinde ayrıntılı kontrol gerektiğinden. Her iki durumda da, altyapıyı yönetmek bir rekabet avantajı kaynağı olabilir.

Bulut ve veri merkezi oluşturma karşılaştırması

Çoğu durumda bulut, yapay zeka altyapınız için doğru yerdir. Daha az ön maliyet, yukarı ve aşağı ölçeklendirme yeteneği, bölgesel kullanılabilirlik ve kendi veri merkezinizi oluşturmaktan daha az dikkat dağıtma, çoğu yeni başlayan ve daha büyük şirket için zorlayıcıdır.

Ancak bu kuralın birkaç istisnası vardır:

  • Çok büyük ölçekte çalışıyorsanız, kendi veri merkezinizi çalıştırmak daha uygun maliyetli hale gelebilir. Kesin fiyat noktası, coğrafi konuma ve kuruluma göre değişir, ancak genellikle yılda 50 milyon dolardan fazla altyapı harcaması gerektirir.
  • Bir bulut sağlayıcısından edinemeyeceğiniz çok özel bir donanıma ihtiyacınız var. Örneğin, yaygın olarak bulunmayan GPU türlerinin yanı sıra olağandışı bellek, depolama veya ağ gereksinimleri.
  • Jeopolitik değerlendirmeler için kabul edilebilir bir bulut bulamazsınız.

Kendi veri merkezinizi kurmak istiyorsanız, kendi kurulumunuz için GPU'ların kapsamlı fiyat/performans analizi yapılmıştır (örn. Tim Dettmer'in analizi). Kartın maliyetine ve performansına ek olarak, donanım seçimi de güç, alan ve soğutmaya bağlıdır. Örneğin, iki RTX 3080 Ti kartı birlikte bir A100 ile benzer ham bilgi işlem kapasitesine sahiptir, ancak ilgili güç tüketimi 700 W'a karşılık 300 W'tır. Üç yıllık kullanım ömrü boyunca 3,500 $/kWh piyasa oranlarında 0.10 kWh güç farkı, RTX3080 Ti'nin maliyetini yaklaşık 2 kat (yaklaşık 1,000 $) artırır.

Bütün bunlar, yeni başlayanların büyük çoğunluğunun bulut bilgi işlem kullanmasını bekliyoruz. 

Bulut hizmeti sağlayıcılarını karşılaştırma 

Amazon Web Services (AWS), Microsoft Azure ve Google Cloud Platform (GCP) GPU örnekleri sunar, ancak yeni sağlayıcılar da özellikle AI iş yüklerine odaklanıyor gibi görünmektedir. İşte birçok kurucunun bir bulut sağlayıcı seçmek için kullandığını gördüğümüz bir çerçeve:

Fiyat: Aşağıdaki tablo, 7 Nisan 2023 itibarıyla bazı büyük ve daha küçük özel bulutların fiyatlandırmasını göstermektedir. Örnekler ağ bant genişliği, veri çıkış maliyetleri, mevcut CPU ve ağdan ek maliyet açısından önemli ölçüde farklılık gösterdiğinden, bu veriler yalnızca gösterge niteliğindedir. indirimler ve diğer faktörler.

Yapay Zeka Bilgi İşleminin Yüksek Maliyetini Yönetme PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Belirli bir donanımdaki bilgi işlem kapasitesi bir emtiadır. Safça, oldukça tekdüze fiyatlar beklerdik, ancak durum böyle değil. Ve bulutlar arasında önemli özellik farklılıkları olsa da, bunlar isteğe bağlı bir NVIDIA A100 için fiyatlandırmanın sağlayıcılar arasında neredeyse 4 kat farklılık gösterdiğini açıklamak için yetersizdir.

Fiyat ölçeğinin en üstünde yer alan büyük genel bulutlar, marka itibarına, kanıtlanmış güvenilirliğe ve çok çeşitli iş yüklerini yönetme ihtiyacına dayalı olarak bir prim talep eder. Daha küçük özel yapay zeka sağlayıcıları, amaca yönelik veri merkezlerini çalıştırarak (örn. Coreweave) veya diğer bulutları hakemlik ederek (örn. Lambda Labs) daha düşük fiyatlar sunar.

Pratik olarak konuşursak, daha büyük alıcıların çoğu fiyatları doğrudan bulut sağlayıcılarıyla müzakere eder ve genellikle minimum harcama gereksinimi ve minimum süre taahhütlerini taahhüt eder (1-3 yıl gördük). Pazarlığın ardından bulutlar arasındaki fiyat farkları bir miktar küçülür, ancak yukarıdaki tablodaki sıralamanın nispeten sabit kaldığını gördük. Küçük şirketlerin, büyük harcama taahhütleri olmaksızın özel bulutlardan agresif fiyatlar alabileceğini de belirtmek önemlidir.

Durumu: En güçlü GPU'lar (örneğin, Nvidia A100s) son 12 aydır sürekli olarak yetersiz kalıyor. 

Büyük satın alma güçleri ve kaynak havuzları göz önüne alındığında, ilk üç bulut sağlayıcısının en iyi kullanılabilirliğe sahip olduğunu düşünmek mantıklı olacaktır. Ancak, biraz şaşırtıcı bir şekilde, birçok girişim bunun doğru olduğunu bulmadı. Büyük bulutların çok sayıda donanımı vardır, ancak aynı zamanda karşılaması gereken büyük müşteri ihtiyaçları da vardır - örneğin Azure, ChatGPT için birincil ana bilgisayardır - ve talebi karşılamak için sürekli olarak kapasite ekler/kiralar. Bu arada, Nvidia, yeni özel sağlayıcılar için tahsisler de dahil olmak üzere, endüstride geniş çapta donanım sağlama taahhüdünde bulundu. (Bunu hem adil olmak hem de kendileriyle rekabet eden birkaç büyük müşteriye olan bağımlılıklarını azaltmak için yapıyorlar.)

Sonuç olarak, birçok yeni şirket, daha küçük bulut sağlayıcılarında son teknoloji Nvidia H100'ler de dahil olmak üzere daha fazla kullanılabilir yonga buluyor. Daha yeni bir altyapı şirketiyle çalışmaya istekliyseniz, donanım için bekleme sürelerini azaltabilir ve muhtemelen bu süreçte paradan tasarruf edebilirsiniz.

Bilgi işlem teslim modeli: Günümüzde büyük bulutlar, yalnızca özel GPU'lara sahip örnekler sunuyor; bunun nedeni, GPU sanallaştırmanın hala çözülmemiş bir sorun olmasıdır. Özel yapay zeka bulutları, bir bulut sunucusunun başlatma ve parçalama maliyetine katlanmadan bireysel görevlerin üstesinden gelebilen konteynerler veya toplu işler gibi başka modeller sunar. Bu modelden memnunsanız, maliyeti önemli ölçüde azaltabilir.

Ağ ara bağlantıları: Özellikle eğitim için ağ bant genişliği, sağlayıcı seçiminde önemli bir faktördür. Belirli büyük modelleri eğitmek için, NVLink gibi düğümler arasında özel yapılara sahip kümelere ihtiyaç vardır. Görüntü üretimi için, çıkış trafiği ücretleri de önemli bir maliyet etkeni olabilir.

Müşteri desteği: Büyük bulut sağlayıcıları, binlerce ürün SKU'sunda büyük bir müşteri havuzuna hizmet eder. Büyük bir müşteri değilseniz, müşteri desteğinin dikkatini çekmek veya bir sorunu düzeltmek zor olabilir. Öte yandan, birçok özel AI bulutu, küçük müşteriler için bile hızlı ve duyarlı destek sunar. Bunun nedeni kısmen daha küçük ölçekte çalışıyor olmaları ve aynı zamanda iş yüklerinin daha homojen olması ve dolayısıyla yapay zekaya özgü özelliklere ve hatalara odaklanma konusunda daha fazla teşvik edilmeleridir.

GPU'ları karşılaştırma 

Diğer her şey eşit olduğunda, üst düzey GPU'lar neredeyse tüm iş yüklerinde en iyi performansı gösterecektir. Ancak, aşağıdaki tabloda görebileceğiniz gibi, en iyi donanım aynı zamanda önemli ölçüde daha pahalıdır. Spesifik uygulamanız için doğru GPU türünü seçmek, maliyeti önemli ölçüde azaltabilir ve uygulanabilir ve uygulanamaz bir iş modeli arasındaki farkı yaratabilir.

Yapay Zeka Bilgi İşleminin Yüksek Maliyetini Yönetme PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Listenin ne kadar aşağısına ineceğinize karar vermek, yani uygulamanız için en uygun maliyetli GPU seçeneklerini belirlemek, büyük ölçüde bu makalenin kapsamı dışında kalan teknik bir karardır. Ancak en önemli olduğunu gördüğümüz bazı seçim kriterlerini aşağıda paylaşacağız:

Eğitim ve çıkarım: Yukarıdaki ilk bölümde gördüğümüz gibi, bir Transformer modelini eğitmek, model ağırlıklarına ek olarak eğitim için 8 bayt veri depolamamızı gerektirir. Bu, 12 GB belleğe sahip tipik bir üst düzey tüketici GPU'sunun 4 milyar parametreli bir modeli eğitmek için zar zor kullanılabileceği anlamına gelir. Uygulamada, büyük modellerin eğitimi, sunucu başına tercihen çok sayıda GPU, çok sayıda VRAM ve sunucular arasında yüksek bant genişliğine sahip bağlantılara sahip makine kümelerinde yapılır (yani, en üst düzey veri merkezi GPU'ları kullanılarak oluşturulmuş kümeler).

Spesifik olarak, birçok model NVIDIA H100'de en uygun maliyetli olacaktır, ancak bugün itibariyle onu bulmak zordur ve genellikle bir yıldan fazla uzun vadeli bir taahhüt gerektirir. NVIDIA A100, günümüzde çoğu model eğitimini gerçekleştirmektedir; bulması daha kolaydır, ancak büyük kümeler için uzun vadeli bir taahhüt gerektirebilir.

Bellek gereksinimleri: Büyük LLM'ler, herhangi bir karta sığamayacak kadar yüksek parametre sayılarına sahiptir. Birden fazla karta bölünmeleri ve eğitime benzer bir kurulum gerektirmeleri gerekir. Başka bir deyişle, LLM çıkarımı için bile muhtemelen H100'lere veya A100'lere ihtiyacınız vardır. Ancak daha küçük modeller (örn. Stabil Difüzyon) çok daha az VRAM gerektirir. A100 hala popüler olsa da, yeni başlayanların A10, A40, A4000, A5000 ve A6000 ve hatta RTX kartlarını kullandığını gördük. 

Donanım desteği: Konuştuğumuz şirketlerdeki iş yüklerinin büyük çoğunluğu NVIDIA üzerinde çalışırken, birkaçı diğer sağlayıcılarla denemeler yapmaya başladı. En yaygın olanı Google TPU'dur, ancak Intel'in Gaudi 2'si de biraz ilgi görüyor gibi görünüyor. Bu satıcılarla ilgili zorluk, modelinizin performansının genellikle büyük ölçüde bu çipler için yazılım optimizasyonlarının kullanılabilirliğine bağlı olmasıdır. Performansı anlamak için muhtemelen bir PoC yapmanız gerekecektir.

Gecikme gereksinimleri: Genel olarak, gecikmeye daha az duyarlı iş yükleri (ör. toplu veri işleme veya etkileşimli kullanıcı arabirimi yanıtları gerektirmeyen uygulamalar) daha az güçlü GPU'lar kullanabilir. Bu, işlem maliyetini 3-4 kata kadar azaltabilir (örneğin, A100'leri AWS'de A10'larla karşılaştırmak). Kullanıcıya yönelik uygulamalar ise ilgi çekici, gerçek zamanlı bir kullanıcı deneyimi sunmak için genellikle üst düzey kartlara ihtiyaç duyar. Maliyetleri yönetilebilir bir aralığa getirmek için modelleri optimize etmek genellikle gereklidir.

sivrilik: Üretken yapay zeka şirketleri, teknoloji çok yeni ve heyecan verici olduğu için talepte genellikle çarpıcı artışlar görüyor. Yeni bir ürün sürümüne bağlı olarak talep hacimlerinin günde 10 kat arttığını veya sürekli olarak haftada %50 arttığını görmek alışılmadık bir durum değildir. Talep üzerine daha fazla bilgi işlem düğümü bulunabileceğinden, bu ani yükselmelerin üstesinden gelmek genellikle alt uç GPU'larda daha kolaydır. Bu tür bir trafiğe daha düşük maliyetli kaynaklarla - performans pahasına - hizmet vermek, daha az ilgili veya daha az kalıcı kullanıcılardan geliyorsa, genellikle mantıklıdır.

Modelleri optimize etme ve programlama

Yazılım optimizasyonları, modellerin çalışma süresini büyük ölçüde etkileyebilir ve 10 kat kazanç nadir değildir. Ancak, kendi modeliniz ve sisteminizle hangi yöntemlerin en etkili olacağını belirlemeniz gerekir.

Bazı teknikler oldukça geniş bir model yelpazesiyle çalışır. Daha kısa kayan nokta gösterimleri (yani, orijinal FP16'ye karşı FP8 veya FP32) veya niceleme (INT8, INT4, INT2) kullanılarak, genellikle bitlerin azaltılmasıyla doğrusal olan bir hızlanma elde edilir. Bu bazen modelin değiştirilmesini gerektirir, ancak karışık veya daha kısa hassasiyetle çalışmayı otomatikleştiren teknolojiler giderek daha fazla mevcuttur. Budama sinir ağları, düşük değerlere sahip ağırlıkları göz ardı ederek ağırlık sayısını azaltır. Verimli seyrek matris çarpımı ile birlikte bu, modern GPU'larda önemli bir hızlanma sağlayabilir. Başka bir optimizasyon teknikleri grubu, bellek bant genişliği darboğazını giderir (örneğin, akışlı model ağırlıkları ile).

Diğer optimizasyonlar oldukça modele özgüdür. Örneğin, Kararlı Difüzyon, çıkarım için gereken VRAM miktarında büyük ilerlemeler kaydetmiştir. Yine başka bir optimizasyon sınıfı, donanıma özgüdür. NVIDIA'nın TensorML'si bir dizi optimizasyon içerir, ancak yalnızca NVIDIA donanımı üzerinde çalışır. Son olarak, yapay zeka görevlerinin programlanması, büyük performans darboğazları veya iyileştirmeleri yaratabilir. Ağırlıkların değiş tokuşunu en aza indirecek şekilde modelleri GPU'lara tahsis etmek, birden fazla GPU varsa bir görev için en iyi GPU'yu seçmek ve iş yüklerini önceden gruplandırarak kesinti süresini en aza indirmek yaygın kullanılan tekniklerdir.

Sonunda, model optimizasyonu hala biraz kara bir sanat ve konuştuğumuz yeni başlayanların çoğu, bu yazılım yönlerinden bazılarına yardımcı olmak için üçüncü taraflarla çalışıyor. Genellikle bunlar geleneksel MLops satıcıları değil, bunun yerine belirli üretken modeller (ör. OctoML veya SegMind) için optimizasyonlarda uzmanlaşmış şirketlerdir.

AI altyapı maliyeti nasıl gelişecek?

Son birkaç yılda, her ikisinin de katlanarak büyüdüğünü gördük. model parametreleri ve GPU işlem gücü. Bu eğilimin devam edip etmeyeceği belli değil.

Günümüzde, optimum parametre sayısı ile eğitim veri setinin boyutu arasında bir ilişki olduğu yaygın olarak kabul edilmektedir (bkz. çinçilla Bu konuda daha fazla çalışın). Bugünün en iyi LLM'leri şu konularda eğitilmektedir: Ortak Tarama (4.5 milyar web sayfasından oluşan bir koleksiyon veya var olan tüm web sayfalarının yaklaşık %10'u). Eğitim külliyatı aynı zamanda Vikipedi'yi ve bir kitap koleksiyonunu da içerir, ancak her ikisi de çok daha küçüktür (mevcut kitapların toplam sayısının sadece 100 milyon civarında). Video veya ses içeriğinin kopyalanması gibi başka fikirler de önerildi, ancak bunların hiçbiri boyut olarak yaklaşmıyor. Halihazırda kullanılandan 10 kat daha büyük, sentetik olmayan bir eğitim veri seti elde edip edemeyeceğimiz net değil.

GPU performansı artmaya devam edecek, ancak aynı zamanda daha yavaş olacaktır. Moore Yasası, daha fazla transistör ve daha fazla çekirdeğe izin vererek hala bozulmamış durumda, ancak güç ve G/Ç sınırlayıcı faktörler haline geliyor. Ek olarak, optimizasyonlar için düşük asılı meyvelerin çoğu seçildi. 

Ancak bunların hiçbiri, bilgi işlem kapasitesi talebinde bir artış beklemediğimiz anlamına gelmiyor. Model ve eğitim seti büyümesi yavaşlasa bile, AI endüstrisinin büyümesi ve AI geliştiricilerinin sayısındaki artış, daha fazla ve daha hızlı GPU'lara olan talebi artıracaktır. Bir modelin geliştirme aşamasında geliştiriciler tarafından test etmek için GPU kapasitesinin büyük bir kısmı kullanılır ve bu talep, çalışan sayısına göre doğrusal olarak ölçeklenir. Bugün sahip olduğumuz GPU eksikliğinin yakın gelecekte azalacağına dair hiçbir işaret yok.

AI altyapısının bu devam eden yüksek maliyeti, yeni girenlerin iyi finanse edilen görevlilere yetişmesini imkansız kılan bir hendek oluşturacak mı? Bu sorunun cevabını henüz bilmiyoruz. Bir LLM'nin eğitim maliyeti bugün bir hendek gibi görünebilir, ancak Alpaca veya Stable Diffusion gibi açık kaynaklı modeller, bu pazarların hala erken olduğunu ve hızla değişebileceğini göstermiştir. Zamanla, ortaya çıkan AI yazılım yığınının maliyet yapısı (önceki gönderimize bakın) daha çok geleneksel yazılım endüstrisi gibi görünmeye başlayabilir. 

Sonuç olarak, bu iyi bir şey olurdu: Tarih, bunun girişimci kurucular için hızlı inovasyon ve birçok fırsatla canlı ekosistemlere yol açtığını göstermiştir.

Yazma sürecindeki katkıları ve rehberlikleri için Moin Nadeem ve Shangda Xu'ya teşekkürler.


¹ Buradaki sezgi, bir sinir ağındaki herhangi bir parametre (yani ağırlık) için bir çıkarım işleminin (yani ileri geçiş) parametre başına iki kayan nokta işlemi gerçekleştirmesi gerektiğidir. İlk olarak, sinir ağının giriş düğümünün değerini parametre ile çarpar. İkincisi, toplamanın sonucunu sinir ağının çıkış düğümüne ekler. Kodlayıcıdaki parametreler, giriş belirteci başına bir kez kullanılır ve kod çözücüdeki parametreler, çıkış belirteci başına bir kez kullanılır. Bir modelin olduğunu varsayarsak p parametreler ve giriş ve çıkışın her ikisinin de bir uzunluğu vardır n token kazanabilirsiniz., toplam kayan nokta işlemleri n*p. Bir modelde gerçekleşen başka birçok işlem (ör. normalleştirme, gömmenin kodlanması/kodunun çözülmesi) vardır, ancak bunları gerçekleştirmek için geçen süre kıyaslandığında küçüktür. 

² Öğrenme, önce yukarıda açıklandığı gibi transformatörden bir ileri geçiş gerektirir, ardından gradyanı hesaplamak ve ağırlığı ayarlamak için parametre başına dört ek işlem gerektiren bir geri geçiş gerektirir. Gradyan hesaplamanın, ileri geçişten hesaplanan düğüm değerlerinin korunmasını gerektirdiğini unutmayın. GPT-3 için, Dil Modelleri Birkaç Atış Öğrencisidir eğitim maliyetini tartışır.

* * *

Burada ifade edilen görüşler, alıntı yapılan bireysel AH Capital Management, LLC (“a16z”) personelinin görüşleridir ve a16z veya iştiraklerinin görüşleri değildir. Burada yer alan belirli bilgiler, a16z tarafından yönetilen fonların portföy şirketleri de dahil olmak üzere üçüncü taraf kaynaklardan elde edilmiştir. a16z, güvenilir olduğuna inanılan kaynaklardan alınmış olsa da, bu tür bilgileri bağımsız olarak doğrulamamıştır ve bilgilerin kalıcı doğruluğu veya belirli bir duruma uygunluğu hakkında hiçbir beyanda bulunmaz. Ayrıca, bu içerik üçüncü taraf reklamlarını içerebilir; a16z, bu tür reklamları incelememiştir ve burada yer alan herhangi bir reklam içeriğini onaylamaz.

Bu içerik yalnızca bilgilendirme amaçlıdır ve yasal, ticari, yatırım veya vergi tavsiyesi olarak kullanılmamalıdır. Bu konularda kendi danışmanlarınıza danışmalısınız. Herhangi bir menkul kıymete veya dijital varlığa yapılan atıflar yalnızca açıklama amaçlıdır ve yatırım tavsiyesi veya yatırım danışmanlığı hizmetleri sağlama teklifi teşkil etmez. Ayrıca, bu içerik herhangi bir yatırımcıya veya muhtemel yatırımcılara yönelik değildir veya bu içerik tarafından kullanılması amaçlanmamıştır ve a16z tarafından yönetilen herhangi bir fona yatırım yapma kararı verilirken hiçbir koşulda bu içeriğe güvenilemez. (Bir a16z fonuna yatırım yapma teklifi, yalnızca tahsisli satış mutabakatı, abonelik sözleşmesi ve bu tür bir fonun diğer ilgili belgeleri ile yapılacaktır ve bunların tamamı okunmalıdır.) Bahsedilen, atıfta bulunulan veya atıfta bulunulan herhangi bir yatırım veya portföy şirketi veya a16z tarafından yönetilen araçlara yapılan tüm yatırımları temsil etmemektedir ve yatırımların karlı olacağına veya gelecekte yapılacak diğer yatırımların benzer özelliklere veya sonuçlara sahip olacağına dair hiçbir garanti verilemez. Andreessen Horowitz tarafından yönetilen fonlar tarafından yapılan yatırımların bir listesi (ihraççının a16z'nin kamuya açıklanmasına izin vermediği yatırımlar ve halka açık dijital varlıklara yapılan habersiz yatırımlar hariç) https://a16z.com/investments adresinde bulunabilir. /.

İçerisinde yer alan çizelgeler ve grafikler yalnızca bilgilendirme amaçlıdır ve herhangi bir yatırım kararı verirken bunlara güvenilmemelidir. Geçmiş performans gelecekteki sonuçların göstergesi değildir. İçerik yalnızca belirtilen tarih itibariyle konuşur. Bu materyallerde ifade edilen tüm tahminler, tahminler, tahminler, hedefler, beklentiler ve/veya görüşler önceden bildirilmeksizin değiştirilebilir ve farklı olabilir veya başkaları tarafından ifade edilen görüşlere aykırı olabilir. Ek önemli bilgiler için lütfen https://a16z.com/disclosures adresine bakın.

Zaman Damgası:

Den fazla Andreessen Horowitz