Mantium, Amazon SageMaker'da DeepSpeed ile Düşük Gecikmeli GPT-J Çıkarımını Nasıl Sağlıyor?

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

mantiyum AI uygulamaları oluşturmak ve bunları uygun ölçekte yönetmek için küresel bir bulut platformu sağlayıcısıdır. Mantium'un uçtan uca geliştirme platformu, her büyüklükteki işletmenin ve işletmenin geleneksel olarak mümkün olandan daha hızlı ve daha kolay yapay zeka uygulamaları ve otomasyon oluşturmasını sağlar. Mantium ile teknik ve teknik olmayan ekipler, tümü düşük kod yaklaşımıyla AI uygulamalarını prototipleyebilir, geliştirebilir, test edebilir ve dağıtabilir. Otomatik günlük kaydı, izleme ve güvenlik özellikleri sayesinde Mantium, yazılım ve DevOps mühendislerinin zamanlarını tekerleği yeniden icat etmek için harcamalarını da serbest bırakır. Yüksek düzeyde, Mantium şunları sunar:

Son teknoloji yapay zeka – Basit bir kullanıcı arayüzü veya API ile çok çeşitli açık kaynaklı ve özel büyük dil modelleri ile denemeler yapın ve geliştirin.
AI süreç otomasyonu – Büyüyen bir entegrasyon kitaplığı ve Mantium'un grafik AI Builder ile AI odaklı uygulamaları kolayca oluşturun.
Hızlı dağıtım – Tek tıklamayla dağıtım ile üretim zaman çizelgesini aylardan haftalara hatta günlere kısaltın. Bu özellik, AI uygulamalarını tek tıklamayla paylaşılabilir web uygulamalarına dönüştürür.
Güvenlik ve düzenleme – Yönetişim politikalarına güvenlik ve uygunluk ve döngüdeki insan süreçleri için destek sağlayın.

Mantium AI Builder ile harici API'leri, mantık işlemlerini ve AI modellerini entegre eden karmaşık iş akışları geliştirebilirsiniz. Aşağıdaki ekran görüntüsü, bir Twilio girdisini, yönetişim politikasını, AI bloğunu (GPT-J gibi açık kaynaklı bir modele dayanabilen) ve Twilio çıktısını birbirine zincirleyen Mantium AI uygulamasının bir örneğini göstermektedir.

Bu uygulamayı desteklemek için Mantium, yalnızca Open AI, Co:here ve AI21 gibi AI sağlayıcılarının model API'lerine değil, aynı zamanda son teknoloji açık kaynak modellerine de kapsamlı ve tek tip erişim sağlar. Mantium'da herkesin sahip olduğu modern yapay zeka uygulamalarını uçtan uca oluşturabilmesi gerektiğine inanıyoruz ve bunu performans açısından optimize edilmiş açık kaynaklı modellere kodsuz ve düşük kodlu erişim sağlayarak destekliyoruz.

Örneğin, Mantium'un temel açık kaynak modellerinden biri, GPT-Jtarafından geliştirilen son teknoloji bir doğal dil işleme (NLP) modelidir. Eleuther AI. 6 milyar parametreyle GPT-J, en büyük ve en iyi performans gösteren açık kaynaklı metin oluşturma modellerinden biridir. Mantium kullanıcıları, Mantium'un AI Builder'ı aracılığıyla GPT-J'yi AI uygulamalarına entegre edebilir. GPT-J durumunda bu, bir istemi (modelin ne yapması gerektiğine dair doğal bir dil gösterimi) ve bazı isteğe bağlı parametreleri yapılandırma.

Örneğin, aşağıdaki ekran görüntüsü, açıklamalar ve duyarlılık tahminleri üreten bir duyarlılık analizi isteminin kısaltılmış bir gösterimini gösterir. Bu örnekte yazar, “yemeklerin harika olduğunu” ve “hizmetlerinin olağanüstü olduğunu” yazmıştır. Bu nedenle, bu metin olumlu duyguyu ifade eder.

Bununla birlikte, açık kaynaklı modellerle ilgili bir zorluk, nadiren üretim düzeyinde performans için tasarlanmalarıdır. GPT-J gibi büyük modellerde bu, kullanım durumuna bağlı olarak üretim dağıtımını pratik ve hatta olanaksız hale getirebilir.

Kullanıcılarımızın sınıfının en iyisi performansa erişmesini sağlamak için her zaman temel modellerimizin gecikmesini azaltmanın yollarını arıyoruz. Bu gönderide, GPT-J'nin çıkarım hızını yaklaşık %116 artırmak için DeepSpeed'in çıkarım motorunu kullandığımız bir çıkarım optimizasyonu deneyinin sonuçlarını açıklıyoruz. GPT-J'nin Hugging Face Transformers uygulamasını DeepSpeed ile nasıl dağıttığımızı da açıklıyoruz. Amazon Adaçayı Yapıcı çıkarım uç noktaları.

GPT-J modeline genel bakış

GPT-J, üretken bir önceden eğitilmiş (GPT) dil modelidir ve mimarisi açısından Open AI'nın GPT-3'ü gibi popüler, özel, büyük dil modelleriyle karşılaştırılabilir. Daha önce belirtildiği gibi, bir ileri besleme bloğu ve bir öz-dikkat bloğundan oluşan yaklaşık 6 milyar parametre ve 28 katmandan oluşur. İlk piyasaya sürüldüğünde, GPT-J kullanılan ilk büyük dil modellerinden biriydi. döner gömmeler, mutlak ve göreli konum kodlayıcıları birleştiren yeni bir konum kodlama stratejisi. Aynı zamanda, yoğun ve ileri beslemeli katmanların tek bir katmanda birleştirildiği ve iletişim yükünü en aza indiren yenilikçi bir paralelleştirme stratejisi kullanır.

GPT-J bugünün standartlarına göre tam olarak yeterli olmasa da (büyük modeller tipik olarak 100 milyardan fazla parametreden oluşur) yine de etkileyici bir performans sergiliyor ve bazı hızlı mühendislik veya minimum ince ayar ile onu birçok sorunu çözmek için kullanabilirsiniz. Ayrıca, nispeten mütevazı boyutu, onu daha büyük modellerden daha hızlı ve çok daha düşük bir maliyetle dağıtabileceğiniz anlamına gelir.

Bununla birlikte, GPT-J hala oldukça büyük. Örneğin, GPT-J'yi tam ağırlık güncellemeleri ve Adam optimizer ile FP32'de eğitmek 200 GB'den fazla bellek gerektirir: model parametreleri için 24 GB, gradyanlar için 24 GB, Adam'ın kare gradyanları için 24 GB, optimize edici durumları için 24 GB, ve eğitim gruplarını yüklemek ve aktivasyonları depolamak için ek bellek gereksinimleri. Tabii ki, FP16'da eğitim, bu bellek gereksinimlerini neredeyse yarı yarıya azaltır, ancak 100 GB'ın üzerinde bir bellek ayak izi hala yenilikçi eğitim stratejilerini gerektirir. Örneğin, Mantium'un NLP ekibi SageMaker ile işbirliği içinde bir iş akışı SageMaker dağıtılmış model paralel kitaplığını kullanarak eğitim (ince ayar) GPT-J için.

Buna karşılık, çıkarım için GPT-J sunmanın bellek gereksinimleri çok daha düşüktür - FP16'da model ağırlıkları 13 GB'den daha az yer kaplar, bu da çıkarımın tek bir 16 GB GPU'da kolayca gerçekleştirilebileceği anlamına gelir. Ancak, Hugging Face Transformers gibi GPT-J'nin kullanıma hazır uygulamalarıyla çıkarım uygulama kullandığımız nispeten yavaştır. Yüksek düzeyde yanıt veren metin oluşturma gerektiren kullanım örneklerini desteklemek için GPT-J'nin çıkarım gecikmesini azaltmaya odaklandık.

GPT-J'nin yanıt gecikmesi zorlukları

Tepki gecikmesi, modern metin üretimine güç sağlayan GPT-J gibi önceden eğitilmiş üretici dönüştürücüler (GPT'ler) için temel bir engeldir. GPT modelleri, çıkarım adımları dizileri aracılığıyla metin üretir. Her çıkarım adımında, modele girdi olarak metin verilir ve bu girdiye bağlı olarak, metne eklemek için kelime dağarcığından bir kelimeyi örnekler. Örneğin, "Bir şemsiyeye ihtiyacım var çünkü bu" jeton dizisi göz önüne alındığında, bir sonraki jetonun yüksek olasılıkla "yağmur yağıyor" olabilir. Bununla birlikte, "güneşli" veya "bağlı" da olabilir; bu, "Şemsiyeye ihtiyacım var çünkü yağmur yağmaya başlayacak" gibi bir metin dizisine doğru ilk adım olabilir.

Gerçek dünyadaki kullanım senaryoları onlarca, yüzlerce ve hatta binlerce çıkarım adımını içerebileceğinden, bunun gibi senaryolar GPT modellerini dağıtmak için bazı ilginç zorluklar doğurur. Örneğin, 1,000 jetonlu bir yanıt oluşturmak için 1,000 çıkarım adımı gerekir! Buna göre, bir model, izolasyonda yeterince hızlı görünen çıkarım hızları sunabilse de, uzun metinler oluşturulduğunda gecikmenin savunulamaz seviyelere ulaşması kolaydır. Bir V280 GPU'da çıkarım adımı başına ortalama 100 milisaniye gecikme gözlemledik. Bu, 6.7 milyar parametreli bir model için hızlı görünebilir, ancak bu tür gecikmelerle, kullanıcı deneyimi açısından ideal olmayan bir 30 jetonlu yanıt oluşturmak yaklaşık 500 saniye sürer.

DeepSpeed Inference ile çıkarım hızlarını optimize etme

Derin Hız Microsoft tarafından geliştirilen açık kaynaklı bir derin öğrenme optimizasyon kitaplığıdır. DeepSpeed, öncelikli olarak büyük modellerin eğitimini optimize etmeye odaklansa da, BERT, Megatron, GPT-Neo, GPT2 ve GPT-J dahil olmak üzere belirli bir dizi modeli destekleyen bir çıkarım optimizasyonu çerçevesi de sağlar. DeepSpeed Inference, model paralelliği, çıkarım için optimize edilmiş CUDA çekirdekleri ve nicelemenin bir kombinasyonu aracılığıyla büyük Transformer tabanlı mimarilerle yüksek performanslı çıkarımı kolaylaştırır.

GPT-J ile çıkarım hızını artırmak için, optimize edilmiş CUDA çekirdeklerini Hugging Face Transformers GPT-J uygulamasına enjekte etmek için DeepSpeed'in çıkarım motorunu kullanıyoruz.

DeepSpeed'in çıkarım motorunun hız avantajlarını değerlendirmek için, çeşitli konfigürasyonlar altında GPT-J'nin zamanlamasını yaptığımız bir dizi gecikme testi gerçekleştirdik. Spesifik olarak, DeepSpeed'in kullanılıp kullanılmadığını, donanımı, çıktı dizisi uzunluğunu ve girdi dizisi uzunluğunu değiştirdik. Her ikisi de çıkarım hızını etkilediği için hem çıktı hem de girdi dizisi uzunluğuna odaklandık. 50 jetonluk bir çıktı dizisi oluşturmak için modelin 50 çıkarım adımı gerçekleştirmesi gerekir. Ayrıca, bir çıkarım adımını gerçekleştirmek için gereken süre, girdi dizisinin boyutuna bağlıdır; daha büyük girdiler daha fazla işlem süresi gerektirir. Çıktı dizisi boyutunun etkisi, girdi dizisi boyutunun etkisinden çok daha büyük olsa da, yine de her iki faktörü de hesaba katmak gerekir.

Deneyimizde aşağıdaki tasarımı kullandık:

DeepSpeed çıkarım motoru - Açık kapalı
donanım – T4 (ml.g4dn.2xlarge), V100 (ml.p3.2xlarge)
Giriş dizisi uzunluğu - 50, 200, 500, 1000
Çıkış dizisi uzunluğu - 50, 100, 150, 200

Toplamda, bu tasarım bu dört faktörün 64 kombinasyonuna sahiptir ve her kombinasyon için 20 gecikme testi yaptık. Her test, önceden başlatılmış bir SageMaker çıkarım uç noktasında çalıştırıldı ve gecikme testlerimizin API değişimleri ve ön işleme dahil olmak üzere üretim sürelerini yansıtmasını sağladı.

Testlerimiz, DeepSpeed'in GPT-J çıkarım motorunun, temel Hugging Face Transformers PyTorch uygulamasından önemli ölçüde daha hızlı olduğunu gösteriyor. Aşağıdaki şekil, ml.g4dn.2xlarge ve ml.p3.2xlarge SageMaker çıkarım uç noktalarında DeepSpeed hızlandırması olan ve olmayan GPT-J için ortalama metin oluşturma gecikmelerini gösterir.

4 GB NVIDIA T2 GPU ile donatılmış ml.g16dn.4xlarge bulut sunucusunda, yaklaşık %24'lük bir ortalama gecikme azalması gözlemledik [Standart Sapma (SD) = 0.05]. Bu, saniyede ortalama 12.5 (SD = 0.91) jetondan saniyede ortalama 16.5 (SD = 2.13) jetona bir artışa karşılık geldi. Özellikle DeepSpeed'in hızlandırma etkisi, NVIDIA V3.2 GPU ile donatılmış ml.p100xlarge bulut sunucusunda daha da güçlüydü. Bu donanımda, %53'lük (SD = .07) bir ortalama gecikme azalması gözlemledik. Saniye başına jeton açısından, bu, saniyede ortalama 21.9 (SD = 1.97) jetondan saniyede ortalama 47.5 (SD = 5.8) jetona bir artışa karşılık geldi.

Ayrıca, giriş dizilerinin boyutu büyüdükçe DeepSpeed tarafından sunulan hızlandırmanın her iki donanım yapılandırmasında da biraz azaldığını gözlemledik. Bununla birlikte, tüm koşullarda, DeepSpeed'in GPT-J optimizasyonlarıyla yapılan çıkarım, temel çizgiden hala önemli ölçüde daha hızlıydı. Örneğin, g4dn örneğinde, maksimum ve minimum gecikme azalmaları sırasıyla %31 (giriş dizisi boyutu = 50) ve %15 (giriş dizisi boyutu = 1000) olmuştur. Ve p3 örneğinde, maksimum ve minimum gecikme azalmaları sırasıyla %62 (giriş dizisi boyutu = 50) ve %40 (giriş dizisi boyutu = 1000) olmuştur.

Bir SageMaker çıkarım uç noktasında DeepSpeed ile GPT-J'yi dağıtma

GPT-J için önemli ölçüde artan metin oluşturma hızlarına ek olarak, DeepSpeed'in çıkarım motorunun bir SageMaker çıkarım uç noktasına entegre edilmesi kolaydır. Çıkarım yığınımıza DeepSpeed eklemeden önce, uç noktalarımız resmi bir PyTorch görüntüsüne dayalı özel bir Docker görüntüsü üzerinde çalışıyordu. SageMaker, özel çıkarım uç noktalarını dağıtmayı çok kolaylaştırır ve DeepSpeed'i entegre etmek, bağımlılığı eklemek ve birkaç satır kod yazmak kadar basitti. GPT-J'yi DeepSpeed ile dağıtmak için dağıtım iş akışına ilişkin açık kaynaklı kılavuz şurada mevcuttur: GitHub.

Sonuç

Mantium, herkesin AI ile hızlı bir şekilde inşa edebilmesi için lider inovasyona kendini adamıştır. Yapay zeka güdümlü süreç otomasyonundan sıkı güvenlik ve uyumluluk ayarlarına kadar eksiksiz platformumuz, sağlam, sorumlu yapay zeka uygulamalarını geniş ölçekte geliştirmek ve yönetmek için gerekli tüm araçları sağlar ve giriş engelini azaltır. SageMaker, Mantium gibi şirketlerin hızla pazara girmesine yardımcı olur.

Mantium'un kuruluşunuz için karmaşık yapay zeka güdümlü iş akışları oluşturmanıza nasıl yardımcı olabileceğini öğrenmek için şu adresi ziyaret edin: www.mantiumai.com.

yazarlar hakkında

Joe Hoover Mantium'un AI Ar-Ge ekibinde Kıdemli Uygulamalı Bilim Adamıdır. İnsanların gerçek dünyadaki sorunları son teknoloji NLP sistemleriyle çözmelerine yardımcı olan modeller, yöntemler ve altyapı geliştirme konusunda tutkulu. Boş zamanlarında sırt çantasıyla gezmeyi, bahçe işleriyle uğraşmayı, yemek pişirmeyi ve ailesiyle takılmayı sever.

Dhaval Patel AWS'de Baş Makine Öğrenimi Mimarıdır. Dağıtılmış bilgi işlem ve Yapay Zeka ile ilgili sorunlar üzerinde büyük kuruluşlardan orta ölçekli girişimlere kadar çeşitli kuruluşlarla çalıştı. NLP ve Computer Vision alanları dahil olmak üzere Derin öğrenmeye odaklanmaktadır. Müşterilerin SageMaker'da yüksek performanslı model çıkarımı yapmasına yardımcı olur.

Sunil Padmanabhan AWS'de Başlangıç Çözümleri Mimarıdır. Eski bir startup kurucusu ve CTO olarak, makine öğrenimi konusunda tutkulu ve yeni başlayanların iş sonuçları için AI/ML'den yararlanmasına ve ML/AI çözümlerini geniş ölçekte tasarlayıp dağıtmasına yardımcı olmaya odaklanıyor.

Zaman Damgası: Haziran 15, 2022

Zaman Damgası: Eylül 11, 2023

Mantium, Amazon SageMaker'da DeepSpeed ile düşük gecikmeli GPT-J çıkarımını nasıl elde ediyor?

Plato tarafından yeniden yayınlandı

GPT-J modeline genel bakış

GPT-J'nin yanıt gecikmesi zorlukları

DeepSpeed Inference ile çıkarım hızlarını optimize etme

Bir SageMaker çıkarım uç noktasında DeepSpeed ile GPT-J'yi dağıtma

Sonuç

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

T-Mobile US, Inc., müşterilerinin tercih ettiği dilde sesli mesaj göndermek için Amazon Transcribe ve Amazon Translate aracılığıyla yapay zekayı kullanıyor | Amazon Web Hizmetleri

Amazon SageMaker ve Amazon Augmented AI kullanarak uydu görüntüleri için bilgisayar görüşüyle felakete müdahaleyi hızlandırın

AWS DeepRacer ile Parsons'ta yapay zeka ve makine öğreniminden yararlanma

Amazon Transcribe'daki özel kelime dağarcığıyla müşteri-aracı çağrılarının çeviri yazı doğruluğunu iyileştirin

Amazon Kendra için güncellenmiş Microsoft OneDrive bağlayıcısının (V2) duyurusu

Güvenli, gerçek zamanlı çıkarım için Amazon SageMaker uç noktalarıyla tamamen homomorfik şifrelemeyi etkinleştirin

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot ile birleşik veri hazırlama ve model eğitimi

Amazon SageMaker Canvas'ta Llama 2 ve Mistral modelleri ve akış yanıtları için destek duyurusu | Amazon Web Hizmetleri

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot ile birleştirilmiş veri hazırlama, model eğitimi ve devreye alma – Bölüm 2

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap

GPT-J modeline genel bakış

GPT-J'nin yanıt gecikmesi zorlukları

DeepSpeed ​​Inference ile çıkarım hızlarını optimize etme

Bir SageMaker çıkarım uç noktasında DeepSpeed ​​ile GPT-J'yi dağıtma

Sonuç

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap

DeepSpeed Inference ile çıkarım hızlarını optimize etme

Bir SageMaker çıkarım uç noktasında DeepSpeed ile GPT-J'yi dağıtma