Dengan pesatnya adopsi aplikasi AI generatif, aplikasi ini perlu merespons tepat waktu guna mengurangi latensi yang dirasakan dengan throughput yang lebih tinggi. Model dasar (Foundation Model/FM) sering kali telah dilatih sebelumnya pada kumpulan data yang sangat besar dengan parameter yang berkisar dalam skala jutaan hingga miliaran atau lebih. Model bahasa besar (LLM) adalah jenis FM yang menghasilkan teks sebagai respons dari inferensi pengguna. Menyimpulkan model ini dengan berbagai konfigurasi parameter inferensi dapat menyebabkan latensi tidak konsisten. Ketidakkonsistenan ini mungkin disebabkan oleh beragamnya jumlah token respons yang Anda harapkan dari model atau jenis akselerator tempat model diterapkan.
Apa pun kasusnya, daripada menunggu respons lengkap, Anda dapat mengadopsi pendekatan streaming respons untuk kesimpulan Anda, yang mengirimkan kembali potongan informasi segera setelah dihasilkan. Hal ini menciptakan pengalaman interaktif dengan memungkinkan Anda melihat sebagian respons yang dialirkan secara real-time, bukan respons penuh yang tertunda.
Dengan pengumuman resmi itu Inferensi real-time Amazon SageMaker kini mendukung streaming respons, Anda sekarang dapat terus mengalirkan respons inferensi kembali ke klien saat menggunakan Amazon SageMaker inferensi waktu nyata dengan streaming respons. Solusi ini akan membantu Anda membangun pengalaman interaktif untuk berbagai aplikasi AI generatif seperti chatbots, asisten virtual, dan generator musik. Postingan ini menunjukkan kepada Anda cara mewujudkan waktu respons yang lebih cepat dalam bentuk Time to First Byte (TTFB) dan mengurangi latensi yang dirasakan secara keseluruhan saat menyimpulkan model Llama 2.
Untuk mengimplementasikan solusi ini, kami menggunakan SageMaker, layanan yang terkelola sepenuhnya untuk menyiapkan data dan membangun, melatih, serta menerapkan model pembelajaran mesin (ML) untuk setiap kasus penggunaan dengan infrastruktur, alat, dan alur kerja yang terkelola sepenuhnya. Untuk informasi selengkapnya tentang berbagai opsi penerapan yang disediakan SageMaker, lihat FAQ Hosting Model Amazon SageMaker. Mari kita pahami bagaimana kita dapat mengatasi masalah latensi menggunakan inferensi real-time dengan streaming respons.
Ikhtisar solusi
Karena kita ingin mengatasi latensi yang disebutkan di atas terkait dengan inferensi real-time dengan LLM, pertama-tama mari kita pahami bagaimana kita dapat menggunakan dukungan streaming respons untuk inferensi real-time untuk Llama 2. Namun, LLM mana pun dapat memanfaatkan dukungan streaming respons dengan real-time -kesimpulan waktu.
Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disempurnakan dengan skala mulai dari 7 miliar hingga 70 miliar parameter. Model Llama 2 adalah model autoregresif dengan arsitektur decoder saja. Jika dilengkapi dengan parameter prompt dan inferensi, model Llama 2 mampu menghasilkan respons teks. Model-model ini dapat digunakan untuk penerjemahan, ringkasan, menjawab pertanyaan, dan mengobrol.
Untuk postingan ini, kami menerapkan model Obrolan Llama 2 meta-llama/Llama-2-13b-chat-hf
di SageMaker untuk inferensi real-time dengan streaming respons.
Saat menerapkan model pada titik akhir SageMaker, Anda dapat memasukkan model ke dalam container menggunakan yang khusus Wadah Pembelajaran Mendalam AWS (DLC) gambar tersedia untuk perpustakaan sumber terbuka populer. Model Llama 2 adalah model pembuatan teks; Anda dapat menggunakan keduanya Kontainer inferensi Hugging Face LLM di SageMaker didukung oleh Memeluk Wajah Inferensi Pembuatan Teks (TGI) atau AWS DLC untuk Inferensi Model Besar (LMI).
Dalam postingan ini, kami menerapkan model Obrolan Llama 2 13B menggunakan DLC di SageMaker Hosting untuk inferensi real-time yang didukung oleh instans G5. Instans G5 adalah instans berbasis GPU berperforma tinggi untuk aplikasi intensif grafis dan inferensi ML. Anda juga dapat menggunakan jenis instans yang didukung p4d, p3, g5, dan g4dn dengan perubahan yang sesuai sesuai konfigurasi instans.
Prasyarat
Untuk menerapkan solusi ini, Anda harus memiliki hal berikut:
- Akun AWS dengan Identitas AWS dan Manajemen Akses (IAM) peran dengan izin untuk mengelola sumber daya yang dibuat sebagai bagian dari solusi.
- Jika ini adalah pertama kalinya Anda bekerja dengannya Studio Amazon SageMaker, Anda harus membuat terlebih dahulu Domain SageMaker.
- Akun Wajah Memeluk. Mendaftarlah dengan email Anda jika Anda belum memiliki akun.
- Untuk akses tanpa batas ke model yang tersedia di Hugging Face, terutama model yang terjaga keamanannya seperti Llama, untuk tujuan penyesuaian dan inferensi, Anda harus memiliki akun Hugging Face untuk mendapatkan token akses baca. Setelah Anda mendaftar untuk akun Hugging Face Anda, masuk untuk mengunjungi https://huggingface.co/settings/tokens untuk membuat token akses baca.
- Akses ke Llama 2, menggunakan ID email yang sama dengan yang Anda gunakan untuk mendaftar ke Hugging Face.
- Model Llama 2 yang tersedia melalui Hugging Face adalah model yang terjaga keamanannya. Penggunaan model Llama diatur oleh lisensi Meta. Untuk mengunduh bobot model dan tokenizer, meminta akses ke Llama dan menerima lisensi mereka.
- Setelah Anda diberikan akses (biasanya dalam beberapa hari), Anda akan menerima konfirmasi email. Untuk contoh ini, kami menggunakan model
Llama-2-13b-chat-hf
, namun Anda juga dapat mengakses varian lainnya.
Pendekatan 1: Memeluk Wajah TGI
Di bagian ini, kami menunjukkan cara menyebarkan meta-llama/Llama-2-13b-chat-hf
model ke titik akhir real-time SageMaker dengan streaming respons menggunakan Hugging Face TGI. Tabel berikut menguraikan spesifikasi untuk penerapan ini.
Spesifikasi | Nilai |
Wadah | Memeluk Wajah TGI |
Model Nama | meta-llama/Llama-2-13b-chat-hf |
Contoh ML | ml.g5.12xbesar |
Kesimpulan | Real-time dengan streaming respons |
Menyebarkan model
Pertama, Anda mengambil gambar dasar untuk LLM yang akan disebarkan. Anda kemudian membuat model pada gambar dasar. Terakhir, Anda menerapkan model ke instance ML untuk SageMaker Hosting untuk inferensi waktu nyata.
Mari kita amati cara mencapai penerapan secara terprogram. Untuk singkatnya, hanya kode yang membantu langkah penerapan yang dibahas di bagian ini. Kode sumber lengkap untuk penerapan tersedia di notebook llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Ambil DLC Hugging Face LLM terbaru yang didukung oleh TGI melalui pre-built DLC SageMaker. Anda menggunakan gambar ini untuk menyebarkan meta-llama/Llama-2-13b-chat-hf
model di SageMaker. Lihat kode berikut:
Tentukan lingkungan untuk model dengan parameter konfigurasi yang ditentukan sebagai berikut:
menggantikan <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
untuk parameter konfigurasi HUGGING_FACE_HUB_TOKEN
dengan nilai token yang diperoleh dari profil Hugging Face Anda seperti yang dijelaskan di bagian prasyarat postingan ini. Dalam konfigurasi, Anda menentukan jumlah GPU yang digunakan per replika model sebanyak 4 SM_NUM_GPUS
. Kemudian Anda dapat menyebarkannya meta-llama/Llama-2-13b-chat-hf
model pada instance ml.g5.12xlarge yang dilengkapi dengan 4 GPU.
Sekarang Anda dapat membuat instance dari HuggingFaceModel
dengan konfigurasi lingkungan yang disebutkan di atas:
Terakhir, terapkan model dengan memberikan argumen pada metode penerapan yang tersedia pada model dengan berbagai nilai parameter seperti endpoint_name
, initial_instance_count
, dan instance_type
:
Melakukan inferensi
DLC Hugging Face TGI hadir dengan kemampuan untuk mengalirkan respons tanpa penyesuaian atau perubahan kode apa pun pada model. Anda dapat gunakan panggil_endpoint_with_response_stream jika Anda menggunakan Boto3 atau PanggilEndpointWithResponseStream saat memprogram dengan SageMaker Python SDK.
Grafik InvokeEndpointWithResponseStream
API SageMaker memungkinkan pengembang mengalirkan respons kembali dari model SageMaker, yang dapat membantu meningkatkan kepuasan pelanggan dengan mengurangi latensi yang dirasakan. Hal ini sangat penting terutama untuk aplikasi yang dibangun dengan model AI generatif, yang mana pemrosesan segera lebih penting daripada menunggu respons keseluruhan.
Untuk contoh ini, kami menggunakan Boto3 untuk menyimpulkan model dan menggunakan SageMaker API invoke_endpoint_with_response_stream
sebagai berikut:
Argumen CustomAttributes
diatur ke nilai accept_eula=false
. Grafik accept_eula
parameter harus diatur ke true
untuk berhasil mendapatkan respon dari model Llama 2. Setelah pemanggilan berhasil menggunakan invoke_endpoint_with_response_stream
, metode ini akan mengembalikan aliran respons byte.
Diagram berikut menggambarkan alur kerja ini.
Anda memerlukan iterator yang mengulang aliran byte dan menguraikannya menjadi teks yang dapat dibaca. Itu LineIterator
implementasi dapat dilihat di llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Sekarang Anda siap menyiapkan perintah dan instruksi untuk menggunakannya sebagai payload saat menyimpulkan model.
Siapkan prompt dan instruksi
Pada langkah ini, Anda menyiapkan prompt dan instruksi untuk LLM Anda. Untuk meminta Llama 2, Anda harus memiliki template prompt berikut:
Anda membuat templat prompt yang ditentukan secara terprogram dalam metode ini build_llama2_prompt
, yang selaras dengan templat prompt yang disebutkan di atas. Anda kemudian menentukan instruksi sesuai kasus penggunaan. Dalam hal ini, kami menginstruksikan model untuk membuat email untuk kampanye pemasaran seperti yang tercakup dalam get_instructions
metode. Kode untuk metode ini ada di llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb buku catatan. Bangun instruksi yang dikombinasikan dengan tugas yang akan dilakukan sebagaimana dirinci dalam user_ask_1
sebagai berikut:
Kami meneruskan instruksi untuk membuat prompt sesuai template prompt yang dihasilkan oleh build_llama2_prompt.
Kami menggabungkan parameter inferensi bersama dengan prompt dengan kuncinya stream
dengan nilai True
untuk membentuk muatan akhir. Kirim muatannya ke get_realtime_response_stream
, yang akan digunakan untuk memanggil titik akhir dengan streaming respons:
Teks yang dihasilkan dari LLM akan dialirkan ke output seperti yang ditunjukkan dalam animasi berikut.
Pendekatan 2: LMI dengan DJL Serving
Di bagian ini, kami mendemonstrasikan cara menyebarkan meta-llama/Llama-2-13b-chat-hf
model ke titik akhir real-time SageMaker dengan streaming respons menggunakan LMI dengan DJL Serving. Tabel berikut menguraikan spesifikasi untuk penerapan ini.
Spesifikasi | Nilai |
Wadah | Gambar kontainer LMI dengan DJL Serving |
Model Nama | meta-llama/Llama-2-13b-chat-hf |
Contoh ML | ml.g5.12xbesar |
Kesimpulan | Real-time dengan streaming respons |
Anda terlebih dahulu mengunduh modelnya dan menyimpannya Layanan Penyimpanan Sederhana Amazon (Amazon S3). Anda kemudian menentukan URI S3 yang menunjukkan awalan S3 model di serving.properties
mengajukan. Selanjutnya, Anda mengambil gambar dasar untuk LLM yang akan disebarkan. Anda kemudian membuat model pada gambar dasar. Terakhir, Anda menerapkan model ke instance ML untuk SageMaker Hosting untuk inferensi waktu nyata.
Mari kita amati cara mencapai langkah-langkah penerapan yang disebutkan di atas secara terprogram. Untuk singkatnya, hanya kode yang membantu langkah-langkah penerapan yang dirinci di bagian ini. Kode sumber lengkap untuk penerapan ini tersedia di notebook llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Unduh snapshot model dari Hugging Face dan unggah artefak model di Amazon S3
Dengan prasyarat yang disebutkan di atas, unduh model pada instans notebook SageMaker lalu unggah ke bucket S3 untuk penerapan lebih lanjut:
Perhatikan bahwa meskipun Anda tidak memberikan token akses yang valid, model akan diunduh. Namun saat Anda menerapkan model seperti itu, penyajian model tidak akan berhasil. Oleh karena itu, disarankan untuk menggantinya <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
untuk argumennya token
dengan nilai token yang diperoleh dari profil Wajah Pelukan Anda sebagaimana dirinci dalam prasyarat. Untuk postingan ini, kami menentukan nama model resmi untuk Llama 2 seperti yang diidentifikasi di Wajah Memeluk dengan nilainya meta-llama/Llama-2-13b-chat-hf
. Model yang tidak terkompresi akan diunduh local_model_path
sebagai hasil dari menjalankan kode yang disebutkan di atas.
Unggah file ke Amazon S3 dan dapatkan URI, yang nantinya akan digunakan serving.properties
.
Anda akan mengemasnya meta-llama/Llama-2-13b-chat-hf
model pada gambar kontainer LMI dengan DJL Serving menggunakan konfigurasi yang ditentukan melalui serving.properties
. Kemudian Anda menerapkan model tersebut bersama dengan artefak model yang dikemas pada gambar kontainer di instans ML SageMaker ml.g5.12xlarge. Anda kemudian menggunakan instance ML ini untuk SageMaker Hosting untuk inferensi waktu nyata.
Siapkan artefak model untuk DJL Serving
Siapkan artefak model Anda dengan membuat serving.properties
file konfigurasi:
Kami menggunakan pengaturan berikut dalam file konfigurasi ini:
- mesin โ Ini menentukan mesin runtime yang akan digunakan DJL. Nilai yang mungkin termasuk
Python
,DeepSpeed
,FasterTransformer
, danMPI
. Dalam hal ini, kami menyetelnya keMPI
. Paralelisasi dan Inferensi Model (MPI) memfasilitasi pemartisian model di semua GPU yang tersedia dan karenanya mempercepat inferensi. - opsi.entryPoint โ Opsi ini menentukan handler mana yang ditawarkan oleh DJL Serving yang ingin Anda gunakan. Nilai yang mungkin adalah
djl_python.huggingface
,djl_python.deepspeed
, dandjl_python.stable-diffusion
. Kita gunakandjl_python.huggingface
untuk Memeluk Wajah Mempercepat. - opsi.tensor_parallel_degree โ Opsi ini menentukan jumlah partisi paralel tensor yang dilakukan pada model. Anda dapat mengatur jumlah perangkat GPU yang dibutuhkan Accelerate untuk mempartisi modelnya. Parameter ini juga mengontrol jumlah pekerja per model yang akan dimulai saat layanan DJL berjalan. Misalnya, jika kita memiliki mesin 4 GPU dan kita membuat empat partisi, maka kita akan memiliki satu pekerja per model untuk melayani permintaan.
- pilihan.low_cpu_mem_usage โ Ini mengurangi penggunaan memori CPU saat memuat model. Kami menyarankan Anda menyetelnya ke
TRUE
. - opsi.rolling_batch โ Hal ini memungkinkan pengelompokan tingkat iterasi menggunakan salah satu strategi yang didukung. Nilai meliputi
auto
,scheduler
, danlmi-dist
. Kita gunakanlmi-dist
untuk mengaktifkan pengelompokan berkelanjutan untuk Llama 2. - pilihan.max_rolling_batch_size โ Ini membatasi jumlah permintaan bersamaan dalam batch berkelanjutan. Nilai defaultnya adalah 32.
- pilihan.model_id โ Anda harus mengganti
{{model_id}}
dengan ID model dari model terlatih yang dihosting di dalam a repositori model di Hugging Face atau jalur S3 ke artefak model.
Opsi konfigurasi lainnya dapat ditemukan di Konfigurasi dan pengaturan.
Karena DJL Serving mengharapkan artefak model dikemas dan diformat dalam file .tar, jalankan cuplikan kode berikut untuk mengompresi dan mengunggah file .tar ke Amazon S3:
Ambil gambar container LMI terbaru dengan DJL Serving
Selanjutnya, Anda menggunakan DLC yang tersedia dengan SageMaker untuk LMI untuk menyebarkan model. Ambil URI gambar SageMaker untuk djl-deepspeed
container secara terprogram menggunakan kode berikut:
Anda dapat menggunakan gambar yang disebutkan di atas untuk menyebarkan meta-llama/Llama-2-13b-chat-hf
model di SageMaker. Sekarang Anda dapat melanjutkan untuk membuat model.
Buat modelnya
Anda dapat membuat model yang wadahnya dibuat menggunakan inference_image_uri
dan kode penyajian model terletak di URI S3 yang ditunjukkan oleh s3_code_artifact:
Sekarang Anda dapat membuat konfigurasi model dengan semua detail untuk konfigurasi titik akhir.
Buat konfigurasi model
Gunakan kode berikut untuk membuat konfigurasi model untuk model yang diidentifikasi oleh model_name
:
Konfigurasi model ditentukan untuk ProductionVariants
parameter InstanceType
untuk instance ML ml.g5.12xlarge. Anda juga menyediakan ModelName
menggunakan nama yang sama yang Anda gunakan untuk membuat model pada langkah sebelumnya, sehingga membangun hubungan antara model dan konfigurasi titik akhir.
Sekarang setelah Anda menentukan model dan konfigurasi model, Anda dapat membuat titik akhir SageMaker.
Buat titik akhir SageMaker
Buat titik akhir untuk menyebarkan model menggunakan cuplikan kode berikut:
Anda dapat melihat kemajuan penerapan menggunakan cuplikan kode berikut:
Setelah penerapan berhasil, status titik akhir akan menjadi InService
. Sekarang titik akhir sudah siap, mari lakukan inferensi dengan streaming respons.
Inferensi waktu nyata dengan streaming respons
Seperti yang telah kita bahas pada pendekatan sebelumnya untuk Memeluk Wajah TGI, Anda dapat menggunakan metode yang sama get_realtime_response_stream
untuk menjalankan streaming respons dari titik akhir SageMaker. Kode untuk melakukan inferensi menggunakan pendekatan LMI ada di llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb buku catatan. Itu LineIterator
pelaksanaan terletak di llama-2-lmi/utils/LineIterator.py. Perhatikan bahwa LineIterator
untuk model Obrolan Llama 2 yang diterapkan pada wadah LMI berbeda dengan LineIterator
direferensikan di bagian Memeluk Wajah TGI. Itu LineIterator
mengulang aliran byte dari model Obrolan Llama 2 yang disimpulkan dengan wadah LMI dengan djl-deepspeed
versi 0.25.0. Fungsi pembantu berikut akan mengurai aliran respons yang diterima dari permintaan inferensi yang dibuat melalui invoke_endpoint_with_response_stream
Lebah:
Metode sebelumnya mencetak aliran data yang dibaca oleh LineIterator
dalam format yang dapat dibaca manusia.
Mari kita jelajahi cara menyiapkan prompt dan instruksi untuk menggunakannya sebagai payload sambil menyimpulkan model.
Karena Anda menyimpulkan model yang sama di Hugging Face TGI dan LMI, proses persiapan prompt dan instruksinya sama. Oleh karena itu, Anda dapat menggunakan metode tersebut get_instructions
dan build_llama2_prompt
untuk menyimpulkan.
Grafik get_instructions
metode mengembalikan instruksi. Bangun instruksi yang dikombinasikan dengan tugas yang akan dilakukan sebagaimana dirinci dalam user_ask_2
sebagai berikut:
Berikan instruksi untuk membuat prompt sesuai template prompt yang dihasilkan oleh build_llama2_prompt:
Kami menggabungkan parameter inferensi bersama dengan perintah untuk membentuk payload akhir. Kemudian Anda mengirim muatannya ke get_realtime_response_stream,
yang digunakan untuk memanggil titik akhir dengan streaming respons:
Teks yang dihasilkan dari LLM akan dialirkan ke output seperti yang ditunjukkan dalam animasi berikut.
Membersihkan
Untuk menghindari timbulnya biaya yang tidak perlu, gunakan Konsol Manajemen AWS untuk menghapus titik akhir dan sumber daya terkait yang dibuat saat menjalankan pendekatan yang disebutkan dalam postingan. Untuk kedua pendekatan penerapan, lakukan rutinitas pembersihan berikut:
menggantikan <SageMaker_Real-time_Endpoint_Name>
untuk variabel endpoint_name
dengan titik akhir sebenarnya.
Untuk pendekatan kedua, kami menyimpan artefak model dan kode di Amazon S3. Anda dapat membersihkan bucket S3 menggunakan kode berikut:
Kesimpulan
Dalam postingan ini, kita membahas bagaimana jumlah token respons yang bervariasi atau serangkaian parameter inferensi yang berbeda dapat memengaruhi latensi yang terkait dengan LLM. Kami menunjukkan cara mengatasi masalah dengan bantuan streaming respons. Kami kemudian mengidentifikasi dua pendekatan untuk menerapkan dan menyimpulkan model Obrolan Llama 2 menggunakan AWS DLCโLMI dan Hugging Face TGI.
Anda sekarang harus memahami pentingnya respons streaming dan bagaimana hal itu dapat mengurangi latensi yang dirasakan. Respons streaming dapat meningkatkan pengalaman pengguna, yang sebaliknya akan membuat Anda menunggu hingga LLM membuat respons keseluruhan. Selain itu, penerapan model Obrolan Llama 2 dengan streaming respons meningkatkan pengalaman pengguna dan membuat pelanggan Anda senang.
Anda dapat merujuk ke sampel aws resmi amazon-sagemaker-llama2-respons-streaming-resep yang mencakup penerapan untuk varian model Llama 2 lainnya.
Referensi
Tentang Penulis
Angkatan Laut Pavan Kumar Rao adalah Arsitek Solusi di Amazon Web Services. Dia bekerja dengan ISV di India untuk membantu mereka berinovasi di AWS. Dia adalah penulis terbitan untuk buku โMemulai dengan Pemrograman V.โ Dia mengejar gelar M.Tech Eksekutif dalam Ilmu Data dari Institut Teknologi India (IIT), Hyderabad. Beliau juga meraih gelar MBA Eksekutif dalam spesialisasi TI dari Sekolah Manajemen dan Administrasi Bisnis India, dan meraih gelar B.Tech di bidang Teknik Elektronika dan Komunikasi dari Institut Teknologi dan Sains Vaagdevi. Pavan adalah Profesional Arsitek Solusi Tersertifikasi AWS dan memegang sertifikasi lain seperti Spesialisasi Pembelajaran Mesin Tersertifikasi AWS, Microsoft Certified Professional (MCP), dan Microsoft Certified Technology Specialist (MCTS). Dia juga seorang penggila open source. Di waktu luangnya, dia suka mendengarkan suara ajaib Sia dan Rihanna.
Sudhanshu Benci adalah spesialis AI/ML utama di AWS dan bekerja dengan klien untuk memberi saran tentang MLOps dan perjalanan AI generatif mereka. Dalam jabatan sebelumnya di Amazon, ia membuat konsep, membuat, dan memimpin tim untuk membangun platform AI dan gamifikasi berbasis sumber terbuka, dan berhasil mengkomersialkannya dengan lebih dari 100 klien. Sudhanshu memuji beberapa patennya, telah menulis dua buku dan beberapa makalah dan blog, dan telah menyajikan sudut pandangnya di berbagai forum teknis. Dia telah menjadi pemimpin pemikiran dan pembicara, dan telah berkecimpung dalam industri ini selama hampir 25 tahun. Dia telah bekerja dengan klien Fortune 1000 di seluruh dunia dan yang terbaru dengan klien asli digital di India.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
- PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
- PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
- PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :memiliki
- :adalah
- :Di mana
- $NAIK
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1st
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- kemampuan
- Sanggup
- Tentang Kami
- mempercepat
- mempercepat
- akselerator
- Setuju
- mengakses
- Akun
- Mencapai
- di seluruh
- Tindakan
- sebenarnya
- Selain itu
- alamat
- administrasi
- mengambil
- Adopsi
- Keuntungan
- menasihati
- mempengaruhi
- Setelah
- AI
- Model AI
- AI / ML
- alice
- Rata
- Semua
- Membiarkan
- memungkinkan
- sepanjang
- sudah
- juga
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- dan
- animasi
- mengumumkan
- Pengumuman
- Apa pun
- api
- aplikasi
- pendekatan
- pendekatan
- sesuai
- arsitektur
- arsitektur
- ADALAH
- argumen
- argumen
- AS
- asisten
- terkait
- At
- penulis
- tersedia
- menghindari
- AWS
- kembali
- mendasarkan
- pengelompokan
- BE
- karena
- menjadi
- sebelum
- antara
- Luar
- Milyar
- miliaran
- BIN
- blog
- tubuh
- Book
- Buku-buku
- kedua
- membangun
- membangun
- dibangun di
- bisnis
- tapi
- by
- panggilan
- Kampanye
- CAN
- mampu
- kasus
- sertifikasi
- Tersertifikasi
- Perubahan
- beban
- mengobrol
- chatbots
- membersihkan
- klien
- klien
- klub
- kode
- koleksi
- COM
- bergabung
- datang
- Komunikasi
- bersamaan
- konfigurasi
- konfirmasi
- Wadah
- Wadah
- kontinu
- terus menerus
- kontrol
- bisa
- sepasang
- kupon
- tercakup
- Meliputi
- membuat
- dibuat
- menciptakan
- membuat
- kredit
- pelanggan
- Kepuasan pelanggan
- pelanggan
- data
- ilmu data
- Hari
- mendalam
- belajar mendalam
- default
- menetapkan
- didefinisikan
- terlambat
- mendemonstrasikan
- menyebarkan
- dikerahkan
- penggelaran
- penyebaran
- terperinci
- rincian
- pengembang
- Devices
- berbeda
- digital
- dibahas
- Dont
- Download
- selama
- Terdahulu
- antara
- Elektronik
- memungkinkan
- Titik akhir
- Mesin
- Teknik
- penggemar
- Seluruh
- Lingkungan Hidup
- terutama
- membangun
- Bahkan
- contoh
- eksekutif
- mengharapkan
- mengharapkan
- pengalaman
- Pengalaman
- menyelidiki
- Menghadapi
- memfasilitasi
- palsu
- lebih cepat
- File
- File
- terakhir
- Akhirnya
- Pertama
- pertama kali
- berikut
- berikut
- Untuk
- bentuk
- format
- Nasib
- forum
- ditemukan
- Prinsip Dasar
- empat
- Gratis
- dari
- penuh
- sepenuhnya
- fungsi
- lebih lanjut
- gamifikasi
- terjaga keamanannya
- menghasilkan
- dihasilkan
- menghasilkan
- generasi
- generatif
- AI generatif
- generator
- mendapatkan
- gif
- bumi
- Go
- diatur
- GPU
- GPU
- diberikan
- besar
- senang
- benci
- Memiliki
- he
- membantu
- membantu
- kinerja tinggi
- lebih tinggi
- -nya
- memegang
- host
- tuan
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- Namun
- HTML
- http
- HTTPS
- MemelukWajah
- bisa dibaca manusia
- ID
- diidentifikasi
- identitas
- if
- menggambarkan
- gambar
- gambar
- Segera
- melaksanakan
- implementasi
- mengimpor
- pentingnya
- penting
- memperbaiki
- meningkatkan
- in
- memasukkan
- Termasuk
- India
- India
- menunjukkan
- industri
- informasi
- Infrastruktur
- berinovasi
- memasukkan
- input
- dalam
- contoh
- sebagai gantinya
- Lembaga
- instruksi
- interaktif
- Internet
- masalah
- IT
- NYA
- perjalanan
- json
- kunci
- kumar
- bahasa
- besar
- Latensi
- masalah latensi
- kemudian
- Terbaru
- jalankan
- memimpin
- pemimpin
- pengetahuan
- Dipimpin
- Panjang
- perpustakaan
- Lisensi
- 'like'
- batas
- baris
- mendengarkan
- Llama
- LLM
- pemuatan
- terletak
- mencintai
- mesin
- Mesin belajar
- terbuat
- membuat
- MEMBUAT
- mengelola
- berhasil
- pengelolaan
- Marketing
- max
- Mungkin..
- MCP
- Memori
- tersebut
- meta
- metode
- metode
- Microsoft
- jutaan
- ML
- MLOps
- model
- model
- bulan
- lebih
- paling
- musik
- harus
- nama
- Bernama
- asli
- hampir
- Perlu
- kebutuhan
- New
- berikutnya
- mencatat
- buku catatan
- sekarang
- jumlah
- objek
- mengamati
- memperoleh
- diperoleh
- of
- ditawarkan
- resmi
- sering
- on
- ONE
- hanya
- Buka
- open source
- pilihan
- Opsi
- or
- Lainnya
- jika tidak
- menguraikan
- keluaran
- lebih
- secara keseluruhan
- dikemas
- pengemasan
- dokumen
- Paralel
- parameter
- parameter
- bagian
- lulus
- Paten
- path
- untuk
- dirasakan
- Melakukan
- dilakukan
- Izin
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- poin
- Populer
- mungkin
- Pos
- didukung
- mendahului
- Mempersiapkan
- mempersiapkan
- prasyarat
- disajikan
- sebelumnya
- Utama
- cetakan
- Masalah
- memproses
- proses
- Diproses
- pengolahan
- Produk
- peluncuran produk
- profesional
- Profil
- Pemrograman
- Kemajuan
- properties
- memberikan
- disediakan
- menyediakan
- menyediakan
- diterbitkan
- tujuan
- Ular sanca
- pytorch
- pertanyaan
- mulai
- cepat
- agak
- Baca
- siap
- nyata
- real-time
- menyadari
- menerima
- diterima
- baru-baru ini
- sarankan
- direkomendasikan
- menurunkan
- mengurangi
- mengurangi
- lihat
- hubungan
- menggantikan
- menjawab
- gudang
- permintaan
- permintaan
- Sumber
- Menanggapi
- tanggapan
- tanggapan
- mengakibatkan
- kembali
- Pengembalian
- Peran
- rutin
- Run
- berjalan
- berjalan
- runtime
- pembuat bijak
- sama
- kepuasan
- Skala
- Sekolah
- Ilmu
- SDK
- mulus
- Kedua
- Bagian
- melihat
- mengirim
- mengirimkan
- melayani
- layanan
- Layanan
- porsi
- set
- pengaturan
- beberapa
- Pendek
- harus
- Menunjukkan
- menunjukkan
- ditunjukkan
- Pertunjukkan
- menandatangani
- Sederhana
- Potret
- potongan
- larutan
- Solusi
- segera
- sumber
- kode sumber
- Pembicara
- spesialis
- khusus
- Khusus
- spesifikasi
- ditentukan
- mulai
- Status
- Langkah
- Tangga
- berhenti
- penyimpanan
- menyimpan
- tersimpan
- strategi
- aliran
- streaming
- Streaming
- Layanan streaming
- berhasil
- sukses
- berhasil
- seperti itu
- mendukung
- Didukung
- Mendukung
- tabel
- Mengambil
- tugas
- tim
- tech
- Teknis
- Teknologi
- Template
- teks
- dari
- bahwa
- Grafik
- mereka
- Mereka
- kemudian
- Sana.
- dengan demikian
- karena itu
- Ini
- mereka
- ini
- meskipun?
- pikir
- keluaran
- waktu
- kali
- untuk
- token
- Token
- alat
- Pelatihan VE
- Terjemahan
- benar
- Putar
- dua
- mengetik
- jenis
- khas
- memahami
- tidak perlu
- sampai
- penggunaan
- menggunakan
- gunakan case
- bekas
- Pengguna
- Pengguna Pengalaman
- menggunakan
- sah
- nilai
- Nilai - Nilai
- variabel
- berbagai
- bervariasi
- Luas
- versi
- melalui
- View
- maya
- Mengunjungi
- SUARA
- menunggu
- Menunggu
- ingin
- we
- jaringan
- layanan web
- BAIK
- adalah
- ketika
- yang
- sementara
- seluruh
- yang
- akan
- dengan
- dalam
- tanpa
- bekerja
- pekerja
- pekerja
- alur kerja
- Alur kerja
- kerja
- bekerja
- akan
- menulis
- tertulis
- tahun
- Kamu
- Anda
- zephyrnet.dll