Bangun Backend Peringkasan Rapat Tanpa Server Dengan Model Bahasa Besar Di Amazon SageMaker JumpStart

Diterbitkan Ulang Oleh Plato

Followers: 0

AWS memberikan layanan yang memenuhi kebutuhan kecerdasan buatan (AI) dan pembelajaran mesin (ML) pelanggan dengan berbagai layanan mulai dari perangkat keras khusus seperti Pelatihan AWS dan Inferensi AWS ke model dasar AI generatif (FM). Batuan Dasar Amazon. Pada Februari 2022, AWS dan Hugging Face mengumumkan kolaborasi untuk membuat AI generatif lebih mudah diakses dan hemat biaya.

AI generatif telah tumbuh dengan kecepatan yang semakin cepat dari model pra-pelatihan terbesar pada tahun 2019 yang memiliki 330 juta parameter menjadi lebih dari 500 miliar parameter saat ini. Performa dan kualitas model juga meningkat drastis dengan jumlah parameter. Model ini mencakup tugas seperti teks-ke-teks, teks-ke-gambar, teks-ke-penyematan, dan banyak lagi. Anda dapat menggunakan model bahasa besar (LLM), lebih khusus lagi, untuk tugas termasuk peringkasan, ekstraksi metadata, dan menjawab pertanyaan.

Mulai Lompatan Amazon SageMaker adalah hub ML yang dapat membantu Anda mempercepat perjalanan ML Anda. Dengan JumpStart, Anda dapat mengakses model pra-pelatihan dan model dasar dari Foundations Model Hub untuk melakukan tugas seperti peringkasan artikel dan pembuatan gambar. Model terlatih sepenuhnya dapat disesuaikan untuk kasus penggunaan Anda dan dapat dengan mudah diterapkan ke dalam produksi dengan antarmuka pengguna atau SDK. Yang terpenting, tidak ada data Anda yang digunakan untuk melatih model dasar. Karena semua data dienkripsi dan tidak meninggalkan virtual private cloud (VPC), Anda dapat percaya bahwa data Anda akan tetap bersifat pribadi dan rahasia.

Posting ini berfokus pada membangun ringkasan rapat tanpa server menggunakan Amazon Transkripsikan untuk menyalin audio rapat dan Flan-T5-XL model dari Hugging Face (tersedia di JumpStart) untuk ringkasan.

Ikhtisar solusi

Solusi Generator Catatan Rapat membuat pipa tanpa server otomatis menggunakan AWS Lambda untuk menyalin dan meringkas rekaman audio dan video rapat. Solusinya dapat digunakan dengan FM lain yang tersedia di JumpStart.

Solusinya mencakup komponen-komponen berikut:

Skrip shell untuk membuat lapisan Lambda khusus
A dapat dikonfigurasi Formasi AWS Cloud template untuk menyebarkan solusi
Kode fungsi Lambda untuk memulai tugas transkripsi Amazon Transcribe
Kode fungsi Lambda untuk menjalankan a Titik akhir waktu nyata SageMaker menampung model Flan T5 XL

Diagram berikut menggambarkan arsitektur ini.

Diagram Arsitektur

Seperti yang ditunjukkan pada diagram arsitektur, rekaman rapat, transkrip, dan catatan disimpan masing-masing Layanan Penyimpanan Sederhana Amazon (Amazon S3) ember. Solusinya mengambil pendekatan berbasis peristiwa untuk menyalin dan meringkas peristiwa unggahan S3. Peristiwa tersebut memicu fungsi Lambda untuk melakukan panggilan API ke Amazon Transcribe dan memanggil titik akhir real-time yang menghosting model Flan T5 XL.

Templat dan instruksi CloudFormation untuk menyebarkan solusi dapat ditemukan di Repositori GitHub.

Inferensi waktu nyata dengan SageMaker

Inferensi real-time di SageMaker dirancang untuk beban kerja dengan persyaratan latensi rendah. Titik akhir SageMaker dikelola sepenuhnya dan mendukung banyak opsi hosting dan penskalaan otomatis. Setelah dibuat, titik akhir dapat dipanggil dengan Panggil API titik akhir. Template CloudFormation yang disediakan membuat titik akhir real-time dengan jumlah instans default 1, tetapi dapat disesuaikan berdasarkan beban yang diharapkan pada titik akhir dan sesuai kuota layanan untuk jenis instans yang diizinkan. Anda dapat meminta penambahan kuota layanan di halaman Kuota Layanan dari Konsol Manajemen AWS.

Cuplikan template CloudFormation berikut menentukan model SageMaker, konfigurasi titik akhir, dan titik akhir menggunakan ModelData dan ImageURI dari Flan T5 XL dari JumpStart. Anda dapat menjelajahi lebih banyak FM di Memulai dengan Amazon SageMaker JumpStart. Untuk menyebarkan solusi dengan model yang berbeda, ganti ModelData dan ImageURI parameter dalam template CloudFormation dengan artefak model S3 yang diinginkan dan URI citra kontainer. Lihat contoh buku catatan di GitHub untuk kode contoh tentang cara mengambil artefak model JumpStart terbaru di Amazon S3 dan gambar kontainer publik terkait yang disediakan oleh SageMaker.

 # SageMaker Model SageMakerModel: Type: AWS::SageMaker::Model Properties: ModelName: !Sub ${AWS::StackName}-SageMakerModel Containers: - Image: !Ref ImageURI ModelDataUrl: !Ref ModelData Mode: SingleModel Environment: { "MODEL_CACHE_ROOT": "/opt/ml/model", "SAGEMAKER_ENV": "1", "SAGEMAKER_MODEL_SERVER_TIMEOUT": "3600", "SAGEMAKER_MODEL_SERVER_WORKERS": "1", "SAGEMAKER_PROGRAM": "inference.py", "SAGEMAKER_SUBMIT_DIRECTORY": "/opt/ml/model/code/", "TS_DEFAULT_WORKERS_PER_MODEL": 1 } EnableNetworkIsolation: true ExecutionRoleArn: !GetAtt SageMakerExecutionRole.Arn # SageMaker Endpoint Config SageMakerEndpointConfig: Type: AWS::SageMaker::EndpointConfig Properties: EndpointConfigName: !Sub ${AWS::StackName}-SageMakerEndpointConfig ProductionVariants: - ModelName: !GetAtt SageMakerModel.ModelName VariantName: !Sub ${SageMakerModel.ModelName}-1 InitialInstanceCount: !Ref InstanceCount InstanceType: !Ref InstanceType InitialVariantWeight: 1.0 VolumeSizeInGB: 40 # SageMaker Endpoint SageMakerEndpoint: Type: AWS::SageMaker::Endpoint Properties: EndpointName: !Sub ${AWS::StackName}-SageMakerEndpoint EndpointConfigName: !GetAtt SageMakerEndpointConfig.EndpointConfigName

Terapkan solusinya

Untuk langkah mendetail tentang penerapan solusi, ikuti Penerapan dengan CloudFormation bagian dari Repositori GitHub.

Jika Anda ingin menggunakan jenis instans berbeda atau lebih banyak instans untuk titik akhir, kirimkan permintaan penambahan kuota untuk jenis instans yang diinginkan di Dasbor Kuota Layanan AWS.

Untuk menggunakan FM yang berbeda untuk titik akhir, ganti ImageURI dan ModelData parameter dalam template CloudFormation untuk FM yang sesuai.

Uji solusinya

Setelah Anda menerapkan solusi menggunakan skrip pembuatan lapisan Lambda dan template CloudFormation, Anda dapat menguji arsitektur dengan mengunggah rekaman rapat audio atau video di salah satu format media yang didukung oleh Amazon Transcribe. Selesaikan langkah-langkah berikut:

Pada konsol Amazon S3, pilih Ember di panel navigasi.
Dari daftar bucket S3, pilih bucket S3 yang dibuat oleh template CloudFormation bernama meeting-note-generator-demo-bucket-<aws-account-id>.
Pilih Buat folder.
Untuk Nama folder, masukkan awalan S3 yang ditentukan di S3RecordingsPrefix parameter templat CloudFormation (recordings secara default).
Pilih Buat folder.
Di folder yang baru dibuat, pilih Unggah.
Pilih Tambahkan file dan pilih file rekaman rapat untuk diunggah.
Pilih Unggah.

Sekarang kita dapat memeriksa transkripsi yang berhasil.

Di konsol Amazon Transcribe, pilih Pekerjaan transkripsi di panel navigasi.
Periksa apakah tugas transkripsi dengan nama yang sesuai dengan rekaman rapat yang diunggah memiliki status Sedang berlangsung or Lengkap.
Saat statusnya Menyelesaikan, kembali ke konsol Amazon S3 dan buka keranjang demo.
Di bucket S3, buka file transcripts/ folder.
Unduh file teks yang dihasilkan untuk melihat transkripsi.

Kami juga dapat memeriksa ringkasan yang dihasilkan.

Di bucket S3, buka file notes/ folder.
Unduh file teks yang dihasilkan untuk melihat ringkasan yang dihasilkan.

Rekayasa cepat

Meskipun LLM telah meningkat dalam beberapa tahun terakhir, model hanya dapat menerima input terbatas; oleh karena itu, menyisipkan seluruh transkrip rapat dapat melebihi batas model dan menyebabkan kesalahan pemanggilan. Untuk merancang tantangan ini, kita dapat memecah konteks menjadi potongan-potongan yang dapat dikelola dengan membatasi jumlah token di setiap konteks pemanggilan. Dalam solusi sampel ini, transkrip dipecah menjadi potongan yang lebih kecil dengan batas maksimum jumlah token per potongan. Kemudian setiap potongan transkrip dirangkum menggunakan model Flan T5 XL. Terakhir, ringkasan potongan digabungkan untuk membentuk konteks untuk ringkasan gabungan akhir, seperti yang ditunjukkan pada diagram berikut.

Bangun backend ringkasan pertemuan tanpa server dengan model bahasa besar di Amazon SageMaker JumpStart | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Kode berikut dari GenerateMeetingNotes Fungsi Lambda menggunakan Perangkat Bahasa Alam (NLTK) perpustakaan untuk membuat token transkrip, lalu memotong transkrip menjadi beberapa bagian, masing-masing berisi hingga sejumlah token:

# Chunk transcript into chunks
transcript = contents['results']['transcripts'][0]['transcript']
transcript_tokens = word_tokenize(transcript) num_chunks = int(math.ceil(len(transcript_tokens) / CHUNK_LENGTH))
transcript_chunks = []
for i in range(num_chunks): if i == num_chunks - 1: chunk = TreebankWordDetokenizer().detokenize(transcript_tokens[CHUNK_LENGTH * i:]) else: chunk = TreebankWordDetokenizer().detokenize(transcript_tokens[CHUNK_LENGTH * i:CHUNK_LENGTH * (i + 1)]) transcript_chunks.append(chunk)

Setelah transkrip dipecah menjadi bagian yang lebih kecil, kode berikut memanggil titik akhir inferensi real-time SageMaker untuk mendapatkan ringkasan dari setiap potongan transkrip:

# Summarize each chunk
chunk_summaries = []
for i in range(len(transcript_chunks)): text_input = '{}n{}'.format(transcript_chunks[i], instruction) payload = { "text_inputs": text_input, "max_length": 100, "num_return_sequences": 1, "top_k": 50, "top_p": 0.95, "do_sample": True } query_response = query_endpoint_with_json_payload(json.dumps(payload).encode('utf-8')) generated_texts = parse_response_multiple_texts(query_response) chunk_summaries.append(generated_texts[0]) print(generated_texts[0])

Terakhir, cuplikan kode berikut menggabungkan ringkasan potongan sebagai konteks untuk menghasilkan ringkasan akhir:

# Create a combined summary
text_input = '{}n{}'.format(' '.join(chunk_summaries), instruction)
payload = { "text_inputs": text_input, "max_length": 100, "num_return_sequences": 1, "top_k": 50, "top_p": 0.95, "do_sample": True
}
query_response = query_endpoint_with_json_payload(json.dumps(payload).encode('utf-8'))
generated_texts = parse_response_multiple_texts(query_response) results = { "summary": generated_texts, "chunk_summaries": chunk_summaries
}

Penuh GenerateMeetingNotes Fungsi Lambda dapat ditemukan di Repositori GitHub.

Membersihkan

Untuk membersihkan solusi, selesaikan langkah-langkah berikut:

Hapus semua objek di bucket demo S3 dan bucket log S3.
Hapus tumpukan CloudFormation.
Hapus lapisan Lambda.

Kesimpulan

Postingan ini mendemonstrasikan cara menggunakan FM di JumpStart untuk membangun arsitektur pembuat catatan rapat tanpa server dengan cepat menggunakan AWS CloudFormation. Dikombinasikan dengan layanan AI AWS seperti Amazon Transcribe dan teknologi tanpa server seperti Lambda, Anda dapat menggunakan FM di JumpStart dan Amazon Bedrock untuk membuat aplikasi untuk berbagai kasus penggunaan AI generatif.

Untuk postingan tambahan tentang ML di AWS, kunjungi Blog AWS ML.

Tentang Penulis

Bangun backend ringkasan pertemuan tanpa server dengan model bahasa besar di Amazon SageMaker JumpStart | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai. Eric Kim adalah Arsitek Solusi (SA) di Amazon Web Services. Dia bekerja dengan pengembang dan penerbit game untuk membuat game yang dapat diskalakan dan layanan pendukung di AWS. Dia terutama berfokus pada aplikasi kecerdasan buatan dan pembelajaran mesin.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
Beli dan Jual Saham di Perusahaan PRE-IPO dengan PREIPO®. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/build-a-serverless-meeting-summarization-backend-with-large-language-models-on-amazon-sagemaker-jumpstart/

Stempel Waktu: 17 Mei 2023

Stempel Waktu: Agustus 2, 2023

Buat backend ringkasan rapat tanpa server dengan model bahasa besar di Amazon SageMaker JumpStart | Layanan Web Amazon

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Inferensi waktu nyata dengan SageMaker

Terapkan solusinya

Uji solusinya

Rekayasa cepat

Membersihkan

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Bagaimana Medidata menggunakan inferensi asinkron Amazon SageMaker untuk mempercepat prediksi inferensi ML hingga 30 kali lebih cepat

Terapkan solusi MLOps yang menghosting titik akhir model Anda di AWS Lambda

ML otomatis, skalabel, dan hemat biaya di AWS: Mendeteksi pakis pohon Australia yang invasif di hutan Hawaii

Percepat waktu untuk wawasan bisnis dengan koneksi langsung Amazon SageMaker Data Wrangler ke Snowflake | Layanan Web Amazon

Mulailah perjalanan sukses Anda dengan perkiraan deret waktu dengan Amazon Forecast

Amazon Rekognition Labels menambahkan 600 label baru, termasuk landmark, dan kini mendeteksi warna dominan

Memperkenalkan Fortuna: Perpustakaan untuk kuantifikasi ketidakpastian

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun