Sederhanakan Persiapan Data Untuk AI Generatif Dengan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Followers: 0

Kecerdasan buatan generatif (AI generatif) model telah menunjukkan kemampuan mengesankan dalam menghasilkan teks, gambar, dan konten lainnya berkualitas tinggi. Namun, model ini memerlukan data pelatihan yang bersih dan terstruktur dalam jumlah besar untuk mencapai potensi maksimalnya. Sebagian besar data dunia nyata ada dalam format tidak terstruktur seperti PDF, yang memerlukan pemrosesan awal sebelum dapat digunakan secara efektif.

Menurut IDC, data tidak terstruktur menyumbang lebih dari 80% dari seluruh data bisnis saat ini. Ini termasuk format seperti email, PDF, dokumen yang dipindai, gambar, audio, video, dan banyak lagi. Meskipun data ini menyimpan wawasan yang berharga, sifatnya yang tidak terstruktur menyulitkan algoritme AI untuk menafsirkan dan mempelajarinya. Menurut a Survei 2019 oleh Deloitte, hanya 18% bisnis yang melaporkan mampu memanfaatkan data tidak terstruktur.

Seiring dengan semakin cepatnya adopsi AI, pengembangan mekanisme yang efisien untuk mencerna dan belajar dari data tidak terstruktur menjadi semakin penting di masa depan. Hal ini dapat melibatkan alat pemrosesan awal yang lebih baik, teknik pembelajaran semi-supervisi, dan kemajuan dalam pemrosesan bahasa alami. Perusahaan yang menggunakan data tidak terstruktur dengan paling efektif akan memperoleh keunggulan kompetitif yang signifikan dari AI. Data yang bersih penting untuk performa model yang baik. Teks yang diekstraksi masih berisi sejumlah besar teks nonsens dan boilerplate (misalnya, membaca HTML). Data yang diambil dari internet seringkali mengandung banyak duplikasi. Data dari media sosial, ulasan, atau konten apa pun yang dibuat pengguna juga dapat berisi konten beracun dan bias, dan Anda mungkin perlu memfilternya menggunakan beberapa langkah pra-pemrosesan. Mungkin juga terdapat banyak konten berkualitas rendah atau teks yang dihasilkan bot, yang dapat disaring menggunakan metadata yang menyertainya (misalnya, menyaring tanggapan layanan pelanggan yang menerima peringkat pelanggan rendah).

Persiapan data penting pada berbagai tahap dalam Retrieval Augmented Generation (LAP) model. Dokumen sumber pengetahuan memerlukan prapemrosesan, seperti membersihkan teks dan membuat penyematan semantik, sehingga dapat diindeks dan diambil secara efisien. Kueri bahasa alami pengguna juga memerlukan prapemrosesan, sehingga dapat dikodekan menjadi vektor dan dibandingkan dengan penyematan dokumen. Setelah mengambil konteks yang relevan, konteks tersebut mungkin memerlukan prapemrosesan tambahan, seperti pemotongan, sebelum digabungkan ke kueri pengguna untuk membuat perintah terakhir untuk model dasar. Kanvas Amazon SageMaker kini mendukung kemampuan persiapan data komprehensif yang didukung oleh Pengatur Data Amazon SageMaker. Dengan integrasi ini, SageMaker Canvas memberi pelanggan ruang kerja tanpa kode end-to-end untuk menyiapkan data, membangun dan menggunakan model ML dan fondasi untuk mempercepat waktu dari data hingga wawasan bisnis. Anda kini dapat dengan mudah menemukan dan mengumpulkan data dari lebih dari 50 sumber data, serta menjelajahi dan menyiapkan data menggunakan lebih dari 300 analisis dan transformasi bawaan dalam antarmuka visual SageMaker Canvas.

Ikhtisar solusi

Dalam postingan ini, kami bekerja dengan kumpulan data dokumentasi PDF—Batuan Dasar Amazon panduan pengguna. Selanjutnya, kami menunjukkan cara melakukan praproses kumpulan data untuk RAG. Secara khusus, kami membersihkan data dan membuat artefak RAG untuk menjawab pertanyaan tentang konten kumpulan data. Pertimbangkan masalah pembelajaran mesin (ML) berikut: pengguna menanyakan pertanyaan model bahasa besar (LLM): “Bagaimana cara memfilter dan mencari model di Amazon Bedrock?”. LLM belum melihat dokumentasinya pada tahap pelatihan atau fine-tuning, sehingga tidak dapat menjawab pertanyaan dan kemungkinan besar akan berhalusinasi. Tujuan kami dengan postingan ini adalah menemukan bagian teks yang relevan dari PDF (yaitu RAG) dan melampirkannya ke prompt, sehingga memungkinkan LLM menjawab pertanyaan spesifik untuk dokumen ini.

Di bawah ini, kami menunjukkan bagaimana Anda dapat melakukan semua langkah pra-pemrosesan utama ini Kanvas Amazon SageMaker (dipersembahkan oleh Pengatur Data Amazon SageMaker):

Mengekstrak teks dari dokumen PDF (didukung oleh Textract)
Hapus informasi sensitif (didukung oleh Comprehend)
Potong teks menjadi beberapa bagian.
Buat embeddings untuk setiap bagian (didukung oleh Bedrock).
Unggah penyematan ke database vektor (didukung oleh OpenSearch)

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Prasyarat

Untuk panduan ini, Anda harus memiliki yang berikut:

Note: Buat domain OpenSearch Service dengan mengikuti petunjuknya di sini. Untuk mempermudah, mari pilih opsi dengan nama pengguna dan kata sandi utama untuk kontrol akses yang lebih baik. Setelah domain dibuat, buat indeks vektor dengan pemetaan berikut, dan dimensi vektor 1536 selaras dengan penyematan Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Walkthrough

Bangun aliran data

Di bagian ini, kami membahas bagaimana kami dapat membangun aliran data untuk mengekstrak teks dan metadata dari PDF, membersihkan dan memproses data, menghasilkan penyematan menggunakan Amazon Bedrock, dan mengindeks data di Amazon OpenSearch.

Luncurkan Kanvas SageMaker

Untuk meluncurkan SageMaker Canvas, selesaikan langkah-langkah berikut:

Di Amazon Konsol SageMaker, pilih Domain di panel navigasi.
Pilih domain Anda.
Pada menu peluncuran, pilih Kanvas.

Buat aliran data

Selesaikan langkah-langkah berikut untuk membuat aliran data di SageMaker Canvas:

Di halaman beranda SageMaker Canvas, pilih Pengatur Data.
Pilih membuat di sisi kanan halaman, lalu beri nama aliran data dan pilih membuat.
Ini akan mendarat di halaman aliran data.
Pilih Impor data, pilih data tabel.

Sekarang mari kita impor data dari bucket Amazon S3:

Pilih Impor data dan pilih Datar dari daftar drop-down
Sumber data dan pilih Amazon S3 dari daftar drop-down
Arahkan ke file meta data dengan lokasi file PDF, dan pilih file.
Sekarang file metadata dimuat ke aliran data persiapan data, dan kita dapat melanjutkan untuk menambahkan langkah selanjutnya untuk mengubah data dan indeks menjadi Amazon Pencarian Terbuka. Dalam hal ini file memiliki metadata berikut, dengan lokasi setiap file di direktori Amazon S3.

Untuk menambahkan transformasi baru, selesaikan langkah-langkah berikut:

Pilih tanda plus dan pilih Tambahkan Transform.
Pilih Tambahkan Langkah Dan pilihlah Transformasi Kustom.
Anda dapat membuat transformasi kustom menggunakan fungsi yang ditentukan pengguna Pandas, PySpark, Python, dan SQL PySpark. Memilih Piton (PySpark) untuk kasus penggunaan ini.
Masukkan nama untuk langkah tersebut. Dari cuplikan kode contoh, telusuri dan pilih ekstrak teks dari pdf. Buat perubahan yang diperlukan pada cuplikan kode dan pilih Add.
Mari tambahkan langkah untuk menyunting data Informasi Identifikasi Pribadi (PII) dari data yang diekstraksi dengan memanfaatkan Amazon Comprehend. Memilih Tambahkan Langkah Dan pilihlah Transformasi Kustom. Dan pilih Python (PySpark).

Dari cuplikan kode contoh, telusuri dan pilih topeng PII. Buat perubahan yang diperlukan pada cuplikan kode dan pilih Tambah.

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Langkah selanjutnya adalah memotong konten teks. Memilih Tambahkan Langkah Dan pilihlah Transformasi Kustom. Dan pilih Python (PySpark).

Dari cuplikan kode contoh, telusuri dan pilih Teks potongan. Buat perubahan yang diperlukan pada cuplikan kode dan pilih Tambah.

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Mari ubah konten teks menjadi penyematan vektor menggunakan Batuan Dasar Amazon Model Penyematan Titan. Memilih Tambahkan Langkah Dan pilihlah Transformasi Kustom. Dan pilih Python (PySpark).

Dari cuplikan kode contoh, telusuri dan pilih Hasilkan penyematan teks dengan Bedrock. Buat perubahan yang diperlukan pada cuplikan kode dan pilih Tambah.

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Sekarang kami memiliki penyematan vektor yang tersedia untuk konten file PDF. Mari lanjutkan dan indekskan data ke Amazon OpenSearch. Memilih Tambahkan Langkah Dan pilihlah Transformasi Kustom. Dan pilih Python (PySpark). Anda bebas menulis ulang kode berikut untuk menggunakan database vektor pilihan Anda. Untuk mempermudah, kami menggunakan nama pengguna dan kata sandi utama untuk mengakses OpenSearch API, untuk beban kerja produksi, pilih opsi sesuai dengan kebijakan organisasi Anda.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Terakhir, aliran data yang dibuat adalah sebagai berikut:

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Dengan aliran data ini, data dari file PDF telah dibaca dan diindeks dengan penyematan vektor di Amazon OpenSearch. Sekarang saatnya kita membuat file dengan kueri untuk menanyakan data yang diindeks dan menyimpannya ke lokasi Amazon S3. Kami akan mengarahkan aliran data pencarian kami ke file dan mengeluarkan file dengan hasil yang sesuai di file baru di lokasi Amazon S3.

Mempersiapkan prompt

Setelah kami membuat basis pengetahuan dari PDF kami, kami dapat mengujinya dengan mencari basis pengetahuan untuk beberapa contoh pertanyaan. Kami akan memproses setiap kueri sebagai berikut:

Menghasilkan penyematan untuk kueri (didukung oleh Amazon Bedrock)
Basis data vektor kueri untuk konteks tetangga terdekat (didukung oleh Amazon OpenSearch)
Gabungkan kueri dan konteks ke dalam prompt.
Kueri LLM dengan prompt (didukung oleh Amazon Bedrock)
Di halaman beranda SageMaker Canvas, pilih Persiapan data.
Pilih membuat di sisi kanan halaman, lalu beri nama aliran data dan pilih membuat.

Sekarang mari muat pertanyaan pengguna dan kemudian buat prompt dengan menggabungkan pertanyaan dan dokumen serupa. Prompt ini diberikan kepada LLM untuk menghasilkan jawaban atas pertanyaan pengguna.

Mari memuat file csv dengan pertanyaan pengguna. Memilih impor data dan pilih Datar dari daftar drop-down
Sumber data, dan pilih Amazon S3 dari daftar drop-down. Alternatifnya, Anda dapat memilih untuk mengunggah file dengan permintaan pengguna.
Mari tambahkan transformasi khusus untuk mengonversi data menjadi penyematan vektor, diikuti dengan mencari penyematan terkait dari Amazon OpenSearch, sebelum mengirimkan perintah ke Amazon Bedrock dengan kueri dan konteks dari basis pengetahuan. Untuk menghasilkan penyematan untuk kueri, Anda dapat menggunakan cuplikan kode contoh yang sama Hasilkan penyematan teks dengan Bedrock disebutkan pada Langkah #7 di atas.

Mari kita aktifkan API Amazon OpenSearch untuk mencari dokumen yang relevan untuk penyematan vektor yang dihasilkan. Tambahkan transformasi khusus dengan Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Mari tambahkan transformasi khusus untuk memanggil API Amazon Bedrock untuk respons kueri, dengan meneruskan dokumen dari basis pengetahuan Amazon OpenSearch. Dari cuplikan kode contoh, telusuri dan pilih Kueri Batuan Dasar dengan konteks. Buat perubahan yang diperlukan pada cuplikan kode dan pilih Tambah.

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Ringkasnya, aliran data penjawab pertanyaan berbasis RAG adalah sebagai berikut:

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Praktisi ML menghabiskan banyak waktu untuk menyusun kode rekayasa fitur, menerapkannya pada kumpulan data awal, melatih model pada kumpulan data hasil rekayasa, dan mengevaluasi akurasi model. Mengingat sifat eksperimental dari pekerjaan ini, bahkan proyek terkecil pun memerlukan banyak iterasi. Kode rekayasa fitur yang sama sering kali dijalankan berulang kali, sehingga membuang-buang waktu dan sumber daya komputasi untuk mengulangi operasi yang sama. Di organisasi besar, hal ini dapat menyebabkan hilangnya produktivitas yang lebih besar karena tim yang berbeda sering kali menjalankan pekerjaan yang sama atau bahkan menulis kode rekayasa fitur duplikat karena mereka tidak memiliki pengetahuan tentang pekerjaan sebelumnya. Untuk menghindari pemrosesan ulang fitur, kami akan mengekspor aliran data kami ke Amazon Pipa SageMaker. Mari pilih tombol + di sebelah kanan kueri. Pilih ekspor aliran data dan pilih Jalankan Saluran Pipa SageMaker (melalui buku catatan Jupyter).

Sederhanakan persiapan data untuk AI generatif dengan Amazon SageMaker Data Wrangler | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Membersihkan

Untuk menghindari timbulnya biaya di masa mendatang, hapus atau matikan sumber daya yang Anda buat saat mengikuti postingan ini. Mengacu pada Keluar dari Amazon SageMaker Canvas lebih lanjut.

Kesimpulan

Dalam postingan ini, kami menunjukkan kepada Anda bagaimana kemampuan end-to-end Amazon SageMaker Canvas dengan mengambil peran sebagai profesional data yang menyiapkan data untuk LLM. Persiapan data interaktif memungkinkan pembersihan, transformasi, dan analisis data dengan cepat untuk merekayasa fitur informatif. Dengan menghilangkan kerumitan pengkodean, SageMaker Canvas memungkinkan iterasi cepat untuk membuat kumpulan data pelatihan berkualitas tinggi. Alur kerja yang dipercepat ini mengarah langsung pada pembangunan, pelatihan, dan penerapan model pembelajaran mesin yang berkinerja baik untuk dampak bisnis. Dengan persiapan data yang komprehensif dan pengalaman terpadu mulai dari data hingga wawasan, SageMaker Canvas memberdayakan pengguna untuk meningkatkan hasil ML mereka.

Kami mendorong Anda untuk mempelajari lebih lanjut dengan menjelajahi Pengatur Data Amazon SageMaker, Kanvas Amazon SageMaker, Titan Amazon model, Batuan Dasar Amazon, dan Amazon Layanan OpenSearch untuk membangun solusi menggunakan contoh implementasi yang disediakan dalam postingan ini dan kumpulan data yang relevan dengan bisnis Anda. Jika Anda memiliki pertanyaan atau saran, silakan tinggalkan komentar.

Tentang Penulis

Ajjay Govindaram adalah Arsitek Solusi Senior di AWS. Dia bekerja dengan pelanggan strategis yang menggunakan AI/ML untuk memecahkan masalah bisnis yang kompleks. Pengalamannya terletak pada memberikan arahan teknis serta bantuan desain untuk penyebaran aplikasi AI/ML skala kecil hingga besar. Pengetahuannya berkisar dari arsitektur aplikasi hingga data besar, analitik, dan pembelajaran mesin. Dia menikmati mendengarkan musik sambil beristirahat, menikmati alam bebas, dan menghabiskan waktu bersama orang yang dicintainya.

Nikita Ivkin adalah Ilmuwan Terapan Senior di Amazon SageMaker Data Wrangler dengan minat dalam pembelajaran mesin dan algoritme pembersihan data.