Menerapkan arsitektur data modern menyediakan metode terukur untuk mengintegrasikan data dari sumber berbeda. Dengan mengatur data berdasarkan domain bisnis, bukan infrastruktur, setiap domain dapat memilih alat yang sesuai dengan kebutuhannya. Organisasi dapat memaksimalkan nilai arsitektur data modern mereka dengan solusi AI generatif sambil terus berinovasi.
Kemampuan bahasa alami memungkinkan pengguna non-teknis untuk menanyakan data melalui percakapan bahasa Inggris daripada SQL yang rumit. Namun, untuk mewujudkan manfaat penuh memerlukan mengatasi beberapa tantangan. Model AI dan bahasa harus mengidentifikasi sumber data yang sesuai, menghasilkan kueri SQL yang efektif, dan menghasilkan respons yang koheren dengan hasil tersemat dalam skala besar. Mereka juga memerlukan antarmuka pengguna untuk pertanyaan bahasa alami.
Secara keseluruhan, penerapan arsitektur data modern dan teknik AI generatif dengan AWS merupakan pendekatan yang menjanjikan untuk mengumpulkan dan menyebarkan wawasan penting dari data yang beragam dan luas pada skala perusahaan. Penawaran terbaru untuk AI generatif dari AWS adalah Batuan Dasar Amazon, yang merupakan layanan terkelola sepenuhnya dan cara termudah untuk membangun dan menskalakan aplikasi AI generatif dengan model dasar. AWS juga menawarkan model dasar melalui Mulai Lompatan Amazon SageMaker as Amazon SageMaker titik akhir. Kombinasi model bahasa besar (LLM), termasuk kemudahan integrasi yang ditawarkan Amazon Bedrock, dan infrastruktur data berorientasi domain yang dapat diskalakan memposisikan ini sebagai metode cerdas untuk memanfaatkan informasi berlimpah yang disimpan di berbagai database analitik dan data lake.
Dalam postingan tersebut, kami menampilkan skenario di mana sebuah perusahaan telah menerapkan arsitektur data modern dengan data yang berada di beberapa database dan API seperti data hukum di Layanan Penyimpanan Sederhana Amazon (Amazon S3), sumber daya manusia di Layanan Database Relasional Amazon (Amazon RDS), penjualan dan pemasaran Pergeseran Merah Amazon, data pasar keuangan pada solusi gudang data pihak ketiga Kepingan salju, dan data produk sebagai API. Penerapan ini bertujuan untuk meningkatkan produktivitas analisis bisnis perusahaan, pemilik produk, dan pakar domain bisnis. Semua ini dicapai melalui penggunaan AI generatif dalam arsitektur domain mesh ini, yang memungkinkan perusahaan mencapai tujuan bisnisnya dengan lebih efisien. Solusi ini memiliki opsi untuk menyertakan LLM dari JumpStart sebagai titik akhir SageMaker serta model pihak ketiga. Kami menyediakan media bagi pengguna perusahaan untuk mengajukan pertanyaan berdasarkan fakta tanpa memiliki pengetahuan mendasar tentang saluran data, sehingga mengabstraksi kompleksitas penulisan kueri SQL yang sederhana hingga kompleks.
Ikhtisar solusi
Arsitektur data modern di AWS menerapkan kecerdasan buatan dan pemrosesan bahasa alami untuk menanyakan beberapa database analitik. Dengan menggunakan layanan seperti Amazon Redshift, Amazon RDS, Snowflake, Amazon Athena, dan Lem AWS, ini menciptakan solusi terukur untuk mengintegrasikan data dari berbagai sumber. Menggunakan LangChain, perpustakaan yang kuat untuk bekerja dengan LLM, termasuk model dasar dari Amazon Bedrock dan JumpStart di Studio Amazon SageMaker notebook, sebuah sistem dibangun di mana pengguna dapat mengajukan pertanyaan bisnis dalam bahasa Inggris alami dan menerima jawaban dengan data yang diambil dari database yang relevan.
Diagram berikut menggambarkan arsitektur.
Arsitektur hibrid menggunakan beberapa database dan LLM, dengan model dasar dari Amazon Bedrock dan JumpStart untuk identifikasi sumber data, pembuatan SQL, dan pembuatan teks dengan hasil.
Diagram berikut mengilustrasikan langkah-langkah alur kerja spesifik untuk solusi kami.
Langkah-langkahnya adalah sebagai berikut:
- Seorang pengguna bisnis memberikan prompt pertanyaan bahasa Inggris.
- Crawler AWS Glue dijadwalkan untuk berjalan secara berkala untuk mengekstrak metadata dari database dan membuat definisi tabel di dalamnya Katalog Data AWS Glue. Katalog Data dimasukkan ke Urutan Rantai 1 (lihat diagram sebelumnya).
- LangChain, alat untuk bekerja dengan LLM dan petunjuknya, digunakan di buku catatan Studio. LangChain membutuhkan LLM untuk didefinisikan. Sebagai bagian dari Urutan Rantai 1, prompt dan metadata Katalog Data diteruskan ke LLM, yang dihosting di titik akhir SageMaker, untuk mengidentifikasi database dan tabel yang relevan menggunakan LangChain.
- Basis data dan tabel yang cepat dan teridentifikasi diteruskan ke Urutan Rantai 2.
- LangChain membuat koneksi ke database dan menjalankan kueri SQL untuk mendapatkan hasilnya.
- Hasilnya diteruskan ke LLM untuk menghasilkan jawaban bahasa Inggris dengan datanya.
- Pengguna menerima jawaban dalam bahasa Inggris atas permintaan mereka, menanyakan data dari database yang berbeda.
Bagian berikut ini menjelaskan beberapa langkah penting dengan kode terkait. Untuk mempelajari lebih dalam solusi dan kode untuk semua langkah yang ditunjukkan di sini, lihat GitHub repo. Diagram berikut menunjukkan urutan langkah yang diikuti:
Prasyarat
Anda dapat menggunakan database apa pun yang kompatibel dengannya SQLAlchemy untuk menghasilkan tanggapan dari LLM dan LangChain. Namun, database ini harus memiliki metadata yang terdaftar di Katalog Data AWS Glue. Selain itu, Anda harus memiliki akses ke LLM melalui JumpStart atau kunci API.
Hubungkan ke database menggunakan SQLAlchemy
LangChain menggunakan SQLAlchemy untuk terhubung ke database SQL. Kami menginisialisasi fungsi SQLDatabase LangChain dengan membuat mesin dan membuat koneksi untuk setiap sumber data. Berikut ini adalah contoh cara menyambung ke Amazon Aurora Edisi yang Kompatibel dengan MySQL database tanpa server dan hanya menyertakan tabel karyawan:
Selanjutnya, kami membuat prompt yang digunakan oleh Chain Sequence 1 untuk mengidentifikasi database dan nama tabel berdasarkan pertanyaan pengguna.
Hasilkan template prompt dinamis
Kami menggunakan Katalog Data AWS Glue, yang dirancang untuk menyimpan dan mengelola informasi metadata, untuk mengidentifikasi sumber data untuk kueri pengguna dan membangun perintah untuk Urutan Rantai 1, sebagaimana dirinci dalam langkah-langkah berikut:
- Kami membuat Katalog Data dengan merayapi metadata berbagai sumber data menggunakan koneksi JDBC digunakan dalam demonstrasi.
- Dengan perpustakaan Boto3, kami membangun tampilan Katalog Data yang terkonsolidasi dari berbagai sumber data. Berikut ini adalah contoh cara mendapatkan metadata tabel karyawan dari Katalog Data untuk database Aurora MySQL:
Katalog Data gabungan memiliki detail tentang sumber data, seperti skema, nama tabel, dan nama kolom. Berikut ini contoh keluaran Katalog Data konsolidasi:
- Kami meneruskan Katalog Data konsolidasi ke template prompt dan menentukan prompt yang digunakan oleh LangChain:
Urutan Rantai 1: Mendeteksi metadata sumber untuk kueri pengguna menggunakan LangChain dan LLM
Kami meneruskan template prompt yang dihasilkan pada langkah sebelumnya ke prompt, bersama dengan kueri pengguna ke model LangChain, untuk menemukan sumber data terbaik untuk menjawab pertanyaan tersebut. LangChain menggunakan model LLM pilihan kami untuk mendeteksi metadata sumber.
Gunakan kode berikut untuk menggunakan LLM dari JumpStart atau model pihak ketiga:
Teks yang dihasilkan berisi informasi seperti database dan nama tabel yang digunakan untuk menjalankan kueri pengguna. Misalnya, untuk kueri pengguna โSebutkan semua karyawan dengan tanggal lahir bulan iniโ, generated_text
memiliki informasinya database == rdsmysql
dan database.table == rdsmysql.employees
.
Selanjutnya, kami meneruskan detail domain sumber daya manusia, database Aurora MySQL, dan tabel karyawan ke Chain Sequence 2.
Urutan Rantai 2: Ambil respons dari sumber data untuk menjawab pertanyaan pengguna
Selanjutnya, kami menjalankan rantai database SQL LangChain untuk mengonversi teks menjadi SQL dan secara implisit menjalankan SQL yang dihasilkan terhadap database untuk mengambil hasil database dalam bahasa sederhana yang mudah dibaca.
Kita mulai dengan mendefinisikan template prompt yang menginstruksikan LLM untuk menghasilkan SQL dalam dialek yang benar secara sintaksis dan kemudian menjalankannya pada database:
Terakhir, kami meneruskan LLM, koneksi database, dan prompt ke rantai database SQL dan menjalankan kueri SQL:
Misalnya, untuk kueri pengguna โSebutkan semua karyawan dengan tanggal lahir bulan iniโ, jawabannya adalah sebagai berikut:
Membersihkan
Setelah Anda menjalankan arsitektur data modern dengan AI generatif, pastikan untuk membersihkan semua sumber daya yang tidak akan digunakan. Matikan dan hapus database yang digunakan (Amazon Redshift, Amazon RDS, Snowflake). Selain itu, hapus data di Amazon S3 dan hentikan instans notebook Studio apa pun agar tidak dikenakan biaya lebih lanjut. Jika Anda menggunakan JumpStart untuk menyebarkan LLM sebagai titik akhir real-time SageMaker, hapus titik akhir melalui konsol SageMaker atau Studio.
Kesimpulan
Dalam postingan ini, kami mengintegrasikan arsitektur data modern dengan AI generatif dan LLM dalam SageMaker. Solusi ini menggunakan berbagai model dasar teks-ke-teks dari JumpStart serta model pihak ketiga. Pendekatan hibrid ini mengidentifikasi sumber data, menulis kueri SQL, dan menghasilkan respons dengan hasil kueri. Ia menggunakan Amazon Redshift, Amazon RDS, Snowflake, dan LLM. Untuk meningkatkan solusinya, Anda dapat menambahkan lebih banyak database, UI untuk kueri bahasa Inggris, teknik cepat, dan alat data. Ini bisa menjadi cara yang cerdas dan terpadu untuk mendapatkan wawasan dari berbagai penyimpanan data. Untuk mendalami lebih dalam solusi dan kode yang ditampilkan dalam postingan ini, lihat GitHub repo . Juga, lihat Batuan Dasar Amazon untuk kasus penggunaan AI generatif, model dasar, dan model bahasa besar.
Lampiran
Contoh petunjuknya
Domain | Basis Data/API | Cepat | SQL (Dihasilkan oleh LLM) | Keluaran |
penjualan & Pemasaran | Pergeseran Merah Amazon | Ada berapa penjualan tiket? | SELECT COUNT(*) AS total_sales FROM tickit.sales; |
There are 172,456 ticket sales. |
penjualan & Pemasaran | Pergeseran Merah Amazon | Berapa total komisi penjualan tiket pada tahun 2008? | SELECT SUM(commission) AS total_commission FROM tickit.sales WHERE EXTRACT(YEAR FROM saletime) = 2008 |
The total commission for ticket sales in the year 2008 was $16,614,814.65. |
Informasi | S3 | Berapa banyak penipuan yang terjadi pada tahun 2023? | SELECT count(*) FROM claims WHERE extract(year from write_time) = 2023 AND fraud = 1; |
There were 164 fraud claims in 2023. |
Informasi | S3 | Berapa banyak polis yang diklaim tahun ini? | SELECT count(*) FROM claims; |
There were 5000 claims made this year. |
Sumber Daya Manusia | MySQL Amazon Aurora | Sebutkan semua karyawan dengan tanggal lahir bulan ini | SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); |
The employees with birthdays this month are: Christian Koblick Tzvetan Zielinski Kazuhito Cappelletti Yinghua Dredge |
Sumber Daya Manusia | MySQL Amazon Aurora | Berapa banyak karyawan yang dipekerjakan sebelum tahun 1990? | SELECT COUNT(*) AS 'Number of employees hired before 1990' FROM employees WHERE hire_date < '1990-01-01' |
29 employees were hired before 1990. |
Keuangan dan Investasi | Kepingan salju | Saham manakah yang memiliki kinerja terbaik dan terburuk pada bulan Mei 2013? | SELECT name, MAX(close) AS max_close, MIN(close) AS min_close FROM all_stocks_5yr WHERE date BETWEEN '2013-05-01' AND '2013-05-31' GROUP BY name ORDER BY max_close DESC, min_close ASC |
The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22. |
Keuangan dan Investasi | Kepingan salju | Berapa rata-rata volume saham yang diperdagangkan pada bulan Juli 2013? | SELECT AVG(volume) AS average_volume FROM all_stocks_5yr WHERE date BETWEEN '2013-07-01' AND '2013-07-31' |
The average volume of stocks traded in July 2013 was 4,374,177 |
Produk โ Cuaca | API | Seperti apa cuaca saat ini di Kota New York dalam derajat Fahrenheit? |
Tentang Penulis
Navneet Tuteja adalah Spesialis Data di Amazon Web Services. Sebelum bergabung dengan AWS, Navneet bekerja sebagai fasilitator untuk organisasi yang ingin memodernisasi arsitektur data mereka dan menerapkan solusi AI/ML yang komprehensif. Dia memegang gelar teknik dari Universitas Thapar, serta gelar master dalam bidang statistik dari Universitas A&M Texas.
Sovik Kumar Nat adalah arsitek solusi AI/ML dengan AWS. Dia memiliki pengalaman luas dalam merancang pembelajaran mesin end-to-end dan solusi analitik bisnis di bidang keuangan, operasi, pemasaran, perawatan kesehatan, manajemen rantai pasokan, dan IoT. Sovik telah menerbitkan artikel dan memegang paten dalam pemantauan model ML. Dia memiliki gelar master ganda dari Universitas Florida Selatan, Universitas Fribourg, Swiss, dan gelar sarjana dari Institut Teknologi India, Kharagpur. Di luar pekerjaan, Sovik senang bepergian, naik feri, dan menonton film.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Keuangan EVM. Antarmuka Terpadu untuk Keuangan Terdesentralisasi. Akses Di Sini.
- Grup Media Kuantum. IR/PR Diperkuat. Akses Di Sini.
- PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/
- :memiliki
- :adalah
- :bukan
- :Di mana
- $3
- $NAIK
- 1
- 100
- 11
- 12
- 13
- 16
- 2008
- 2013
- 2023
- 22
- 32
- 50
- 5000
- 7
- 8
- 9
- a
- berlimpah-limpah
- mengakses
- Mencapai
- dicapai
- menambahkan
- tambahan
- Selain itu
- terhadap
- AI
- AI / ML
- bertujuan
- Semua
- mengizinkan
- sepanjang
- juga
- Amazon
- Amazon RDS
- Pergeseran Merah Amazon
- Amazon Web Services
- an
- analisis
- dan
- menjawab
- jawaban
- Apa pun
- api
- KUNCI API
- Lebah
- aplikasi
- pendekatan
- sesuai
- arsitektur
- ADALAH
- artikel
- buatan
- kecerdasan buatan
- AS
- terkait
- At
- Aurora
- rata-rata
- AWS
- Lem AWS
- berdasarkan
- BE
- menjadi
- sebelum
- di bawah
- Manfaat
- TERBAIK
- antara
- membangun
- dibangun di
- bisnis
- by
- CAN
- kemampuan
- kasus
- katalog
- rantai
- tantangan
- saluran
- beban
- memeriksa
- pilihan
- Pilih
- Kota
- diklaim
- klaim
- Penyelesaian
- penutupan
- kode
- KOHEREN
- Kolom
- Kolom
- kombinasi
- Komisi
- perusahaan
- cocok
- kompleks
- kompleksitas
- luas
- Terhubung
- koneksi
- konsul
- mengandung
- mengandung
- terus menerus
- percakapan
- mengubah
- benar
- Sesuai
- bisa
- crawler
- membuat
- menciptakan
- membuat
- data
- infrastruktur data
- Basis Data
- database
- Tanggal
- lebih dalam
- didefinisikan
- mendefinisikan
- definisi
- Derajat
- menyebarkan
- dikerahkan
- dirancang
- merancang
- terperinci
- rincian
- berbeda
- berbeda
- beberapa
- domain
- domain
- dua kali lipat
- turun
- ditarik
- dinamis
- setiap
- memudahkan
- termudah
- Efektif
- efisien
- antara
- tertanam
- karyawan
- memungkinkan
- ujung ke ujung
- Titik akhir
- Mesin
- Teknik
- Inggris
- mempertinggi
- Enterprise
- menetapkan
- membangun
- contoh
- ekspansif
- pengalaman
- ahli
- Menjelaskan
- luas
- Pengalaman yang luas
- ekstrak
- Fasilitator
- keuangan
- keuangan
- Pasar keuangan
- Menemukan
- Pertama
- florida
- diikuti
- berikut
- berikut
- Untuk
- Prinsip Dasar
- penipuan
- sering
- dari
- penuh
- sepenuhnya
- fungsi
- lebih lanjut
- menghasilkan
- dihasilkan
- menghasilkan
- generasi
- generatif
- AI generatif
- mendapatkan
- Memberikan
- diberikan
- terjadi
- Memiliki
- memiliki
- he
- kesehatan
- Dimiliki
- di sini
- memegang
- host
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- Namun
- HTML
- http
- HTTPS
- manusia
- Sumber Daya Manusia
- Hibrida
- Identifikasi
- diidentifikasi
- mengidentifikasi
- mengenali
- if
- menggambarkan
- melaksanakan
- implementasi
- mengimplementasikan
- memperbaiki
- in
- memasukkan
- Termasuk
- India
- informasi
- Infrastruktur
- berinovasi
- memasukkan
- wawasan
- sebagai gantinya
- Lembaga
- mengintegrasikan
- terpadu
- integrasi
- Intelijen
- Cerdas
- Antarmuka
- ke
- idiot
- IT
- NYA
- bergabung
- jpg
- Juli
- kunci
- kunci-kunci
- pengetahuan
- bahasa
- besar
- Terbaru
- pengetahuan
- Informasi
- Perpustakaan
- 'like'
- LLM
- melihat
- mesin
- Mesin belajar
- terbuat
- membuat
- mengelola
- berhasil
- pengelolaan
- banyak
- Pasar
- Data pasar
- Marketing
- tuan
- Maksimalkan
- maksimum
- Mungkin..
- berarti
- medium
- jala
- Metadata
- metode
- minimum
- ML
- model
- model
- modern
- memodernisasi
- pemantauan
- Bulan
- lebih
- bioskop
- beberapa
- harus
- mysql
- nama
- nama
- Alam
- Pengolahan Bahasa alami
- Perlu
- kebutuhan
- New
- NY
- new york city
- non-teknis
- buku catatan
- sekarang
- jumlah
- target
- of
- menawarkan
- Penawaran
- on
- hanya
- Operasi
- pilihan
- or
- organisasi
- pengorganisasian
- kami
- di luar
- keluaran
- di luar
- pemilik
- bagian
- lulus
- Lulus
- paten
- dilakukan
- plato
- Kecerdasan Data Plato
- Data Plato
- Kebijakan
- posisi
- Pos
- kuat
- sebelumnya
- harga pompa cor beton mini
- pengolahan
- menghasilkan
- Produk
- produktifitas
- menjanjikan
- memberikan
- menyediakan
- diterbitkan
- query
- pertanyaan
- Pertanyaan
- agak
- real-time
- mewujudkan
- benar-benar
- menerima
- menerima
- terdaftar
- relevan
- membutuhkan
- Sumber
- tanggapan
- tanggapan
- Hasil
- kembali
- benar
- Run
- pembuat bijak
- penjualan
- Save
- terukur
- Skala
- skenario
- dijadwalkan
- bagian
- melihat
- pencarian
- Urutan
- Tanpa Server
- layanan
- Layanan
- dia
- menampilkan
- ditunjukkan
- Pertunjukkan
- menutup
- Sederhana
- larutan
- Solusi
- beberapa
- Seseorang
- sumber
- sumber
- Selatan
- South Florida
- spesialis
- tertentu
- awal
- statistika
- Langkah
- Tangga
- saham
- Saham
- berhenti
- penyimpanan
- menyimpan
- toko
- studio
- seperti itu
- setelan
- menyediakan
- supply chain
- manajemen rantai persediaan
- Swiss
- sistem
- tabel
- pengambilan
- teknik
- Teknologi
- Template
- texas
- dari
- bahwa
- Grafik
- informasi
- Sumber
- mereka
- kemudian
- Sana.
- dengan demikian
- Ini
- mereka
- pihak ketiga
- data pihak ketiga
- ini
- tahun ini
- Melalui
- tiket
- penjualan tiket
- untuk
- alat
- alat
- Total
- diperdagangkan
- Perjalanan
- ui
- pokok
- terpadu
- universitas
- membuka kunci
- menggunakan
- bekas
- Pengguna
- User Interface
- Pengguna
- kegunaan
- menggunakan
- dimanfaatkan
- nilai
- berbagai
- View
- volume
- adalah
- menonton
- Cara..
- we
- Cuaca
- jaringan
- layanan web
- BAIK
- adalah
- yang
- sementara
- akan
- dengan
- dalam
- tanpa
- Kerja
- bekerja
- alur kerja
- kerja
- terburuk
- penulisan
- tahun
- York
- Kamu
- Anda
- zephyrnet.dll