Modern bir veri mimarisi uygulamak, farklı kaynaklardan gelen verileri entegre etmek için ölçeklenebilir bir yöntem sağlar. Verileri altyapı yerine iş alanlarına göre düzenleyerek, her alan kendi ihtiyaçlarına uygun araçları seçebilir. Kuruluşlar, sürekli yenilik yaparken üretken yapay zeka çözümleriyle modern veri mimarilerinin değerini en üst düzeye çıkarabilir.
Doğal dil yetenekleri, teknik olmayan kullanıcıların verileri karmaşık SQL yerine konuşma İngilizcesi aracılığıyla sorgulamasına olanak tanır. Bununla birlikte, tüm faydaları gerçekleştirmek bazı zorlukların üstesinden gelmeyi gerektirir. Yapay zeka ve dil modelleri, uygun veri kaynaklarını tanımlamalı, etkili SQL sorguları oluşturmalı ve ölçekte yerleşik sonuçlarla tutarlı yanıtlar üretmelidir. Ayrıca doğal dil soruları için bir kullanıcı arayüzüne ihtiyaç duyarlar.
Genel olarak, AWS ile modern bir veri mimarisi ve üretken yapay zeka teknikleri uygulamak, kurumsal ölçekte çeşitli, kapsamlı verilerden önemli içgörüler toplamak ve yaymak için umut verici bir yaklaşımdır. AWS'nin üretken yapay zekaya yönelik en son teklifi: Amazon Ana KayasıTamamen yönetilen bir hizmet olan ve temel modellerle üretken yapay zeka uygulamaları oluşturmanın ve ölçeklendirmenin en kolay yolu. AWS ayrıca temel modeller sunar. Amazon SageMaker Hızlı Başlangıç as Amazon Adaçayı Yapıcı uç noktalar. Amazon Bedrock'un sunduğu entegrasyon kolaylığı ve ölçeklenebilir, etki alanına yönelik bir veri altyapısı da dahil olmak üzere büyük dil modellerinin (LLM'ler) birleşimi, bunu çeşitli analitik veritabanlarında ve veri göllerinde tutulan bol miktarda bilgiden yararlanmanın akıllı bir yöntemi olarak konumlandırır.
Gönderide, bir şirketin birden çok veritabanında ve API'lerde bulunan verilerle modern bir veri mimarisini devreye aldığı bir senaryoyu gösteriyoruz. Amazon Basit Depolama Hizmeti (Amazon S3), insan kaynakları Amazon İlişkisel Veritabanı Hizmeti (Amazon RDS), satış ve pazarlama Amazon Kırmızıya Kaydırma, bir üçüncü taraf veri ambarı çözümündeki finansal piyasa verileri Kar taneciğive API olarak ürün verileri. Bu uygulama, kuruluşun iş analitiği, ürün sahipleri ve iş alanı uzmanlarının üretkenliğini artırmayı amaçlar. Tüm bunlar, şirketin iş hedeflerine daha verimli bir şekilde ulaşmasını sağlayan bu etki alanı ağ mimarisinde üretken yapay zekanın kullanılmasıyla elde edildi. Bu çözüm, JumpStart'tan LLM'leri bir SageMaker uç noktası olarak ve ayrıca üçüncü taraf modelleri dahil etme seçeneğine sahiptir. Kurumsal kullanıcılara, veri kanalları hakkında temel bir bilgiye sahip olmadan gerçeklere dayalı sorular sorma ortamı sağlıyoruz, böylece basitten karmaşığa SQL sorguları yazmanın karmaşıklıklarını soyutluyoruz.
Çözüme genel bakış
AWS'deki modern veri mimarisi, birden çok analitik veritabanını sorgulamak için yapay zeka ve doğal dil işlemeyi uygular. Amazon Redshift, Amazon RDS, Snowflake gibi hizmetleri kullanarak, Amazon Atina, ve AWS Tutkal, çeşitli kaynaklardan gelen verileri entegre etmek için ölçeklenebilir bir çözüm oluşturur. kullanma Dil Zinciri, içinde Amazon Bedrock ve JumpStart'tan temel modeller de dahil olmak üzere LLM'lerle çalışmak için güçlü bir kitaplık. Amazon SageMaker Stüdyosu not defterleri, kullanıcıların iş sorularını doğal İngilizce ile sorabilecekleri ve ilgili veritabanlarından alınan verilerle yanıtlar alabilecekleri bir sistem oluşturulmuştur.
Aşağıdaki şema mimariyi göstermektedir.
Hibrit mimari, veri kaynağı tanımlama, SQL oluşturma ve sonuçlarla birlikte metin oluşturma için Amazon Bedrock ve JumpStart'ın temel modelleri ile birden fazla veritabanı ve LLM kullanır.
Aşağıdaki diyagram, çözümümüz için belirli iş akışı adımlarını göstermektedir.
Adımlar aşağıdaki gibidir:
- Bir işletme kullanıcısı, bir İngilizce soru istemi sağlar.
- Bir AWS Glue gezgini, veritabanlarından meta verileri ayıklamak ve veritabanlarında tablo tanımları oluşturmak için sık aralıklarla çalışacak şekilde planlanmıştır. AWS Tutkal Veri Kataloğu. Veri Kataloğu, Zincir Dizisi 1'e girilir (önceki şemaya bakın).
- LLM'ler ve istemlerle çalışmak için bir araç olan LangChain, Studio not defterlerinde kullanılır. LangChain, bir LLM'nin tanımlanmasını gerektirir. Chain Sequence 1'in bir parçası olarak, LangChain kullanılarak ilgili veritabanını ve tabloyu tanımlamak için bilgi istemi ve Data Catalog meta verileri bir SageMaker uç noktasında barındırılan bir LLM'ye iletilir.
- Bilgi istemi ve tanımlanan veritabanı ve tablo, Zincir Dizisi 2'ye iletilir.
- LangChain, veritabanına bir bağlantı kurar ve sonuçları almak için SQL sorgusunu çalıştırır.
- Sonuçlar, verilerle birlikte İngilizce bir yanıt oluşturmak için LLM'ye iletilir.
- Kullanıcı, istemine farklı veritabanlarından veri sorgulayan İngilizce bir yanıt alır.
Aşağıdaki bölümlerde, ilgili kodla birlikte bazı önemli adımlar açıklanmaktadır. Çözümü daha derinlemesine incelemek ve burada gösterilen tüm adımları kodlamak için bkz. GitHub repo. Aşağıdaki diyagram izlenen adımların sırasını göstermektedir:
Önkoşullar
Uyumlu olan herhangi bir veri tabanını kullanabilirsiniz. SQLAlchemy LLM'lerden ve LangChain'den yanıtlar oluşturmak için. Ancak bu veritabanlarının meta verilerinin AWS Glue Data Catalog'a kayıtlı olması gerekir. Ek olarak, JumpStart veya API anahtarları aracılığıyla LLM'lere erişiminizin olması gerekir.
SQLAlchemy kullanarak veritabanlarına bağlanın
LangChain, SQL veritabanlarına bağlanmak için SQLAlchemy'yi kullanır. Bir motor oluşturarak ve her veri kaynağı için bir bağlantı kurarak LangChain'in SQLDatabase işlevini başlatıyoruz. Aşağıda, bir ağa nasıl bağlanılacağına ilişkin bir örnek verilmiştir. Amazon Aurora MySQL-Uyumlu Sürüm sunucusuz veritabanı ve yalnızca çalışanlar tablosunu içerir:
Daha sonra, kullanıcı sorusuna dayalı olarak veritabanını ve tablo adını tanımlamak için Chain Sequence 1 tarafından kullanılan bilgi istemleri oluşturuyoruz.
Dinamik bilgi istemi şablonları oluşturun
Meta veri bilgilerini depolamak ve yönetmek, bir kullanıcı sorgusu için veri kaynağını belirlemek ve Zincir Dizisi 1 için bilgi istemleri oluşturmak üzere aşağıdaki adımlarda ayrıntılı olarak açıklanan AWS Glue Data Catalog'u kullanıyoruz:
- kullanarak birden fazla veri kaynağının meta verilerini tarayarak bir Veri Kataloğu oluşturuyoruz. JDBC bağlantısı gösterimde kullanılır.
- Boto3 kitaplığıyla, birden çok veri kaynağından Veri Kataloğunun birleştirilmiş bir görünümünü oluşturuyoruz. Aşağıda, Aurora MySQL veritabanı için Veri Kataloğu'ndan çalışanlar tablosunun meta verilerinin nasıl alınacağına ilişkin bir örnek verilmiştir:
Birleştirilmiş bir Veri Kataloğu, şema, tablo adları ve sütun adları gibi veri kaynağıyla ilgili ayrıntılara sahiptir. Aşağıda, birleştirilmiş Veri Kataloğu çıktısının bir örneği verilmiştir:
- Birleştirilmiş Veri Katalogunu bilgi istemi şablonuna aktarıyoruz ve LangChain tarafından kullanılan istemleri tanımlıyoruz:
Zincir Dizisi 1: LangChain ve bir LLM kullanarak kullanıcı sorgusu için kaynak meta verilerini tespit edin
Soruyu yanıtlayacak en iyi veri kaynağını bulmak için önceki adımda oluşturulan bilgi istemi şablonunu, kullanıcı sorgusuyla birlikte LangChain modeline iletiriz. LangChain, kaynak meta verilerini tespit etmek için tercih ettiğimiz LLM modelini kullanır.
JumpStart veya üçüncü taraf modellerden bir LLM kullanmak için aşağıdaki kodu kullanın:
Oluşturulan metin, kullanıcı sorgusunun çalıştırıldığı veritabanı ve tablo adları gibi bilgileri içerir. Örneğin, "Bu ay doğum tarihi olan tüm çalışanları adlandırın" kullanıcı sorgusu için generated_text
bilgiye sahip database == rdsmysql
ve database.table == rdsmysql.employees
.
Ardından, insan kaynakları alanı, Aurora MySQL veritabanı ve çalışanlar tablosunun ayrıntılarını Chain Sequence 2'ye aktarıyoruz.
Zincir Dizisi 2: Kullanıcı sorgusunu yanıtlamak için veri kaynaklarından yanıtları alın
Ardından, metni SQL'e dönüştürmek için LangChain'in SQL veritabanı zincirini çalıştırıyoruz ve veritabanı sonuçlarını basit, okunabilir bir dilde almak için oluşturulan SQL'i dolaylı olarak veritabanında çalıştırıyoruz.
LLM'ye SQL'i sözdizimsel olarak doğru bir lehçede oluşturma talimatı veren bir bilgi istemi şablonu tanımlayarak başlıyoruz ve ardından onu veritabanına karşı çalıştırıyoruz:
Son olarak, LLM'yi, veritabanı bağlantısını ve istemi SQL veritabanı zincirine aktarıyoruz ve SQL sorgusunu çalıştırıyoruz:
Örneğin, “Bu ay doğum tarihi olan tüm çalışanları adlandırın” kullanıcı sorgusu için cevap şu şekildedir:
Temizlemek
Üretken yapay zeka ile modern veri mimarisini çalıştırdıktan sonra, kullanılmayan tüm kaynakları temizlediğinizden emin olun. Kullanılan veritabanlarını kapatın ve silin (Amazon Redshift, Amazon RDS, Snowflake). Ayrıca, Amazon S3'teki verileri silin ve daha fazla ücrete tabi olmamak için tüm Studio not defteri bulut sunucularını durdurun. Bir LLM'yi SageMaker gerçek zamanlı uç noktası olarak dağıtmak için JumpStart'ı kullandıysanız, uç noktayı SageMaker konsolu veya Studio aracılığıyla silin.
Sonuç
Bu gönderide, SageMaker içinde üretken yapay zeka ve LLM'lerle modern bir veri mimarisini entegre ettik. Bu çözüm, JumpStart'ın çeşitli metinden metne temel modellerinin yanı sıra üçüncü taraf modellerini kullanır. Bu hibrit yaklaşım, veri kaynaklarını tanımlar, SQL sorguları yazar ve sorgu sonuçlarıyla birlikte yanıtlar üretir. Amazon Redshift, Amazon RDS, Snowflake ve LLM'leri kullanır. Çözümü iyileştirmek için daha fazla veritabanı, İngilizce sorgular için bir kullanıcı arabirimi, bilgi istemi mühendisliği ve veri araçları ekleyebilirsiniz. Bu, birden çok veri deposundan bilgi almanın akıllı ve birleşik bir yolu olabilir. Çözümü ve bu gönderide gösterilen kodu daha derinlemesine incelemek için şuraya göz atın: GitHub repo . Ayrıca, bkz. Amazon Ana Kayası üretici yapay zeka, temel modeller ve büyük dil modellerindeki kullanım durumları için.
Ek
Örnek istemler
domain | Veritabanı/API | İstemi | SQL (LLM tarafından oluşturulmuştur) | Çıktı |
Satış ve Pazarlama | Amazon RedShift'i | Kaç bilet satışı var? | SELECT COUNT(*) AS total_sales FROM tickit.sales; |
There are 172,456 ticket sales. |
Satış ve Pazarlama | Amazon RedShift'i | 2008 yılında bilet satışları için toplam komisyon ne kadardı? | SELECT SUM(commission) AS total_commission FROM tickit.sales WHERE EXTRACT(YEAR FROM saletime) = 2008 |
The total commission for ticket sales in the year 2008 was $16,614,814.65. |
Yasal Şartlar | S3 | 2023 yılında kaç dolandırıcılık oldu? | SELECT count(*) FROM claims WHERE extract(year from write_time) = 2023 AND fraud = 1; |
There were 164 fraud claims in 2023. |
Yasal Şartlar | S3 | Bu yıl kaç tane poliçe talep edildi? | SELECT count(*) FROM claims; |
There were 5000 claims made this year. |
İnsan Kaynakları | Amazon Aurora MySQL'i | Bu ay doğum tarihi olan tüm çalışanları adlandırın | SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); |
The employees with birthdays this month are: Christian Koblick Tzvetan Zielinski Kazuhito Cappelletti Yinghua Dredge |
İnsan Kaynakları | Amazon Aurora MySQL'i | 1990'dan önce kaç çalışan işe alındı? | SELECT COUNT(*) AS 'Number of employees hired before 1990' FROM employees WHERE hire_date < '1990-01-01' |
29 employees were hired before 1990. |
Finans ve Yatırımlar | Kar taneciği | Mayıs 2013'te en iyi ve en kötü performansı hangi hisse senedi gösterdi? | SELECT name, MAX(close) AS max_close, MIN(close) AS min_close FROM all_stocks_5yr WHERE date BETWEEN '2013-05-01' AND '2013-05-31' GROUP BY name ORDER BY max_close DESC, min_close ASC |
The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22. |
Finans ve Yatırımlar | Kar taneciği | 2013 yılının Temmuz ayında işlem gören hisse senetlerinin ortalama hacmi nedir? | SELECT AVG(volume) AS average_volume FROM all_stocks_5yr WHERE date BETWEEN '2013-07-01' AND '2013-07-31' |
The average volume of stocks traded in July 2013 was 4,374,177 |
Ürün – Hava Durumu | API | Şu anda New York'ta Fahrenheit derece cinsinden hava nasıl? |
Yazarlar Hakkında
Navneet Tuteja Amazon Web Services'ta Veri Uzmanıdır. Navneet, AWS'ye katılmadan önce veri mimarilerini modernize etmek ve kapsamlı AI/ML çözümleri uygulamak isteyen kuruluşlar için kolaylaştırıcı olarak çalıştı. Thapar Üniversitesi'nden mühendislik derecesine ve Texas A&M Üniversitesi'nden istatistik alanında yüksek lisans derecesine sahiptir.
Sovik Kumar Nath AWS ile bir AI/ML çözüm mimarıdır. Finans, operasyonlar, pazarlama, sağlık hizmetleri, tedarik zinciri yönetimi ve IoT alanlarında uçtan uca makine öğrenimi ve iş analitiği çözümleri tasarlama konusunda geniş deneyime sahiptir. Sovik makaleler yayınladı ve makine öğrenimi modeli izleme konusunda bir patente sahip. Güney Florida Üniversitesi, İsviçre Fribourg Üniversitesi'nden çift yüksek lisans derecesine ve Kharagpur'daki Hindistan Teknoloji Enstitüsü'nden lisans derecesine sahiptir. Sovik, iş dışında seyahat etmeyi, vapura binmeyi ve film izlemeyi seviyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- EVM Finans. Merkezi Olmayan Finans için Birleşik Arayüz. Buradan Erişin.
- Kuantum Medya Grubu. IR/PR Güçlendirilmiş. Buradan Erişin.
- PlatoAiStream. Web3 Veri Zekası. Bilgi Genişletildi. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/
- :vardır
- :dır-dir
- :olumsuzluk
- :Neresi
- $3
- $UP
- 1
- 100
- 11
- 12
- 13
- 16
- 2008
- 2013
- 2023
- 22
- 32
- 50
- 5000
- 7
- 8
- 9
- a
- bol
- erişim
- Başarmak
- elde
- eklemek
- ilave
- Ayrıca
- karşı
- AI
- AI / ML
- Amaçları
- Türkiye
- izin vermek
- boyunca
- Ayrıca
- Amazon
- Amazon RDS'si
- Amazon Kırmızıya Kaydırma
- Amazon Web Servisleri
- an
- analytics
- ve
- cevap
- cevaplar
- herhangi
- api
- API ANAHTARLARI
- API'ler
- uygulamaları
- yaklaşım
- uygun
- mimari
- ARE
- mal
- yapay
- yapay zeka
- AS
- ilişkili
- At
- şafak
- ortalama
- AWS
- AWS Tutkal
- merkezli
- BE
- müşterimiz
- önce
- altında
- faydaları
- İYİ
- arasında
- inşa etmek
- yapılı
- iş
- by
- CAN
- yetenekleri
- durumlarda
- katalog
- zincir
- zorluklar
- kanallar
- yükler
- Kontrol
- seçim
- Klinik
- Şehir
- iddia
- iddia
- Kapanış
- kapanış
- kod
- tutarlı
- Sütun
- Sütunlar
- kombinasyon
- alın
- şirket
- uyumlu
- karmaşık
- karmaşıklıklar
- kapsamlı
- Sosyal medya
- bağ
- konsolos
- içermek
- içeren
- devamlı olarak
- konuşkan
- dönüştürmek
- doğru
- uyan
- olabilir
- paletli
- yaratmak
- oluşturur
- Oluşturma
- veri
- veri altyapısı
- veritabanı
- veritabanları
- Tarih
- derin
- tanımlı
- tanımlarken
- tanımları
- derece
- dağıtmak
- konuşlandırılmış
- tasarlanmış
- tasarım
- detaylı
- ayrıntılar
- farklı
- çılgınlık
- çeşitli
- domain
- etki
- çift
- aşağı
- çekilmiş
- dinamik
- her
- kolaylaştırmak
- kolay
- Etkili
- verimli biçimde
- ya
- gömülü
- çalışanların
- sağlar
- son uca
- Son nokta
- Motor
- Mühendislik
- İngilizce
- artırmak
- kuruluş
- kurar
- kurulması
- örnek
- geniş
- deneyim
- uzmanlara göre
- Açıklamak
- kapsamlı, geniş
- Kapsamlı Deneyim
- çıkarmak
- kolaylaştırıcı
- maliye
- mali
- Finansal market
- bulmak
- Ad
- Florida
- takip
- takip etme
- şu
- İçin
- vakıf
- dolandırıcılık
- sık
- itibaren
- tam
- tamamen
- işlev
- daha fazla
- oluşturmak
- oluşturulan
- üretir
- nesil
- üretken
- üretken yapay zeka
- almak
- Vermek
- verilmiş
- olmuş
- Var
- sahip olan
- he
- sağlık
- Held
- okuyun
- tutar
- ev sahipliği yaptı
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- http
- HTTPS
- insan
- İnsan Kaynakları
- melez
- Kimlik
- tespit
- tanımlar
- belirlemek
- if
- göstermektedir
- uygulamak
- uygulama
- uygulanması
- iyileştirmek
- in
- dahil
- Dahil olmak üzere
- Hintli
- bilgi
- Altyapı
- yenilik
- giriş
- anlayışlar
- yerine
- Enstitü
- entegre
- entegre
- bütünleşme
- İstihbarat
- Akıllı
- arayüzey
- içine
- IOT
- IT
- ONUN
- birleştirme
- jpg
- Temmuz
- anahtar
- anahtarlar
- bilgi
- dil
- büyük
- son
- öğrenme
- Yasal Şartlar
- Kütüphane
- sevmek
- Yüksek Lisans
- Bakın
- makine
- makine öğrenme
- yapılmış
- yapmak
- yönetmek
- yönetilen
- yönetim
- çok
- pazar
- Piyasa verileri
- Pazarlama
- yüksek lisans
- Maksimuma çıkarmak
- maksimum
- Mayıs..
- ortalama
- orta
- örgü
- Metadata
- yöntem
- asgari
- ML
- model
- modelleri
- Modern
- modernleştirmek
- izleme
- Ay
- Daha
- filmler
- çoklu
- şart
- mysql
- isim
- isimleri
- Doğal (Madenden)
- Doğal Dil İşleme
- gerek
- ihtiyaçlar
- yeni
- New York
- new york city
- teknik olmayan
- defter
- şimdi
- numara
- hedefleri
- of
- teklif
- Teklifler
- on
- bir tek
- Operasyon
- seçenek
- or
- organizasyonlar
- düzenleme
- bizim
- dışarı
- çıktı
- dışında
- sahipleri
- Bölüm
- geçmek
- geçti
- patent
- yapılan
- Platon
- Plato Veri Zekası
- PlatoVeri
- politikaları
- pozisyonları
- Çivi
- güçlü
- önceki
- fiyat
- işleme
- üretmek
- PLATFORM
- verimlilik
- umut verici
- sağlamak
- sağlar
- yayınlanan
- sorgular
- soru
- Sorular
- daha doğrusu
- gerçek zaman
- fark
- Gerçekten mi
- teslim almak
- alır
- kayıtlı
- uygun
- gerektirir
- Kaynaklar
- yanıt
- yanıtları
- Sonuçlar
- dönüş
- krallar gibi yaşamaya
- koşmak
- sagemaker
- satış
- İndirim
- ölçeklenebilir
- ölçek
- senaryo
- tarifeli
- bölümler
- görmek
- arayan
- Dizi
- Serverless
- hizmet
- Hizmetler
- o
- vitrin
- gösterilen
- Gösteriler
- kapatmak
- Basit
- çözüm
- Çözümler
- biraz
- Birisi
- Kaynak
- kaynaklar
- güney
- Güney Florida
- uzman
- özel
- başlama
- istatistik
- adım
- Basamaklar
- Stok
- Stocks
- dur
- hafızası
- mağaza
- mağaza
- stüdyo
- böyle
- Takım elbise
- arz
- tedarik zinciri
- Tedarik zinciri yönetimi
- isviçre
- sistem
- tablo
- alma
- teknikleri
- Teknoloji
- şablon
- Teksas
- göre
- o
- The
- Bilgi
- Kaynak
- ve bazı Asya
- sonra
- Orada.
- böylece
- Bunlar
- onlar
- üçüncü şahıslara ait
- üçüncü taraf verileri
- Re-Tweet
- Bu yıl
- İçinden
- bilet
- bilet satışı
- için
- araç
- araçlar
- Toplam
- işlem
- Seyahat
- ui
- altında yatan
- birleşik
- üniversite
- kilidini açmak
- kullanım
- Kullanılmış
- kullanıcı
- Kullanıcı Arayüzü
- kullanıcılar
- kullanım
- kullanma
- kullanılan
- değer
- çeşitli
- Görüntüle
- hacim
- oldu
- izlerken
- Yol..
- we
- hava
- ağ
- web hizmetleri
- İYİ
- vardı
- hangi
- süre
- irade
- ile
- içinde
- olmadan
- İş
- işlenmiş
- iş akışı
- çalışma
- En kötü
- yazı yazıyor
- yıl
- york
- Sen
- zefirnet