Wdrożenie nowoczesnej architektury danych zapewnia skalowalną metodę integracji danych z różnych źródeł. Organizując dane według domen biznesowych zamiast infrastruktury, każda domena może wybrać narzędzia, które odpowiadają jej potrzebom. Organizacje mogą maksymalizować wartość swojej nowoczesnej architektury danych dzięki generatywnym rozwiązaniom AI, jednocześnie stale wprowadzając innowacje.
Możliwości języka naturalnego pozwalają użytkownikom nietechnicznym na przeszukiwanie danych za pomocą konwersacyjnego języka angielskiego zamiast złożonego SQL. Jednak osiągnięcie pełnych korzyści wymaga przezwyciężenia pewnych wyzwań. Sztuczna inteligencja i modele językowe muszą identyfikować odpowiednie źródła danych, generować skuteczne zapytania SQL i generować spójne odpowiedzi z osadzonymi wynikami na dużą skalę. Potrzebują również interfejsu użytkownika do zadawania pytań w języku naturalnym.
Ogólnie rzecz biorąc, wdrożenie nowoczesnej architektury danych i technik generatywnej sztucznej inteligencji za pomocą AWS to obiecujące podejście do zbierania i rozpowszechniania kluczowych spostrzeżeń z różnorodnych, ekspansywnych danych w skali przedsiębiorstwa. Najnowsza oferta generatywnej sztucznej inteligencji od AWS to Amazońska skała macierzysta, która jest w pełni zarządzaną usługą i najłatwiejszym sposobem tworzenia i skalowania generatywnych aplikacji sztucznej inteligencji za pomocą modeli podstawowych. AWS oferuje również modele fundamentów Amazon SageMaker JumpStart as Amazon Sage Maker punkty końcowe. Połączenie dużych modeli językowych (LLM), w tym łatwości integracji oferowanej przez Amazon Bedrock, oraz skalowalnej, zorientowanej na domenę infrastruktury danych, pozycjonuje to jako inteligentną metodę wykorzystania obfitych informacji przechowywanych w różnych analitycznych bazach danych i jeziorach danych.
W poście przedstawiamy scenariusz, w którym firma wdrożyła nowoczesną architekturę danych z danymi rezydującymi w wielu bazach danych i interfejsach API, takich jak dane prawne na Usługa Amazon Simple Storage (Amazon S3), zasoby ludzkie wł Usługa relacyjnych baz danych Amazon (Amazon RDS), sprzedaż i marketing na Amazonka Przesunięcie ku czerwieni, dane rynku finansowego w rozwiązaniu hurtowni danych innej firmy Snowflakeoraz dane produktów jako interfejs API. Ta implementacja ma na celu zwiększenie produktywności analityków biznesowych, właścicieli produktów i ekspertów w dziedzinie biznesu w przedsiębiorstwie. Wszystko to osiągnięto dzięki zastosowaniu generatywnej sztucznej inteligencji w tej domenowej architekturze mesh, która umożliwia firmie efektywniejsze osiąganie celów biznesowych. To rozwiązanie ma opcję włączenia LLM z JumpStart jako punktu końcowego SageMaker, a także modeli innych firm. Zapewniamy użytkownikom korporacyjnym możliwość zadawania pytań opartych na faktach bez podstawowej wiedzy o kanałach danych, eliminując w ten sposób złożoność pisania prostych i złożonych zapytań SQL.
Omówienie rozwiązania
Nowoczesna architektura danych w AWS wykorzystuje sztuczną inteligencję i przetwarzanie języka naturalnego do wysyłania zapytań do wielu analitycznych baz danych. Korzystając z usług takich jak Amazon Redshift, Amazon RDS, Snowflake, Amazonka Atena, Klej AWS, tworzy skalowalne rozwiązanie do integracji danych z różnych źródeł. Za pomocą LangChain, potężna biblioteka do pracy z LLM, w tym modele fundamentów z Amazon Bedrock i JumpStart w Studio Amazon SageMaker notebooków, budowany jest system, w którym użytkownicy mogą zadawać pytania biznesowe w naturalnym języku angielskim i otrzymywać odpowiedzi wraz z danymi zaczerpniętymi z odpowiednich baz danych.
Poniższy schemat ilustruje architekturę.
Architektura hybrydowa wykorzystuje wiele baz danych i LLM, z podstawowymi modelami z Amazon Bedrock i JumpStart do identyfikacji źródła danych, generowania kodu SQL i generowania tekstu z wynikami.
Poniższy diagram ilustruje określone kroki przepływu pracy dla naszego rozwiązania.
Kroki są następujące:
- Użytkownik biznesowy wyświetla pytanie w języku angielskim.
- Przeszukiwacz AWS Glue ma uruchamiać się w częstych odstępach czasu w celu wyodrębnienia metadanych z baz danych i utworzenia definicji tabel w Katalog danych kleju AWS. Katalog danych jest wprowadzany do sekwencji łańcuchowej 1 (patrz poprzedni diagram).
- LangChain, narzędzie do pracy z LLM i monitami, jest używane w notesach Studio. LangChain wymaga zdefiniowania LLM. W ramach sekwencji łańcuchowej 1 monit i metadane katalogu danych są przekazywane do LLM, hostowanego na punkcie końcowym SageMaker, w celu zidentyfikowania odpowiedniej bazy danych i tabeli za pomocą LangChain.
- Monit i zidentyfikowana baza danych oraz tabela są przekazywane do sekwencji łańcuchowej 2.
- LangChain nawiązuje połączenie z bazą danych i uruchamia zapytanie SQL w celu uzyskania wyników.
- Wyniki są przekazywane do LLM w celu wygenerowania odpowiedzi w języku angielskim z danymi.
- Użytkownik otrzymuje odpowiedź w języku angielskim na swoje zapytanie, przeszukując dane z różnych baz danych.
W poniższych sekcjach wyjaśniono niektóre kluczowe kroki z powiązanym kodem. Aby zagłębić się w rozwiązanie i kod dla wszystkich pokazanych tutaj kroków, zapoznaj się z GitHub repo. Poniższy schemat przedstawia kolejność wykonywanych czynności:
Wymagania wstępne
Możesz użyć dowolnych baz danych, które są kompatybilne z SQLAlchemy do generowania odpowiedzi z LLM i LangChain. Jednak te bazy danych muszą mieć zarejestrowane metadane w AWS Glue Data Catalog. Ponadto musisz mieć dostęp do LLM za pomocą kluczy JumpStart lub API.
Połącz się z bazami danych za pomocą SQLAlchemy
LangChain używa SQLAlchemy do łączenia się z bazami danych SQL. Inicjujemy funkcję SQLDatabase LangChain, tworząc silnik i ustanawiając połączenie dla każdego źródła danych. Poniżej znajduje się przykład, jak połączyć się z Wersja zgodna z Amazon Aurora MySQL bezserwerową bazę danych i zawiera tylko tabelę pracowników:
Następnie budujemy monity używane przez sekwencję łańcuchową 1 do identyfikacji bazy danych i nazwy tabeli na podstawie pytania użytkownika.
Generuj dynamiczne szablony monitów
Korzystamy z AWS Glue Data Catalog, który jest przeznaczony do przechowywania informacji o metadanych i zarządzania nimi, do identyfikowania źródła danych dla zapytania użytkownika i tworzenia monitów dla sekwencji łańcuchowej 1, jak opisano w następujących krokach:
- Katalog danych budujemy, przeszukując metadane wielu źródeł danych za pomocą Połączenie JDBC użyte w demonstracji.
- Dzięki bibliotece Boto3 tworzymy skonsolidowany widok katalogu danych z wielu źródeł danych. Poniżej przedstawiono przykład pobierania metadanych tabeli pracowników z katalogu danych dla bazy danych Aurora MySQL:
Skonsolidowany wykaz danych zawiera szczegółowe informacje o źródle danych, takie jak schemat, nazwy tabel i nazwy kolumn. Poniżej przedstawiono przykład danych wyjściowych skonsolidowanego wykazu danych:
- Przekazujemy skonsolidowany Katalog Danych do szablonu podpowiedzi i definiujemy podpowiedzi używane przez LangChain:
Sekwencja łańcuchowa 1: wykryj źródłowe metadane dla zapytania użytkownika przy użyciu LangChain i LLM
Przekazujemy szablon podpowiedzi wygenerowany w poprzednim kroku do podpowiedzi, wraz z zapytaniem użytkownika do modelu LangChain, aby znaleźć najlepsze źródło danych, aby odpowiedzieć na pytanie. LangChain używa wybranego przez nas modelu LLM do wykrywania źródłowych metadanych.
Użyj następującego kodu, aby użyć LLM z JumpStart lub modeli innych firm:
Wygenerowany tekst zawiera informacje, takie jak nazwy baz danych i tabel, względem których uruchamiane jest zapytanie użytkownika. Na przykład w przypadku zapytania użytkownika „Wymień wszystkich pracowników z datą urodzenia w tym miesiącu” generated_text
ma informacje database == rdsmysql
i database.table == rdsmysql.employees
.
Następnie przekazujemy szczegóły domeny zasobów ludzkich, bazy danych Aurora MySQL i tabeli pracowników do sekwencji łańcuchowej 2.
Sekwencja łańcuchowa 2: Pobierz odpowiedzi ze źródeł danych, aby odpowiedzieć na zapytanie użytkownika
Następnie uruchamiamy łańcuch bazy danych SQL LangChain, aby przekonwertować tekst na SQL i niejawnie uruchomić wygenerowany kod SQL w bazie danych, aby pobrać wyniki bazy danych w prostym, czytelnym języku.
Zaczynamy od zdefiniowania szablonu zachęty, który instruuje LLM, aby wygenerował SQL w poprawnym składniowo dialekcie, a następnie uruchomił go w bazie danych:
Na koniec przekazujemy LLM, połączenie z bazą danych i monit do łańcucha bazy danych SQL i uruchamiamy zapytanie SQL:
Na przykład w przypadku zapytania użytkownika „Wymień wszystkich pracowników z datą urodzenia w tym miesiącu” odpowiedź jest następująca:
Sprzątać
Po uruchomieniu nowoczesnej architektury danych z generatywną sztuczną inteligencją pamiętaj o wyczyszczeniu wszelkich zasobów, które nie będą wykorzystywane. Zamknij i usuń używane bazy danych (Amazon Redshift, Amazon RDS, Snowflake). Ponadto usuń dane w usłudze Amazon S3 i zatrzymaj wszystkie instancje notesów Studio, aby nie naliczać żadnych dalszych opłat. Jeśli użyłeś JumpStart do wdrożenia LLM jako punktu końcowego SageMaker w czasie rzeczywistym, usuń punkt końcowy za pomocą konsoli SageMaker lub Studio.
Wnioski
W tym poście zintegrowaliśmy nowoczesną architekturę danych z generatywną sztuczną inteligencją i LLM w SageMaker. To rozwiązanie wykorzystuje różne podstawowe modele zamiany tekstu na tekst z JumpStart, a także modele innych firm. To hybrydowe podejście identyfikuje źródła danych, zapisuje zapytania SQL i generuje odpowiedzi z wynikami zapytań. Wykorzystuje Amazon Redshift, Amazon RDS, Snowflake i LLM. Aby ulepszyć rozwiązanie, możesz dodać więcej baz danych, interfejs użytkownika dla zapytań w języku angielskim, szybką inżynierię i narzędzia do obsługi danych. Może to stać się inteligentnym, ujednoliconym sposobem uzyskiwania szczegółowych informacji z wielu magazynów danych. Aby zagłębić się w rozwiązanie i kod pokazany w tym poście, sprawdź GitHub repo . Także patrz Amazońska skała macierzysta do przypadków użycia w generatywnej sztucznej inteligencji, modelach podstawowych i dużych modelach językowych.
dodatek
Przykładowe monity
Domena | Baza danych/API | Skłonić | SQL (wygenerowany przez LLM) | Wydajność |
Sprzedaż i Marketing | Amazon RedShift | Ile jest sprzedaży biletów? | SELECT COUNT(*) AS total_sales FROM tickit.sales; |
There are 172,456 ticket sales. |
Sprzedaż i Marketing | Amazon RedShift | Jaka była łączna prowizja ze sprzedaży biletów w 2008 roku? | SELECT SUM(commission) AS total_commission FROM tickit.sales WHERE EXTRACT(YEAR FROM saletime) = 2008 |
The total commission for ticket sales in the year 2008 was $16,614,814.65. |
Regulamin | S3 | Ile oszustw miało miejsce w 2023 roku? | SELECT count(*) FROM claims WHERE extract(year from write_time) = 2023 AND fraud = 1; |
There were 164 fraud claims in 2023. |
Regulamin | S3 | Ile polis zostało zgłoszonych w tym roku? | SELECT count(*) FROM claims; |
There were 5000 claims made this year. |
Human Resources | Amazon Aurora MySQL | Wymień wszystkich pracowników z datą urodzenia w tym miesiącu | SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); |
The employees with birthdays this month are: Christian Koblick Tzvetan Zielinski Kazuhito Cappelletti Yinghua Dredge |
Human Resources | Amazon Aurora MySQL | Ilu pracowników było zatrudnionych przed 1990 rokiem? | SELECT COUNT(*) AS 'Number of employees hired before 1990' FROM employees WHERE hire_date < '1990-01-01' |
29 employees were hired before 1990. |
Finanse i inwestycje | Snowflake | Które akcje radziły sobie najlepiej, a które najgorzej w maju 2013 roku? | SELECT name, MAX(close) AS max_close, MIN(close) AS min_close FROM all_stocks_5yr WHERE date BETWEEN '2013-05-01' AND '2013-05-31' GROUP BY name ORDER BY max_close DESC, min_close ASC |
The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22. |
Finanse i inwestycje | Snowflake | Jaki jest średni wolumen obrotu akcjami w lipcu 2013 r.? | SELECT AVG(volume) AS average_volume FROM all_stocks_5yr WHERE date BETWEEN '2013-07-01' AND '2013-07-31' |
The average volume of stocks traded in July 2013 was 4,374,177 |
Produkt – Pogoda | API | Jaka jest pogoda teraz w Nowym Jorku w stopniach Fahrenheita? |
O autorach
Navneet Tuteja jest specjalistą ds. danych w Amazon Web Services. Przed dołączeniem do AWS Navneet pracował jako facylitator dla organizacji, które chciały zmodernizować swoją architekturę danych i wdrożyć kompleksowe rozwiązania AI/ML. Ukończyła studia inżynierskie na Thapar University oraz tytuł magistra statystyki na Texas A&M University.
Sovik Kumar Nath jest architektem rozwiązań AI/ML w AWS. Ma bogate doświadczenie w projektowaniu kompleksowych rozwiązań do uczenia maszynowego i analityki biznesowej w finansach, operacjach, marketingu, opiece zdrowotnej, zarządzaniu łańcuchem dostaw i IoT. Sovik opublikował artykuły i posiada patent na monitorowanie modeli ML. Posiada podwójne stopnie magisterskie z University of South Florida, University of Fribourg w Szwajcarii oraz tytuł licencjata z Indian Institute of Technology w Kharagpur. Poza pracą Sovik lubi podróżować, pływać promem i oglądać filmy.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
- Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
- PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/
- :ma
- :Jest
- :nie
- :Gdzie
- $3
- $W GÓRĘ
- 1
- 100
- 11
- 12
- 13
- 16
- 2008
- 2013
- 2023
- 22
- 32
- 50
- 5000
- 7
- 8
- 9
- a
- obfity
- dostęp
- Osiągać
- osiągnięty
- Dodaj
- dodatek
- do tego
- przed
- AI
- AI / ML
- Cele
- Wszystkie kategorie
- dopuszczać
- wzdłuż
- również
- Amazonka
- Amazon RDS
- Amazonka Przesunięcie ku czerwieni
- Amazon Web Services
- an
- analityka
- i
- odpowiedź
- odpowiedzi
- każdy
- api
- KLUCZE API
- Pszczoła
- aplikacje
- podejście
- właściwy
- architektura
- SĄ
- towary
- sztuczny
- sztuczna inteligencja
- AS
- powiązany
- At
- jutrzenka
- średni
- AWS
- Klej AWS
- na podstawie
- BE
- stają się
- zanim
- poniżej
- Korzyści
- BEST
- pomiędzy
- budować
- wybudowany
- biznes
- by
- CAN
- możliwości
- Etui
- katalog
- łańcuch
- wyzwania
- kanały
- Opłaty
- ZOBACZ
- wybór
- Dodaj
- Miasto
- twierdził,
- roszczenia
- Zamknij
- zamknięcie
- kod
- ZGODNY
- Kolumna
- kolumny
- połączenie
- prowizja
- sukcesy firma
- zgodny
- kompleks
- złożoności
- wszechstronny
- Skontaktuj się
- połączenie
- Konsola
- zawierać
- zawiera
- bez przerwy
- konwersacyjny
- konwertować
- skorygowania
- Odpowiedni
- mógłby
- crawler
- Stwórz
- tworzy
- Tworzenie
- dane
- infrastruktura danych
- Baza danych
- Bazy danych
- Data
- głębiej
- zdefiniowane
- definiowanie
- definicje
- Stopień
- rozwijać
- wdrażane
- zaprojektowany
- projektowanie
- szczegółowe
- detale
- różne
- różny
- inny
- domena
- domeny
- Podwójna
- na dół
- sporządzony
- dynamiczny
- każdy
- łatwość
- Najprostszym
- Efektywne
- skutecznie
- bądź
- osadzone
- pracowników
- Umożliwia
- koniec końców
- Punkt końcowy
- silnik
- Inżynieria
- Angielski
- wzmacniać
- Enterprise
- ustanawia
- ustanowienie
- przykład
- ekspansywny
- doświadczenie
- eksperci
- Wyjaśniać
- rozległy
- Szerokie doświadczenie
- wyciąg
- Facilitator
- finansować
- budżetowy
- Rynek finansowy
- Znajdź
- i terminów, a
- florida
- następnie
- następujący
- następujący sposób
- W razie zamówieenia projektu
- Fundacja
- oszustwo
- częsty
- od
- pełny
- w pełni
- funkcjonować
- dalej
- Generować
- wygenerowane
- generuje
- generacja
- generatywny
- generatywna sztuczna inteligencja
- otrzymać
- Dać
- dany
- się
- Have
- mający
- he
- opieki zdrowotnej
- Trzymany
- tutaj
- posiada
- hostowane
- W jaki sposób
- How To
- Jednak
- HTML
- http
- HTTPS
- człowiek
- Human Resources
- Hybrydowy
- Identyfikacja
- zidentyfikowane
- identyfikuje
- zidentyfikować
- if
- ilustruje
- wdrożenia
- realizacja
- wykonawczych
- podnieść
- in
- zawierać
- Włącznie z
- Hindusi
- Informacja
- Infrastruktura
- innowacyjne
- wkład
- spostrzeżenia
- zamiast
- Instytut
- integrować
- zintegrowany
- integracja
- Inteligencja
- Inteligentny
- Interfejs
- najnowszych
- Internet przedmiotów
- IT
- JEGO
- łączący
- jpg
- lipiec
- Klawisz
- Klawisze
- wiedza
- język
- duży
- firmy
- nauka
- Regulamin
- Biblioteka
- lubić
- LLM
- Popatrz
- maszyna
- uczenie maszynowe
- zrobiony
- robić
- zarządzanie
- zarządzane
- i konserwacjami
- wiele
- rynek
- Dane rynkowe
- Marketing
- mistrzowski
- Maksymalizuj
- maksymalny
- Może..
- oznaczać
- średni
- siatka
- Metadane
- metoda
- minimum
- ML
- model
- modele
- Nowoczesne technologie
- zmodernizować
- monitorowanie
- Miesiąc
- jeszcze
- Kino
- wielokrotność
- musi
- mysql
- Nazwa
- Nazwy
- Naturalny
- Przetwarzanie języka naturalnego
- Potrzebować
- wymagania
- Nowości
- I Love New York
- nowy jork
- nietechniczne
- notatnik
- już dziś
- numer
- Cele
- of
- oferuje
- Oferty
- on
- tylko
- operacje
- Option
- or
- organizacji
- organizowanie
- ludzkiej,
- na zewnątrz
- wydajność
- zewnętrzne
- właściciele
- część
- przechodzić
- minęło
- patent
- wykonywane
- plato
- Analiza danych Platona
- PlatoDane
- polityka
- Pozycje
- Post
- mocny
- poprzedni
- Cena
- przetwarzanie
- produkować
- Produkt
- wydajność
- obiecujący
- zapewniać
- zapewnia
- opublikowany
- zapytania
- pytanie
- pytania
- raczej
- w czasie rzeczywistym
- zrealizowanie
- naprawdę
- otrzymać
- otrzymuje
- zarejestrowany
- Wymaga
- Zasoby
- odpowiedź
- Odpowiedzi
- Efekt
- powrót
- prawo
- run
- sagemaker
- sole
- Zapisz
- skalowalny
- Skala
- scenariusz
- zaplanowane
- działy
- widzieć
- poszukuje
- Sekwencja
- Bezserwerowe
- usługa
- Usługi
- ona
- prezentacja
- pokazane
- Targi
- zamknąć
- Prosty
- rozwiązanie
- Rozwiązania
- kilka
- Ktoś
- Źródło
- Źródła
- Południe
- South Florida
- specjalista
- specyficzny
- początek
- statystyka
- Ewolucja krok po kroku
- Cel
- stany magazynowe
- Akcje
- Stop
- przechowywanie
- sklep
- sklep
- studio
- taki
- Garnitur
- Dostawa
- łańcuch dostaw
- zarządzanie łańcuchem dostaw
- Szwajcaria
- system
- stół
- biorąc
- Techniki
- Technologia
- szablon
- texas
- niż
- że
- Połączenia
- Informacje
- Źródło
- ich
- następnie
- Tam.
- a tym samym
- Te
- one
- innych firm
- dane osób trzecich
- to
- w tym roku
- Przez
- bilet
- sprzedaż biletów
- do
- narzędzie
- narzędzia
- Kwota produktów:
- w obrocie
- Podróżowanie
- ui
- zasadniczy
- Ujednolicony
- uniwersytet
- odblokować
- posługiwać się
- używany
- Użytkownik
- Interfejs użytkownika
- Użytkownicy
- zastosowania
- za pomocą
- wykorzystany
- wartość
- różnorodny
- Zobacz i wysłuchaj
- Tom
- była
- oglądania
- Droga..
- we
- Pogoda
- sieć
- usługi internetowe
- DOBRZE
- były
- który
- Podczas
- będzie
- w
- w ciągu
- bez
- Praca
- pracował
- workflow
- pracujący
- najgorszy
- pisanie
- rok
- york
- You
- Twój
- zefirnet