Nowe spojrzenie na doświadczenie związane z danymi: wykorzystaj generatywną sztuczną inteligencję i nowoczesną architekturę danych, aby odblokować spostrzeżenia

Opublikowane ponownie przez Plato

Obserwuje: 0

Wdrożenie nowoczesnej architektury danych zapewnia skalowalną metodę integracji danych z różnych źródeł. Organizując dane według domen biznesowych zamiast infrastruktury, każda domena może wybrać narzędzia, które odpowiadają jej potrzebom. Organizacje mogą maksymalizować wartość swojej nowoczesnej architektury danych dzięki generatywnym rozwiązaniom AI, jednocześnie stale wprowadzając innowacje.

Możliwości języka naturalnego pozwalają użytkownikom nietechnicznym na przeszukiwanie danych za pomocą konwersacyjnego języka angielskiego zamiast złożonego SQL. Jednak osiągnięcie pełnych korzyści wymaga przezwyciężenia pewnych wyzwań. Sztuczna inteligencja i modele językowe muszą identyfikować odpowiednie źródła danych, generować skuteczne zapytania SQL i generować spójne odpowiedzi z osadzonymi wynikami na dużą skalę. Potrzebują również interfejsu użytkownika do zadawania pytań w języku naturalnym.

Ogólnie rzecz biorąc, wdrożenie nowoczesnej architektury danych i technik generatywnej sztucznej inteligencji za pomocą AWS to obiecujące podejście do zbierania i rozpowszechniania kluczowych spostrzeżeń z różnorodnych, ekspansywnych danych w skali przedsiębiorstwa. Najnowsza oferta generatywnej sztucznej inteligencji od AWS to Amazońska skała macierzysta, która jest w pełni zarządzaną usługą i najłatwiejszym sposobem tworzenia i skalowania generatywnych aplikacji sztucznej inteligencji za pomocą modeli podstawowych. AWS oferuje również modele fundamentów Amazon SageMaker JumpStart as Amazon Sage Maker punkty końcowe. Połączenie dużych modeli językowych (LLM), w tym łatwości integracji oferowanej przez Amazon Bedrock, oraz skalowalnej, zorientowanej na domenę infrastruktury danych, pozycjonuje to jako inteligentną metodę wykorzystania obfitych informacji przechowywanych w różnych analitycznych bazach danych i jeziorach danych.

W poście przedstawiamy scenariusz, w którym firma wdrożyła nowoczesną architekturę danych z danymi rezydującymi w wielu bazach danych i interfejsach API, takich jak dane prawne na Usługa Amazon Simple Storage (Amazon S3), zasoby ludzkie wł Usługa relacyjnych baz danych Amazon (Amazon RDS), sprzedaż i marketing na Amazonka Przesunięcie ku czerwieni, dane rynku finansowego w rozwiązaniu hurtowni danych innej firmy Snowflakeoraz dane produktów jako interfejs API. Ta implementacja ma na celu zwiększenie produktywności analityków biznesowych, właścicieli produktów i ekspertów w dziedzinie biznesu w przedsiębiorstwie. Wszystko to osiągnięto dzięki zastosowaniu generatywnej sztucznej inteligencji w tej domenowej architekturze mesh, która umożliwia firmie efektywniejsze osiąganie celów biznesowych. To rozwiązanie ma opcję włączenia LLM z JumpStart jako punktu końcowego SageMaker, a także modeli innych firm. Zapewniamy użytkownikom korporacyjnym możliwość zadawania pytań opartych na faktach bez podstawowej wiedzy o kanałach danych, eliminując w ten sposób złożoność pisania prostych i złożonych zapytań SQL.

Omówienie rozwiązania

Nowoczesna architektura danych w AWS wykorzystuje sztuczną inteligencję i przetwarzanie języka naturalnego do wysyłania zapytań do wielu analitycznych baz danych. Korzystając z usług takich jak Amazon Redshift, Amazon RDS, Snowflake, Amazonka Atena, Klej AWS, tworzy skalowalne rozwiązanie do integracji danych z różnych źródeł. Za pomocą LangChain, potężna biblioteka do pracy z LLM, w tym modele fundamentów z Amazon Bedrock i JumpStart w Studio Amazon SageMaker notebooków, budowany jest system, w którym użytkownicy mogą zadawać pytania biznesowe w naturalnym języku angielskim i otrzymywać odpowiedzi wraz z danymi zaczerpniętymi z odpowiednich baz danych.

Poniższy schemat ilustruje architekturę.

Nowe podejście do obsługi danych: wykorzystaj generatywną sztuczną inteligencję i nowoczesną architekturę danych, aby odblokować spostrzeżenia | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Architektura hybrydowa wykorzystuje wiele baz danych i LLM, z podstawowymi modelami z Amazon Bedrock i JumpStart do identyfikacji źródła danych, generowania kodu SQL i generowania tekstu z wynikami.

Poniższy diagram ilustruje określone kroki przepływu pracy dla naszego rozwiązania.

Kroki są następujące:

Użytkownik biznesowy wyświetla pytanie w języku angielskim.
Przeszukiwacz AWS Glue ma uruchamiać się w częstych odstępach czasu w celu wyodrębnienia metadanych z baz danych i utworzenia definicji tabel w Katalog danych kleju AWS. Katalog danych jest wprowadzany do sekwencji łańcuchowej 1 (patrz poprzedni diagram).
LangChain, narzędzie do pracy z LLM i monitami, jest używane w notesach Studio. LangChain wymaga zdefiniowania LLM. W ramach sekwencji łańcuchowej 1 monit i metadane katalogu danych są przekazywane do LLM, hostowanego na punkcie końcowym SageMaker, w celu zidentyfikowania odpowiedniej bazy danych i tabeli za pomocą LangChain.
Monit i zidentyfikowana baza danych oraz tabela są przekazywane do sekwencji łańcuchowej 2.
LangChain nawiązuje połączenie z bazą danych i uruchamia zapytanie SQL w celu uzyskania wyników.
Wyniki są przekazywane do LLM w celu wygenerowania odpowiedzi w języku angielskim z danymi.
Użytkownik otrzymuje odpowiedź w języku angielskim na swoje zapytanie, przeszukując dane z różnych baz danych.

W poniższych sekcjach wyjaśniono niektóre kluczowe kroki z powiązanym kodem. Aby zagłębić się w rozwiązanie i kod dla wszystkich pokazanych tutaj kroków, zapoznaj się z GitHub repo. Poniższy schemat przedstawia kolejność wykonywanych czynności:

Wymagania wstępne

Możesz użyć dowolnych baz danych, które są kompatybilne z SQLAlchemy do generowania odpowiedzi z LLM i LangChain. Jednak te bazy danych muszą mieć zarejestrowane metadane w AWS Glue Data Catalog. Ponadto musisz mieć dostęp do LLM za pomocą kluczy JumpStart lub API.

Połącz się z bazami danych za pomocą SQLAlchemy

LangChain używa SQLAlchemy do łączenia się z bazami danych SQL. Inicjujemy funkcję SQLDatabase LangChain, tworząc silnik i ustanawiając połączenie dla każdego źródła danych. Poniżej znajduje się przykład, jak połączyć się z Wersja zgodna z Amazon Aurora MySQL bezserwerową bazę danych i zawiera tylko tabelę pracowników:

#connect to AWS Aurora MySQL
cluster_arn = <cluster_arn>
secret_arn = <secret_arn>
engine_rds=create_engine('mysql+auroradataapi://:@/employees',echo=True,
  connect_args=dict(aurora_cluster_arn=cluster_arn, secret_arn=secret_arn))
dbrds = SQLDatabase(engine_rds, include_tables=['employees'])

Następnie budujemy monity używane przez sekwencję łańcuchową 1 do identyfikacji bazy danych i nazwy tabeli na podstawie pytania użytkownika.

Generuj dynamiczne szablony monitów

Korzystamy z AWS Glue Data Catalog, który jest przeznaczony do przechowywania informacji o metadanych i zarządzania nimi, do identyfikowania źródła danych dla zapytania użytkownika i tworzenia monitów dla sekwencji łańcuchowej 1, jak opisano w następujących krokach:

Katalog danych budujemy, przeszukując metadane wielu źródeł danych za pomocą Połączenie JDBC użyte w demonstracji.
Dzięki bibliotece Boto3 tworzymy skonsolidowany widok katalogu danych z wielu źródeł danych. Poniżej przedstawiono przykład pobierania metadanych tabeli pracowników z katalogu danych dla bazy danych Aurora MySQL:

 #retrieve metadata from glue data catalog
  glue_tables_rds = glue_client.get_tables(DatabaseName=<database_name>, MaxResults=1000)
    for table in glue_tables_rds['TableList']:
        for column in table['StorageDescriptor']['Columns']:
             columns_str=columns_str+'n'+('rdsmysql|employees|'+table['Name']+"|"+column['Name'])

Skonsolidowany wykaz danych zawiera szczegółowe informacje o źródle danych, takie jak schemat, nazwy tabel i nazwy kolumn. Poniżej przedstawiono przykład danych wyjściowych skonsolidowanego wykazu danych:

database|schema|table|column_names
redshift|tickit|tickit_sales|listid
rdsmysql|employees|employees|emp_no
....
s3|none|claims|policy_id

Przekazujemy skonsolidowany Katalog Danych do szablonu podpowiedzi i definiujemy podpowiedzi używane przez LangChain:

prompt_template = """
From the table below, find the database (in column database) which will contain the data (in corresponding column_names) to answer the question {query} n """+glue_catalog +""" Give your answer as database == n Also,give your answer as database.table =="""

Sekwencja łańcuchowa 1: wykryj źródłowe metadane dla zapytania użytkownika przy użyciu LangChain i LLM

Przekazujemy szablon podpowiedzi wygenerowany w poprzednim kroku do podpowiedzi, wraz z zapytaniem użytkownika do modelu LangChain, aby znaleźć najlepsze źródło danych, aby odpowiedzieć na pytanie. LangChain używa wybranego przez nas modelu LLM do wykrywania źródłowych metadanych.

Użyj następującego kodu, aby użyć LLM z JumpStart lub modeli innych firm:

#define your LLM model here
llm = <LLM>
#pass prompt template and user query to the prompt
PROMPT = PromptTemplate(template=prompt_template, input_variables=["query"])
# define llm chain
llm_chain = LLMChain(prompt=PROMPT, llm=llm)
#run the query and save to generated texts
generated_texts = llm_chain.run(query)

Wygenerowany tekst zawiera informacje, takie jak nazwy baz danych i tabel, względem których uruchamiane jest zapytanie użytkownika. Na przykład w przypadku zapytania użytkownika „Wymień wszystkich pracowników z datą urodzenia w tym miesiącu” generated_text ma informacje database == rdsmysql i database.table == rdsmysql.employees.

Następnie przekazujemy szczegóły domeny zasobów ludzkich, bazy danych Aurora MySQL i tabeli pracowników do sekwencji łańcuchowej 2.

Sekwencja łańcuchowa 2: Pobierz odpowiedzi ze źródeł danych, aby odpowiedzieć na zapytanie użytkownika

Następnie uruchamiamy łańcuch bazy danych SQL LangChain, aby przekonwertować tekst na SQL i niejawnie uruchomić wygenerowany kod SQL w bazie danych, aby pobrać wyniki bazy danych w prostym, czytelnym języku.

Zaczynamy od zdefiniowania szablonu zachęty, który instruuje LLM, aby wygenerował SQL w poprawnym składniowo dialekcie, a następnie uruchomił go w bazie danych:

_DEFAULT_TEMPLATE = """Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer.
Only use the following tables:
{table_info}
If someone asks for the sales, they really mean the tickit.sales table.
Question: {input}"""
#define the prompt
PROMPT = PromptTemplate( input_variables=["input", "table_info", "dialect"], template=_DEFAULT_TEMPLATE)

Na koniec przekazujemy LLM, połączenie z bazą danych i monit do łańcucha bazy danych SQL i uruchamiamy zapytanie SQL:

db_chain = SQLDatabaseChain.from_llm(llm, db, prompt=PROMPT)
response=db_chain.run(query)

Na przykład w przypadku zapytania użytkownika „Wymień wszystkich pracowników z datą urodzenia w tym miesiącu” odpowiedź jest następująca:

Question: Name all employees with birth date this month SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); User Response:
The employees with birthdays this month are:
Christian Koblick
Tzvetan Zielinski

Sprzątać

Po uruchomieniu nowoczesnej architektury danych z generatywną sztuczną inteligencją pamiętaj o wyczyszczeniu wszelkich zasobów, które nie będą wykorzystywane. Zamknij i usuń używane bazy danych (Amazon Redshift, Amazon RDS, Snowflake). Ponadto usuń dane w usłudze Amazon S3 i zatrzymaj wszystkie instancje notesów Studio, aby nie naliczać żadnych dalszych opłat. Jeśli użyłeś JumpStart do wdrożenia LLM jako punktu końcowego SageMaker w czasie rzeczywistym, usuń punkt końcowy za pomocą konsoli SageMaker lub Studio.

Wnioski

W tym poście zintegrowaliśmy nowoczesną architekturę danych z generatywną sztuczną inteligencją i LLM w SageMaker. To rozwiązanie wykorzystuje różne podstawowe modele zamiany tekstu na tekst z JumpStart, a także modele innych firm. To hybrydowe podejście identyfikuje źródła danych, zapisuje zapytania SQL i generuje odpowiedzi z wynikami zapytań. Wykorzystuje Amazon Redshift, Amazon RDS, Snowflake i LLM. Aby ulepszyć rozwiązanie, możesz dodać więcej baz danych, interfejs użytkownika dla zapytań w języku angielskim, szybką inżynierię i narzędzia do obsługi danych. Może to stać się inteligentnym, ujednoliconym sposobem uzyskiwania szczegółowych informacji z wielu magazynów danych. Aby zagłębić się w rozwiązanie i kod pokazany w tym poście, sprawdź GitHub repo . Także patrz Amazońska skała macierzysta do przypadków użycia w generatywnej sztucznej inteligencji, modelach podstawowych i dużych modelach językowych.

dodatek

Przykładowe monity

Domena	Baza danych/API	Skłonić	SQL (wygenerowany przez LLM)	Wydajność
Sprzedaż i Marketing	Amazon RedShift	Ile jest sprzedaży biletów?	`SELECT COUNT(*) AS total_sales` `FROM tickit.sales;`	`There are 172,456 ticket sales.`
Sprzedaż i Marketing	Amazon RedShift	Jaka była łączna prowizja ze sprzedaży biletów w 2008 roku?	`SELECT SUM(commission) AS total_commission` `FROM tickit.sales` `WHERE EXTRACT(YEAR FROM saletime) = 2008`	`The total commission for ticket sales in the year 2008 was $16,614,814.65.`
Regulamin	S3	Ile oszustw miało miejsce w 2023 roku?	`SELECT count(*)` `FROM claims` `WHERE extract(year from write_time) = 2023 AND fraud = 1;`	`There were 164 fraud claims in 2023.`
Regulamin	S3	Ile polis zostało zgłoszonych w tym roku?	`SELECT count(*)` `FROM claims;`	`There were 5000 claims made this year.`
Human Resources	Amazon Aurora MySQL	Wymień wszystkich pracowników z datą urodzenia w tym miesiącu	`SELECT * FROM employees` `WHERE MONTH(birth_date) = MONTH(CURRENT_DATE());`	`The employees with birthdays this month are:` `Christian Koblick` `Tzvetan Zielinski` `Kazuhito Cappelletti` `Yinghua Dredge`
Human Resources	Amazon Aurora MySQL	Ilu pracowników było zatrudnionych przed 1990 rokiem?	`SELECT COUNT(*) AS 'Number of employees hired before 1990'` `FROM employees` `WHERE hire_date < '1990-01-01'`	`29 employees were hired before 1990.`
Finanse i inwestycje	Snowflake	Które akcje radziły sobie najlepiej, a które najgorzej w maju 2013 roku?	`SELECT name, MAX(close) AS max_close, MIN(close) AS min_close` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-05-01' AND '2013-05-31'` `GROUP BY name` `ORDER BY max_close DESC, min_close ASC`	`The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22.`
Finanse i inwestycje	Snowflake	Jaki jest średni wolumen obrotu akcjami w lipcu 2013 r.?	`SELECT AVG(volume) AS average_volume` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-07-01' AND '2013-07-31'`	`The average volume of stocks traded in July 2013 was 4,374,177`
Produkt – Pogoda	API	Jaka jest pogoda teraz w Nowym Jorku w stopniach Fahrenheita?

O autorach

Navneet Tuteja jest specjalistą ds. danych w Amazon Web Services. Przed dołączeniem do AWS Navneet pracował jako facylitator dla organizacji, które chciały zmodernizować swoją architekturę danych i wdrożyć kompleksowe rozwiązania AI/ML. Ukończyła studia inżynierskie na Thapar University oraz tytuł magistra statystyki na Texas A&M University.

Sovik Kumar Nath jest architektem rozwiązań AI/ML w AWS. Ma bogate doświadczenie w projektowaniu kompleksowych rozwiązań do uczenia maszynowego i analityki biznesowej w finansach, operacjach, marketingu, opiece zdrowotnej, zarządzaniu łańcuchem dostaw i IoT. Sovik opublikował artykuły i posiada patent na monitorowanie modeli ML. Posiada podwójne stopnie magisterskie z University of South Florida, University of Fribourg w Szwajcarii oraz tytuł licencjata z Indian Institute of Technology w Kharagpur. Poza pracą Sovik lubi podróżować, pływać promem i oglądać filmy.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/

Znak czasu: 13 czerwca 2023 r.

Znak czasu: 2 maja 2024 r.

Nowe podejście do obsługi danych: wykorzystaj generatywną sztuczną inteligencję i nowoczesną architekturę danych, aby odblokować szczegółowe informacje | Usługi sieciowe Amazona

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Wymagania wstępne

Połącz się z bazami danych za pomocą SQLAlchemy

Generuj dynamiczne szablony monitów

Sekwencja łańcuchowa 1: wykryj źródłowe metadane dla zapytania użytkownika przy użyciu LangChain i LLM

Sekwencja łańcuchowa 2: Pobierz odpowiedzi ze źródeł danych, aby odpowiedzieć na zapytanie użytkownika

Sprzątać

Wnioski

dodatek

O autorach

Więcej z Uczenie maszynowe AWS

Amazon SageMaker Automatic Model Tuning teraz automatycznie wybiera konfiguracje dostrajania, aby poprawić użyteczność i efektywność kosztową | Usługi sieciowe Amazona

Najlepsze praktyki dotyczące treningu akceleracyjnego TensorFlow 1.x na Amazon SageMaker

Użyj Amazon Lex do przechwytywania adresów ulicznych

Wygeneruj kontrfaktyczną analizę reakcji kukurydzy na azot za pomocą rozwiązań Amazon SageMaker JumpStart

Abode korzysta z usługi Amazon Rekognition Streaming Video Events, aby dostarczać powiadomienia w czasie rzeczywistym swoim klientom korzystającym z inteligentnego domu

Modele i algorytmy Amazon SageMaker JumpStart są teraz dostępne przez API

Automatyczne dostrajanie modeli Amazon SageMaker zapewnia teraz do trzech razy szybsze dostrajanie hiperparametrów dzięki funkcji Hyperband

Skróć czas uzyskiwania informacji biznesowych dzięki bezpośredniemu połączeniu Amazon SageMaker Data Wrangler z Snowflake | Usługi sieciowe Amazona

Amazon Personalize wprowadza nowe przepisy obsługujące większe katalogi produktów z mniejszymi opóźnieniami | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto