Reinventing The Data Experience: Use Generative AI And Modern Data Architecture To Unlock Insights

Republicat de Platon

Urmaritori: 0

Implementarea unei arhitecturi moderne de date oferă o metodă scalabilă de integrare a datelor din surse disparate. Prin organizarea datelor pe domenii de afaceri în loc de infrastructură, fiecare domeniu poate alege instrumente care se potrivesc nevoilor sale. Organizațiile pot maximiza valoarea arhitecturii lor moderne de date cu soluții AI generative, în timp ce inovează continuu.

Capacitățile de limbaj natural permit utilizatorilor non-tehnici să interogheze date prin limba engleză conversațională, mai degrabă decât prin SQL complex. Cu toate acestea, realizarea tuturor beneficiilor necesită depășirea unor provocări. Modelele de inteligență artificială și de limbaj trebuie să identifice sursele de date adecvate, să genereze interogări SQL eficiente și să producă răspunsuri coerente cu rezultate încorporate la scară. De asemenea, au nevoie de o interfață de utilizator pentru întrebări de limbaj natural.

În general, implementarea unei arhitecturi moderne de date și a tehnicilor AI generative cu AWS este o abordare promițătoare pentru a culege și disemina informații cheie din date diverse și expansive la scară de întreprindere. Cea mai recentă ofertă pentru AI generativă de la AWS este Amazon Bedrock, care este un serviciu complet gestionat și cea mai simplă modalitate de a construi și scala aplicații AI generative cu modele de bază. AWS oferă, de asemenea, modele de fundație prin Amazon SageMaker JumpStart as Amazon SageMaker puncte finale. Combinația de modele de limbaj mari (LLM), inclusiv ușurința de integrare pe care o oferă Amazon Bedrock și o infrastructură de date scalabilă, orientată pe domeniu, poziționează aceasta ca o metodă inteligentă de a accesa informațiile abundente deținute în diferite baze de date analitice și lacuri de date.

În postare, prezentăm un scenariu în care o companie a implementat o arhitectură modernă de date cu date care se află în mai multe baze de date și API-uri, cum ar fi datele legale privind Serviciul Amazon de stocare simplă (Amazon S3), resurse umane activate Serviciul de baze de date relaționale Amazon (Amazon RDS), vânzări și marketing pe Amazon RedShift, datele pieței financiare pe o soluție de depozit de date terță parte pe Fulg de neași date despre produse ca API. Această implementare își propune să sporească productivitatea analizei de afaceri ai întreprinderii, proprietarilor de produse și experților în domeniul afacerilor. Toate acestea au fost realizate prin utilizarea AI generativă în această arhitectură mesh de domeniu, care permite companiei să-și atingă obiectivele de afaceri mai eficient. Această soluție are opțiunea de a include LLM-uri de la JumpStart ca punct final SageMaker, precum și modele terțe. Oferim utilizatorilor întreprinderi un mijloc de a pune întrebări bazate pe fapte fără a avea cunoștințe fundamentale despre canalele de date, abstragând astfel complexitatea scrierii de interogări SQL simple până la complexe.

Prezentare generală a soluțiilor

O arhitectură modernă de date pe AWS aplică inteligența artificială și procesarea limbajului natural pentru a interoga mai multe baze de date de analiză. Prin utilizarea serviciilor precum Amazon Redshift, Amazon RDS, Snowflake, Amazon Atena, și AWS Adeziv, creează o soluție scalabilă pentru a integra date din diverse surse. Folosind LangChain, o bibliotecă puternică pentru lucrul cu LLM-uri, inclusiv modele de fundație de la Amazon Bedrock și JumpStart în Amazon SageMaker Studio notebook-uri, este construit un sistem în care utilizatorii pot pune întrebări de afaceri în limba engleză naturală și pot primi răspunsuri cu date extrase din bazele de date relevante.

Următoarea diagramă ilustrează arhitectura.

Reinventing the data experience: Use generative AI and modern data architecture to unlock insights | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Arhitectura hibridă utilizează mai multe baze de date și LLM-uri, cu modele de bază de la Amazon Bedrock și JumpStart pentru identificarea surselor de date, generarea SQL și generarea de text cu rezultate.

Următoarea diagramă ilustrează pașii specifici fluxului de lucru pentru soluția noastră.

Reinventing the data experience: Use generative AI and modern data architecture to unlock insights | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Pașii sunt următorii:

Un utilizator de afaceri oferă o întrebare în limba engleză.
Un crawler AWS Glue este programat să ruleze la intervale frecvente pentru a extrage metadate din bazele de date și pentru a crea definiții de tabel în Catalogul de date AWS Glue. Catalogul de date este introdus în Chain Sequence 1 (vezi diagrama precedentă).
LangChain, un instrument pentru a lucra cu LLM-uri și solicitări, este folosit în notebook-urile Studio. LangChain necesită definirea unui LLM. Ca parte a Chain Sequence 1, promptul și metadatele Data Catalog sunt transmise unui LLM, găzduit pe un punct final SageMaker, pentru a identifica baza de date și tabelul relevante folosind LangChain.
Promptul și baza de date și tabelul identificate sunt transmise la Chain Sequence 2.
LangChain stabilește o conexiune la baza de date și rulează interogarea SQL pentru a obține rezultatele.
Rezultatele sunt transmise LLM pentru a genera un răspuns în limba engleză cu datele.
Utilizatorul primește un răspuns în limba engleză la promptul său, interogând date din diferite baze de date.

Aceste secțiuni următoare explică câțiva dintre pașii cheie cu codul asociat. Pentru a explora mai profund soluția și codul pentru toți pașii indicați aici, consultați GitHub repo. Următoarea diagramă prezintă secvența pașilor urmați:

Reinventing the data experience: Use generative AI and modern data architecture to unlock insights | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Cerințe preliminare

Puteți utiliza orice baze de date compatibile cu SQLAlchemy pentru a genera răspunsuri de la LLM și LangChain. Cu toate acestea, aceste baze de date trebuie să aibă metadatele înregistrate în Catalogul de date AWS Glue. În plus, va trebui să aveți acces la LLM-uri fie prin JumpStart, fie prin chei API.

Conectați-vă la baze de date folosind SQLAlchemy

LangChain folosește SQLAlchemy pentru a se conecta la bazele de date SQL. Inițializam funcția SQLDatabase LangChain prin crearea unui motor și stabilirea unei conexiuni pentru fiecare sursă de date. Următorul este un exemplu despre cum să vă conectați la un Ediție compatibilă cu Amazon Aurora MySQL baza de date fără server și include doar tabelul angajați:

#connect to AWS Aurora MySQL
cluster_arn = <cluster_arn>
secret_arn = <secret_arn>
engine_rds=create_engine('mysql+auroradataapi://:@/employees',echo=True,
  connect_args=dict(aurora_cluster_arn=cluster_arn, secret_arn=secret_arn))
dbrds = SQLDatabase(engine_rds, include_tables=['employees'])

Apoi, construim prompturi utilizate de Chain Sequence 1 pentru a identifica baza de date și numele tabelului pe baza întrebării utilizatorului.

Generați șabloane dinamice de prompt

Folosim AWS Glue Data Catalog, care este conceput pentru a stoca și gestiona informații despre metadate, pentru a identifica sursa datelor pentru o interogare a utilizatorului și pentru a crea solicitări pentru Chain Sequence 1, după cum se detaliază în următorii pași:

Construim un catalog de date prin accesarea cu crawlere prin metadatele mai multor surse de date folosind Conexiune JDBC folosit în demonstrație.
Cu biblioteca Boto3, construim o vizualizare consolidată a Catalogului de date din mai multe surse de date. Mai jos este un exemplu despre cum să obțineți metadatele tabelului de angajați din Catalogul de date pentru baza de date Aurora MySQL:

 #retrieve metadata from glue data catalog
  glue_tables_rds = glue_client.get_tables(DatabaseName=<database_name>, MaxResults=1000)
    for table in glue_tables_rds['TableList']:
        for column in table['StorageDescriptor']['Columns']:
             columns_str=columns_str+'n'+('rdsmysql|employees|'+table['Name']+"|"+column['Name'])

Un catalog de date consolidat conține detalii despre sursa de date, cum ar fi schema, numele tabelelor și numele coloanelor. Următorul este un eșantion al rezultatelor Catalogului de date consolidat:

database|schema|table|column_names
redshift|tickit|tickit_sales|listid
rdsmysql|employees|employees|emp_no
....
s3|none|claims|policy_id

Trecem catalogul de date consolidat șablonului de prompt și definim solicitările utilizate de LangChain:

prompt_template = """
From the table below, find the database (in column database) which will contain the data (in corresponding column_names) to answer the question {query} n """+glue_catalog +""" Give your answer as database == n Also,give your answer as database.table =="""

Secvența în lanț 1: Detectați metadatele sursă pentru interogarea utilizatorului folosind LangChain și un LLM

Trecem șablonul prompt generat în pasul anterior către prompt, împreună cu interogarea utilizatorului către modelul LangChain, pentru a găsi cea mai bună sursă de date pentru a răspunde la întrebare. LangChain folosește modelul LLM ales de noi pentru a detecta metadatele sursă.

Utilizați următorul cod pentru a utiliza un LLM de la JumpStart sau modele terțe:

#define your LLM model here
llm = <LLM>
#pass prompt template and user query to the prompt
PROMPT = PromptTemplate(template=prompt_template, input_variables=["query"])
# define llm chain
llm_chain = LLMChain(prompt=PROMPT, llm=llm)
#run the query and save to generated texts
generated_texts = llm_chain.run(query)

Textul generat conține informații precum numele bazei de date și tabelelor pe baza cărora este rulată interogarea utilizatorului. De exemplu, pentru interogarea utilizatorului „Numiți toți angajații cu data nașterii luna aceasta”, generated_text are informatia database == rdsmysql și database.table == rdsmysql.employees.

Apoi, trecem detaliile domeniului resurselor umane, baza de date Aurora MySQL și tabelul angajaților la Chain Sequence 2.

Secvența în lanț 2: Preluați răspunsurile din sursele de date pentru a răspunde la interogarea utilizatorului

Apoi, rulăm lanțul de baze de date SQL al LangChain pentru a converti textul în SQL și, implicit, rulăm SQL-ul generat în baza de date pentru a prelua rezultatele bazei de date într-un limbaj simplu care poate fi citit.

Începem cu definirea unui șablon prompt care instruiește LLM să genereze SQL într-un dialect corect sintactic și apoi îl rulează pe baza de date:

_DEFAULT_TEMPLATE = """Given an input question, first create a syntactically correct {dialect} query to run, then look at the results of the query and return the answer.
Only use the following tables:
{table_info}
If someone asks for the sales, they really mean the tickit.sales table.
Question: {input}"""
#define the prompt
PROMPT = PromptTemplate( input_variables=["input", "table_info", "dialect"], template=_DEFAULT_TEMPLATE)

În cele din urmă, transmitem LLM, conexiunea la baza de date și promptul lanțului de baze de date SQL și rulăm interogarea SQL:

db_chain = SQLDatabaseChain.from_llm(llm, db, prompt=PROMPT)
response=db_chain.run(query)

De exemplu, pentru interogarea utilizatorului „Numiți toți angajații cu data nașterii în această lună”, răspunsul este următorul:

Question: Name all employees with birth date this month SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); User Response:
The employees with birthdays this month are:
Christian Koblick
Tzvetan Zielinski

A curăța

După ce rulați arhitectura modernă de date cu IA generativă, asigurați-vă că curățați orice resurse care nu vor fi utilizate. Închideți și ștergeți bazele de date utilizate (Amazon Redshift, Amazon RDS, Snowflake). În plus, ștergeți datele din Amazon S3 și opriți orice instanță de notebook Studio pentru a nu suporta alte taxe. Dacă ați folosit JumpStart pentru a implementa un LLM ca punct final SageMaker în timp real, ștergeți punctul final fie prin consola SageMaker, fie prin Studio.

Concluzie

În această postare, am integrat o arhitectură modernă de date cu AI generativă și LLM în SageMaker. Această soluție utilizează diverse modele de fundație text-to-text de la JumpStart, precum și modele terțe. Această abordare hibridă identifică sursele de date, scrie interogări SQL și generează răspunsuri cu rezultate ale interogării. Utilizează Amazon Redshift, Amazon RDS, Snowflake și LLM-uri. Pentru a îmbunătăți soluția, puteți adăuga mai multe baze de date, o interfață de utilizare pentru interogări în limba engleză, inginerie promptă și instrumente de date. Aceasta ar putea deveni o modalitate inteligentă și unificată de a obține informații din mai multe magazine de date. Pentru a explora mai adânc soluția și codul afișat în această postare, consultați GitHub repo . De asemenea, consultați Amazon Bedrock pentru cazuri de utilizare pe IA generativă, modele de bază și modele de limbaj mari.

Apendice

Exemple de solicitări

domeniu	Baza de date/API	Prompt	SQL (Generat de LLM)	producție
Vanzari & Marketing	Amazon RedShift	Câte vânzări de bilete sunt?	`SELECT COUNT(*) AS total_sales` `FROM tickit.sales;`	`There are 172,456 ticket sales.`
Vanzari & Marketing	Amazon RedShift	Care a fost comisionul total pentru vânzarea biletelor în anul 2008?	`SELECT SUM(commission) AS total_commission` `FROM tickit.sales` `WHERE EXTRACT(YEAR FROM saletime) = 2008`	`The total commission for ticket sales in the year 2008 was $16,614,814.65.`
Legal	S3	Câte fraude au avut loc în anul 2023?	`SELECT count(*)` `FROM claims` `WHERE extract(year from write_time) = 2023 AND fraud = 1;`	`There were 164 fraud claims in 2023.`
Legal	S3	Câte polițe au fost solicitate anul acesta?	`SELECT count(*)` `FROM claims;`	`There were 5000 claims made this year.`
Resurse Umane	Amazon Aurora MySQL	Numiți toți angajații cu data nașterii luna aceasta	`SELECT * FROM employees` `WHERE MONTH(birth_date) = MONTH(CURRENT_DATE());`	`The employees with birthdays this month are:` `Christian Koblick` `Tzvetan Zielinski` `Kazuhito Cappelletti` `Yinghua Dredge`
Resurse Umane	Amazon Aurora MySQL	Câți angajați au fost angajați înainte de 1990?	`SELECT COUNT(*) AS 'Number of employees hired before 1990'` `FROM employees` `WHERE hire_date < '1990-01-01'`	`29 employees were hired before 1990.`
Finanțe și investiții	Fulg de nea	Care acțiuni a avut cel mai bine și cel mai rău performanță în mai 2013?	`SELECT name, MAX(close) AS max_close, MIN(close) AS min_close` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-05-01' AND '2013-05-31'` `GROUP BY name` `ORDER BY max_close DESC, min_close ASC`	`The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22.`
Finanțe și investiții	Fulg de nea	Care este volumul mediu de acțiuni tranzacționate în iulie 2013?	`SELECT AVG(volume) AS average_volume` `FROM all_stocks_5yr` `WHERE date BETWEEN '2013-07-01' AND '2013-07-31'`	`The average volume of stocks traded in July 2013 was 4,374,177`
Produs – Vremea	API	Cum este vremea acum în New York City, în grade Fahrenheit?

Despre Autori

Navneet Tuteja este specialist în date la Amazon Web Services. Înainte de a se alătura AWS, Navneet a lucrat ca facilitator pentru organizațiile care doresc să își modernizeze arhitecturile de date și să implementeze soluții complete AI/ML. Ea deține o diplomă de inginerie de la Universitatea Thapar, precum și un master în statistică de la Universitatea Texas A&M.

Sovik Kumar Nath este un arhitect de soluții AI/ML cu AWS. Are o vastă experiență în proiectarea de soluții end-to-end de învățare automată și de analiză de afaceri în finanțe, operațiuni, marketing, asistență medicală, managementul lanțului de aprovizionare și IoT. Sovik a publicat articole și deține un brevet în monitorizarea modelelor ML. Are duble diplome de master de la Universitatea din Florida de Sud, Universitatea din Fribourg, Elveția și o diplomă de licență de la Institutul Indian de Tehnologie, Kharagpur. În afara serviciului, lui Sovik îi place să călătorească, să facă plimbări cu feribotul și să se uite la filme.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
EVM Finance. Interfață unificată pentru finanțare descentralizată. Accesați Aici.
Grupul Quantum Media. IR/PR amplificat. Accesați Aici.
PlatoAiStream. Web3 Data Intelligence. Cunoștințe amplificate. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/

Timestamp-ul: 13 Iunie, 2023

Timestamp-ul: 2 Mai, 2024

Reinventarea experienței de date: utilizați inteligența artificială generativă și arhitectura modernă de date pentru a debloca informații | Amazon Web Services

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Conectați-vă la baze de date folosind SQLAlchemy

Generați șabloane dinamice de prompt

Secvența în lanț 1: Detectați metadatele sursă pentru interogarea utilizatorului folosind LangChain și un LLM

Secvența în lanț 2: Preluați răspunsurile din sursele de date pentru a răspunde la interogarea utilizatorului

A curăța

Concluzie

Apendice

Despre Autori

Mai mult de la Învățare automată AWS

Amazon SageMaker Automatic Model Tuning alege acum automat configurațiile de reglare pentru a îmbunătăți gradul de utilizare și eficiența costurilor | Amazon Web Services

Cele mai bune practici pentru antrenamentul de accelerare TensorFlow 1.x pe Amazon SageMaker

Utilizați Amazon Lex pentru a captura adresele străzilor

Generați o analiză contrafactuală a răspunsului porumbului la azot cu soluțiile Amazon SageMaker JumpStart

Abode folosește Amazon Rekognition Streaming Video Events pentru a oferi notificări în timp real clienților lor smart home

Modelele și algoritmii Amazon SageMaker JumpStart sunt acum disponibile prin API

Amazon SageMaker Automatic Model Tuning oferă acum o reglare hiperparametrică de până la trei ori mai rapidă cu Hyperband

Accelerați informațiile de timp până la afaceri cu conexiunea directă Amazon SageMaker Data Wrangler la Snowflake | Amazon Web Services

Amazon Personalize lansează noi rețete care acceptă cataloage de articole mai mari, cu o latență mai mică | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont