Bygg en robust tekst-til-SQL-løsning Generer komplekse spørringer, selvkorrigerende og spør etter ulike datakilder

Publisert av Platon

Følgere: 0

Structured Query Language (SQL) er et komplekst språk som krever forståelse av databaser og metadata. I dag, generativ AI kan aktivere personer uten SQL-kunnskap. Denne generative AI-oppgaven kalles tekst-til-SQL, som genererer SQL-spørringer fra naturlig språkbehandling (NLP) og konverterer tekst til semantisk korrekt SQL. Løsningen i dette innlegget tar sikte på å bringe bedriftsanalyseoperasjoner til neste nivå ved å forkorte veien til dataene dine ved å bruke naturlig språk.

Med fremveksten av store språkmodeller (LLM), har NLP-basert SQL-generering gjennomgått en betydelig transformasjon. LLM-er demonstrerer eksepsjonell ytelse og er nå i stand til å generere nøyaktige SQL-spørringer fra naturlige språkbeskrivelser. Det gjenstår imidlertid fortsatt utfordringer. For det første er menneskelig språk iboende tvetydig og kontekstavhengig, mens SQL er presis, matematisk og strukturert. Dette gapet kan føre til unøyaktig konvertering av brukerens behov til SQL-en som genereres. For det andre må du kanskje bygge tekst-til-SQL-funksjoner for hver database fordi data ofte ikke er lagret i et enkelt mål. Du må kanskje gjenskape muligheten for hver database for å aktivere brukere med NLP-basert SQL-generering. For det tredje, til tross for større bruk av sentraliserte analyseløsninger som datainnsjøer og varehus, øker kompleksiteten med forskjellige tabellnavn og andre metadata som kreves for å lage SQL for de ønskede kildene. Derfor er det fortsatt en utfordring å samle inn omfattende metadata av høy kvalitet. For å lære mer om beste fremgangsmåter for tekst-til-SQL og designmønstre, se Generer verdi fra bedriftsdata: Beste praksis for Text2SQL og generativ AI.

Vår løsning tar sikte på å møte disse utfordringene ved å bruke Amazonas grunnfjell og AWS Analytics-tjenester. Vi bruker Antropiske Claude v2.1 på Amazon Bedrock som vår LLM. For å møte utfordringene, inkorporerer løsningen vår først metadataene til datakildene i AWS Lim Data Catalog for å øke nøyaktigheten til den genererte SQL-spørringen. Arbeidsflyten inkluderer også en sluttevaluering og korrigeringssløyfe, i tilfelle eventuelle SQL-problemer blir identifisert av Amazonas Athena, som brukes nedstrøms som SQL-motoren. Athena lar oss også bruke en mengde av støttede endepunkter og koblinger for å dekke et stort sett med datakilder.

Etter at vi har gått gjennom trinnene for å bygge løsningen, presenterer vi resultatene av noen testscenarier med varierende SQL-kompleksitetsnivåer. Til slutt diskuterer vi hvordan det er enkelt å inkorporere forskjellige datakilder i SQL-spørringene dine.

Løsningsoversikt

Det er tre kritiske komponenter i arkitekturen vår: Retrieval Augmented Generation (RAG) med databasemetadata, en flertrinns selvkorrigeringsløkke og Athena som vår SQL-motor.

Vi bruker RAG-metoden for å hente tabellbeskrivelsene og skjemabeskrivelsene (kolonner) fra AWS Glue metastore for å sikre at forespørselen er relatert til riktig tabell og datasett. I løsningen vår bygde vi de individuelle trinnene for å kjøre et RAG-rammeverk med AWS Glue Data Catalog for demonstrasjonsformål. Du kan imidlertid også bruke kunnskapsbaser i Amazon Bedrock for å bygge RAG-løsninger raskt.

Flertrinnskomponenten lar LLM korrigere den genererte SQL-spørringen for nøyaktighet. Her sendes generert SQL for syntaksfeil. Vi bruker Athena-feilmeldinger for å berike spørsmålet vårt om LLM for mer nøyaktige og effektive rettelser i den genererte SQL-en.

Du kan vurdere at feilmeldingene av og til kommer fra Athena som tilbakemeldinger. Kostnadsimplikasjonene av et feilrettingstrinn er ubetydelige sammenlignet med den leverte verdien. Du kan til og med inkludere disse korrigerende trinnene som overvåkede forsterkede læringseksempler for å finjustere LLM-ene dine. Vi dekket imidlertid ikke denne flyten i innlegget vårt for enkelhets skyld.

Merk at det alltid er en iboende risiko for å ha unøyaktigheter, noe som naturlig følger med generative AI-løsninger. Selv om Athena-feilmeldinger er svært effektive for å redusere denne risikoen, kan du legge til flere kontroller og visninger, for eksempel menneskelig tilbakemelding eller eksempelforespørsler for finjustering, for å minimere slike risikoer ytterligere.

Athena lar oss ikke bare korrigere SQL-spørringene, men det forenkler også det generelle problemet for oss fordi det fungerer som navet, der eikene er flere datakilder. Tilgangsadministrasjon, SQL-syntaks og mer håndteres via Athena.

Følgende diagram illustrerer løsningsarkitekturen.

Løsningsarkitekturen og prosessflyten vises.

Figur 1. Løsningsarkitekturen og prosessflyten.

Prosessflyten inkluderer følgende trinn:

Lag AWS Glue Data Catalogue ved hjelp av en AWS Glue crawler (eller en annen metode).
Bruke Titan-Text-Embeddings-modell på Amazons grunnfjell, konverter metadataene til innebygginger og lagre dem i en Amazon OpenSearch Serverless vektor butikk, som fungerer som vår kunnskapsbase i vårt RAG-rammeverk.

På dette stadiet er prosessen klar til å motta spørringen på naturlig språk. Trinn 7–9 representerer en korreksjonssløyfe, hvis aktuelt.

Brukeren legger inn søket på naturlig språk. Du kan bruke hvilken som helst nettapplikasjon for å tilby chat-grensesnittet. Derfor dekket vi ikke UI-detaljene i innlegget vårt.
Løsningen bruker et RAG-rammeverk via likhetssøk, som legger til den ekstra konteksten fra metadataene fra vektordatabasen. Denne tabellen brukes for å finne riktig tabell, database og attributter.
Spørringen slås sammen med konteksten og sendes til Antropiske Claude v2.1 på Amazonas grunnfjell.
Modellen henter den genererte SQL-spørringen og kobler til Athena for å validere syntaksen.
Hvis Athena gir en feilmelding som nevner at syntaksen er feil, bruker modellen feilteksten fra Athenas svar.
Den nye ledeteksten legger til Athenas svar.
Modellen lager den korrigerte SQL-en og fortsetter prosessen. Denne iterasjonen kan utføres flere ganger.
Til slutt kjører vi SQL ved hjelp av Athena og genererer utdata. Her blir resultatet presentert for brukeren. Av hensyn til arkitektonisk enkelhet viste vi ikke dette trinnet.

Forutsetninger

For dette innlegget bør du fullføre følgende forutsetninger:

Ha en AWS-konto.
Install de AWS kommandolinjegrensesnitt (AWS CLI).
Sett opp SDK for Python (Boto3).
Lag AWS Glue Data Catalogue ved hjelp av en AWS Glue crawler (eller en annen metode).
Bruke Titan-Text-Embeddings-modell på Amazons grunnfjell, konverter metadataene til innebygginger og lagre dem i en OpenSearch Serverless vektor butikk.

Implementer løsningen

Du kan bruke følgende Jupyter notisbok, som inkluderer alle kodebitene i denne delen, for å bygge løsningen. Vi anbefaler å bruke Amazon SageMaker Studio for å åpne denne notatboken med en ml.t3.medium-forekomst med Python 3 (Data Science)-kjernen. For instruksjoner, se Tren en maskinlæringsmodell. Fullfør følgende trinn for å sette opp løsningen:

Opprett kunnskapsbasen i OpenSearch Service for RAG-rammeverket:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Bygg ledeteksten (final_question) ved å kombinere brukerinndata på naturlig språk (user_query), de relevante metadataene fra vektorlageret (vector_search_match), og våre instruksjoner (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Påkall Amazon Bedrock for LLM (Claude v2) og be den generere SQL-spørringen. I den følgende koden gjør den flere forsøk for å illustrere selvkorrigeringstrinnet:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Hvis noen problemer mottas med den genererte SQL-spørringen ({sqlgenerated}) fra Athena-svaret ({syntaxcheckmsg}), den nye ledeteksten (prompt) genereres basert på responsen og modellen prøver igjen å generere den nye SQL-en:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Etter at SQL er generert, startes Athena-klienten for å kjøre og generere utdata:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Test løsningen

I denne delen kjører vi løsningen vår med forskjellige eksempelscenarier for å teste forskjellige kompleksitetsnivåer for SQL-spørringer.

For å teste vår tekst-til-SQL bruker vi to datasett tilgjengelig fra IMDB. Undersett av IMDb-data er tilgjengelig for personlig og ikke-kommersiell bruk. Du kan laste ned datasettene og lagre dem i Amazon enkel lagringstjeneste (Amazon S3). Du kan bruke følgende Spark SQL-kodebit for å lage tabeller i AWS Glue. For dette eksempelet bruker vi title_ratings og title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Lagre data i Amazon S3 og metadata i AWS Glue

I dette scenariet er datasettet vårt lagret i en S3-bøtte. Athena har en S3-kontakt som lar deg bruke Amazon S3 som en datakilde som kan spørres.

For vår første forespørsel gir vi innspillet "Jeg er ny på dette. Kan du hjelpe meg med å se alle tabellene og kolonnene i imdb-skjemaet?"

Følgende er den genererte spørringen:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Følgende skjermbilde og kode viser produksjonen vår.

Tabell som viser attributtene til eksempelet IMBD-datasettet.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

For vårt andre søk spør vi "Vis meg alle tittelen og detaljene i USA-regionen hvis vurdering er mer enn 9.5."

Følgende er vår genererte spørring:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Svaret er som følger.

En tabell som viser resultatene av sql-spørringen

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

For vår tredje forespørsel skriver vi inn "Great Response! Vis meg nå alle de originale typetitlene med vurderinger over 7.5 og ikke i USA-regionen.»

Følgende spørring genereres:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Vi får følgende resultater.

En enkelt rad som viser resultatet av SQL-spørringen.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Generer selvkorrigert SQL

Dette scenariet simulerer en SQL-spørring som har syntaksproblemer. Her vil den genererte SQL-en selvkorrigeres basert på svaret fra Athena. I det følgende svaret ga Athena en COLUMN_NOT_FOUND feil og nevnte det table_description kan ikke løses:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Bruk av løsningen med andre datakilder

For å bruke løsningen med andre datakilder, håndterer Athena jobben for deg. For å gjøre dette bruker Athena datakildekoblinger som kan brukes med fødererte søk. Du kan vurdere en kobling som en utvidelse av Athena-spørringsmotoren. Forhåndsbygde Athena-datakildekoblinger finnes for datakilder som Amazon CloudWatch-logger, Amazon DynamoDB, Amazon DocumentDB (med MongoDB-kompatibilitet)og Amazon Relational Database Service (Amazon RDS), og JDBC-kompatible relasjonsdatakilder som MySQL og PostgreSQL under Apache 2.0-lisensen. Etter at du har satt opp en tilkobling til en datakilde, kan du bruke den foregående kodebasen til å utvide løsningen. For mer informasjon, se Spør en hvilken som helst datakilde med Amazon Athenas nye fødererte spørring.

Rydd opp

For å rydde opp i ressursene kan du begynne med rydde opp i S3-bøtten hvor dataene befinner seg. Med mindre applikasjonen din påkaller Amazon Bedrock, vil den ikke medføre noen kostnad. Av hensyn til beste praksis for infrastrukturadministrasjon anbefaler vi å slette ressursene som er opprettet i denne demonstrasjonen.

konklusjonen

I dette innlegget presenterte vi en løsning som lar deg bruke NLP til å generere komplekse SQL-spørringer med en rekke ressurser aktivert av Athena. Vi økte også nøyaktigheten til de genererte SQL-spørringene via en flertrinns evalueringssløyfe basert på feilmeldinger fra nedstrømsprosesser. I tillegg brukte vi metadataene i AWS Glue Data Catalog for å vurdere tabellnavnene som ble spurt i spørringen gjennom RAG-rammeverket. Deretter testet vi løsningen i ulike realistiske scenarier med ulike spørringskompleksitetsnivåer. Til slutt diskuterte vi hvordan denne løsningen kan brukes på forskjellige datakilder støttet av Athena.

Amazon Bedrock er i sentrum av denne løsningen. Amazon Bedrock kan hjelpe deg med å bygge mange generative AI-applikasjoner. For å komme i gang med Amazon Bedrock anbefaler vi å følge hurtigstarten i det følgende GitHub repo og gjøre deg kjent med å bygge generative AI-applikasjoner. Du kan også prøve kunnskapsbaser i Amazon Bedrock for å bygge slike RAG-løsninger raskt.

Om forfatterne

Bygg en robust tekst-til-SQL-løsning som genererer komplekse spørringer, selvkorrigerende og spørringer i ulike datakilder | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Sanjeeb Panda er data- og ML-ingeniør hos Amazon. Med bakgrunn i AI/ML, Data Science og Big Data, designer og utvikler Sanjeeb innovative data- og ML-løsninger som løser komplekse tekniske utfordringer og oppnår strategiske mål for globale 3P-selgere som administrerer virksomhetene deres på Amazon. Utenom arbeidet som data- og ML-ingeniør hos Amazon, er Sanjeeb Panda en ivrig matelsker og musikkentusiast.

Bygg en robust tekst-til-SQL-løsning som genererer komplekse spørringer, selvkorrigerende og spørringer i ulike datakilder | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Burak Gozluklu er en rektor for AI/ML Specialist Solutions Architect lokalisert i Boston, MA. Han hjelper strategiske kunder med å ta i bruk AWS-teknologier og spesifikt Generative AI-løsninger for å nå sine forretningsmål. Burak har en doktorgrad i luftfartsteknikk fra METU, en MS i systemteknikk og en post-doc i systemdynamikk fra MIT i Cambridge, MA. Burak er fortsatt forskningstilknyttet i MIT. Burak er lidenskapelig opptatt av yoga og meditasjon.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Tidstempel: Februar 28, 2024

Tidstempel: April 25, 2022

Publisert av Platon

InformedIQ automatiserer verifikasjoner for Origences automatiske utlån ved hjelp av maskinlæring

Bygg et avtaleplanleggergrensesnitt integrert med Meta ved å bruke Amazon Lex og Amazon Connect

Kjør og optimer flermodellslutninger med Amazon SageMaker multi-modellendepunkter

Sett opp Amazon SageMaker Studio med Jupyter Lab 3 ved å bruke AWS CDK

AWS Inferentia og AWS Trainium gir lavest kostnad for å distribuere Llama 3-modeller i Amazon SageMaker JumpStart | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn