Byg en robust tekst-til-SQL-løsning, der genererer komplekse forespørgsler, selvkorrigerer og forespørger forskellige datakilder

Genudgivet af Platon

Abonnenter: 0

Structured Query Language (SQL) er et komplekst sprog, der kræver en forståelse af databaser og metadata. I dag, generativ AI kan aktivere folk uden SQL viden. Denne generative AI-opgave kaldes tekst-til-SQL, som genererer SQL-forespørgsler fra naturlig sprogbehandling (NLP) og konverterer tekst til semantisk korrekt SQL. Løsningen i dette indlæg har til formål at bringe virksomhedsanalyseoperationer til næste niveau ved at forkorte vejen til dine data ved hjælp af naturligt sprog.

Med fremkomsten af store sprogmodeller (LLM'er) har NLP-baseret SQL-generering gennemgået en betydelig transformation. LLM'er demonstrerer enestående ydeevne og er nu i stand til at generere nøjagtige SQL-forespørgsler fra naturlige sprogbeskrivelser. Der er dog stadig udfordringer. For det første er det menneskelige sprog i sagens natur tvetydigt og kontekstafhængigt, hvorimod SQL er præcist, matematisk og struktureret. Dette hul kan resultere i unøjagtig konvertering af brugerens behov til den SQL, der genereres. For det andet skal du muligvis bygge tekst-til-SQL-funktioner for hver database, fordi data ofte ikke er gemt i et enkelt mål. Du skal muligvis genskabe kapaciteten for hver database for at aktivere brugere med NLP-baseret SQL-generering. For det tredje, på trods af den større udbredelse af centraliserede analyseløsninger som datasøer og varehuse, stiger kompleksiteten med forskellige tabelnavne og andre metadata, der er nødvendige for at skabe SQL'en til de ønskede kilder. Derfor er det fortsat en udfordring at indsamle omfattende metadata af høj kvalitet. For at lære mere om tekst-til-SQL bedste praksis og designmønstre, se Generering af værdi fra virksomhedsdata: Bedste praksis for Text2SQL og generativ AI.

Vores løsning sigter mod at løse disse udfordringer ved hjælp af Amazonas grundfjeld , AWS Analytics Services. Vi bruger Antropiske Claude v2.1 på Amazon Bedrock som vores LLM. For at løse udfordringerne inkorporerer vores løsning først metadataene fra datakilderne i AWS Glue Data Katalog for at øge nøjagtigheden af den genererede SQL-forespørgsel. Workflowet inkluderer også en afsluttende evaluering og korrektionsløkke, hvis eventuelle SQL-problemer identificeres af Amazonas Athena, som bruges downstream som SQL-motoren. Athena giver os også mulighed for at bruge et væld af understøttede endepunkter og stik til at dække et stort sæt datakilder.

Efter vi har gennemgået trinene til at bygge løsningen, præsenterer vi resultaterne af nogle testscenarier med varierende SQL-kompleksitetsniveauer. Til sidst diskuterer vi, hvordan det er ligetil at inkorporere forskellige datakilder i dine SQL-forespørgsler.

Løsningsoversigt

Der er tre kritiske komponenter i vores arkitektur: Retrieval Augmented Generation (RAG) med databasemetadata, en flertrins selvkorrektionsløkke og Athena som vores SQL-motor.

Vi bruger RAG-metoden til at hente tabelbeskrivelserne og skemabeskrivelserne (kolonner) fra AWS Glue metastore for at sikre, at anmodningen er relateret til den rigtige tabel og datasæt. I vores løsning byggede vi de individuelle trin til at køre en RAG-ramme med AWS Glue Data Catalog til demonstrationsformål. Du kan dog også bruge videnbaser i Amazon Bedrock for at bygge RAG-løsninger hurtigt.

Flertrinskomponenten gør det muligt for LLM at rette den genererede SQL-forespørgsel for nøjagtighed. Her sendes den genererede SQL for syntaksfejl. Vi bruger Athena-fejlmeddelelser til at berige vores prompt til LLM for mere nøjagtige og effektive rettelser i den genererede SQL.

Du kan overveje, at fejlmeddelelserne lejlighedsvis kommer fra Athena som feedback. Omkostningskonsekvenserne af et fejlkorrektionstrin er ubetydelige sammenlignet med den leverede værdi. Du kan endda inkludere disse korrigerende trin som overvågede forstærkede læringseksempler for at finjustere dine LLM'er. Vi dækkede dog ikke dette flow i vores indlæg for forenklingsformål.

Bemærk, at der altid er en iboende risiko for at have unøjagtigheder, hvilket naturligvis kommer med generative AI-løsninger. Selvom Athena-fejlmeddelelser er yderst effektive til at mindske denne risiko, kan du tilføje flere kontroller og visninger, såsom menneskelig feedback eller eksempelforespørgsler til finjustering, for yderligere at minimere sådanne risici.

Athena giver os ikke kun mulighed for at rette SQL-forespørgslerne, men det forenkler også det overordnede problem for os, fordi det fungerer som navet, hvor egerne er flere datakilder. Adgangsstyring, SQL-syntaks og mere håndteres alle via Athena.

Følgende diagram illustrerer løsningsarkitekturen.

Løsningsarkitekturen og procesflowet er vist.

Figur 1. Løsningsarkitekturen og procesflowet.

Procesflowet omfatter følgende trin:

Opret AWS Glue Data Catalogue ved hjælp af en AWS Glue crawler (eller en anden metode).
Brug af Titan-Text-Embeddings model på Amazon Bedrock, konverter metadataene til indlejringer og gem dem i en Amazon OpenSearch Serverløs vektor butik, som fungerer som vores vidensbase i vores RAG-ramme.

På dette stadium er processen klar til at modtage forespørgslen i naturligt sprog. Trin 7-9 repræsenterer en korrektionsløkke, hvis det er relevant.

Brugeren indtaster deres forespørgsel på naturligt sprog. Du kan bruge enhver webapplikation til at levere chat-brugergrænsefladen. Derfor dækkede vi ikke UI-detaljerne i vores indlæg.
Løsningen anvender en RAG-ramme via lighedssøgning, som tilføjer den ekstra kontekst fra metadataene fra vektordatabasen. Denne tabel bruges til at finde den korrekte tabel, database og attributter.
Forespørgslen flettes med konteksten og sendes til Antropiske Claude v2.1 på Amazon Bedrock.
Modellen får den genererede SQL-forespørgsel og forbinder til Athena for at validere syntaksen.
Hvis Athena giver en fejlmeddelelse, der nævner, at syntaksen er forkert, bruger modellen fejlteksten fra Athenas svar.
Den nye prompt tilføjer Athenas svar.
Modellen opretter den korrigerede SQL og fortsætter processen. Denne iteration kan udføres flere gange.
Til sidst kører vi SQL ved hjælp af Athena og genererer output. Her præsenteres output for brugeren. Af hensyn til den arkitektoniske enkelhed viste vi ikke dette trin.

Forudsætninger

For dette indlæg skal du opfylde følgende forudsætninger:

har du en AWS-konto.
Installer og AWS kommandolinjegrænseflade (AWS CLI).
Indstil SDK til Python (Boto3).
Opret AWS Glue Data Catalogue ved hjælp af en AWS Glue crawler (eller en anden metode).
Brug af Titan-Text-Embeddings model på Amazon Bedrock, konverter metadataene til indlejringer og gem dem i en OpenSearch Serverless vektor butik.

Implementer løsningen

Du kan bruge følgende Jupyter notesbog, som inkluderer alle kodestykkerne i dette afsnit, for at bygge løsningen. Vi anbefaler at bruge Amazon SageMaker Studio at åbne denne notesbog med en ml.t3.medium-instans med Python 3 (Data Science)-kernen. For instruktioner, se Træn en Machine Learning Model. Udfør følgende trin for at konfigurere løsningen:

Opret videnbasen i OpenSearch Service til RAG-rammerne:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Byg prompten (final_question) ved at kombinere brugerinput i naturligt sprog (user_query), de relevante metadata fra vektorlageret (vector_search_match), og vores instruktioner (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Kald Amazon Bedrock til LLM (Claude v2), og bed den om at generere SQL-forespørgslen. I den følgende kode gør den flere forsøg for at illustrere selvkorrektionstrinnet:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Hvis der modtages problemer med den genererede SQL-forespørgsel ({sqlgenerated}) fra Athena-svaret ({syntaxcheckmsg}), den nye prompt (prompt) genereres baseret på svaret, og modellen forsøger igen at generere den nye SQL:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Efter at SQL er genereret, kaldes Athena-klienten til at køre og generere output:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Test løsningen

I dette afsnit kører vi vores løsning med forskellige eksempelscenarier for at teste forskellige kompleksitetsniveauer af SQL-forespørgsler.

For at teste vores tekst-til-SQL bruger vi to datasæt tilgængelige fra IMDB. Undersæt af IMDb-data er tilgængelige til personlig og ikke-kommerciel brug. Du kan downloade datasættene og gemme dem i Amazon Simple Storage Service (Amazon S3). Du kan bruge følgende Spark SQL-kodestykke til at oprette tabeller i AWS Glue. Til dette eksempel bruger vi title_ratings , title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Gem data i Amazon S3 og metadata i AWS Glue

I dette scenarie er vores datasæt gemt i en S3-spand. Athena har et S3-stik, der giver dig mulighed for at bruge Amazon S3 som en datakilde, der kan forespørges.

Til vores første forespørgsel giver vi inputtet "Jeg er ny i dette. Kan du hjælpe mig med at se alle tabellerne og kolonnerne i imdb-skemaet?"

Følgende er den genererede forespørgsel:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Følgende skærmbillede og kode viser vores output.

Tabel, der viser attributterne for eksemplet på IMBD-datasættet.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

For vores anden forespørgsel spørger vi "Vis mig alle titler og detaljer i den amerikanske region, hvis vurdering er mere end 9.5."

Følgende er vores genererede forespørgsel:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Svaret er som følger.

En tabel, der viser resultaterne af sql-forespørgslen

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Til vores tredje forespørgsel indtaster vi "Great Response! Vis mig nu alle de originale typetitler med vurderinger på mere end 7.5 og ikke i USA-regionen."

Følgende forespørgsel genereres:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Vi får følgende resultater.

En enkelt række, der viser resultatet af SQL-forespørgslen.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Generer selvkorrigeret SQL

Dette scenarie simulerer en SQL-forespørgsel, der har syntaksproblemer. Her vil den genererede SQL blive selvkorrigeret baseret på svaret fra Athena. I det følgende svar gav Athena en COLUMN_NOT_FOUND fejl og nævnte det table_description kan ikke løses:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Brug af løsningen med andre datakilder

For at bruge løsningen sammen med andre datakilder, varetager Athena jobbet for dig. For at gøre dette bruger Athena datakildeforbindelser der kan bruges med fødererede forespørgsler. Du kan overveje et stik som en udvidelse af Athena-forespørgselsmotoren. Der findes forudbyggede Athena-datakildeforbindelser til datakilder som f.eks Amazon CloudWatch-logfiler, Amazon DynamoDB, Amazon DocumentDB (med MongoDB-kompatibilitet)og Amazon Relationel Database Service (Amazon RDS) og JDBC-kompatible relationelle datakilder såsom MySQL og PostgreSQL under Apache 2.0-licensen. Når du har oprettet en forbindelse til en datakilde, kan du bruge den foregående kodebase til at udvide løsningen. For mere information, se Forespørg enhver datakilde med Amazon Athenas nye fødererede forespørgsel.

Ryd op

For at rydde op i ressourcerne kan du starte med rengøring af din S3-spand hvor data findes. Medmindre din applikation påberåber sig Amazon Bedrock, vil det ikke medføre nogen omkostninger. Af hensyn til bedste praksis for infrastrukturstyring anbefaler vi at slette de ressourcer, der er oprettet i denne demonstration.

Konklusion

I dette indlæg præsenterede vi en løsning, der giver dig mulighed for at bruge NLP til at generere komplekse SQL-forespørgsler med en række ressourcer aktiveret af Athena. Vi øgede også nøjagtigheden af de genererede SQL-forespørgsler via en flertrins-evalueringsløkke baseret på fejlmeddelelser fra downstream-processer. Derudover brugte vi metadataene i AWS Glue Data Catalog til at overveje de tabelnavne, der blev bedt om i forespørgslen gennem RAG-rammen. Vi testede derefter løsningen i forskellige realistiske scenarier med forskellige forespørgselskompleksitetsniveauer. Til sidst diskuterede vi, hvordan man anvender denne løsning på forskellige datakilder understøttet af Athena.

Amazon Bedrock er i centrum for denne løsning. Amazon Bedrock kan hjælpe dig med at bygge mange generative AI-applikationer. For at komme i gang med Amazon Bedrock anbefaler vi at følge hurtigstarten i det følgende GitHub repo og gør dig bekendt med at bygge generative AI-applikationer. Du kan også prøve videnbaser i Amazon Bedrock for at bygge sådanne RAG-løsninger hurtigt.

Om forfatterne

Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sanjeeb Panda er data- og ML-ingeniør hos Amazon. Med baggrund i AI/ML, Data Science og Big Data designer og udvikler Sanjeeb innovative data- og ML-løsninger, der løser komplekse tekniske udfordringer og opnår strategiske mål for globale 3P-sælgere, der administrerer deres virksomheder på Amazon. Ud over sit arbejde som data- og ML-ingeniør hos Amazon er Sanjeeb Panda en ivrig madelsker og musikentusiast.

Build a robust text-to-SQL solution generating complex queries, self-correcting, and querying diverse data sources | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Burak Gozluklu er en Principal AI/ML Specialist Solutions Architect beliggende i Boston, MA. Han hjælper strategiske kunder med at adoptere AWS-teknologier og specifikt Generative AI-løsninger for at nå deres forretningsmål. Burak har en PhD i Aerospace Engineering fra METU, en MS i Systems Engineering og en post-doc i system dynamics fra MIT i Cambridge, MA. Burak er stadig en forskningspartner i MIT. Burak er passioneret omkring yoga og meditation.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Tidsstempel: Februar 28, 2024

Tidsstempel: December 16, 2022

Genudgivet af Platon

Realtidsanalyse af kundestemning ved hjælp af AWS

Accelererer storstilet neural netværkstræning på CPU'er med ThirdAI og AWS Graviton | Amazon Web Services

Implementer store sprogmodeller på AWS Inferentia2 ved hjælp af store modelinferenscontainere

Intelligent dokumentbehandling med AWS AI-tjenester: Del 2

Amazon SageMaker Automatic Model Tuning giver nu op til tre gange hurtigere hyperparametertuning med Hyperband

Forbedre transskriptionsnøjagtigheden af kunde-agent-opkald med tilpasset ordforråd i Amazon Transcribe

Introduktion af Fortuna: Et bibliotek til kvantificering af usikkerhed

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto