Bouw een robuuste tekst-naar-SQL-oplossing die complexe query's genereert, zichzelf corrigeert en diverse gegevensbronnen bevraagt

Heruitgegeven door Plato

volgers: 0

Structured Query Language (SQL) is een complexe taal die inzicht in databases en metadata vereist. Vandaag, generatieve AI kan mensen zonder SQL-kennis inschakelen. Deze generatieve AI-taak wordt tekst-naar-SQL genoemd, die SQL-query's genereert op basis van natuurlijke taalverwerking (NLP) en tekst omzet in semantisch correcte SQL. De oplossing in dit bericht is bedoeld om bedrijfsanalyseactiviteiten naar een hoger niveau te tillen door het pad naar uw gegevens te verkorten met behulp van natuurlijke taal.

Met de opkomst van grote taalmodellen (LLM's) heeft de op NLP gebaseerde SQL-generatie een aanzienlijke transformatie ondergaan. LLM's demonstreren uitzonderlijke prestaties en zijn nu in staat nauwkeurige SQL-query's te genereren op basis van beschrijvingen in natuurlijke taal. Er blijven echter nog steeds uitdagingen bestaan. Ten eerste is menselijke taal inherent dubbelzinnig en contextafhankelijk, terwijl SQL nauwkeurig, wiskundig en gestructureerd is. Deze kloof kan resulteren in een onnauwkeurige conversie van de behoeften van de gebruiker naar de SQL die wordt gegenereerd. Ten tweede moet u mogelijk voor elke database tekst-naar-SQL-functies bouwen, omdat gegevens vaak niet in één doel worden opgeslagen. Mogelijk moet u voor elke database de mogelijkheid opnieuw creëren om gebruikers in staat te stellen op NLP gebaseerde SQL-generatie mogelijk te maken. Ten derde neemt de complexiteit toe, ondanks de grotere acceptatie van gecentraliseerde analyseoplossingen zoals datalakes en magazijnen, met verschillende tabelnamen en andere metagegevens die nodig zijn om de SQL voor de gewenste bronnen te creëren. Daarom blijft het verzamelen van uitgebreide en hoogwaardige metadata ook een uitdaging. Zie voor meer informatie over best practices en ontwerppatronen voor tekst-naar-SQL Waarde genereren uit bedrijfsgegevens: best practices voor Text2SQL en generatieve AI.

Onze oplossing is bedoeld om deze uitdagingen aan te pakken met behulp van Amazonebodem en AWS Analytics-diensten. We gebruiken Antropische Claude v2.1 op Amazon Bedrock als onze LLM. Om de uitdagingen aan te pakken, integreert onze oplossing eerst de metadata van de gegevensbronnen binnen de AWS-lijmgegevenscatalogus om de nauwkeurigheid van de gegenereerde SQL-query te vergroten. De workflow omvat ook een laatste evaluatie- en correctielus, voor het geval er SQL-problemen worden geïdentificeerd Amazone Athene, die stroomafwaarts wordt gebruikt als de SQL-engine. Athena stelt ons ook in staat een groot aantal te gebruiken ondersteunde eindpunten en connectoren om een groot aantal gegevensbronnen te bestrijken.

Nadat we de stappen hebben doorlopen om de oplossing te bouwen, presenteren we de resultaten van enkele testscenario's met verschillende SQL-complexiteitsniveaus. Ten slotte bespreken we hoe u eenvoudig verschillende gegevensbronnen in uw SQL-query's kunt opnemen.

Overzicht oplossingen

Er zijn drie cruciale componenten in onze architectuur: Retrieval Augmented Generation (RAG) met database-metagegevens, een meerstaps zelfcorrectielus en Athena als onze SQL-engine.

We gebruiken de RAG-methode om de tabelbeschrijvingen en schemabeschrijvingen (kolommen) op te halen uit de AWS Glue-metastore om ervoor te zorgen dat het verzoek gerelateerd is aan de juiste tabel en datasets. In onze oplossing hebben we voor demonstratiedoeleinden de afzonderlijke stappen gebouwd om een RAG-framework uit te voeren met de AWS Glue Data Catalog. Je kunt echter ook gebruiken kennisbanken in Amazon Bedrock om snel RAG-oplossingen te bouwen.

Dankzij de uit meerdere stappen bestaande component kan de LLM de gegenereerde SQL-query corrigeren op nauwkeurigheid. Hier wordt de gegenereerde SQL verzonden vanwege syntaxisfouten. We gebruiken Athena-foutmeldingen om onze vraag naar de LLM te verrijken voor nauwkeurigere en effectievere correcties in de gegenereerde SQL.

Je kunt de foutmeldingen die af en toe van Athena komen, beschouwen als feedback. De kostenimplicaties van een foutcorrectiestap zijn verwaarloosbaar in vergelijking met de geleverde waarde. U kunt deze corrigerende stappen zelfs opnemen als versterkte leervoorbeelden onder toezicht om uw LLM's te verfijnen. Omwille van de eenvoud hebben we deze stroom echter niet in onze post behandeld.

Houd er rekening mee dat er altijd een inherent risico bestaat op onnauwkeurigheden, wat uiteraard gepaard gaat met generatieve AI-oplossingen. Zelfs als Athena-foutmeldingen zeer effectief zijn om dit risico te beperken, kunt u meer controles en weergaven toevoegen, zoals menselijke feedback of voorbeeldvragen voor verfijning, om dergelijke risico's verder te minimaliseren.

Met Athena kunnen we niet alleen de SQL-query's corrigeren, maar het vereenvoudigt ook het algehele probleem voor ons omdat het als hub dient, waarbij de spaken meerdere gegevensbronnen zijn. Toegangsbeheer, SQL-syntaxis en meer worden allemaal afgehandeld via Athena.

Het volgende diagram illustreert de oplossingsarchitectuur.

De oplossingsarchitectuur en de processtroom worden getoond.

Figuur 1. De oplossingsarchitectuur en processtroom.

De processtroom omvat de volgende stappen:

Maak de AWS Glue-gegevenscatalogus met behulp van een AWS Glue-crawler (of een andere methode).
De Titan-Text-Embeddings-model op Amazon Bedrock, converteer de metagegevens naar inbedding en sla deze op in een Amazon OpenSearch Serverloos vector winkel, die dient als onze kennisbasis in ons RAG-framework.

In dit stadium is het proces klaar om de vraag in natuurlijke taal te ontvangen. Stappen 7–9 vertegenwoordigen, indien van toepassing, een correctielus.

De gebruiker voert zijn vraag in natuurlijke taal in. U kunt elke webtoepassing gebruiken om de chat-gebruikersinterface te bieden. Daarom hebben we de UI-details in ons bericht niet behandeld.
De oplossing past een RAG-framework toe via gelijkenis zoeken, die de extra context uit de metagegevens uit de vectordatabase toevoegt. Deze tabel wordt gebruikt voor het vinden van de juiste tabel, database en attributen.
De query wordt samengevoegd met de context en verzonden naar Antropische Claude v2.1 op Amazon Bedrock.
Het model haalt de gegenereerde SQL-query op en maakt verbinding met Athena om de syntaxis te valideren.
Als Athena een foutmelding geeft waarin wordt vermeld dat de syntaxis onjuist is, gebruikt het model de fouttekst uit het antwoord van Athena.
De nieuwe prompt voegt het antwoord van Athena toe.
Het model creëert de gecorrigeerde SQL en vervolgt het proces. Deze iteratie kan meerdere keren worden uitgevoerd.
Ten slotte voeren we de SQL uit met Athena en genereren we uitvoer. Hier wordt de uitvoer aan de gebruiker gepresenteerd. Omwille van de architectonische eenvoud hebben we deze stap niet getoond.

Voorwaarden

Voor deze functie moet u aan de volgende vereisten voldoen:

Heb een AWS-account.
Install de AWS-opdrachtregelinterface (AWS CLI).
Stel de SDK voor Python (Boto3).
Maak de AWS Glue-gegevenscatalogus met behulp van een AWS Glue-crawler (of een andere methode).
De Titan-Text-Embeddings-model op Amazon Bedrock, converteer de metagegevens naar insluitingen en sla deze op in een OpenSearch Serverless vector winkel.

Implementeer de oplossing

U kunt het volgende gebruiken Jupyter notitieboek, dat alle codefragmenten in deze sectie bevat, om de oplossing te bouwen. Wij raden aan om te gebruiken Amazon SageMaker Studio om dit notebook te openen met een ml.t3.medium-instantie met de Python 3 (Data Science)-kernel. Voor instructies, zie Train een Machine Learning-model. Voer de volgende stappen uit om de oplossing in te stellen:

Creëer de kennisbank in OpenSearch Service voor het RAG-framework:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Bouw de prompt (final_question) door de gebruikersinvoer in natuurlijke taal te combineren (user_query), de relevante metagegevens uit het vectorarchief (vector_search_match), en onze instructies (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Roep Amazon Bedrock aan voor de LLM (Claude v2) en vraag deze om de SQL-query te genereren. In de volgende code worden meerdere pogingen ondernomen om de zelfcorrectiestap te illustreren:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Als er problemen optreden met de gegenereerde SQL-query ({sqlgenerated}) uit het antwoord van Athena ({syntaxcheckmsg}), de nieuwe prompt (prompt) wordt gegenereerd op basis van het antwoord en het model probeert opnieuw de nieuwe SQL te genereren:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Nadat de SQL is gegenereerd, wordt de Athena-client aangeroepen om de uitvoer uit te voeren en te genereren:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Test de oplossing

In deze sectie voeren we onze oplossing uit met verschillende voorbeeldscenario's om verschillende complexiteitsniveaus van SQL-query's te testen.

Om onze tekst-naar-SQL te testen, gebruiken we er twee datasets beschikbaar via IMDB. Subsets van IMDb-gegevens zijn beschikbaar voor persoonlijk en niet-commercieel gebruik. U kunt de datasets downloaden en daarin opslaan Amazon eenvoudige opslagservice (Amazone S3). U kunt het volgende Spark SQL-fragment gebruiken om tabellen te maken in AWS Glue. Voor dit voorbeeld gebruiken we title_ratings en title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Bewaar gegevens in Amazon S3 en metadata in AWS Glue

In dit scenario wordt onze dataset opgeslagen in een S3-bucket. Athena heeft een S3-connector waarmee je Amazon S3 kunt gebruiken als gegevensbron die kan worden opgevraagd.

Voor onze eerste vraag geven we de invoer “Ik ben nieuw hier. Kun je me helpen alle tabellen en kolommen in het imdb-schema te zien?

Het volgende is de gegenereerde query:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

De volgende schermafbeelding en code tonen onze uitvoer.

Tabel met de attributen van de voorbeeld-IMBD-dataset.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

Voor onze tweede vraag vragen we: “Toon mij alle titels en details in de Amerikaanse regio waarvan de beoordeling hoger is dan 9.5.”

Het volgende is onze gegenereerde query:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Het antwoord luidt als volgt.

Een tabel met de resultaten van de SQL-query

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Voor onze derde vraag voeren we 'Geweldige respons! Laat me nu alle originele typetitels zien met een beoordeling van meer dan 7.5 en niet in de Amerikaanse regio.

De volgende query wordt gegenereerd:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

We krijgen de volgende resultaten.

Eén rij met het resultaat van de SQL-query.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Genereer zelfgecorrigeerde SQL

Dit scenario simuleert een SQL-query met syntaxisproblemen. Hier wordt de gegenereerde SQL zelf gecorrigeerd op basis van het antwoord van Athena. In het volgende antwoord gaf Athena een COLUMN_NOT_FOUND fout en vermeldde dat table_description kan niet worden opgelost:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

De oplossing gebruiken met andere gegevensbronnen

Als u de oplossing met andere gegevensbronnen wilt gebruiken, handelt Athena de klus voor u af. Om dit te doen, gebruikt Athena gegevensbronconnectoren waarmee gebruikt kan worden federatieve zoekopdrachten. U kunt een connector beschouwen als een uitbreiding van de Athena-query-engine. Er bestaan vooraf gebouwde Athena-gegevensbronconnectoren voor gegevensbronnen zoals Amazon CloudWatch-logboeken, Amazon DynamoDB, Amazon DocumentDB (met MongoDB-compatibiliteit) en Amazon relationele databaseservice (Amazon RDS) en JDBC-compatibele relationele gegevensbronnen zoals MySQL en PostgreSQL onder de Apache 2.0-licentie. Nadat u een verbinding met een gegevensbron tot stand hebt gebracht, kunt u de voorgaande codebasis gebruiken om de oplossing uit te breiden. Voor meer informatie, zie Query's uitvoeren op elke gegevensbron met de nieuwe federatieve query van Amazon Athena.

Opruimen

Om de bronnen op te ruimen, kunt u beginnen met uw S3-emmer opruimen waar de gegevens zich bevinden. Tenzij uw toepassing Amazon Bedrock aanroept, zijn er geen kosten aan verbonden. Met het oog op best practices voor infrastructuurbeheer raden we u aan de bronnen te verwijderen die in deze demonstratie zijn gemaakt.

Conclusie

In dit bericht hebben we een oplossing gepresenteerd waarmee u NLP kunt gebruiken om complexe SQL-query's te genereren met een verscheidenheid aan bronnen die door Athena worden ingeschakeld. We hebben ook de nauwkeurigheid van de gegenereerde SQL-query's vergroot via een meerstaps evaluatielus op basis van foutmeldingen van downstream-processen. Daarnaast hebben we de metadata in de AWS Glue Data Catalog gebruikt om rekening te houden met de tabelnamen die in de query via het RAG-framework worden gevraagd. Vervolgens hebben we de oplossing getest in verschillende realistische scenario's met verschillende niveaus van querycomplexiteit. Ten slotte hebben we besproken hoe we deze oplossing kunnen toepassen op verschillende gegevensbronnen die door Athena worden ondersteund.

Amazon Bedrock staat centraal in deze oplossing. Amazon Bedrock kan je helpen bij het bouwen van veel generatieve AI-applicaties. Om aan de slag te gaan met Amazon Bedrock raden wij u aan de onderstaande snelle start te volgen GitHub repo en vertrouwd raken met het bouwen van generatieve AI-toepassingen. Je kunt het ook proberen kennisbanken in Amazon Bedrock om dergelijke RAG-oplossingen snel te bouwen.

Over de auteurs

Bouw een robuuste tekst-naar-SQL-oplossing die complexe query's genereert, zichzelf corrigeert en diverse gegevensbronnen bevraagt | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Sanjeeb Panda is een data- en ML-ingenieur bij Amazon. Met een achtergrond in AI/ML, Data Science en Big Data ontwerpt en ontwikkelt Sanjeeb innovatieve data- en ML-oplossingen die complexe technische uitdagingen oplossen en strategische doelen bereiken voor wereldwijde 3P-verkopers die hun bedrijven op Amazon beheren. Naast zijn werk als Data- en ML-ingenieur bij Amazon is Sanjeeb Panda een fervent foodie- en muziekliefhebber.

Bouw een robuuste tekst-naar-SQL-oplossing die complexe query's genereert, zichzelf corrigeert en diverse gegevensbronnen bevraagt | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Burak Gozluklu is een Principal AI/ML Specialist Solutions Architect gevestigd in Boston, MA. Hij helpt strategische klanten AWS-technologieën en specifiek generatieve AI-oplossingen te adopteren om hun bedrijfsdoelstellingen te bereiken. Burak heeft een PhD in lucht- en ruimtevaarttechniek van METU, een MS in Systems Engineering en een postdoc in systeemdynamica van MIT in Cambridge, MA. Burak is nog steeds een onderzoeksfiliaal bij MIT. Burak heeft een passie voor yoga en meditatie.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Tijdstempel: 28 februari 2024

Tijdstempel: 25-2022-XNUMX

Heruitgegeven door Plato

InformedIQ automatiseert verificaties voor automatische leningen van Origence met behulp van machine learning

Bouw een interface voor afspraakplanner geïntegreerd met Meta met behulp van Amazon Lex en Amazon Connect

Inferentie met meerdere modellen uitvoeren en optimaliseren met Amazon SageMaker-eindpunten voor meerdere modellen

Stel Amazon SageMaker Studio in met Jupyter Lab 3 met behulp van de AWS CDK

AWS Inferentia en AWS Trainium bieden de laagste kosten voor de implementatie van Llama 3-modellen in Amazon SageMaker JumpStart | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account