Costruisci una solida soluzione Text-to-SQL che genera query complesse, corregge automaticamente ed esegue query su diverse origini dati

Ripubblicato da Platone

Seguaci: 0

Structured Query Language (SQL) è un linguaggio complesso che richiede la comprensione di database e metadati. Oggi, IA generativa può consentire alle persone senza conoscenza di SQL. Questa attività di intelligenza artificiale generativa è chiamata text-to-SQL, che genera query SQL dall'elaborazione del linguaggio naturale (NLP) e converte il testo in SQL semanticamente corretto. La soluzione in questo post mira a portare le operazioni di analisi aziendale a un livello superiore accorciando il percorso verso i dati utilizzando il linguaggio naturale.

Con l'emergere di modelli linguistici di grandi dimensioni (LLM), la generazione SQL basata su NLP ha subito una trasformazione significativa. Dimostrando prestazioni eccezionali, gli LLM sono ora in grado di generare query SQL accurate da descrizioni in linguaggio naturale. Tuttavia, le sfide rimangono ancora. Innanzitutto, il linguaggio umano è intrinsecamente ambiguo e dipendente dal contesto, mentre SQL è preciso, matematico e strutturato. Questa lacuna potrebbe comportare una conversione imprecisa delle esigenze dell'utente nell'SQL generato. In secondo luogo, potrebbe essere necessario creare funzionalità di conversione da testo a SQL per ogni database poiché spesso i dati non vengono archiviati in un'unica destinazione. Potrebbe essere necessario ricreare la funzionalità di ogni database per consentire agli utenti la generazione SQL basata su NLP. In terzo luogo, nonostante la maggiore adozione di soluzioni di analisi centralizzate come data lake e warehouse, la complessità aumenta con nomi di tabelle diversi e altri metadati necessari per creare l’SQL per le origini desiderate. Pertanto, anche la raccolta di metadati completi e di alta qualità rimane una sfida. Per ulteriori informazioni sulle best practice e sui modelli di progettazione da testo a SQL, vedere Generare valore dai dati aziendali: best practice per Text2SQL e intelligenza artificiale generativa.

La nostra soluzione mira ad affrontare queste sfide utilizzando Roccia Amazzonica ed Servizi di analisi AWS. Noi usiamo Claude antropico v2.1 su Amazon Bedrock come nostro LLM. Per affrontare le sfide, la nostra soluzione incorpora innanzitutto i metadati delle origini dati all'interno del file Catalogo dati di AWS Glue per aumentare la precisione della query SQL generata. Il flusso di lavoro include anche un ciclo di valutazione e correzione finale, nel caso in cui vengano identificati problemi SQL Amazzone Atena, che viene utilizzato a valle come motore SQL. Athena ci consente anche di utilizzare una moltitudine di endpoint e connettori supportati per coprire un ampio insieme di origini dati.

Dopo aver eseguito i passaggi per creare la soluzione, presentiamo i risultati di alcuni scenari di test con diversi livelli di complessità SQL. Infine, discuteremo di come sia semplice incorporare diverse origini dati nelle query SQL.

Panoramica della soluzione

Ci sono tre componenti critici nella nostra architettura: Retrieval Augmented Generation (RAG) con metadati del database, un ciclo di autocorrezione in più fasi e Athena come motore SQL.

Utilizziamo il metodo RAG per recuperare le descrizioni delle tabelle e le descrizioni degli schemi (colonne) dal metastore AWS Glue per garantire che la richiesta sia correlata alla tabella e ai set di dati corretti. Nella nostra soluzione, abbiamo creato i singoli passaggi per eseguire un framework RAG con il catalogo dati di AWS Glue a scopo dimostrativo. Tuttavia, puoi anche usare basi di conoscenza in Amazon Bedrock per creare rapidamente soluzioni RAG.

Il componente in più passaggi consente a LLM di correggere la precisione della query SQL generata. Qui, l'SQL generato viene inviato per errori di sintassi. Utilizziamo i messaggi di errore Athena per arricchire il nostro prompt per LLM per correzioni più accurate ed efficaci nell'SQL generato.

Puoi considerare i messaggi di errore che occasionalmente provengono da Athena come un feedback. Le implicazioni in termini di costi di una fase di correzione degli errori sono trascurabili rispetto al valore fornito. Puoi anche includere questi passaggi correttivi come esempi di apprendimento rinforzato supervisionato per ottimizzare i tuoi LLM. Tuttavia, non abbiamo trattato questo flusso nel nostro post per ragioni di semplicità.

Tieni presente che esiste sempre il rischio intrinseco di avere imprecisioni, che naturalmente deriva dalle soluzioni di intelligenza artificiale generativa. Anche se i messaggi di errore di Athena sono molto efficaci per mitigare questo rischio, puoi aggiungere ulteriori controlli e visualizzazioni, come feedback umano o query di esempio per la messa a punto, per ridurre ulteriormente tali rischi.

Athena non solo ci consente di correggere le query SQL, ma ci semplifica anche il problema generale perché funge da hub, dove i raggi sono più origini dati. La gestione degli accessi, la sintassi SQL e altro ancora vengono gestiti tramite Athena.

Il diagramma seguente illustra l'architettura della soluzione.

Viene mostrata l'architettura della soluzione e il flusso del processo.

Figura 1. Architettura della soluzione e flusso del processo.

Il flusso del processo include i seguenti passaggi:

Crea il catalogo dati di AWS Glue utilizzando un crawler AWS Glue (o un metodo diverso).
Usando il Modello Titan-Text-Embeddings su Amazon Bedrock, converti i metadati in incorporamenti e archiviali in un file Amazon OpenSearch senza server negozio di vettori, che funge da base di conoscenza nel nostro framework RAG.

In questa fase il processo è pronto a ricevere la query in linguaggio naturale. I passaggi 7–9 rappresentano un ciclo di correzione, se applicabile.

L'utente inserisce la query in linguaggio naturale. È possibile utilizzare qualsiasi applicazione Web per fornire l'interfaccia utente della chat. Pertanto, non abbiamo trattato i dettagli dell'interfaccia utente nel nostro post.
La soluzione applica un framework RAG tramite ricerca di somiglianza, che aggiunge il contesto extra dai metadati del database vettoriale. Questa tabella viene utilizzata per trovare la tabella, il database e gli attributi corretti.
La query viene unita al contesto e inviata a Claude antropico v2.1 su Amazon Bedrock.
Il modello ottiene la query SQL generata e si connette ad Athena per convalidare la sintassi.
Se Athena fornisce un messaggio di errore che menziona che la sintassi non è corretta, il modello utilizza il testo dell'errore dalla risposta di Athena.
Il nuovo prompt aggiunge la risposta di Atena.
Il modello crea l'SQL corretto e continua il processo. Questa iterazione può essere eseguita più volte.
Infine, eseguiamo l'SQL utilizzando Athena e generiamo l'output. Qui l'output viene presentato all'utente. Per ragioni di semplicità architettonica, non abbiamo mostrato questo passaggio.

Prerequisiti

Per questo post, è necessario completare i seguenti prerequisiti:

Abbi un Account AWS.
Installazione , il Interfaccia della riga di comando di AWS (interfaccia a riga di comando dell'AWS).
Configura il SDK per Python (Boto3).
Crea il catalogo dati di AWS Glue utilizzando un crawler AWS Glue (o un metodo diverso).
Usando il Modello Titan-Text-Embeddings su Amazon Bedrock, converti i metadati in incorporamenti e archiviali in un OpenSearch Serverless negozio di vettori.

Implementa la soluzione

Puoi usare quanto segue Notebook Jupyter, che include tutti i frammenti di codice forniti in questa sezione, per creare la soluzione. Si consiglia di utilizzare Amazon Sage Maker Studio per aprire questo notebook con un'istanza ml.t3.medium con il kernel Python 3 (Data Science). Per istruzioni, fare riferimento a Addestrare un modello di machine learning. Completare i seguenti passaggi per configurare la soluzione:

Creare la base di conoscenza nel servizio OpenSearch per il framework RAG:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Costruisci il prompt (final_question) combinando l'input dell'utente in linguaggio naturale (user_query), i metadati rilevanti dall'archivio vettoriale (vector_search_match) e le nostre istruzioni (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Richiama Amazon Bedrock per LLM (Claude v2) e chiedigli di generare la query SQL. Nel codice seguente vengono effettuati più tentativi per illustrare il passaggio di autocorrezione:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Se vengono ricevuti problemi con la query SQL generata ({sqlgenerated}) dalla risposta di Atena ({syntaxcheckmsg}), il nuovo prompt (prompt) viene generato in base alla risposta e il modello tenta nuovamente di generare il nuovo SQL:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Dopo aver generato l'SQL, viene richiamato il client Athena per eseguire e generare l'output:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Prova la soluzione

In questa sezione, eseguiamo la nostra soluzione con diversi scenari di esempio per testare diversi livelli di complessità delle query SQL.

Per testare il nostro text-to-SQL, ne utilizziamo due set di dati disponibili da IMDB. Sottoinsiemi di dati IMDb sono disponibili per uso personale e non commerciale. È possibile scaricare i set di dati e archiviarli in Servizio di archiviazione semplice Amazon (Amazon S3). Puoi utilizzare il seguente snippet Spark SQL per creare tabelle in AWS Glue. Per questo esempio utilizziamo title_ratings ed title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Archivia i dati in Amazon S3 e i metadati in AWS Glue

In questo scenario, il nostro set di dati viene archiviato in un bucket S3. Athena dispone di un connettore S3 che ti consente di utilizzare Amazon S3 come origine dati su cui è possibile eseguire query.

Per la nostra prima query, forniamo l'input “Sono nuovo a questo. Puoi aiutarmi a vedere tutte le tabelle e le colonne nello schema imdb?"

Quella che segue è la query generata:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Lo screenshot e il codice seguenti mostrano il nostro output.

Tabella che mostra gli attributi del set di dati IMBD di esempio.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

Per la nostra seconda query, chiediamo "Mostrami tutti i titoli e i dettagli nella regione degli Stati Uniti la cui valutazione è superiore a 9.5".

Quella che segue è la nostra query generata:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

La risposta è la seguente.

Una tabella che mostra i risultati della query SQL

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Per la nostra terza query, inseriamo “Ottima risposta! Ora mostrami tutti i titoli di tipo originale con valutazioni superiori a 7.5 e non nella regione degli Stati Uniti."

Viene generata la seguente query:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Otteniamo i seguenti risultati.

Una singola riga che mostra il risultato della query SQL.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Genera SQL autocorretto

Questo scenario simula una query SQL che presenta problemi di sintassi. Qui, l'SQL generato verrà auto-corretto in base alla risposta di Athena. Nella risposta seguente, Atena diede a COLUMN_NOT_FOUND errore e l'ho menzionato table_description non può essere risolto:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Utilizzo della soluzione con altre origini dati

Per utilizzare la soluzione con altre origini dati, Athena gestisce il lavoro per te. Per fare questo, Atena usa connettori di origine dati che può essere utilizzato con interrogazioni federate. Puoi considerare un connettore come un'estensione del motore di query Athena. Esistono connettori di origine dati Athena predefiniti per origini dati come Log di Amazon CloudWatch, Amazon DynamoDB, Amazon DocumentDB (con compatibilità MongoDB)e Servizio di database relazionale Amazon (Amazon RDS) e origini dati relazionali conformi a JDBC come MySQL e PostgreSQL con la licenza Apache 2.0. Dopo aver configurato una connessione a qualsiasi origine dati, puoi utilizzare la codebase precedente per estendere la soluzione. Per ulteriori informazioni, fare riferimento a Esegui query su qualsiasi origine dati con la nuova query federata di Amazon Athena.

ripulire

Per ripulire le risorse, puoi iniziare da ripulire il tuo bucket S3 dove risiedono i dati. A meno che la tua applicazione non richiami Amazon Bedrock, non comporterà alcun costo. Per motivi di best practice di gestione dell'infrastruttura, consigliamo di eliminare le risorse create in questa dimostrazione.

Conclusione

In questo post, abbiamo presentato una soluzione che consente di utilizzare la PNL per generare query SQL complesse con una varietà di risorse abilitate da Athena. Abbiamo inoltre aumentato la precisione delle query SQL generate tramite un ciclo di valutazione in più fasi basato sui messaggi di errore provenienti dai processi downstream. Inoltre, abbiamo utilizzato i metadati nel Catalogo dati di AWS Glue per considerare i nomi delle tabelle richiesti nella query tramite il framework RAG. Abbiamo quindi testato la soluzione in vari scenari realistici con diversi livelli di complessità delle query. Infine, abbiamo discusso come applicare questa soluzione a diverse origini dati supportate da Athena.

Amazon Bedrock è al centro di questa soluzione. Amazon Bedrock può aiutarti a creare molte applicazioni di intelligenza artificiale generativa. Per iniziare con Amazon Bedrock, ti consigliamo di seguire l'avvio rapido riportato di seguito Repository GitHub e familiarizzare con la creazione di applicazioni di intelligenza artificiale generativa. Puoi anche provare basi di conoscenza in Amazon Bedrock per creare rapidamente tali soluzioni RAG.

Informazioni sugli autori

Costruisci una solida soluzione text-to-SQL che genera query complesse, corregge automaticamente ed esegue query su diverse origini dati | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Sanjeeb Panda è un ingegnere di dati e machine learning presso Amazon. Con un background in AI/ML, Data Science e Big Data, Sanjeeb progetta e sviluppa soluzioni innovative di dati e ML che risolvono sfide tecniche complesse e raggiungono obiettivi strategici per i venditori 3P globali che gestiscono le loro attività su Amazon. Al di fuori del suo lavoro come ingegnere di dati e machine learning presso Amazon, Sanjeeb Panda è un appassionato buongustaio e appassionato di musica.

Costruisci una solida soluzione text-to-SQL che genera query complesse, corregge automaticamente ed esegue query su diverse origini dati | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Burak Gozluklu è un Principal AI/ML Specialist Solutions Architect con sede a Boston, MA. Aiuta i clienti strategici ad adottare le tecnologie AWS e in particolare le soluzioni di intelligenza artificiale generativa per raggiungere i propri obiettivi aziendali. Burak ha un dottorato in ingegneria aerospaziale presso il METU, un master in ingegneria dei sistemi e un post-doc in dinamica dei sistemi presso il MIT di Cambridge, MA. Burak è ancora un affiliato di ricerca del MIT. Burak è appassionato di yoga e meditazione.