Créez une solution Text-to-SQL robuste générant des requêtes complexes, auto-correctrices et interrogeant diverses sources de données

Republié par Platon

Suiveurs: 0

Le langage de requête structuré (SQL) est un langage complexe qui nécessite une compréhension des bases de données et des métadonnées. Aujourd'hui, IA générative peut permettre aux personnes sans connaissances SQL. Cette tâche d'IA générative est appelée text-to-SQL, qui génère des requêtes SQL à partir du traitement du langage naturel (NLP) et convertit le texte en SQL sémantiquement correct. La solution présentée dans cet article vise à faire passer les opérations d'analyse d'entreprise à un niveau supérieur en raccourcissant le chemin d'accès à vos données à l'aide du langage naturel.

Avec l'émergence des grands modèles de langage (LLM), la génération SQL basée sur le NLP a subi une transformation significative. Démontrant des performances exceptionnelles, les LLM sont désormais capables de générer des requêtes SQL précises à partir de descriptions en langage naturel. Cependant, des défis demeurent. Premièrement, le langage humain est intrinsèquement ambigu et dépendant du contexte, alors que SQL est précis, mathématique et structuré. Cet écart peut entraîner une conversion inexacte des besoins de l'utilisateur dans le SQL généré. Deuxièmement, vous devrez peut-être créer des fonctionnalités texte-vers-SQL pour chaque base de données, car les données ne sont souvent pas stockées dans une seule cible. Vous devrez peut-être recréer la fonctionnalité pour chaque base de données afin de permettre aux utilisateurs de générer du SQL basé sur le NLP. Troisièmement, malgré l'adoption plus large de solutions d'analyse centralisées telles que les lacs de données et les entrepôts, la complexité augmente avec les différents noms de tables et autres métadonnées nécessaires pour créer le SQL pour les sources souhaitées. Par conséquent, la collecte de métadonnées complètes et de haute qualité reste également un défi. Pour en savoir plus sur les meilleures pratiques et les modèles de conception Text-to-SQL, consultez Générer de la valeur à partir des données d'entreprise : bonnes pratiques pour Text2SQL et l'IA générative.

Notre solution vise à relever ces défis en utilisant Socle amazonien ainsi que les Services d'analyse AWS. Nous utilisons Anthropique Claude v2.1 sur Amazon Bedrock en tant que notre LLM. Pour relever les défis, notre solution intègre d'abord les métadonnées des sources de données au sein du Catalogue de données AWS Glue pour augmenter la précision de la requête SQL générée. Le flux de travail comprend également une boucle finale d'évaluation et de correction, au cas où des problèmes SQL seraient identifiés par Amazone Athéna, qui est utilisé en aval comme moteur SQL. Athena nous permet également d'utiliser une multitude de points de terminaison et connecteurs pris en charge pour couvrir un large ensemble de sources de données.

Après avoir parcouru les étapes de création de la solution, nous présentons les résultats de certains scénarios de test avec différents niveaux de complexité SQL. Enfin, nous expliquons comment il est simple d'incorporer différentes sources de données à vos requêtes SQL.

Vue d'ensemble de la solution

Il y a trois composants essentiels dans notre architecture : Retrieval Augmented Generation (RAG) avec métadonnées de base de données, une boucle d'autocorrection en plusieurs étapes et Athena comme moteur SQL.

Nous utilisons la méthode RAG pour récupérer les descriptions de table et les descriptions de schéma (colonnes) du métastore AWS Glue afin de garantir que la demande est liée à la bonne table et aux bons ensembles de données. Dans notre solution, nous avons construit les étapes individuelles pour exécuter un framework RAG avec le catalogue de données AWS Glue à des fins de démonstration. Cependant, vous pouvez également utiliser bases de connaissances dans Amazon Bedrock pour créer rapidement des solutions RAG.

Le composant en plusieurs étapes permet au LLM de corriger la requête SQL générée pour en vérifier l'exactitude. Ici, le SQL généré est envoyé pour les erreurs de syntaxe. Nous utilisons les messages d'erreur Athena pour enrichir notre invite pour le LLM afin de corriger plus précisément et plus efficacement le SQL généré.

Vous pouvez considérer les messages d'erreur provenant occasionnellement d'Athena comme des commentaires. Les implications financières d’une étape de correction d’erreur sont négligeables par rapport à la valeur délivrée. Vous pouvez même inclure ces étapes correctives sous forme d’exemples d’apprentissage renforcé supervisé pour affiner vos LLM. Cependant, nous n'avons pas couvert ce flux dans notre article par souci de simplicité.

Notez qu’il existe toujours un risque inhérent d’inexactitudes, qui accompagne naturellement les solutions d’IA générative. Même si les messages d'erreur Athena sont très efficaces pour atténuer ce risque, vous pouvez ajouter davantage de contrôles et de vues, tels que des commentaires humains ou des exemples de requêtes pour un réglage précis, afin de minimiser davantage ces risques.

Athena nous permet non seulement de corriger les requêtes SQL, mais simplifie également le problème global car il sert de plaque tournante, où les rayons sont plusieurs sources de données. La gestion des accès, la syntaxe SQL, etc. sont toutes gérées via Athena.

Le diagramme suivant illustre l'architecture de la solution.

L'architecture de la solution et le flux du processus sont présentés.

Figure 1. Architecture de la solution et flux de processus.

Le flux de processus comprend les étapes suivantes :

Créer le catalogue de données AWS Glue à l'aide d'un robot d'exploration AWS Glue (ou une autre méthode).
Le Modèle Titan-Text-Embeddings sur Amazon Bedrock, convertissez les métadonnées en intégrations et stockez-les dans un Amazon OpenSearch sans serveur magasin de vecteur, qui sert de base de connaissances dans notre framework RAG.

A ce stade, le processus est prêt à recevoir la requête en langage naturel. Les étapes 7 à 9 représentent une boucle de correction, le cas échéant.

L'utilisateur saisit sa requête en langage naturel. Vous pouvez utiliser n'importe quelle application Web pour fournir l'interface utilisateur de chat. Par conséquent, nous n’avons pas couvert les détails de l’interface utilisateur dans notre article.
La solution applique un framework RAG via recherche de similitude, qui ajoute le contexte supplémentaire des métadonnées de la base de données vectorielles. Cette table est utilisée pour rechercher la table, la base de données et les attributs corrects.
La requête est fusionnée avec le contexte et envoyée à Anthropique Claude v2.1 sur le substrat rocheux d'Amazon.
Le modèle récupère la requête SQL générée et se connecte à Athena pour valider la syntaxe.
Si Athena fournit un message d'erreur indiquant que la syntaxe est incorrecte, le modèle utilise le texte d'erreur de la réponse d'Athena.
La nouvelle invite ajoute la réponse d'Athéna.
Le modèle crée le SQL corrigé et poursuit le processus. Cette itération peut être effectuée plusieurs fois.
Enfin, nous exécutons le SQL à l'aide d'Athena et générons une sortie. Ici, le résultat est présenté à l'utilisateur. Par souci de simplicité architecturale, nous n'avons pas montré cette étape.

Pré-requis

Pour ce poste, vous devez remplir les conditions préalables suivantes :

Avoir un Compte AWS.
Installer le Interface de ligne de commande AWS (AWS CLI).
Mettre en place le SDK pour Python (Boto3).
Créer le catalogue de données AWS Glue à l'aide d'un robot d'exploration AWS Glue (ou une autre méthode).
Le Modèle Titan-Text-Embeddings sur Amazon Bedrock, convertissez les métadonnées en intégrations et stockez-les dans un OpenSearch Serverless magasin de vecteur.

Mettre en œuvre la solution

Vous pouvez utiliser ce qui suit Carnet Jupyter, qui inclut tous les extraits de code fournis dans cette section, pour créer la solution. Nous vous recommandons d'utiliser Amazon SageMakerStudio pour ouvrir ce notebook avec une instance ml.t3.medium avec le noyau Python 3 (Data Science). Pour obtenir des instructions, reportez-vous à Former un modèle d'apprentissage automatique. Effectuez les étapes suivantes pour configurer la solution :

Créez la base de connaissances dans OpenSearch Service pour le framework RAG :

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Créez l'invite (final_question) en combinant la saisie de l'utilisateur en langage naturel (user_query), les métadonnées pertinentes du magasin vectoriel (vector_search_match), et nos instructions (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Appelez Amazon Bedrock pour le LLM (Claude v2) et invitez-le à générer la requête SQL. Dans le code suivant, il effectue plusieurs tentatives afin d'illustrer l'étape d'autocorrection :x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Si des problèmes surviennent avec la requête SQL générée ({sqlgenerated}) de la réponse d'Athéna ({syntaxcheckmsg}), la nouvelle invite (prompt) est généré en fonction de la réponse et le modèle tente à nouveau de générer le nouveau SQL :

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Une fois le SQL généré, le client Athena est appelé pour exécuter et générer la sortie :

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Testez la solution

Dans cette section, nous exécutons notre solution avec différents exemples de scénarios pour tester différents niveaux de complexité des requêtes SQL.

Pour tester notre text-to-SQL, nous utilisons deux ensembles de données disponibles sur IMDB. Des sous-ensembles de données IMDb sont disponibles pour un usage personnel et non commercial. Vous pouvez télécharger les ensembles de données et les stocker dans Service de stockage simple Amazon (Amazon S3). Vous pouvez utiliser l'extrait Spark SQL suivant pour créer des tables dans AWS Glue. Pour cet exemple, nous utilisons title_ratings ainsi que les title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Stockez les données dans Amazon S3 et les métadonnées dans AWS Glue

Dans ce scénario, notre ensemble de données est stocké dans un compartiment S3. Athena dispose d'un connecteur S3 qui vous permet d'utiliser Amazon S3 comme source de données pouvant être interrogée.

Pour notre première requête, nous fournissons l’entrée « Je suis nouveau dans ce domaine. Pouvez-vous m'aider à voir toutes les tables et colonnes du schéma imdb ? »

Voici la requête générée :

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

La capture d'écran et le code suivants montrent notre sortie.

Tableau montrant les attributs de l'exemple d'ensemble de données IMBD.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

Pour notre deuxième requête, nous demandons « Montrez-moi tous les titres et détails dans la région des États-Unis dont la note est supérieure à 9.5 ».

Voici notre requête générée :

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

La réponse est la suivante.

Un tableau montrant les résultats de la requête SQL

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Pour notre troisième requête, nous saisissons « Excellente réponse ! Maintenant, montrez-moi tous les titres de type original ayant une note supérieure à 7.5 et ne se trouvant pas dans la région des États-Unis.

La requête suivante est générée :

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Nous obtenons les résultats suivants.

Une seule ligne affichant le résultat de la requête SQL.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Générer du SQL auto-corrigé

Ce scénario simule une requête SQL présentant des problèmes de syntaxe. Ici, le SQL généré sera auto-corrigé en fonction de la réponse d'Athena. Dans la réponse suivante, Athéna a donné un COLUMN_NOT_FOUND erreur et j'ai mentionné que table_description ne peut pas être résolu :

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Utiliser la solution avec d'autres sources de données

Pour utiliser la solution avec d'autres sources de données, Athena se charge du travail à votre place. Pour ce faire, Athéna utilise connecteurs de source de données qui peut être utilisé avec requêtes fédérées. Vous pouvez considérer un connecteur comme une extension du moteur de requête Athena. Des connecteurs de source de données Athena prédéfinis existent pour les sources de données telles que Journaux Amazon CloudWatch, Amazon DynamoDB, Amazon DocumentDB (avec compatibilité MongoDB)et la Service de base de données relationnelle Amazon (Amazon RDS) et des sources de données relationnelles compatibles JDBC telles que MySQL et PostgreSQL sous la licence Apache 2.0. Après avoir configuré une connexion à n’importe quelle source de données, vous pouvez utiliser la base de code précédente pour étendre la solution. Pour plus d'informations, reportez-vous à Interrogez n'importe quelle source de données avec la nouvelle requête fédérée d'Amazon Athena.

Nettoyer

Pour nettoyer les ressources, vous pouvez commencer par nettoyer votre compartiment S3 où résident les données. À moins que votre application n'invoque Amazon Bedrock, elle n'entraînera aucun frais. Dans un souci de bonnes pratiques de gestion de l'infrastructure, nous vous recommandons de supprimer les ressources créées dans cette démonstration.

Conclusion

Dans cet article, nous avons présenté une solution qui vous permet d'utiliser le NLP pour générer des requêtes SQL complexes avec une variété de ressources activées par Athena. Nous avons également augmenté la précision des requêtes SQL générées via une boucle d'évaluation en plusieurs étapes basée sur les messages d'erreur des processus en aval. De plus, nous avons utilisé les métadonnées du catalogue de données AWS Glue pour prendre en compte les noms de tables demandés dans la requête via le framework RAG. Nous avons ensuite testé la solution dans différents scénarios réalistes avec différents niveaux de complexité des requêtes. Enfin, nous avons discuté de la manière d'appliquer cette solution à différentes sources de données prises en charge par Athena.

Amazon Bedrock est au centre de cette solution. Amazon Bedrock peut vous aider à créer de nombreuses applications d'IA générative. Pour démarrer avec Amazon Bedrock, nous vous recommandons de suivre le démarrage rapide ci-dessous GitHub repo et vous familiariser avec la création d'applications d'IA générative. Vous pouvez également essayer bases de connaissances dans Amazon Bedrock pour créer rapidement de telles solutions RAG.

À propos des auteurs

Créer une solution Text-to-SQL robuste générant des requêtes complexes, s'autocorrigant et interrogeant diverses sources de données | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Sanjeeb Panda est ingénieur Data et ML chez Amazon. Fort de son expérience en IA/ML, Data Science et Big Data, Sanjeeb conçoit et développe des solutions innovantes de données et de ML qui résolvent des défis techniques complexes et atteignent les objectifs stratégiques des vendeurs 3P mondiaux gérant leurs activités sur Amazon. En dehors de son travail d'ingénieur Data et ML chez Amazon, Sanjeeb Panda est un passionné de gastronomie et de musique.

Créer une solution Text-to-SQL robuste générant des requêtes complexes, s'autocorrigant et interrogeant diverses sources de données | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Bourak Gozluklu est un architecte principal de solutions spécialisées en IA/ML situé à Boston, Massachusetts. Il aide les clients stratégiques à adopter les technologies AWS et plus particulièrement les solutions d'IA générative pour atteindre leurs objectifs commerciaux. Burak est titulaire d'un doctorat en génie aérospatial du METU, d'une maîtrise en ingénierie des systèmes et d'un post-doctorat en dynamique des systèmes du MIT à Cambridge, MA. Burak est toujours un chercheur affilié au MIT. Burak est passionné de yoga et de méditation.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Horodatage: 28 février 2024

Horodatage: 2 mai 2023

Republié par Platon

Développer des systèmes avancés d'apprentissage automatique chez Trumid avec la bibliothèque de graphes profonds pour l'intégration des connaissances

Utilisez le partage de pipeline Amazon SageMaker pour afficher ou gérer les pipelines sur les comptes AWS

Les modèles de base Mistral 7B de Mistral AI sont désormais disponibles dans Amazon SageMaker JumpStart | Services Web Amazon

Visualisez une analyse Amazon Comprehend avec un nuage de mots dans Amazon QuickSight | Services Web Amazon

Appliquer le masquage des grossièretés dans Amazon Translate

Partie 3 : Comment NatWest Group a créé des modèles ML auditables, reproductibles et explicables avec Amazon SageMaker

Optimisez les hyperparamètres avec Amazon SageMaker Automatic Model Tuning

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte