Створіть надійне рішення Text-to-SQL, яке генерує складні запити, самовиправляється та надсилає запити до різноманітних джерел даних

Перевидано Платоном

читають: 0

Структурована мова запитів (SQL) – це складна мова, яка потребує розуміння баз даних і метаданих. сьогодні, генеративний ШІ може допомогти людям без знання SQL. Це генеративне завдання AI називається text-to-SQL, яке генерує SQL-запити з обробки природної мови (NLP) і перетворює текст у семантично правильний SQL. Рішення в цій публікації має на меті вивести операції корпоративної аналітики на наступний рівень, скоротивши шлях до ваших даних за допомогою природної мови.

З появою великих мовних моделей (LLM) генерація SQL на основі NLP зазнала значних змін. Демонструючи виняткову продуктивність, LLM тепер здатні генерувати точні SQL-запити з описів природною мовою. Проте проблеми все ще залишаються. По-перше, людська мова за своєю суттю неоднозначна і залежить від контексту, тоді як SQL є точним, математичним і структурованим. Ця прогалина може призвести до неточного перетворення потреб користувача у згенерований SQL. По-друге, вам може знадобитися створити функції перетворення тексту в SQL для кожної бази даних, оскільки дані часто не зберігаються в одній цілі. Можливо, вам доведеться відтворити можливості для кожної бази даних, щоб дозволити користувачам генерувати SQL на основі NLP. По-третє, незважаючи на широке впровадження централізованих аналітичних рішень, таких як озера даних і сховища, складність зростає з різними іменами таблиць та іншими метаданими, які потрібні для створення SQL для бажаних джерел. Тому збір повних та високоякісних метаданих також залишається проблемою. Щоб дізнатися більше про найкращі методи перетворення тексту в SQL і шаблони проектування, див Створення цінності з корпоративних даних: найкращі практики для Text2SQL і генеративного штучного інтелекту.

Наше рішення спрямоване на вирішення цих проблем за допомогою Amazon Bedrock та Аналітичні служби AWS. Ми використовуємо Антропний Клод v2.1 на Amazon Bedrock як наш LLM. Щоб вирішити ці проблеми, наше рішення спочатку включає метадані джерел даних у Каталог даних AWS Glue для підвищення точності сформованого SQL-запиту. Робочий процес також включає цикл остаточної оцінки та виправлення на випадок виявлення будь-яких проблем із SQL Амазонка Афіна, який використовується нижче за течією як механізм SQL. Афіна також дозволяє нам використовувати безліч підтримувані кінцеві точки та з’єднувачі щоб охопити великий набір джерел даних.

Після того, як ми пройдемо кроки для створення рішення, ми представимо результати деяких сценаріїв тестування з різними рівнями складності SQL. Нарешті, ми обговорюємо, як легко включати різні джерела даних у ваші запити SQL.

Огляд рішення

У нашій архітектурі є три критично важливі компоненти: Retrieval Augmented Generation (RAG) із метаданими бази даних, багатокроковий цикл самокоригування та Athena як наш механізм SQL.

Ми використовуємо метод RAG для отримання описів таблиць і описів схем (стовпців) із метасховища AWS Glue, щоб переконатися, що запит пов’язаний із правильною таблицею та наборами даних. У нашому рішенні ми створили окремі кроки для запуску RAG-фреймворку з каталогом даних AWS Glue для демонстраційних цілей. Однак ви також можете використовувати бази знань в Amazon Bedrock, щоб швидко створювати рішення RAG.

Багатокроковий компонент дозволяє LLM виправляти згенерований SQL-запит для точності. Тут згенерований SQL надсилається на синтаксичні помилки. Ми використовуємо повідомлення про помилки Athena, щоб збагатити наш запит для LLM для більш точних і ефективних виправлень у створеному SQL.

Ви можете розглядати повідомлення про помилки, які періодично надходять від Athena, як відгуки. Вартість етапу виправлення помилок незначна порівняно з отриманою вартістю. Ви навіть можете включити ці коригувальні кроки як приклади посиленого навчання під наглядом, щоб точно налаштувати ваш LLM. Однак ми не розглядали цей потік у нашій публікації для спрощення.

Зауважте, що завжди існує невід’ємний ризик неточностей, який природно пов’язаний із генеративними рішеннями ШІ. Навіть якщо повідомлення про помилки Athena є дуже ефективними для зменшення цього ризику, ви можете додати більше елементів керування та переглядів, таких як зворотній зв’язок людини або приклади запитів для точного налаштування, щоб мінімізувати такі ризики.

Athena не тільки дозволяє нам виправляти запити SQL, але й спрощує для нас загальну проблему, оскільки служить центром, де спицями є кілька джерел даних. Керування доступом, синтаксис SQL і багато іншого обробляються через Athena.

Наступна діаграма ілюструє архітектуру рішення.

Показано архітектуру рішення та потік процесу.

Рисунок 1. Архітектура рішення та потік процесу.

Потік процесу включає в себе наступні етапи:

Створіть каталог даних AWS Glue за допомогою сканера AWS Glue (або інший спосіб).
Використання Модель Titan-Text-Embeddings на Amazon Bedrock, перетворити метадані на вбудовані та зберегти їх у файлі Amazon OpenSearch Serverless векторний магазин, який служить нашою базою знань у нашій структурі RAG.

На цьому етапі процес готовий прийняти запит природною мовою. Кроки 7–9 представляють цикл корекції, якщо це можливо.

Користувач вводить свій запит природною мовою. Ви можете використовувати будь-яку веб-програму для надання інтерфейсу користувача чату. Тому ми не описували деталі інтерфейсу користувача в нашій публікації.
Рішення застосовує структуру RAG через пошук подібності, який додає додатковий контекст із метаданих векторної бази даних. Ця таблиця використовується для пошуку правильної таблиці, бази даних і атрибутів.
Запит об’єднується з контекстом і надсилається Антропний Клод v2.1 на Amazon Bedrock.
Модель отримує згенерований SQL-запит і підключається до Athena для перевірки синтаксису.
Якщо Athena надає повідомлення про помилку, у якому згадується, що синтаксис неправильний, модель використовує текст помилки з відповіді Athena.
Нова підказка додає відповідь Афіни.
Модель створює виправлений SQL і продовжує процес. Цю ітерацію можна виконувати кілька разів.
Нарешті ми запускаємо SQL за допомогою Athena та генеруємо вихідні дані. Тут вихідні дані представлені користувачеві. Заради архітектурної простоти ми не показали цей крок.

Передумови

Для цієї посади ви повинні виконати наступні вимоги:

Довірте Обліковий запис AWS.
Встановлювати Інтерфейс командного рядка AWS (AWS CLI).
Налаштуйте SDK для Python (Boto3).
Створіть каталог даних AWS Glue за допомогою сканера AWS Glue (або інший спосіб).
Використання Модель Titan-Text-Embeddings на Amazon Bedrock, перетворити метадані на вбудовування та зберегти їх у OpenSearch Serverless векторний магазин.

Реалізуйте рішення

Ви можете використовувати наступне Блокнот Юпітера, який містить усі фрагменти коду, надані в цьому розділі, для створення рішення. Рекомендуємо використовувати Студія Amazon SageMaker щоб відкрити цей блокнот за допомогою екземпляра ml.t3.medium із ядром Python 3 (Data Science). Інструкції див Навчання моделі машинного навчання. Щоб налаштувати рішення, виконайте наведені нижче дії.

Створіть базу знань у OpenSearch Service для фреймворку RAG:

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

Створіть підказку (final_question) шляхом комбінування введення користувача природною мовою (user_query), відповідні метадані зі сховища векторів (vector_search_match), і наші інструкції (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

Викличте Amazon Bedrock для LLM (Claude v2) і запропонуйте йому створити SQL-запит. У наступному коді він робить кілька спроб, щоб проілюструвати крок самовиправлення:x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

Якщо виникають проблеми зі згенерованим SQL-запитом ({sqlgenerated}) із відповіді Афіни ({syntaxcheckmsg}), нова підказка (prompt) генерується на основі відповіді, і модель знову намагається згенерувати новий SQL:

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

Після генерації SQL клієнт Athena викликається для запуску та генерує вихідні дані:

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

Перевірте розчин

У цьому розділі ми запускаємо наше рішення з різними прикладами сценаріїв, щоб перевірити різні рівні складності SQL-запитів.

Щоб перевірити наш текст у SQL, ми використовуємо два набори даних доступні з IMDB. Підмножини даних IMDb доступні для особистого та некомерційного використання. Ви можете завантажити набори даних і зберегти їх у Служба простого зберігання Amazon (Amazon S3). Ви можете використовувати наведений нижче фрагмент Spark SQL для створення таблиць в AWS Glue. Для цього прикладу ми використовуємо title_ratings та title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

Зберігайте дані в Amazon S3 і метадані в AWS Glue

У цьому сценарії наш набір даних зберігається у відрі S3. Athena має роз’єм S3, який дозволяє використовувати Amazon S3 як джерело даних, до якого можна запитувати.

Для нашого першого запиту ми надаємо введення «Я новачок у цьому. Чи можете ви допомогти мені побачити всі таблиці та стовпці в схемі imdb?»

Нижче наведено згенерований запит:

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

Наступний знімок екрана та код показують наш результат.

Таблиця з атрибутами прикладу набору даних IMBD.

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

Для нашого другого запиту ми запитуємо «Покажи мені всю назву та деталі в регіоні США, рейтинг якого перевищує 9.5».

Нижче наведено наш згенерований запит:

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

Відповідь така.

Таблиця з результатами sql-запиту

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

Для нашого третього запиту ми вводимо «Чудовий відгук! Тепер покажіть мені всі назви оригінального типу з рейтингом понад 7.5 і не в регіоні США».

Сформовано такий запит:

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

Отримуємо такі результати.

Один рядок із результатом SQL-запиту.

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

Створити самовиправлений SQL

Цей сценарій імітує SQL-запит із проблемами синтаксису. Тут згенерований SQL буде самостійно виправлено на основі відповіді від Athena. У наступній відповіді Афіна дала a COLUMN_NOT_FOUND помилка та згадав про це table_description не можна вирішити:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

Використання рішення з іншими джерелами даних

Щоб використовувати рішення з іншими джерелами даних, Athena виконає цю роботу за вас. Для цього Афіна використовує роз'єми джерел даних які можна використовувати з федеративні запити. Ви можете розглядати конектор як розширення механізму запитів Athena. Попередньо створені з’єднувачі джерел даних Athena існують для таких джерел даних, як Журнали Amazon CloudWatch, Amazon DynamoDB, Amazon DocumentDB (з сумісністю з MongoDB) та Служба реляційних баз даних Amazon (Amazon RDS) і сумісні з JDBC джерела реляційних даних, такі як MySQL і PostgreSQL за ліцензією Apache 2.0. Після встановлення підключення до будь-якого джерела даних ви можете використовувати попередню базу коду, щоб розширити рішення. Для отримання додаткової інформації див Запитуйте будь-яке джерело даних за допомогою нового об’єднаного запиту Amazon Athena.

Прибирати

Щоб очистити ресурси, ви можете почати з очищення вашого відра S3 де зберігаються дані. Якщо ваша програма не запускає Amazon Bedrock, це не спричинить жодних витрат. Задля найкращих практик керування інфраструктурою ми рекомендуємо видалити ресурси, створені в цій демонстрації.

Висновок

У цій публікації ми представили рішення, яке дозволяє використовувати NLP для створення складних SQL-запитів за допомогою різноманітних ресурсів, увімкнених Athena. Ми також підвищили точність створюваних SQL-запитів за допомогою багатокрокового циклу оцінки на основі повідомлень про помилки від подальших процесів. Крім того, ми використали метадані в каталозі даних AWS Glue, щоб розглянути імена таблиць, запитуваних у запиті через структуру RAG. Потім ми протестували рішення в різних реалістичних сценаріях із різними рівнями складності запитів. Нарешті, ми обговорили, як застосувати це рішення до різних джерел даних, які підтримує Athena.

Amazon Bedrock знаходиться в центрі цього рішення. Amazon Bedrock може допомогти вам створити багато генеративних програм ШІ. Щоб розпочати роботу з Amazon Bedrock, ми рекомендуємо виконати наведену нижче інструкцію швидкого початку GitHub репо і ознайомлення зі створенням генеративних програм ШІ. Ви також можете спробувати бази знань в Amazon Bedrock, щоб швидко створювати такі рішення RAG.

Про авторів

Створіть надійне рішення для перетворення тексту в SQL, яке генерує складні запити, самокорегується та надсилає запити до різноманітних джерел даних | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Панда Санджіб є інженером з даних і машинного навчання в Amazon. Маючи досвід роботи зі штучним інтелектом/ML, наукою про дані та великими даними, Sanjeeb проектує та розробляє інноваційні рішення для даних і машинного навчання, які вирішують складні технічні завдання та досягають стратегічних цілей для глобальних сторонніх продавців, які керують своїм бізнесом на Amazon. Окрім роботи інженером із обробки даних і машинного навчання в Amazon, Санджіб Панда є завзятим гурманом і ентузіастом музики.

Створіть надійне рішення для перетворення тексту в SQL, яке генерує складні запити, самокорегується та надсилає запити до різноманітних джерел даних | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Бурак Гозлуклу є головним архітектором рішень спеціаліста зі штучного інтелекту та ML, що знаходиться в Бостоні, Массачусетс. Він допомагає стратегічним клієнтам застосовувати технології AWS і, зокрема, рішення Generative AI для досягнення їхніх бізнес-цілей. Бурак має ступінь доктора філософії в аерокосмічній інженерії в METU, ступінь магістра в галузі системної інженерії та пост-документацію в системній динаміці в MIT в Кембриджі, Массачусетс. Бурак досі є дослідницьким співробітником Массачусетського технологічного інституту. Бурак захоплюється йогою та медитацією.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

Часова мітка: 28 Лютого, 2024

Часова мітка: Квітень 25, 2022

Перевидано Платоном

InformedIQ автоматизує перевірку автокредитування Origence за допомогою машинного навчання

Створіть інтерфейс планувальника зустрічей, інтегрований з Meta, за допомогою Amazon Lex і Amazon Connect

Запускайте й оптимізуйте мультимодельний висновок за допомогою мультимодельних кінцевих точок Amazon SageMaker

Налаштуйте Amazon SageMaker Studio з Jupyter Lab 3 за допомогою AWS CDK

AWS Inferentia та AWS Trainium забезпечують найнижчу вартість розгортання моделей Llama 3 в Amazon SageMaker JumpStart | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки