Спростіть підготовку даних для Generative AI за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

читають: 0

Генеративний штучний інтелект (генеративний ШІ) моделі продемонстрували вражаючі можливості для створення високоякісного тексту, зображень та іншого вмісту. Однак ці моделі вимагають величезної кількості чистих, структурованих навчальних даних, щоб повністю розкрити свій потенціал. Більшість реальних даних існує в неструктурованих форматах, таких як PDF-файли, які потребують попередньої обробки, перш ніж їх можна буде ефективно використовувати.

За оцінками IDC, неструктуровані дані складають понад 80% усіх бізнес-даних сьогодні. Це включає такі формати, як електронні листи, PDF-файли, відскановані документи, зображення, аудіо, відео тощо. Хоча ці дані містять цінну інформацію, їх неструктурований характер ускладнює алгоритмам ШІ їх інтерпретацію та навчання. За словами а Опитування Deloitte у 2019 році, лише 18% підприємств повідомили, що можуть скористатися перевагами неструктурованих даних.

Оскільки впровадження штучного інтелекту продовжує прискорюватися, розробка ефективних механізмів для перетравлення та навчання з неструктурованих даних стає ще більш важливою в майбутньому. Це може включати кращі інструменти попередньої обробки, методи напівконтрольованого навчання та прогрес у обробці природної мови. Компанії, які найбільш ефективно використовують свої неструктуровані дані, отримають значні конкурентні переваги завдяки ШІ. Чисті дані важливі для хорошої продуктивності моделі. Витягнуті тексти все ще містять велику кількість тарабарщини та шаблонного тексту (наприклад, читати HTML). Зібрані дані з Інтернету часто містять багато дублікатів. Дані з соціальних мереж, огляди чи будь-який створений користувачами вміст також можуть містити токсичний і упереджений вміст, і вам, можливо, доведеться відфільтрувати їх за допомогою деяких етапів попередньої обробки. Також може бути багато низькоякісного вмісту або створених роботами текстів, які можна відфільтрувати за допомогою супровідних метаданих (наприклад, відфільтрувати відповіді служби підтримки клієнтів, які отримали низькі оцінки клієнтів).

Підготовка даних є важливою на багатьох етапах у доповненій генерації пошуку (КГР) моделі. Документи джерела знань потребують попередньої обробки, як-от очищення тексту та створення семантичних вставок, щоб їх можна було ефективно індексувати та витягувати. Запит користувача природною мовою також потребує попередньої обробки, тому його можна закодувати у вектор і порівняти з вбудованими документами. Після отримання відповідних контекстів їм може знадобитися додаткова попередня обробка, як-от скорочення, перед тим, як їх об’єднати з запитом користувача для створення остаточного запиту для базової моделі. Canvas Amazon SageMaker тепер підтримує комплексні можливості підготовки даних на основі Amazon SageMaker Data Wrangler. Завдяки цій інтеграції SageMaker Canvas надає клієнтам наскрізний робочий простір без коду для підготовки даних, створення та використання моделей машинного навчання та базових моделей, щоб пришвидшити час від отримання даних до бізнес-аналізу. Тепер ви можете легко знаходити та агрегувати дані з понад 50 джерел даних, а також досліджувати та готувати дані за допомогою понад 300 вбудованих засобів аналізу та перетворень у візуальному інтерфейсі SageMaker Canvas.

Огляд рішення

У цій публікації ми працюємо з набором даних PDF-документації.Amazon Bedrock керівництво користувача. Далі ми покажемо, як попередньо обробити набір даних для RAG. Зокрема, ми очищаємо дані та створюємо артефакти RAG, щоб відповісти на запитання щодо вмісту набору даних. Розглянемо наступну проблему машинного навчання (ML): користувач задає питання моделі великої мови (LLM): «Як фільтрувати та шукати моделі в Amazon Bedrock?». LLM не бачив документацію під час навчання чи етапу тонкого налаштування, тому не міг би відповісти на запитання та, швидше за все, виникне галюцинація. Наша мета з цією публікацією — знайти відповідний фрагмент тексту в PDF (тобто RAG) і приєднати його до підказки, таким чином дозволяючи LLM відповісти на запитання, пов’язані з цим документом.

Нижче ми покажемо, як можна виконати всі ці основні етапи попередньої обробки Canvas Amazon SageMaker (живиться від Amazon SageMaker Data Wrangler):

Вилучення тексту з PDF-документа (за технологією Texttract)
Видалення конфіденційної інформації (за технологією Comprehend)
Розбийте текст на частини.
Створюйте вкладення для кожного фрагмента (за технологією Bedrock).
Завантажте вбудовування до векторної бази даних (на основі OpenSearch)

Спростіть підготовку даних для генеративного ШІ за допомогою Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Передумови

Для цього покрокового керівництва ви повинні мати наступне:

примітки: Створіть домени OpenSearch Service, дотримуючись інструкцій тут. Для простоти давайте виберемо варіант із головним іменем користувача та паролем для точного контролю доступу. Після створення домену створіть векторний індекс із такими зіставленнями, і векторний розмір 1536 узгоджено з вбудовуваннями Amazon Titan:

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

Проходження

Побудуйте потік даних

У цьому розділі ми розповідаємо, як створити потік даних для вилучення тексту та метаданих із PDF-файлів, очищення та обробки даних, створення вставок за допомогою Amazon Bedrock та індексування даних у Amazon OpenSearch.

Запустіть SageMaker Canvas

Щоб запустити SageMaker Canvas, виконайте такі дії:

На Амазонці Консоль SageMakerвиберіть Домени у навігаційній панелі.
Виберіть свій домен.
У меню запуску виберіть Полотно.

Створіть потік даних

Щоб створити потік даних у SageMaker Canvas, виконайте такі кроки:

Виберіть на домашній сторінці SageMaker Canvas Data Wrangler.
Вибирати Створювати у правій частині сторінки, потім введіть назву потоку даних і виберіть Створювати.
Це потрапить на сторінку потоку даних.
Вибирати Дати імпорту, виберіть табличні дані.

Тепер давайте імпортуємо дані з відра Amazon S3:

Вибирати Дати імпорту і виберіть Табличний з розкривного списку.
Джерело даних і виберіть Amazon S3 з розкривного списку.
Перейдіть до файлу метаданих із розташуванням файлів PDF і виберіть файл.
Тепер файл метаданих завантажено в потік даних підготовки даних, і ми можемо продовжити додавати наступні кроки для перетворення даних та індексу в Amazon OpenSearch. У цьому випадку файл має такі метадані з розташуванням кожного файлу в каталозі Amazon S3.

Щоб додати нове перетворення, виконайте такі дії:

Виберіть знак плюс і виберіть Додати трансформацію.
Вибирати Додати крок І вибирай Спеціальна трансформація.
Ви можете створити спеціальне перетворення за допомогою Pandas, PySpark, призначених для користувача функцій Python і SQL PySpark. Виберіть Python (PySpark) для цього випадку використання.
Введіть назву кроку. Зі зразків фрагментів коду перегляньте та виберіть витягти текст з pdf. Внесіть необхідні зміни у фрагмент коду та виберіть додавати.
Давайте додамо крок для редагування даних, які ідентифікують особу (PII) з витягнутих даних, використовуючи «Амазонка», Вибирати Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark).

Зі зразків фрагментів коду перегляньте та виберіть маска PII. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.

Наступним кроком буде розділення текстового вмісту. Виберіть Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark).

Зі зразків фрагментів коду перегляньте та виберіть Фрагмент тексту. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.

Давайте перетворимо текстовий вміст на векторні вбудовані за допомогою Amazon Bedrock Модель Titan Embeddings. Виберіть Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark).

Зі зразків фрагментів коду перегляньте та виберіть Створіть вбудований текст за допомогою Bedrock. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.

Тепер у нас є векторні вставки, доступні для вмісту файлу PDF. Давайте продовжимо індексувати дані в Amazon OpenSearch. Виберіть Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark). Ви можете переписати наступний код, щоб використовувати бажану векторну базу даних. Для спрощення ми використовуємо головне ім’я користувача та пароль для доступу до API OpenSearch. Для виробничих робочих навантажень виберіть параметр відповідно до політики вашої організації.

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

Нарешті, створений потік даних буде таким:

За допомогою цього потоку даних дані з PDF-файлу зчитуються та індексуються за допомогою векторних вставок у Amazon OpenSearch. Тепер настав час створити файл із запитами для запиту проіндексованих даних і зберегти його в папці Amazon S3. Ми спрямуємо наш потік даних пошуку до файлу та виведемо файл із відповідними результатами в новому файлі в розташуванні Amazon S3.

Підготовка підказки

Після того як ми створимо базу знань із нашого PDF-файлу, ми можемо протестувати його, виконавши пошук у базі знань за кількома зразками запитів. Ми оброблятимемо кожен запит наступним чином:

Створити вбудовування для запиту (за технологією Amazon Bedrock)
Векторна база даних запитів для контексту найближчого сусіда (на основі Amazon OpenSearch)
Об’єднайте запит і контекст у підказку.
Запит LLM із підказкою (на основі Amazon Bedrock)
Виберіть на домашній сторінці SageMaker Canvas Підготовка даних.
Вибирати Створювати у правій частині сторінки, потім введіть назву потоку даних і виберіть Створювати.

Тепер давайте завантажимо запитання користувача, а потім створимо підказку, поєднавши питання та подібні документи. Ця підказка надається LLM для генерації відповіді на запитання користувача.

Давайте завантажимо файл csv із запитаннями користувача. Виберіть Імпортувати дані і виберіть Табличний з розкривного списку.
Джерело даних, і виберіть Amazon S3 зі спадного списку. Крім того, ви можете завантажити файл із запитами користувача.
Давайте додамо спеціальну трансформацію для перетворення даних у векторні вбудовування з подальшим пошуком пов’язаних вбудовувань із Amazon OpenSearch, перш ніж надсилати підказку в Amazon Bedrock із запитом і контекстом із бази знань. Щоб створити вбудовування для запиту, ви можете використати той самий приклад фрагмента коду Створіть вбудований текст за допомогою Bedrock згаданий у кроці №7 вище.

Давайте викличемо API Amazon OpenSearch для пошуку релевантних документів для згенерованих вбудованих векторів. Додайте спеціальне перетворення за допомогою Python (PySpark).

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

Давайте додамо настроюване перетворення для виклику API Amazon Bedrock для відповіді на запит, передаючи документи з бази знань Amazon OpenSearch. Зі зразків фрагментів коду перегляньте та виберіть Запит Bedrock із контекстом. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.

Підсумовуючи, потік даних відповідей на запитання на основі RAG виглядає наступним чином:

Практикуючі ML витрачають багато часу на розробку інженерного коду функцій, застосування його до початкових наборів даних, навчання моделей на створених наборах даних та оцінку точності моделей. Враховуючи експериментальний характер цієї роботи, навіть найменший проект призводить до кількох ітерацій. Той самий інженерний код функції часто запускається знову і знову, витрачаючи час і обчислювальні ресурси на повторення тих самих операцій. У великих організаціях це може спричинити ще більшу втрату продуктивності, оскільки різні команди часто виконують ідентичні завдання або навіть пишуть дублікат коду розробки функцій, оскільки вони не знають попередньої роботи. Щоб уникнути повторної обробки функцій, ми експортуємо наш потік даних на Amazon Конвеєр SageMaker. Виберемо кнопка + праворуч від запиту. Виберіть експорт потоку даних і виберіть Запустіть SageMaker Pipeline (через блокнот Jupyter).

Очищення

Щоб уникнути майбутніх витрат, видаліть або закрийте ресурси, які ви створили під час перегляду цієї публікації. Відноситься до Вихід із Amazon SageMaker Canvas для більш докладної інформації.

Висновок

У цій публікації ми показали вам наскрізні можливості Amazon SageMaker Canvas, взявши на себе роль спеціаліста з обробки даних, який готує дані для LLM. Інтерактивна підготовка даних дозволила швидко очищати, трансформувати та аналізувати дані для створення інформативних функцій. Усунувши складність кодування, SageMaker Canvas дозволив швидку ітерацію для створення високоякісного навчального набору даних. Цей прискорений робочий процес привів безпосередньо до створення, навчання та розгортання продуктивної моделі машинного навчання для впливу на бізнес. Завдяки всебічній підготовці даних і уніфікованому досвіду від даних до розуміння, SageMaker Canvas дає користувачам змогу покращити результати ML.

Ми радимо вам дізнатися більше, досліджуючи Amazon SageMaker Data Wrangler, Canvas Amazon SageMaker, Амазонський титан моделі, Amazon Bedrockта Amazon Сервіс OpenSearch створити рішення, використовуючи приклад реалізації, наведений у цій публікації, і набір даних, що стосується вашого бізнесу. Якщо у вас є запитання чи пропозиції, залиште коментар.

Про авторів

Аджай Говіндарам є старшим архітектором рішень в AWS. Він працює зі стратегічними клієнтами, які використовують AI/ML для вирішення складних бізнес-завдань. Його досвід полягає в наданні технічного керівництва, а також у допомозі в розробці скромних і великомасштабних розгортань програм AI/ML. Його знання варіюються від архітектури додатків до великих даних, аналітики та машинного навчання. Йому подобається слухати музику під час відпочинку, гуляти на природі та проводити час зі своїми близькими.