Генеративний штучний інтелект (генеративний ШІ) моделі продемонстрували вражаючі можливості для створення високоякісного тексту, зображень та іншого вмісту. Однак ці моделі вимагають величезної кількості чистих, структурованих навчальних даних, щоб повністю розкрити свій потенціал. Більшість реальних даних існує в неструктурованих форматах, таких як PDF-файли, які потребують попередньої обробки, перш ніж їх можна буде ефективно використовувати.
За оцінками IDC, неструктуровані дані складають понад 80% усіх бізнес-даних сьогодні. Це включає такі формати, як електронні листи, PDF-файли, відскановані документи, зображення, аудіо, відео тощо. Хоча ці дані містять цінну інформацію, їх неструктурований характер ускладнює алгоритмам ШІ їх інтерпретацію та навчання. За словами а Опитування Deloitte у 2019 році, лише 18% підприємств повідомили, що можуть скористатися перевагами неструктурованих даних.
Оскільки впровадження штучного інтелекту продовжує прискорюватися, розробка ефективних механізмів для перетравлення та навчання з неструктурованих даних стає ще більш важливою в майбутньому. Це може включати кращі інструменти попередньої обробки, методи напівконтрольованого навчання та прогрес у обробці природної мови. Компанії, які найбільш ефективно використовують свої неструктуровані дані, отримають значні конкурентні переваги завдяки ШІ. Чисті дані важливі для хорошої продуктивності моделі. Витягнуті тексти все ще містять велику кількість тарабарщини та шаблонного тексту (наприклад, читати HTML). Зібрані дані з Інтернету часто містять багато дублікатів. Дані з соціальних мереж, огляди чи будь-який створений користувачами вміст також можуть містити токсичний і упереджений вміст, і вам, можливо, доведеться відфільтрувати їх за допомогою деяких етапів попередньої обробки. Також може бути багато низькоякісного вмісту або створених роботами текстів, які можна відфільтрувати за допомогою супровідних метаданих (наприклад, відфільтрувати відповіді служби підтримки клієнтів, які отримали низькі оцінки клієнтів).
Підготовка даних є важливою на багатьох етапах у доповненій генерації пошуку (КГР) моделі. Документи джерела знань потребують попередньої обробки, як-от очищення тексту та створення семантичних вставок, щоб їх можна було ефективно індексувати та витягувати. Запит користувача природною мовою також потребує попередньої обробки, тому його можна закодувати у вектор і порівняти з вбудованими документами. Після отримання відповідних контекстів їм може знадобитися додаткова попередня обробка, як-от скорочення, перед тим, як їх об’єднати з запитом користувача для створення остаточного запиту для базової моделі. Canvas Amazon SageMaker тепер підтримує комплексні можливості підготовки даних на основі Amazon SageMaker Data Wrangler. Завдяки цій інтеграції SageMaker Canvas надає клієнтам наскрізний робочий простір без коду для підготовки даних, створення та використання моделей машинного навчання та базових моделей, щоб пришвидшити час від отримання даних до бізнес-аналізу. Тепер ви можете легко знаходити та агрегувати дані з понад 50 джерел даних, а також досліджувати та готувати дані за допомогою понад 300 вбудованих засобів аналізу та перетворень у візуальному інтерфейсі SageMaker Canvas.
Огляд рішення
У цій публікації ми працюємо з набором даних PDF-документації.Amazon Bedrock керівництво користувача. Далі ми покажемо, як попередньо обробити набір даних для RAG. Зокрема, ми очищаємо дані та створюємо артефакти RAG, щоб відповісти на запитання щодо вмісту набору даних. Розглянемо наступну проблему машинного навчання (ML): користувач задає питання моделі великої мови (LLM): «Як фільтрувати та шукати моделі в Amazon Bedrock?». LLM не бачив документацію під час навчання чи етапу тонкого налаштування, тому не міг би відповісти на запитання та, швидше за все, виникне галюцинація. Наша мета з цією публікацією — знайти відповідний фрагмент тексту в PDF (тобто RAG) і приєднати його до підказки, таким чином дозволяючи LLM відповісти на запитання, пов’язані з цим документом.
Нижче ми покажемо, як можна виконати всі ці основні етапи попередньої обробки Canvas Amazon SageMaker (живиться від Amazon SageMaker Data Wrangler):
- Вилучення тексту з PDF-документа (за технологією Texttract)
- Видалення конфіденційної інформації (за технологією Comprehend)
- Розбийте текст на частини.
- Створюйте вкладення для кожного фрагмента (за технологією Bedrock).
- Завантажте вбудовування до векторної бази даних (на основі OpenSearch)
Передумови
Для цього покрокового керівництва ви повинні мати наступне:
примітки: Створіть домени OpenSearch Service, дотримуючись інструкцій тут. Для простоти давайте виберемо варіант із головним іменем користувача та паролем для точного контролю доступу. Після створення домену створіть векторний індекс із такими зіставленнями, і векторний розмір 1536 узгоджено з вбудовуваннями Amazon Titan:
Проходження
Побудуйте потік даних
У цьому розділі ми розповідаємо, як створити потік даних для вилучення тексту та метаданих із PDF-файлів, очищення та обробки даних, створення вставок за допомогою Amazon Bedrock та індексування даних у Amazon OpenSearch.
Запустіть SageMaker Canvas
Щоб запустити SageMaker Canvas, виконайте такі дії:
- На Амазонці Консоль SageMakerвиберіть Домени у навігаційній панелі.
- Виберіть свій домен.
- У меню запуску виберіть Полотно.
Створіть потік даних
Щоб створити потік даних у SageMaker Canvas, виконайте такі кроки:
- Виберіть на домашній сторінці SageMaker Canvas Data Wrangler.
- Вибирати Створювати у правій частині сторінки, потім введіть назву потоку даних і виберіть Створювати.
- Це потрапить на сторінку потоку даних.
- Вибирати Дати імпорту, виберіть табличні дані.
Тепер давайте імпортуємо дані з відра Amazon S3:
- Вибирати Дати імпорту і виберіть Табличний з розкривного списку.
- Джерело даних і виберіть Amazon S3 з розкривного списку.
- Перейдіть до файлу метаданих із розташуванням файлів PDF і виберіть файл.
- Тепер файл метаданих завантажено в потік даних підготовки даних, і ми можемо продовжити додавати наступні кроки для перетворення даних та індексу в Amazon OpenSearch. У цьому випадку файл має такі метадані з розташуванням кожного файлу в каталозі Amazon S3.
Щоб додати нове перетворення, виконайте такі дії:
- Виберіть знак плюс і виберіть Додати трансформацію.
- Вибирати Додати крок І вибирай Спеціальна трансформація.
- Ви можете створити спеціальне перетворення за допомогою Pandas, PySpark, призначених для користувача функцій Python і SQL PySpark. Виберіть Python (PySpark) для цього випадку використання.
- Введіть назву кроку. Зі зразків фрагментів коду перегляньте та виберіть витягти текст з pdf. Внесіть необхідні зміни у фрагмент коду та виберіть додавати.
- Давайте додамо крок для редагування даних, які ідентифікують особу (PII) з витягнутих даних, використовуючи «Амазонка», Вибирати Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark).
Зі зразків фрагментів коду перегляньте та виберіть маска PII. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.
- Наступним кроком буде розділення текстового вмісту. Виберіть Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark).
Зі зразків фрагментів коду перегляньте та виберіть Фрагмент тексту. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.
- Давайте перетворимо текстовий вміст на векторні вбудовані за допомогою Amazon Bedrock Модель Titan Embeddings. Виберіть Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark).
Зі зразків фрагментів коду перегляньте та виберіть Створіть вбудований текст за допомогою Bedrock. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.
- Тепер у нас є векторні вставки, доступні для вмісту файлу PDF. Давайте продовжимо індексувати дані в Amazon OpenSearch. Виберіть Додати крок І вибирай Спеціальна трансформація. І виберіть Python (PySpark). Ви можете переписати наступний код, щоб використовувати бажану векторну базу даних. Для спрощення ми використовуємо головне ім’я користувача та пароль для доступу до API OpenSearch. Для виробничих робочих навантажень виберіть параметр відповідно до політики вашої організації.
Нарешті, створений потік даних буде таким:
За допомогою цього потоку даних дані з PDF-файлу зчитуються та індексуються за допомогою векторних вставок у Amazon OpenSearch. Тепер настав час створити файл із запитами для запиту проіндексованих даних і зберегти його в папці Amazon S3. Ми спрямуємо наш потік даних пошуку до файлу та виведемо файл із відповідними результатами в новому файлі в розташуванні Amazon S3.
Підготовка підказки
Після того як ми створимо базу знань із нашого PDF-файлу, ми можемо протестувати його, виконавши пошук у базі знань за кількома зразками запитів. Ми оброблятимемо кожен запит наступним чином:
- Створити вбудовування для запиту (за технологією Amazon Bedrock)
- Векторна база даних запитів для контексту найближчого сусіда (на основі Amazon OpenSearch)
- Об’єднайте запит і контекст у підказку.
- Запит LLM із підказкою (на основі Amazon Bedrock)
- Виберіть на домашній сторінці SageMaker Canvas Підготовка даних.
- Вибирати Створювати у правій частині сторінки, потім введіть назву потоку даних і виберіть Створювати.
Тепер давайте завантажимо запитання користувача, а потім створимо підказку, поєднавши питання та подібні документи. Ця підказка надається LLM для генерації відповіді на запитання користувача.
- Давайте завантажимо файл csv із запитаннями користувача. Виберіть Імпортувати дані і виберіть Табличний з розкривного списку.
- Джерело даних, і виберіть Amazon S3 зі спадного списку. Крім того, ви можете завантажити файл із запитами користувача.
- Давайте додамо спеціальну трансформацію для перетворення даних у векторні вбудовування з подальшим пошуком пов’язаних вбудовувань із Amazon OpenSearch, перш ніж надсилати підказку в Amazon Bedrock із запитом і контекстом із бази знань. Щоб створити вбудовування для запиту, ви можете використати той самий приклад фрагмента коду Створіть вбудований текст за допомогою Bedrock згаданий у кроці №7 вище.
Давайте викличемо API Amazon OpenSearch для пошуку релевантних документів для згенерованих вбудованих векторів. Додайте спеціальне перетворення за допомогою Python (PySpark).
Давайте додамо настроюване перетворення для виклику API Amazon Bedrock для відповіді на запит, передаючи документи з бази знань Amazon OpenSearch. Зі зразків фрагментів коду перегляньте та виберіть Запит Bedrock із контекстом. Внесіть необхідні зміни у фрагмент коду та виберіть Додати.
Підсумовуючи, потік даних відповідей на запитання на основі RAG виглядає наступним чином:
Практикуючі ML витрачають багато часу на розробку інженерного коду функцій, застосування його до початкових наборів даних, навчання моделей на створених наборах даних та оцінку точності моделей. Враховуючи експериментальний характер цієї роботи, навіть найменший проект призводить до кількох ітерацій. Той самий інженерний код функції часто запускається знову і знову, витрачаючи час і обчислювальні ресурси на повторення тих самих операцій. У великих організаціях це може спричинити ще більшу втрату продуктивності, оскільки різні команди часто виконують ідентичні завдання або навіть пишуть дублікат коду розробки функцій, оскільки вони не знають попередньої роботи. Щоб уникнути повторної обробки функцій, ми експортуємо наш потік даних на Amazon Конвеєр SageMaker. Виберемо кнопка + праворуч від запиту. Виберіть експорт потоку даних і виберіть Запустіть SageMaker Pipeline (через блокнот Jupyter).
Очищення
Щоб уникнути майбутніх витрат, видаліть або закрийте ресурси, які ви створили під час перегляду цієї публікації. Відноситься до Вихід із Amazon SageMaker Canvas для більш докладної інформації.
Висновок
У цій публікації ми показали вам наскрізні можливості Amazon SageMaker Canvas, взявши на себе роль спеціаліста з обробки даних, який готує дані для LLM. Інтерактивна підготовка даних дозволила швидко очищати, трансформувати та аналізувати дані для створення інформативних функцій. Усунувши складність кодування, SageMaker Canvas дозволив швидку ітерацію для створення високоякісного навчального набору даних. Цей прискорений робочий процес привів безпосередньо до створення, навчання та розгортання продуктивної моделі машинного навчання для впливу на бізнес. Завдяки всебічній підготовці даних і уніфікованому досвіду від даних до розуміння, SageMaker Canvas дає користувачам змогу покращити результати ML.
Ми радимо вам дізнатися більше, досліджуючи Amazon SageMaker Data Wrangler, Canvas Amazon SageMaker, Амазонський титан моделі, Amazon Bedrockта Amazon Сервіс OpenSearch створити рішення, використовуючи приклад реалізації, наведений у цій публікації, і набір даних, що стосується вашого бізнесу. Якщо у вас є запитання чи пропозиції, залиште коментар.
Про авторів
Аджай Говіндарам є старшим архітектором рішень в AWS. Він працює зі стратегічними клієнтами, які використовують AI/ML для вирішення складних бізнес-завдань. Його досвід полягає в наданні технічного керівництва, а також у допомозі в розробці скромних і великомасштабних розгортань програм AI/ML. Його знання варіюються від архітектури додатків до великих даних, аналітики та машинного навчання. Йому подобається слухати музику під час відпочинку, гуляти на природі та проводити час зі своїми близькими.
Микита Івкін є старшим науковим співробітником Amazon SageMaker Data Wrangler, який цікавиться машинним навчанням і алгоритмами очищення даних.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/simplify-data-prep-for-gen-ai-with-amazon-sagemaker-data-wrangler/
- : має
- :є
- : ні
- 100
- 14
- 20
- 25
- 28
- 50
- 7
- 8
- 804
- a
- Здатний
- МЕНЮ
- вище
- прискорювати
- прискорений
- доступ
- За
- Рахунки
- точність
- додавати
- Додатковий
- Прийняття
- аванси
- Перевага
- Переваги
- після
- знову
- сукупність
- попереду
- AI
- AI / ML
- алгоритми
- Вирівнює
- ВСІ
- дозволено
- Також
- Amazon
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Web Services
- суми
- an
- Аналіз
- аналітика
- Аналізуючи
- та
- відповідь
- будь-який
- API
- додаток
- прикладної
- Застосування
- архітектура
- ЕСТЬ
- штучний
- штучний інтелект
- AS
- Допомога
- At
- приєднувати
- аудіо
- збільшено
- доступний
- уникнути
- AWS
- база
- заснований
- BE
- оскільки
- стає
- було
- перед тим
- буття
- Краще
- упереджений
- Великий
- Великий даних
- будувати
- Створюємо
- вбудований
- бізнес
- підприємства
- button
- by
- call
- CAN
- полотно
- можливості
- випадок
- Викликати
- Зміни
- вантажі
- Вибирати
- очистити
- Очищення
- код
- Кодування
- об'єднання
- коментар
- Компанії
- порівняний
- конкурентоспроможний
- повний
- комплекс
- складності
- осягнути
- всеосяжний
- обчислення
- Вважати
- Консоль
- містити
- містить
- зміст
- зміст
- контекст
- контексти
- триває
- контроль
- конвертувати
- Відповідний
- може
- обкладинка
- створювати
- створений
- критичний
- виготовлений на замовлення
- клієнт
- Контакти
- Клієнти
- дані
- Підготовка даних
- Database
- набори даних
- deloitte
- продемонстрований
- розгортання
- розгортання
- дизайн
- деталі
- розвивається
- різний
- важкий
- Розмір
- напрям
- безпосередньо
- відкрити
- do
- документ
- документація
- документація
- домен
- домени
- вниз
- під час
- e
- кожен
- легко
- фактично
- ефективний
- продуктивно
- повідомлення електронної пошти
- вбудовування
- повноваження
- включений
- дозволяє
- заохочувати
- кінець в кінець
- інженер
- інженерії
- Машинобудування
- оцінки
- Навіть
- приклад
- існує
- досвід
- зазнають
- експериментальний
- дослідити
- Дослідження
- експорт
- витяг
- особливість
- риси
- кілька
- Поля
- філе
- фільтрувати
- остаточний
- знайти
- потік
- потім
- після
- слідує
- для
- Forbes
- фонд
- Підвалини
- Безкоштовна
- від
- Повний
- Функції
- далі
- майбутнє
- Отримувати
- породжувати
- генерується
- породжує
- покоління
- генеративний
- Генеративний ШІ
- отримати
- Давати
- даний
- Глобальний
- Go
- мета
- добре
- великий
- Мати
- he
- Заголовки
- високоякісний
- його
- тримає
- Головна
- Як
- How To
- Однак
- HTML
- HTTPS
- i
- однаковий
- if
- зображень
- Impact
- реалізація
- імпорт
- важливо
- вражаючий
- удосконалювати
- in
- includes
- індекс
- індексований
- інформація
- інформативний
- початковий
- розуміння
- інструкції
- інтеграція
- Інтелект
- інтерактивний
- інтереси
- інтерфейс
- інтернет
- в
- залучати
- IT
- ітерація
- ітерації
- ЙОГО
- Джобс
- JPG
- json
- знання
- земля
- мова
- великий
- масштабний
- запуск
- Веде за собою
- УЧИТЬСЯ
- вивчення
- Залишати
- Led
- використання
- лежить
- як
- список
- Прослуховування
- LLM
- загрузка
- розташування
- місць
- від
- серія
- улюблене
- низький
- машина
- навчання за допомогою машини
- головний
- зробити
- РОБОТИ
- маска
- масивний
- майстер
- Може..
- механізми
- Медіа
- Меню
- Meta
- метадані
- ML
- модель
- Моделі
- скромний
- більше
- найбільш
- множинний
- музика
- ім'я
- Природний
- Обробка природних мов
- природа
- навігація
- необхідно
- Необхідність
- Нові
- наступний
- немає
- ноутбук
- зараз
- of
- часто
- on
- один раз
- ті,
- тільки
- операції
- варіант
- or
- організація
- організації
- Інше
- наші
- з
- Результати
- на відкритому повітрі
- вихід
- над
- сторінка
- панди
- pane
- Проходження
- Пароль
- продуктивність
- персонал
- вибирати
- частина
- частин
- трубопровід
- plato
- Інформація про дані Платона
- PlatoData
- будь ласка
- плюс
- точка
- Політика
- пошта
- потенціал
- Харчування
- переважним
- підготовка
- Готувати
- підготовка
- попередній
- ймовірно
- Проблема
- проблеми
- продовжити
- процес
- обробка
- Production
- продуктивність
- професійний
- проект
- властивості
- за умови
- забезпечує
- забезпечення
- Python
- запити
- питання
- питань
- швидко
- діапазони
- швидко
- рейтинги
- досягати
- Читати
- Реальний світ
- отримано
- послатися
- пов'язаний
- доречний
- видалення
- Повідомляється
- запитів
- вимагати
- Вимагається
- ресурси
- відповідь
- відповіді
- відпочиваючи
- результати
- повертати
- Відгуки
- право
- Роль
- прогін
- мудрець
- то ж
- зберегти
- вчений
- Пошук
- Грати короля карти - безкоштовно Nijumi логічна гра гри
- розділ
- бачив
- вибрати
- відправка
- старший
- чутливий
- обслуговування
- Послуги
- налаштування
- Повинен
- Показувати
- показав
- закрити
- Вимикати
- сторона
- підпис
- значний
- аналогічний
- простота
- спростити
- Розмір
- уривок
- So
- соціальна
- соціальні медіа
- рішення
- Рішення
- ВИРІШИТИ
- деякі
- Source
- Джерела
- конкретний
- конкретно
- витрачати
- Витрати
- Стажування
- етапи
- Крок
- заходи
- Як і раніше
- Стратегічний
- структурований
- РЕЗЮМЕ
- Опори
- Огляд
- Приймати
- команди
- технічний
- методи
- тест
- текст
- Що
- Команда
- Майбутнє
- їх
- Їх
- потім
- Там.
- Ці
- вони
- це
- Таким чином
- час
- велетень
- до
- сьогодні
- інструменти
- Навчання
- Перетворення
- Перетворення
- перетворень
- перетворення
- правда
- усічення
- тип
- Типи
- єдиний
- us
- використання
- використовуваний
- користувач
- користувачі
- використання
- Цінний
- через
- Відео
- візуальний
- покрокове керівництво
- we
- Web
- веб-сервіси
- ДОБРЕ
- який
- в той час як
- ВООЗ
- волі
- з
- Work
- робочий
- працює
- б
- запис
- Ти
- вашу
- зефірнет