Цю публікацію було написано спільно з Ентоні Медейросом, менеджером із розробки рішень та архітектури штучного інтелекту в Північній Америці, та Блейком Санчі, менеджером з бізнес-аналітики Schneider Electric. Серед інших експертів Schneider Electric – Джессі Міллер, Сомік Чоудхурі, Шасват Бабхулгаонкар, Девід Воткінс, Марк Карлсон і Барбара Слечковскі.
Системи планування ресурсів підприємства (ERP) використовуються компаніями для керування декількома бізнес-функціями, такими як бухгалтерський облік, продажі або керування замовленнями в одній системі. Зокрема, вони регулярно використовуються для зберігання інформації, пов’язаної з обліковими записами клієнтів. Різні організації всередині компанії можуть використовувати різні системи ERP, і їх об’єднання є складною технічною проблемою в масштабі, яка потребує знань у певній галузі.
Schneider Electric є лідером у цифровій трансформації енергоменеджменту та промислової автоматизації. Щоб якнайкраще задовольнити потреби клієнтів, Schneider Electric має відстежувати зв’язки між пов’язаними обліковими записами клієнтів у своїх системах ERP. Оскільки їх клієнтська база зростає, нові клієнти додаються щодня, і їхнім командам облікових записів доводиться вручну сортувати цих нових клієнтів і пов’язувати їх із належною материнською організацією.
Рішення про пов’язування ґрунтується на найновішій публічно доступній інформації в Інтернеті чи ЗМІ, і на нього можуть вплинути нещодавні придбання, ринкові новини чи реструктуризація підрозділу. Прикладом зв’язування облікових записів може бути визначення зв’язку між Amazon та його дочірньою компанією Whole Foods Market [джерело].
Schneider Electric розгортає великі мовні моделі для відповідей на запитання в різних областях знань, тому дата навчання моделі обмежує її знання. Вони вирішили цю проблему, використовуючи велику мовну модель Retriever-Augmented Generation з відкритим кодом, доступну на Amazon SageMaker JumpStart для обробки великих обсягів зовнішніх знань і демонстрації корпоративних або громадських зв’язків серед записів ERP.
На початку 2023 року, коли Schneider Electric вирішила автоматизувати частину процесу зв’язування облікових записів за допомогою штучного інтелекту (AI), компанія співпрацювала з AWS Machine Learning Solutions Lab (MLSL). Завдяки досвіду MLSL у консультуванні та виконанні ML компанія Schneider Electric змогла розробити архітектуру штучного інтелекту, яка зменшила б кількість ручних зусиль у їхніх робочих процесах зв’язування та забезпечила швидший доступ до даних для їхніх подальших аналітичних команд.
Генеративний ШІ
Генеративний штучний інтелект і великі мовні моделі (LLM) змінюють спосіб, у який бізнес-організації можуть вирішувати традиційно складні завдання, пов’язані з обробкою та розумінням природної мови. Деякі з переваг, які пропонують LLM, включають здатність розуміти великі частини тексту та відповідати на відповідні запитання, виробляючи відповіді, подібні до людини. AWS дозволяє клієнтам легко експериментувати та створювати робочі навантаження LLM, надаючи багато опцій через Amazon SageMaker JumpStart, Amazon Bedrock та Амазонський титан.
Отримання зовнішніх знань
LLM відомі своєю здатністю стискати людські знання та продемонстрували надзвичайні здібності у відповідях на запитання в різних сферах знань, але їхні знання обмежені датою навчання моделі. Ми вирішуємо це обмеження інформації, поєднуючи LLM з Google Search API, щоб створити потужний Retrieval Augmented LLM (RAG), який відповідає на виклики Schneider Electric. RAG здатний обробляти великі обсяги зовнішніх даних, отриманих із пошуку Google, і демонструвати корпоративні чи суспільні відносини серед записів ERP.
Дивіться наступний приклад:
Питання: Хто є материнською компанією One Medical?
Google запит: «Одна медична материнська компанія» → інформація → LLM
Відповідь: One Medical, дочірня компанія Amazon…
Попередній приклад (узятий із бази даних клієнтів Schneider Electric) стосується придбання, яке відбулося в лютому 2023 року і, таким чином, не буде помічено лише LLM через обмеження знань. Доповнення LLM пошуком Google гарантує найновішу інформацію.
Модель Флан-Т5
У цьому проекті ми використовували модель Flan-T5-XXL від Флан-Т5 сімейство моделей.
Моделі Flan-T5 налаштовані на інструкції і, отже, здатні виконувати різноманітні завдання NLP з нульовим ударом. У нашому наступному завданні не було потреби враховувати величезну кількість світових знань, а скоріше було добре працювати з відповідями на запитання з огляду на контекст текстів, наданих у результатах пошуку, і тому модель 11B параметрів T5 показала хороші результати.
JumpStart забезпечує зручне розгортання цього сімейства моделей Студія Amazon SageMaker і SageMaker SDK. Це включає в себе Flan-T5 Small, Flan-T5 Base, Flan-T5 Large, Flan-T5 XL і Flan-T5 XXL. Крім того, JumpStart пропонує кілька версій Flan-T5 XXL з різними рівнями квантування. Ми розгорнули Flan-T5-XXL на кінцевій точці для використання висновків Amazon SageMaker Studio Jumpstart.
Отримання доповненого LLM з LangChain
LangChain це популярна і швидкозростаюча структура, що дозволяє розробляти програми на базі LLM. В його основі лежить концепція ланцюга, які є комбінаціями різних компонентів, призначених для покращення функціональності LLM для певного завдання. Наприклад, це дозволяє нам налаштовувати підказок і інтегрувати LLM з різними інструментами, такими як зовнішні пошукові системи або джерела даних. У нашому випадку використання ми використовували Google Серпер компонент для пошуку в Інтернеті та розгорнув модель Flan-T5-XXL, доступну на Amazon SageMaker Studio Jumpstart. LangChain виконує загальну оркестровку та дозволяє завантажувати сторінки результатів пошуку в примірник Flan-T5-XXL.
Генерація з доповненим пошуком (RAG) складається з двох етапів:
- Пошук відповідних фрагментів тексту із зовнішніх джерел
- Збільшення фрагментів із контекстом у підказці, наданій LLM.
Для випадку використання Schneider Electric RAG виконується таким чином:
- Вказана назва компанії поєднується із запитанням на кшталт «Хто є материнською компанією X», де X — дана компанія) і передається в запит Google за допомогою Serper AI
- Отримана інформація поєднується з підказкою та оригінальним запитанням і передається LLM для відповіді.
Наступна діаграма ілюструє цей процес.
Використовуйте такий код, щоб створити кінцеву точку:
Інструмент пошуку екземплярів:
У наступному коді ми об’єднуємо компоненти пошуку та доповнення:
Оперативна техніка
Поєднання контексту й питання називається підказкою. Ми помітили, що загальна підказка, яку ми використовували (варіанти щодо запиту про материнську компанію), показала хороші результати для більшості державних секторів (доменів), але не була добре узагальнена для освіти чи охорони здоров’я, оскільки поняття материнської компанії там не має сенсу. Для освіти ми використали «X», а для охорони здоров’я — «Y».
Щоб увімкнути цей підказковий вибір для конкретного домену, нам також потрібно було визначити домен, до якого належить обліковий запис. Для цього ми також використали RAG, де запитання з кількома варіантами відповідей «Що таке домен {account}?» як перший крок, і на основі відповіді, яку ми запитали у батьківського облікового запису, використовуючи відповідну підказку як другий крок. Перегляньте наступний код:
Підказки для окремих секторів підвищили загальну продуктивність з 55% до 71% точності. Загалом зусилля та час, витрачені на розробку, виявилися ефективними підказок значно покращує якість відповіді LLM.
RAG з табличними даними (SEC-10k)
Заявки SEC 10K є ще одним надійним джерелом інформації для дочірніх компаній і підрозділів, яку щорічно подають публічні компанії. Ці документи доступні безпосередньо на SEC Едгар Або через CorpWatch API.
Ми припускаємо, що інформація подана у вигляді таблиці. Нижче наведено псевдо CSV набір даних, який імітує вихідний формат набору даних SEC-10K. Можливе об’єднання кількох CSV джерела даних у об’єднаний фрейм даних pandas:
# A pseudo dataset similar by schema to the CorpWatch API dataset
df.head()
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/schneider-electric-leverages-retrieval-augmented-llms-on-sagemaker-to-ensure-real-time-updates-in-their-erp-systems/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 10
- 100
- 10K
- 11
- 15 роки
- 15%
- 160
- 17
- 2023
- 7
- 710
- a
- здатність
- Здатний
- МЕНЮ
- вище
- абстракція
- прискорювати
- доступ
- розмістити
- рахунки
- бухгалтерський облік
- Рахунки
- точність
- точний
- придбання
- поглинань
- через
- дію
- доданий
- доповнення
- Додатковий
- адреса
- адресований
- адреси
- Переваги
- постраждалих
- Агент
- AI
- AI / ML
- Дозволити
- дозволяє
- тільки
- Також
- Amazon
- Амазонське машинне навчання
- Amazon SageMaker
- Amazon SageMaker JumpStart
- Amazon Web Services
- Америка
- серед
- кількість
- суми
- an
- аналітика
- та
- Щорічно
- Інший
- відповідь
- Ентоні
- API
- з'являтися
- застосування
- прикладної
- Застосування
- архітектура
- ЕСТЬ
- навколо
- штучний
- штучний інтелект
- Штучний інтелект (AI)
- AS
- запитати
- запитувач
- припустити
- At
- збільшення
- збільшено
- автоматизувати
- Автоматизація
- доступний
- доступний безпосередньо
- AWS
- AWS Машинне навчання
- Banking
- база
- заснований
- BE
- було
- перед тим
- належить
- нижче
- Переваги
- КРАЩЕ
- між
- блоки
- Підвищений
- Приносить
- будувати
- Створюємо
- бізнес
- господарська діяльність
- бізнес-аналітика
- але
- by
- званий
- CAN
- можливості
- здатний
- Карлсон
- спійманий
- ланцюг
- виклик
- проблеми
- вибір
- Місто
- Класифікувати
- CNBC
- код
- Колонка
- поєднання
- комбінації
- комбінований
- Компанії
- компанія
- комплекс
- компонент
- Компоненти
- осягнути
- концепція
- Турбота
- складається
- консалтинг
- споживач
- контекст
- Зручний
- Корпоративний
- створювати
- Створити цінність
- клієнт
- Клієнти
- щодня
- дані
- доступ до даних
- керовані даними
- Database
- набори даних
- Дата
- Девід
- вирішене
- рішення
- доставляти
- надання
- продемонстрований
- розгорнути
- розгортання
- розгортання
- дизайн
- призначений
- деталь
- докладно
- розвивати
- розвивається
- розробка
- різний
- цифровий
- цифрове перетворення
- безпосередньо
- do
- документ
- домен
- домени
- два
- Рано
- легко
- Освіта
- зусилля
- електричний
- включіть
- Кінцева точка
- енергія
- Машинобудування
- Двигуни
- забезпечувати
- вхід
- підприємств
- суб'єкта
- ERP
- приклад
- виконання
- проявляти
- досвід
- експеримент
- експертиза
- experts
- продовжити
- зовнішній
- Exxon Mobil
- сім'я
- ШВИДКО
- швидше
- лютого
- Fed
- кілька
- подано
- тирсу
- остаточний
- знайти
- Перший
- Сфокусувати
- увагу
- після
- слідує
- продукти
- для
- формат
- Рамки
- від
- функціональність
- Функції
- далі
- Крім того
- ГАЗ
- покоління
- генеративний
- Генеративний ШІ
- даний
- Глобальний
- Google Пошук
- графіки
- Зростання
- Зростає
- гарантії
- було
- сталося
- Мати
- he
- охорона здоров'я
- допомагає
- її
- вище
- його
- Як
- HTML
- HTTP
- HTTPS
- людина
- i
- Ідентифікація
- ідентифікувати
- ілюструє
- удосконалювати
- поліпшення
- in
- включати
- includes
- інкубатор
- промислові
- промисловість
- інформація
- початковий
- ініціативи
- вхід
- розуміння
- екземпляр
- інтегрувати
- Інтелект
- взаємодіяти
- інтереси
- інтернет
- в
- інвестицій
- IT
- ЙОГО
- Джошуа
- JPG
- тримати
- ключ
- Знати
- знання
- відомий
- lab
- мова
- великий
- шар
- лідер
- провідний
- вивчення
- рівні
- важелі
- оподаткування
- як
- обмеженою
- обмежуючий
- LINK
- Зв'язуючий
- зв'язку
- LLM
- машина
- навчання за допомогою машини
- підтримувати
- РОБОТИ
- Робить
- управляти
- управління
- менеджер
- керівництво
- вручну
- багато
- позначити
- ринок
- Новини ринку
- значущим
- Медіа
- медичний
- медичні дані
- Злиття
- злиття
- методика
- може бути
- Мельник
- ML
- модель
- Моделі
- більше
- найбільш
- множинний
- ім'я
- іменування
- Природний
- Обробка природних мов
- Необхідність
- потреби
- Нові
- Нью-Йорк
- Нью-Йорк
- новини
- nlp
- немає
- На північ
- Північна Америка
- поняття
- зараз
- спостереження
- of
- запропонований
- Нафта
- Нафта і газ
- on
- ONE
- Один медичний
- відкрити
- з відкритим вихідним кодом
- Опції
- or
- оркестровка
- порядок
- організація
- організаційної
- організації
- оригінал
- Інше
- наші
- з
- вихід
- загальний
- власний
- сторінок
- панди
- параметри
- материнська компанія
- частина
- приватність
- партнерська
- Пройшов
- пристрасний
- шлях
- Виконувати
- продуктивність
- виконується
- виконанні
- виступає
- Pharma
- Вчений ступінь
- трубопровід
- планування
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- це можливо
- пошта
- Харчування
- потужний
- раніше
- Головний
- проблеми
- надходження
- процес
- обробка
- виробництво
- проект
- правильний
- за умови
- забезпечує
- громадськість
- публічно
- якість
- питання
- питань
- швидше
- реального часу
- останній
- облік
- зменшити
- пов'язаний
- відносини
- Відносини
- доречний
- надійний
- чудовий
- Вимагається
- дослідження
- дослідник
- ресурс
- відповідь
- відповіді
- результат
- результати
- повертати
- міцний
- звичайно
- ROW
- прогін
- мудрець
- продажів
- шкала
- Schneider Electric
- наука
- вчений
- Sdk
- Пошук
- Пошукові системи
- SEC
- другий
- сектор
- Сектори
- безпечний
- побачити
- вибір
- старший
- служити
- Послуги
- кілька
- вона
- істотно
- аналогічний
- з
- невеликий
- рішення
- Рішення
- ВИРІШИТИ
- деякі
- Source
- Джерела
- спеціалізується
- конкретний
- Спін
- крутився
- впроваджений
- статистичний
- Крок
- заходи
- зберігати
- структур
- студія
- підрозділи
- допоміжний
- такі
- Підтримуючий
- система
- Systems
- прийняті
- Завдання
- завдання
- команда
- команди
- технічний
- текст
- ніж
- Що
- Команда
- інформація
- їх
- Їх
- теоретичний
- Там.
- отже
- Ці
- вони
- це
- думка
- через
- Таким чином
- час
- до
- разом
- інструмент
- інструменти
- топ
- трек
- торгував
- традиційно
- навчений
- Перетворення
- перетворення
- заслуговуючий довіри
- Сіпатися
- два
- розкрити
- розуміння
- відімкнути
- відповідний сучасним вимогам
- Updates
- us
- використання
- використовуваний
- використання
- значення
- різний
- величезний
- версії
- вертикалі
- через
- було
- шлях..
- способи
- we
- Багатство
- Web
- веб-сервіси
- ДОБРЕ
- Що
- Що таке
- коли
- який
- в той час як
- ВООЗ
- всі
- волі
- з
- в
- робочий
- Робочі процеси
- працює
- світ
- б
- X
- років
- йорк
- Ти
- зефірнет