Этот пост был написан в соавторстве с Энтони Медейросом, менеджером по разработке решений и архитектуре для искусственного интеллекта в Северной Америке, и Блейком Санчи, менеджером по бизнес-аналитике из Schneider Electric. Среди других экспертов Schneider Electric — Джесси Миллер, Сомик Чоудхури, Шасват Бабхулгаонкар, Дэвид Уоткинс, Марк Карлсон и Барбара Слечковски.
Системы планирования ресурсов предприятия (ERP) используются компаниями для управления несколькими бизнес-функциями, такими как учет, продажи или управление заказами, в одной системе. В частности, они обычно используются для хранения информации, связанной со счетами клиентов. Разные организации внутри компании могут использовать разные системы ERP, и их объединение представляет собой сложную техническую задачу в масштабе, требующую знаний в конкретной области.
Schneider Electric — лидер в области цифровой трансформации энергоменеджмента и промышленной автоматизации. Чтобы наилучшим образом удовлетворять потребности своих клиентов, Schneider Electric необходимо отслеживать связи между учетными записями связанных клиентов в своих ERP-системах. По мере роста клиентской базы ежедневно добавляются новые клиенты, и их командам по работе с клиентами приходится вручную сортировать этих новых клиентов и связывать их с соответствующей родительской организацией.
Решение о связывании основывается на самой последней информации, доступной публично в Интернете или средствах массовой информации, и на него могут повлиять недавние приобретения, новости рынка или реструктуризация подразделения. Примером связывания учетных записей может быть определение отношений между Amazon и ее дочерней компанией Whole Foods Market [источник].
Schneider Electric развертывает большие языковые модели из-за их возможностей отвечать на вопросы в различных областях знаний, но дата обучения модели ограничивает ее знания. Они решили эту проблему, используя модель большого языка с открытым исходным кодом Retriever-Augmented Generation, доступную на Amazon SageMaker JumpStart обрабатывать большие объемы внешних знаний и демонстрировать корпоративные или общественные связи между записями ERP.
В начале 2023 года, когда Schneider Electric решила автоматизировать часть процесса связывания своих учетных записей с помощью искусственного интеллекта (ИИ), компания стала партнером Лаборатории решений машинного обучения AWS (MLSL). Благодаря опыту MLSL в консультировании и реализации машинного обучения компания Schneider Electric смогла разработать архитектуру искусственного интеллекта, которая позволила бы сократить ручной труд при объединении рабочих процессов и обеспечить более быстрый доступ к данным для своих последующих аналитических групп.
Генеративный ИИ
Генеративный искусственный интеллект и модели большого языка (LLM) меняют способы решения бизнес-организациями традиционно сложных задач, связанных с обработкой и пониманием естественного языка. Некоторые из преимуществ, предлагаемых LLM, включают способность понимать большие части текста и отвечать на связанные вопросы, давая ответы, подобные человеческим. AWS упрощает для клиентов экспериментирование и реализацию рабочих нагрузок LLM, предоставляя множество опций через Amazon SageMaker JumpStart, Коренная порода Амазонкии Амазонка Титан.
Приобретение внешних знаний
LLM известны своей способностью сжимать человеческие знания и продемонстрировали замечательные способности отвечать на вопросы в различных областях знаний, но их знания ограничены датой обучения модели. Мы устраняем эту проблему отсутствия информации, объединяя LLM с API поиска Google, чтобы создать мощный LLM с расширенным поиском (RAG), который решает проблемы Schneider Electric. RAG может обрабатывать большие объемы внешних знаний, полученных из поиска Google, и отображать корпоративные или общественные связи между записями ERP.
Смотрите следующий пример:
Вопрос: Кто является материнской компанией One Medical?
Запрос Google: «Единая медицинская материнская компания» → информация → LLM
Ответ: One Medical, дочерняя компания Amazon…
Предыдущий пример (взятый из базы данных клиентов Schneider Electric) касается приобретения, которое произошло в феврале 2023 года и, следовательно, не может быть раскрыто только LLM из-за отсутствия знаний. Дополнение LLM поиском Google гарантирует получение самой актуальной информации.
Модель Флан-Т5
В этом проекте мы использовали модель Flan-T5-XXL от производителя. Флан-Т5 семейство моделей.
Модели Flan-T5 настраиваются с помощью инструкций и поэтому способны выполнять различные задачи НЛП с нулевым результатом. В нашей последующей задаче не было необходимости использовать огромный объем мировых знаний, а скорее нужно было хорошо отвечать на вопросы в контексте текстов, предоставленных в результатах поиска, и, следовательно, модель T11 с параметрами 5B работала хорошо.
JumpStart обеспечивает удобное развертывание этого семейства моделей через Студия Amazon SageMaker и SDK SageMaker. Сюда входят Flan-T5 Small, Flan-T5 Base, Flan-T5 Large, Flan-T5 XL и Flan-T5 XXL. Кроме того, JumpStart предоставляет несколько версий Flan-T5 XXL с разными уровнями квантования. Мы развернули Flan-T5-XXL на конечной точке для вывода, используя Запуск Amazon SageMaker Studio.
Поиск расширенного LLM с LangChain
Лангчейн — это популярная и быстрорастущая среда, позволяющая разрабатывать приложения на основе LLM. В его основе лежит концепция цепи, которые представляют собой комбинации различных компонентов, предназначенных для улучшения функциональности LLM для конкретной задачи. Например, это позволяет нам настраивать наводящие и интегрировать LLM с различными инструментами, такими как внешние поисковые системы или источники данных. В нашем случае мы использовали Google Серпер компонент для поиска в Интернете и внедрил модель Flan-T5-XXL, доступную на Запуск Amazon SageMaker Studio. LangChain выполняет общую оркестрацию и позволяет передавать страницы результатов поиска в экземпляр Flan-T5-XXL.
Генерация с расширенным поиском (RAG) состоит из двух этапов:
- поиск соответствующих фрагментов текста из внешних источников
- увеличение фрагментов с контекстом в подсказке, переданной LLM.
В случае использования Schneider Electric RAG действует следующим образом:
- Данное название компании объединяется с вопросом типа «Кто является материнской компанией X», где X — данная компания) и передается в запрос Google с использованием Serper AI.
- Извлеченная информация объединяется с подсказкой и оригинальным вопросом и передается LLM для ответа.
Следующая диаграмма иллюстрирует этот процесс.
Используйте следующий код для создания конечной точки:
Инструмент мгновенного поиска:
В следующем коде мы объединяем компоненты поиска и дополнения:
Оперативное проектирование
Сочетание контекста и вопроса называется подсказкой. Мы заметили, что общий запрос, который мы использовали (варианты запроса материнской компании), хорошо работал для большинства государственных секторов (доменов), но не распространялся на образование или здравоохранение, поскольку понятие материнской компании там не имеет смысла. Для образования мы использовали «X», а для здравоохранения — «Y».
Чтобы включить этот выбор подсказки для конкретного домена, нам также пришлось определить домен, к которому принадлежит данная учетная запись. Для этого мы также использовали RAG, в котором вопрос с несколькими вариантами ответов «Какой домен у {account}?» в качестве первого шага и на основе ответа, который мы запросили у родителя учетной записи, используя соответствующее приглашение в качестве второго шага. См. следующий код:
Подсказки для конкретных секторов повысили общую производительность с 55% до 71% точности. В целом, усилия и время, затраченные на разработку эффективных наводящие по-видимому, значительно улучшают качество ответа LLM.
РЭГ с табличными данными (SEC-10k)
Отчеты SEC 10K являются еще одним надежным источником информации о дочерних компаниях и подразделениях, ежегодно подаваемых публичными компаниями. Эти документы доступны непосредственно в SEC. EDGAR Или через БодиВотч API.
Мы предполагаем, что информация представлена в табличном виде. Ниже приведен псевдо CSV набор данных, имитирующий исходный формат набора данных SEC-10K. Возможно объединение нескольких CSV источники данных в комбинированный фрейм данных pandas:
# A pseudo dataset similar by schema to the CorpWatch API dataset
df.head()
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/schneider-electric-leverages-retrieval-augmented-llms-on-sagemaker-to-ensure-real-time-updates-in-their-erp-systems/
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 10
- 100
- 10K
- 11
- 15 лет
- 15%
- 160
- 17
- 2023
- 7
- 710
- a
- способность
- в состоянии
- О нас
- выше
- абстракция
- ускорять
- доступ
- вмещать
- Учетная запись
- Бухгалтерский учет
- Учетные записи
- точность
- точный
- приобретение
- приобретения
- через
- Действие
- добавленный
- дополнение
- дополнительный
- адрес
- адресованный
- адреса
- Преимущества
- пострадавших
- Агент
- AI
- AI / ML
- Позволяющий
- позволяет
- в одиночестве
- причислены
- Amazon
- Амазонское машинное обучение
- Создатель мудреца Амазонки
- Amazon SageMaker JumpStart
- Amazon Web Services
- Америка
- среди
- количество
- суммы
- an
- аналитика
- и
- Ежегодно
- Другой
- ответ
- Энтони
- API
- появиться
- Приложения
- прикладной
- Применение
- архитектура
- МЫ
- около
- искусственный
- искусственный интеллект
- Искусственный интеллект (AI)
- AS
- спросить
- спрашивающий
- предполагать
- At
- увеличивать
- дополненная
- автоматизировать
- автоматизация
- доступен
- доступны напрямую
- AWS
- Машинное обучение AWS
- Банковское дело
- Использование темпера с изогнутым основанием
- основанный
- BE
- было
- до
- принадлежит
- ниже
- Преимущества
- ЛУЧШЕЕ
- между
- Блоки
- Повышенный
- Приносит
- строить
- Строительство
- бизнес
- хозяйственная деятельность
- бизнес-аналитика
- но
- by
- под названием
- CAN
- возможности
- способный
- Карлсон
- пойманный
- цепь
- вызов
- проблемы
- выбор
- Город
- классифицировать
- CNBC
- код
- Column
- сочетание
- комбинации
- сочетании
- Компании
- Компания
- комплекс
- компонент
- компоненты
- постигать
- сама концепция
- Обеспокоенность
- состоит
- консалтинг
- потребитель
- контекст
- Удобно
- Корпоративное
- Создайте
- Создать ценность
- клиент
- Клиенты
- ежедневно
- данным
- доступ к данным
- управляемых данными
- База данных
- Наборы данных
- Время
- Давид
- решенный
- решение
- доставить
- доставки
- убивают
- развернуть
- развертывание
- развертывание
- Проект
- предназначенный
- подробность
- подробный
- развивать
- развивающийся
- Развитие
- различный
- Интернет
- цифровое преобразование
- непосредственно
- do
- документ
- домен
- доменов
- два
- Рано
- легко
- Обучение
- усилие
- Электрический
- включить
- Конечная точка
- энергетика
- Проект и
- Двигатели
- обеспечивать
- входящий
- предприятий
- организация
- ERP
- пример
- выполнение
- проявлять
- опыт
- эксперимент
- опыта
- эксперты
- продлить
- и, что лучший способ
- Exxon Mobil
- семья
- БЫСТРО
- быстрее
- февраль
- ФРС
- несколько
- подано
- опилки
- окончательный
- Найдите
- Во-первых,
- Фокус
- внимание
- после
- следующим образом
- продукты
- Что касается
- формат
- Рамки
- от
- функциональность
- Функции
- далее
- Более того
- ГАЗ
- поколение
- генеративный
- Генеративный ИИ
- данный
- Глобальный
- Google Поиск
- Графики
- Рост
- Растет
- гарантии
- было
- произошло
- Есть
- he
- здравоохранение
- помогает
- ее
- высший
- его
- Как
- HTML
- HTTP
- HTTPS
- человек
- i
- Идентификация
- определения
- иллюстрирует
- улучшать
- улучшение
- in
- включают
- включает в себя
- инкубатор
- промышленность
- промышленность
- информация
- начальный
- инициативы
- вход
- размышления
- пример
- интегрировать
- Интеллекта
- взаимодействовать
- интересы
- Интернет
- в
- инвестиций
- IT
- ЕГО
- Джошуа
- JPG
- Сохранить
- Основные
- Знать
- знания
- известный
- лаборатория
- язык
- большой
- слой
- лидер
- ведущий
- изучение
- уровни
- рычаги
- сбор
- такое как
- Ограниченный
- ограничивающий
- LINK
- связывающий
- связи
- LLM
- машина
- обучение с помощью машины
- поддерживать
- ДЕЛАЕТ
- Создание
- управлять
- управление
- менеджер
- руководство
- вручную
- многих
- отметка
- рынок
- Новости рынка
- значимым
- Медиа
- основным медицинским
- медицинские данные
- идти
- объединение
- методы
- может быть
- мельник
- ML
- модель
- Модели
- БОЛЕЕ
- самых
- с разными
- имя
- именования
- натуральный
- Обработка естественного языка
- Необходимость
- потребности
- Новые
- New York
- Нью-Йорк
- Новости
- НЛП
- нет
- север
- Северная Америка
- понятие
- сейчас
- наблюдение
- of
- предложенный
- Масло
- Нефть и газ
- on
- ONE
- Один медицинский
- открытый
- с открытым исходным кодом
- Опции
- or
- оркестровка
- заказ
- организация
- организационной
- организации
- оригинал
- Другое
- наши
- внешний
- выходной
- общий
- собственный
- страниц
- панд
- параметры
- материнская компания
- часть
- особый
- партнерство
- Прошло
- страстный
- путь
- Выполнять
- производительность
- выполнены
- выполнения
- выполняет
- Фармацевтика
- кандидат наук
- трубопровод
- планирование
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Популярное
- возможное
- После
- Питание
- мощный
- предварительно
- Основной
- проблемам
- доходы
- процесс
- обработка
- производства
- Проект
- правильный
- при условии
- приводит
- что такое варган?
- публично
- вопрос
- Вопросы
- скорее
- реального времени
- последний
- учет
- уменьшить
- Связанный
- отношения
- Отношения
- соответствующие
- складская
- замечательный
- требуется
- исследованиям
- исследователь
- ресурс
- ответ
- ответы
- результат
- Итоги
- возвращают
- надежный
- обычно
- РЯД
- Run
- sagemaker
- главная
- Шкала
- Schneider Electric
- Наука
- Ученый
- SDK
- Поиск
- Поисковые системы
- SEC / КОМИССИЯ ПО ЦЕННЫМ БУМАГАМ И БИРЖАМ
- Во-вторых
- сектор
- Сектора юридического права
- безопасный
- посмотреть
- выбор
- старший
- служить
- Услуги
- несколько
- она
- существенно
- аналогичный
- с
- небольшой
- Решение
- Решения
- РЕШАТЬ
- некоторые
- Источник
- Источники
- специализируется
- конкретный
- Вращение
- вращаться
- современное состояние
- статистический
- Шаг
- Шаги
- магазин
- структур
- студия
- подразделения
- вспомогательный
- такие
- поддержки
- система
- системы
- приняты
- Сложность задачи
- задачи
- команда
- команды
- Технический
- текст
- чем
- который
- Ассоциация
- информация
- их
- Их
- теоретический
- Там.
- следовательно
- Эти
- они
- этой
- мысль
- Через
- Таким образом
- время
- в
- вместе
- инструментом
- инструменты
- топ
- трек
- торговал
- Традиционно
- специалистов
- трансформация
- превращение
- заслуживающий доверия
- Twitch
- два
- открывай
- понимание
- отпереть
- новейший
- Updates
- us
- использование
- используемый
- через
- ценностное
- различный
- Огромная
- версии
- вертикалей
- с помощью
- законопроект
- Путь..
- способы
- we
- Богатство
- Web
- веб-сервисы
- ЧТО Ж
- Что
- Что такое
- когда
- , которые
- в то время как
- КТО
- все
- будете
- в
- рабочий
- Рабочие процессы
- работает
- Мир
- бы
- X
- лет
- йорк
- Ты
- зефирнет