Det här inlägget skrevs tillsammans med Anthony Medeiros, Manager of Solutions Engineering and Architecture for North America Artificial Intelligence, och Blake Santschi, Business Intelligence Manager, från Schneider Electric. Ytterligare Schneider Electric-experter inkluderar Jesse Miller, Somik Chowdhury, Shaswat Babhulgaonkar, David Watkins, Mark Carlson och Barbara Sleczkowski.
Enterprise Resource Planning (ERP)-system används av företag för att hantera flera affärsfunktioner såsom redovisning, försäljning eller orderhantering i ett system. I synnerhet används de rutinmässigt för att lagra information relaterad till kundkonton. Olika organisationer inom ett företag kan använda olika affärssystem och att slå samman dem är en komplex teknisk utmaning i stor skala som kräver domänspecifik kunskap.
Schneider Electric är ledande inom digital transformation av energihantering och industriell automation. För att på bästa sätt tillgodose sina kunders behov behöver Schneider Electric hålla reda på länkarna mellan relaterade kunders konton i deras affärssystem. När deras kundbas växer, läggs nya kunder till dagligen, och deras kontoteam måste manuellt sortera igenom dessa nya kunder och länka dem till rätt överordnad enhet.
Länkningsbeslutet baseras på den senaste informationen tillgänglig offentligt på Internet eller i media, och kan påverkas av nyligen genomförda förvärv, marknadsnyheter eller omstrukturering av divisioner. Ett exempel på kontolänkning skulle vara att identifiera relationen mellan Amazon och dess dotterbolag, Whole Foods Market [källa].
Schneider Electric använder stora språkmodeller för sin förmåga att svara på frågor inom olika kunskapsspecifika domäner, det datum då modellen har tränats begränsar dess kunskap. De tog sig an den utmaningen genom att använda en Retriever-Augmented Generation stor språkmodell med öppen källkod tillgänglig på Amazon SageMaker JumpStart att bearbeta stora mängder extern kunskap som dras och uppvisa företags- eller offentliga relationer bland ERP-poster.
I början av 2023, när Schneider Electric bestämde sig för att automatisera en del av sin kontolänkningsprocess med hjälp av artificiell intelligens (AI), samarbetade företaget med AWS Machine Learning Solutions Lab (MLSL). Med MLSL:s expertis inom ML-konsultation och utförande kunde Schneider Electric utveckla en AI-arkitektur som skulle minska den manuella ansträngningen i deras länkningsarbetsflöden och ge snabbare dataåtkomst till deras nedströmsanalysteam.
Generativ AI
Generativ AI och stora språkmodeller (LLM) förändrar hur företagsorganisationer kan lösa traditionellt komplexa utmaningar relaterade till naturlig språkbehandling och förståelse. Några av fördelarna som erbjuds av LLMs inkluderar förmågan att förstå stora delar av text och svara på relaterade frågor genom att producera mänskliga svar. AWS gör det enkelt för kunder att experimentera med och producera LLM-arbetsbelastningar genom att göra många alternativ tillgängliga via Amazon SageMaker JumpStart, Amazonas berggrundoch Amazon Titan.
Extern kunskapsinhämtning
LLM:er är kända för sin förmåga att komprimera mänsklig kunskap och har visat anmärkningsvärda förmåga att svara på frågor inom olika kunskapsspecifika domäner, men deras kunskap är begränsad av det datum då modellen har tränats. Vi åtgärdar den informationsgränsen genom att koppla LLM med ett Google Search API för att leverera en kraftfull Retrieval Augmented LLM (RAG) som tar itu med Schneider Electrics utmaningar. RAG kan bearbeta stora mängder extern kunskap som hämtats från Google-sökningen och visa upp företags- eller offentliga relationer bland ERP-poster.
Se följande exempel:
Fråga: Vem är moderbolag till One Medical?
Google-fråga: "Ett medicinskt moderbolag" → information → LLM
Svar: One Medical, ett dotterbolag till Amazon...
Det föregående exemplet (hämtat från Schneider Electrics kunddatabas) gäller ett förvärv som skedde i februari 2023 och som således inte skulle fångas upp av LLM enbart på grund av kunskapsavbrott. Att utöka LLM med Google-sökning garanterar den mest uppdaterade informationen.
Flan-T5 modell
I det projektet använde vi Flan-T5-XXL-modellen från Flan-T5 familj av modeller.
Flan-T5-modellerna är instruktionsinställda och är därför kapabla att utföra olika zero-shot NLP-uppgifter. I vår nedströmsuppgift fanns det inget behov av att rymma en stor mängd världskunskap, utan snarare att prestera bra på frågesvar givet ett sammanhang av texter som tillhandahålls genom sökresultat, och därför fungerade 11B parametrar T5-modellen bra.
JumpStart tillhandahåller bekväm distribution av denna modellfamilj genom Amazon SageMaker Studio och SageMaker SDK. Detta inkluderar Flan-T5 Small, Flan-T5 Base, Flan-T5 Large, Flan-T5 XL och Flan-T5 XXL. Dessutom tillhandahåller JumpStart några versioner av Flan-T5 XXL på olika kvantiseringsnivåer. Vi distribuerade Flan-T5-XXL till en slutpunkt för slutledningsanvändning Amazon SageMaker Studio Jumpstart.
Retrieval Augmented LLM med LangChain
Langkedja är ett populärt och snabbt växande ramverk som tillåter utveckling av applikationer som drivs av LLM. Det bygger på konceptet kedjor, som är kombinationer av olika komponenter utformade för att förbättra funktionaliteten hos LLM för en given uppgift. Det låter oss till exempel anpassa prompter och integrera LLM med olika verktyg som externa sökmotorer eller datakällor. I vårt användningsfall använde vi Google Serper komponent för att söka på webben och distribuerade Flan-T5-XXL-modellen tillgänglig på Amazon SageMaker Studio Jumpstart. LangChain utför den övergripande orkestreringen och låter sökresultatsidorna matas in i Flan-T5-XXL-instansen.
Retrieval-Augmented Generation (RAG) består av två steg:
- hämtning relevanta textbitar från externa källor
- Ökning av bitarna med sammanhang i uppmaningen som ges till LLM.
För Schneider Electrics användningsfall går RAG tillväga enligt följande:
- Det givna företagsnamnet kombineras med en fråga som "Vem är moderbolaget till X", där X är det givna företaget) och skickas till en google-fråga med Serper AI
- Den extraherade informationen kombineras med den snabba och ursprungliga frågan och skickas till LLM för svar.
Följande diagram illustrerar denna process.
Använd följande kod för att skapa en slutpunkt:
Instant sökverktyg:
I följande kod kedjar vi samman komponenterna för hämtning och förstärkning:
The Prompt Engineering
Kombinationen av sammanhanget och frågan kallas prompten. Vi märkte att den allmänna uppmaningen vi använde (variationer kring att fråga efter moderbolaget) fungerade bra för de flesta offentliga sektorer (domäner) men inte generaliserade väl till utbildning eller sjukvård eftersom begreppet moderbolag inte är meningsfullt där. För utbildning använde vi "X" medan vi för sjukvård använde "Y".
För att aktivera detta domänspecifika promptval var vi också tvungna att identifiera den domän ett visst konto tillhör. För detta använde vi också en RAG där en flervalsfråga "Vad är domänen för {konto}?" som ett första steg, och baserat på svaret frågade vi föräldern till kontot med den relevanta uppmaningen som ett andra steg. Se följande kod:
De sektorspecifika uppmaningarna har ökat den totala prestandan från 55 % till 71 % av noggrannheten. Sammantaget ansträngning och tid som investeras för att utveckla effektiv prompter verkar avsevärt förbättra kvaliteten på LLM-svaret.
RAG med tabelldata (SEC-10k)
SEC 10K-anmälningarna är en annan tillförlitlig informationskälla för dotterbolag och underavdelningar som lämnas in årligen av ett börsnoterat företag. Dessa anmälningar är tillgängliga direkt på SEC Edgar eller genom Corpwatch API.
Vi antar att informationen ges i tabellformat. Nedan är en pseudo csv dataset som efterliknar originalformatet för SEC-10K-datauppsättningen. Det är möjligt att slå samman flera csv datakällor till en kombinerad pandas-dataram:
# A pseudo dataset similar by schema to the CorpWatch API dataset
df.head()
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/schneider-electric-leverages-retrieval-augmented-llms-on-sagemaker-to-ensure-real-time-updates-in-their-erp-systems/
- : har
- :är
- :inte
- :var
- $UPP
- 1
- 10
- 100
- 10K
- 11
- 15 år
- 15%
- 160
- 17
- 2023
- 7
- 710
- a
- förmåga
- Able
- Om Oss
- ovan
- abstraktion
- accelerera
- tillgång
- rymma
- Konto
- Redovisning
- konton
- noggrannhet
- exakt
- förvärv
- förvärv
- tvärs
- Handling
- lagt till
- Dessutom
- Annat
- adress
- adresserad
- adresser
- fördelar
- påverkas
- Recensioner
- AI
- AI / ML
- tillåta
- tillåter
- ensam
- också
- amason
- Amazon maskininlärning
- Amazon SageMaker
- Amazon SageMaker JumpStart
- Amazon Web Services
- amerika
- bland
- mängd
- mängder
- an
- analytics
- och
- Årligen
- Annan
- svara
- Anthony
- api
- visas
- tillämpningar
- tillämpas
- Tillämpa
- arkitektur
- ÄR
- runt
- konstgjord
- artificiell intelligens
- Konstgjord intelligens (AI)
- AS
- be
- be
- utgå ifrån
- At
- förstärka
- augmented
- automatisera
- Automation
- tillgänglig
- tillgänglig direkt
- AWS
- AWS maskininlärning
- Banking
- bas
- baserat
- BE
- varit
- innan
- tillhör
- nedan
- Fördelarna
- BÄST
- mellan
- Block
- ökat
- Bringar
- SLUTRESULTAT
- Byggnad
- företag
- affärsfunktioner
- business intelligence
- men
- by
- kallas
- KAN
- kapacitet
- kapabel
- Carlson
- fångas
- kedja
- utmanar
- utmaningar
- val
- Stad
- klassificera
- CNBC
- koda
- Kolumn
- kombination
- kombinationer
- kombinerad
- Företag
- företag
- komplex
- komponent
- komponenter
- förstå
- begrepp
- oro
- består
- rådgivning
- Konsumenten
- sammanhang
- Bekväm
- Företag
- skapa
- Skapa värde
- kund
- Kunder
- dagligen
- datum
- datatillgång
- data driven
- Databas
- datauppsättningar
- Datum
- David
- beslutade
- Beslutet
- leverera
- leverera
- demonstreras
- utplacerade
- utplacera
- utplacering
- Designa
- utformade
- detalj
- detaljerad
- utveckla
- utveckla
- Utveckling
- olika
- digital
- digital Transformation
- direkt
- do
- dokumentera
- domän
- domäner
- grund
- Tidig
- lätt
- Utbildning
- ansträngning
- elektriska
- möjliggöra
- Slutpunkt
- energi
- Teknik
- Motorer
- säkerställa
- in
- företag
- enhet
- ERP
- exempel
- utförande
- uppvisar
- erfarenhet
- experimentera
- expertis
- experter
- förlänga
- extern
- Exxon Mobil
- familj
- SNABB
- snabbare
- Februari
- Fed
- få
- in
- anmälningar
- slutlig
- hitta
- Förnamn
- Fokus
- fokuserade
- efter
- följer
- livsmedel
- För
- format
- Ramverk
- från
- funktionalitet
- funktioner
- ytterligare
- Vidare
- GAS
- generering
- generativ
- Generativ AI
- ges
- Välgörenhet
- Google Sök
- grafer
- Odling
- Växer
- garantier
- hade
- hänt
- Har
- he
- hälso-och sjukvård
- hjälper
- här
- högre
- hans
- Hur ser din drömresa ut
- html
- http
- HTTPS
- humant
- i
- Identifiering
- identifiera
- illustrerar
- förbättra
- förbättra
- in
- innefattar
- innefattar
- inkubator
- industriell
- industrin
- informationen
- inledande
- initiativ
- ingång
- insikter
- exempel
- integrera
- Intelligens
- interagera
- intressen
- Internet
- in
- investerat
- IT
- DESS
- joshua
- jpg
- Ha kvar
- Nyckel
- Vet
- kunskap
- känd
- lab
- språk
- Large
- lager
- ledare
- ledande
- inlärning
- nivåer
- hävstångs
- avgift
- tycka om
- Begränsad
- begränsande
- LINK
- länkning
- länkar
- LLM
- Maskinen
- maskininlärning
- bibehålla
- GÖR
- Framställning
- hantera
- ledning
- chef
- manuell
- manuellt
- många
- markera
- marknad
- Market News
- meningsfull
- Media
- medicinsk
- medicinska data
- Sammanfoga
- sammanslagning
- metoder
- kanske
- Mjölnare
- ML
- modell
- modeller
- mer
- mest
- multipel
- namn
- namngivning
- Natural
- Naturlig språkbehandling
- Behöver
- behov
- Nya
- New York
- new york city
- nyheter
- nlp
- Nej
- Nord
- nordamerika
- Begrepp
- nu
- observationen
- of
- erbjuds
- Olja
- Olja och gas
- on
- ONE
- En medicinsk
- öppet
- öppen källkod
- Tillbehör
- or
- orkestrering
- beställa
- organisation
- organisatoriska
- organisationer
- ursprungliga
- Övriga
- vår
- ut
- produktion
- övergripande
- egen
- sidor
- pandor
- parametrar
- moderbolag
- del
- särskilt
- samarbetar
- Godkänd
- brinner
- bana
- Utföra
- prestanda
- utfört
- utför
- utför
- Pharma
- phd
- rörledning
- planering
- plato
- Platon Data Intelligence
- PlatonData
- Populära
- möjlig
- Inlägg
- drivs
- den mäktigaste
- tidigare
- Principal
- problem
- vinning
- process
- bearbetning
- producerande
- projektet
- rätt
- förutsatt
- ger
- allmän
- publicly
- kvalitet
- fråga
- frågor
- snarare
- realtid
- senaste
- register
- minska
- relaterad
- relation
- Förhållanden
- relevanta
- pålitlig
- anmärkningsvärd
- Kräver
- forskning
- forskaren
- resurs
- respons
- svar
- resultera
- Resultat
- avkastning
- robusta
- rutinmässigt
- RAD
- Körning
- sagemaker
- försäljning
- Skala
- Schneider Electric
- Vetenskap
- Forskare
- sDK
- Sök
- Sökmotorer
- SEC
- Andra
- sektor
- Sektorer
- säkra
- se
- Val
- senior
- tjänar
- Tjänster
- flera
- hon
- signifikant
- liknande
- eftersom
- Small
- lösning
- Lösningar
- LÖSA
- några
- Källa
- Källor
- specialiserat
- specifik
- Snurra
- spunnen
- state-of-the-art
- statistisk
- Steg
- Steg
- lagra
- strukturer
- studio
- underavdelningar
- dotterföretag
- sådana
- Stödjande
- system
- System
- tagen
- uppgift
- uppgifter
- grupp
- lag
- Teknisk
- text
- än
- den där
- Smakämnen
- den information
- deras
- Dem
- teoretiska
- Där.
- därför
- Dessa
- de
- detta
- trodde
- Genom
- Således
- tid
- till
- tillsammans
- verktyg
- verktyg
- topp
- spår
- handlas
- traditionellt
- tränad
- Transformation
- omvandla
- trovärdig
- Twitch
- två
- avslöja
- förståelse
- låsa
- TIDSENLIG
- Uppdateringar
- us
- användning
- Begagnade
- med hjälp av
- värde
- olika
- Omfattande
- versioner
- vertikaler
- via
- var
- Sätt..
- sätt
- we
- Rikedom
- webb
- webbservice
- VÄL
- Vad
- Vad är
- när
- som
- medan
- VEM
- Hela
- kommer
- med
- inom
- arbetsflöde
- arbetsflöden
- fungerar
- världen
- skulle
- X
- år
- york
- Om er
- zephyrnet