Dette indlæg er skrevet sammen med Anthony Medeiros, leder af Solutions Engineering and Architecture for North America Artificial Intelligence, og Blake Santschi, Business Intelligence Manager, fra Schneider Electric. Yderligere Schneider Electric-eksperter omfatter Jesse Miller, Somik Chowdhury, Shaswat Babhulgaonkar, David Watkins, Mark Carlson og Barbara Sleczkowski.
Enterprise Resource Planning (ERP) systemer bruges af virksomheder til at styre flere forretningsfunktioner såsom regnskab, salg eller ordrestyring i ét system. De bruges især rutinemæssigt til at gemme information relateret til kundekonti. Forskellige organisationer inden for en virksomhed kan bruge forskellige ERP-systemer, og sammenlægning af dem er en kompleks teknisk udfordring i skala, som kræver domænespecifik viden.
Schneider Electric er førende inden for digital transformation af energiledelse og industriel automation. For bedst muligt at opfylde deres kunders behov, skal Schneider Electric holde styr på forbindelserne mellem relaterede kunders konti i deres ERP-systemer. Efterhånden som deres kundebase vokser, tilføjes nye kunder dagligt, og deres kontoteams skal manuelt sortere gennem disse nye kunder og knytte dem til den rette moderenhed.
Linkbeslutningen er baseret på den seneste information, der er tilgængelig offentligt på internettet eller i medierne, og kan blive påvirket af nylige opkøb, markedsnyheder eller omstrukturering af divisioner. Et eksempel på kontotilknytning ville være at identificere forholdet mellem Amazon og dets datterselskab, Whole Foods Market [kilde].
Schneider Electric implementerer store sprogmodeller for deres evner til at besvare spørgsmål inden for forskellige vidensspecifikke domæner, den dato, hvor modellen er blevet trænet, begrænser dens viden. De tacklede denne udfordring ved at bruge en Retriever-Augmented Generation open source-stor sprogmodel tilgængelig på Amazon SageMaker JumpStart at behandle store mængder ekstern viden trukket og udstille virksomheds- eller offentlige relationer blandt ERP-registre.
I begyndelsen af 2023, da Schneider Electric besluttede at automatisere en del af sin kontosammenkædningsproces ved hjælp af kunstig intelligens (AI), samarbejdede virksomheden med AWS Machine Learning Solutions Lab (MLSL). Med MLSL's ekspertise inden for ML-rådgivning og -udførelse var Schneider Electric i stand til at udvikle en AI-arkitektur, der ville reducere den manuelle indsats i deres sammenkædnings-workflows og levere hurtigere dataadgang til deres downstream-analyseteams.
Generativ AI
Generativ kunstig intelligens og store sprogmodeller (LLM'er) transformerer den måde, erhvervsorganisationer er i stand til at løse traditionelt komplekse udfordringer relateret til naturlig sprogbehandling og -forståelse. Nogle af fordelene ved LLM'er inkluderer evnen til at forstå store dele af tekst og besvare relaterede spørgsmål ved at producere menneskelignende svar. AWS gør det nemt for kunderne at eksperimentere med og producere LLM-arbejdsbelastninger ved at gøre mange muligheder tilgængelige via Amazon SageMaker JumpStart, Amazonas grundfjeldog Amazon Titan.
Ekstern videnindhentning
LLM'er er kendt for deres evne til at komprimere menneskelig viden og har demonstreret bemærkelsesværdige evner til at besvare spørgsmål inden for forskellige videnspecifikke domæner, men deres viden er begrænset af den dato, modellen er blevet trænet. Vi adresserer denne informationsgrænse ved at koble LLM med en Google Search API for at levere en kraftfuld Retrieval Augmented LLM (RAG), der løser Schneider Electrics udfordringer. RAG'en er i stand til at behandle store mængder ekstern viden hentet fra Google-søgningen og udstille virksomheds- eller offentlige relationer blandt ERP-poster.
Se følgende eksempel:
Spørgsmål: Hvem er moderselskabet til One Medical?
Google-forespørgsel: "Ét medicinsk moderselskab" → information → LLM
Svar: One Medical, et datterselskab af Amazon...
Det foregående eksempel (taget fra Schneider Electrics kundedatabase) vedrører et opkøb, der skete i februar 2023, og som derfor ikke ville blive fanget af LLM alene på grund af vidensgrænser. Forøgelse af LLM med Google-søgning garanterer den mest opdaterede information.
Flan-T5 model
I det projekt brugte vi Flan-T5-XXL model fra Flan-T5 familie af modeller.
Flan-T5-modellerne er instruktions-tunede og er derfor i stand til at udføre forskellige zero-shot NLP-opgaver. I vores downstream-opgave var der ikke behov for at rumme en stor mængde verdensviden, men snarere at klare sig godt på spørgsmålssvar givet en kontekst af tekster leveret gennem søgeresultater, og derfor klarede 11B-parametre T5-modellen sig godt.
JumpStart giver praktisk implementering af denne modelfamilie igennem Amazon SageMaker Studio og SageMaker SDK. Dette inkluderer Flan-T5 Small, Flan-T5 Base, Flan-T5 Large, Flan-T5 XL og Flan-T5 XXL. Desuden giver JumpStart nogle få versioner af Flan-T5 XXL på forskellige niveauer af kvantisering. Vi implementerede Flan-T5-XXL til et slutpunkt til slutningsbrug Amazon SageMaker Studio Jumpstart.
Retrieval Augmented LLM med LangChain
Langkæde er populær og hurtigt voksende ramme, der tillader udvikling af applikationer drevet af LLM'er. Det er baseret på begrebet kæder, som er kombinationer af forskellige komponenter designet til at forbedre funktionaliteten af LLM'er til en given opgave. For eksempel giver det os mulighed for at tilpasse prompter og integrere LLM'er med forskellige værktøjer som eksterne søgemaskiner eller datakilder. I vores use-case brugte vi Google Serper komponent til at søge på nettet og implementerede Flan-T5-XXL-modellen tilgængelig på Amazon SageMaker Studio Jumpstart. LangChain udfører den overordnede orkestrering og tillader, at søgeresultatsiderne indlæses i Flan-T5-XXL-forekomsten.
Retrieval-Augmented Generation (RAG) består af to trin:
- Hentning af relevante tekstbidder fra eksterne kilder
- Augmentation af bidderne med kontekst i prompten givet til LLM.
For Schneider Electrics brugssag går RAG frem som følger:
- Det givne firmanavn kombineres med et spørgsmål som "Hvem er moderselskabet til X", hvor X er det givne firma) og videregives til en google-forespørgsel ved hjælp af Serper AI
- Den udtrukne information kombineres med det prompte og originale spørgsmål og sendes til LLM for et svar.
Følgende diagram illustrerer denne proces.
Brug følgende kode til at oprette et slutpunkt:
Øjeblikkelig søgeværktøj:
I følgende kode kæder vi genfindings- og forstærkningskomponenterne sammen:
The Prompt Engineering
Kombinationen af konteksten og spørgsmålet kaldes prompten. Vi bemærkede, at den generelle prompt, vi brugte (variationer omkring at spørge efter moderselskabet), klarede sig godt for de fleste offentlige sektorer (domæner), men ikke generaliserede godt til uddannelse eller sundhedspleje, da begrebet moderselskab ikke er meningsfuldt der. Til uddannelse brugte vi "X", mens vi til sundhedspleje brugte "Y".
For at aktivere dette domænespecifikke promptvalg var vi også nødt til at identificere det domæne, en given konto tilhører. Til dette brugte vi også en RAG, hvor et multiple choice-spørgsmål "Hvad er domænet for {konto}?" som et første trin, og baseret på svaret spurgte vi forælderen til kontoen ved at bruge den relevante prompt som et andet trin. Se følgende kode:
De sektorspecifikke prompter har øget den samlede ydeevne fra 55 % til 71 % af nøjagtigheden. Samlet set er indsatsen og tiden investeret i at udvikle sig effektivt prompter ser ud til at forbedre kvaliteten af LLM-respons markant.
RAG med tabeldata (SEC-10k)
SEC 10K-ansøgningerne er en anden pålidelig kilde til information for datterselskaber og underafdelinger, der indgives årligt af en børsnoteret virksomhed. Disse ansøgninger er tilgængelige direkte på SEC EDGAR eller igennem CorpWatch API.
Vi antager, at oplysningerne er givet i tabelformat. Nedenfor er en pseudo csv datasæt, der efterligner det originale format af SEC-10K datasættet. Det er muligt at flette flere csv datakilder i en kombineret panda-dataramme:
# A pseudo dataset similar by schema to the CorpWatch API dataset
df.head()
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/schneider-electric-leverages-retrieval-augmented-llms-on-sagemaker-to-ensure-real-time-updates-in-their-erp-systems/
- :har
- :er
- :ikke
- :hvor
- $OP
- 1
- 10
- 100
- 10K
- 11
- 15 år
- 15 %
- 160
- 17
- 2023
- 7
- 710
- a
- evne
- I stand
- Om
- over
- abstraktion
- fremskynde
- adgang
- imødekomme
- Konto
- Bogføring og administration
- Konti
- nøjagtighed
- præcis
- erhvervelse
- opkøb
- tværs
- Handling
- tilføjet
- Desuden
- Yderligere
- adresse
- rettet
- adresser
- fordele
- påvirket
- Agent
- AI
- AI / ML
- tillade
- tillader
- alene
- også
- Amazon
- Amazon maskinindlæring
- Amazon SageMaker
- Amazon SageMaker JumpStart
- Amazon Web Services
- amerika
- blandt
- beløb
- beløb
- an
- analytics
- ,
- Årligt
- En anden
- besvare
- Anthony
- api
- vises
- applikationer
- anvendt
- Anvendelse
- arkitektur
- ER
- omkring
- kunstig
- kunstig intelligens
- Kunstig intelligens (AI)
- AS
- spørg
- spørge
- antage
- At
- forøge
- augmented
- automatisere
- Automation
- til rådighed
- tilgængelig direkte
- AWS
- AWS maskinindlæring
- Bank
- bund
- baseret
- BE
- været
- før
- tilhører
- jf. nedenstående
- fordele
- BEDSTE
- mellem
- Blocks
- Hjulpet
- Bringer
- bygge
- Bygning
- virksomhed
- forretningsfunktioner
- business intelligence
- men
- by
- kaldet
- CAN
- kapaciteter
- stand
- Carlson
- fanget
- kæde
- udfordre
- udfordringer
- valg
- By
- Klassificere
- CNBC
- kode
- Kolonne
- kombination
- kombinationer
- kombineret
- Virksomheder
- selskab
- komplekse
- komponent
- komponenter
- forstå
- Konceptet
- Bekymringer
- består
- rådgivning
- forbruger
- sammenhæng
- Praktisk
- Corporate
- skabe
- Opret værdi
- kunde
- Kunder
- dagligt
- data
- dataadgang
- datastyret
- Database
- datasæt
- Dato
- David
- besluttede
- beslutning
- levere
- leverer
- demonstreret
- indsat
- implementering
- implementering
- Design
- konstrueret
- detail
- detaljeret
- udvikle
- udvikling
- Udvikling
- forskellige
- digital
- Digital Transformation
- direkte
- do
- dokumentet
- domæne
- Domæner
- grund
- Tidligt
- let
- Uddannelse
- indsats
- Elektrisk
- muliggøre
- Endpoint
- energi
- Engineering
- Motorer
- sikre
- indtastning
- virksomheder
- enhed
- ERP
- eksempel
- udførelse
- udstille
- erfaring
- eksperiment
- ekspertise
- eksperter
- udvide
- ekstern
- Exxon Mobil
- familie
- FAST
- hurtigere
- februar
- Fed
- få
- indgivet
- høvle
- endelige
- Finde
- Fornavn
- Fokus
- fokuserede
- efter
- følger
- fødevarer
- Til
- format
- Framework
- fra
- funktionalitet
- funktioner
- yderligere
- Endvidere
- GAS
- generation
- generative
- Generativ AI
- given
- Global
- Google Search
- grafer
- Dyrkning
- Vokser
- garantier
- havde
- skete
- Have
- he
- sundhedspleje
- hjælper
- hende
- højere
- hans
- Hvordan
- HTML
- http
- HTTPS
- menneskelig
- i
- Identifikation
- identificere
- illustrerer
- Forbedre
- forbedring
- in
- omfatter
- omfatter
- inkubator
- industrielle
- industrien
- oplysninger
- initial
- initiativer
- indgang
- indsigt
- instans
- integrere
- Intelligens
- interagere
- interesser
- Internet
- ind
- investeret
- IT
- ITS
- joshua
- jpg
- Holde
- Nøgle
- Kend
- viden
- kendt
- lab
- Sprog
- stor
- lag
- leder
- førende
- læring
- niveauer
- Udnytter
- afgift
- ligesom
- Limited
- begrænsende
- LINK
- Linking
- links
- LLM
- maskine
- machine learning
- vedligeholde
- maerker
- Making
- administrere
- ledelse
- leder
- manuel
- manuelt
- mange
- markere
- Marked
- Market News
- meningsfuld
- Medier
- medicinsk
- medicinske data
- Flet
- sammenlægning
- metoder
- måske
- Miller
- ML
- model
- modeller
- mere
- mest
- flere
- navn
- navngivning
- Natural
- Natural Language Processing
- Behov
- behov
- Ny
- New York
- New York
- nyheder
- NLP
- ingen
- Nord
- nordamerika
- Begreb
- nu
- observation
- of
- tilbydes
- Olie
- Olie og gas
- on
- ONE
- En medicinsk
- åbent
- open source
- Indstillinger
- or
- orkestrering
- ordrer
- organisation
- organisatorisk
- organisationer
- original
- Andet
- vores
- ud
- output
- samlet
- egen
- sider
- pandaer
- parametre
- moderselskab
- del
- særlig
- partnerskab
- Bestået
- lidenskabelige
- sti
- Udfør
- ydeevne
- udføres
- udfører
- udfører
- Pharma
- phd
- pipeline
- planlægning
- plato
- Platon Data Intelligence
- PlatoData
- Populær
- mulig
- Indlæg
- strøm
- vigtigste
- tidligere
- Main
- problemer
- udbytte
- behandle
- forarbejdning
- producerer
- projekt
- passende
- forudsat
- giver
- offentlige
- offentligt
- kvalitet
- spørgsmål
- Spørgsmål
- hellere
- realtid
- nylige
- optegnelser
- reducere
- relaterede
- forhold
- Relationer
- relevant
- pålidelig
- bemærkelsesværdig
- Kræver
- forskning
- forsker
- ressource
- svar
- reaktioner
- resultere
- Resultater
- afkast
- robust
- rutinemæssigt
- RÆKKE
- Kør
- sagemaker
- salg
- Scale
- Schneider Electric
- Videnskab
- Videnskabsmand
- SDK
- Søg
- Søgemaskiner
- SEK
- Anden
- sektor
- Sektorer
- sikker
- se
- valg
- senior
- tjener
- Tjenester
- flere
- hun
- betydeligt
- lignende
- siden
- lille
- løsninger
- Løsninger
- SOLVE
- nogle
- Kilde
- Kilder
- specialiseret
- specifikke
- Spin
- spundet
- state-of-the-art
- statistiske
- Trin
- Steps
- butik
- strukturer
- Studio
- underafdelinger
- datterselskabet
- sådan
- Støtte
- systemet
- Systemer
- taget
- Opgaver
- opgaver
- hold
- hold
- Teknisk
- tekst
- end
- at
- oplysninger
- deres
- Them
- teoretisk
- Der.
- derfor
- Disse
- de
- denne
- tænkte
- Gennem
- Dermed
- tid
- til
- sammen
- værktøj
- værktøjer
- top
- spor
- handles
- traditionelt
- uddannet
- Transformation
- omdanne
- troværdig
- Twitch
- to
- afdække
- forståelse
- låse
- up-to-date
- opdateringer
- us
- brug
- anvendte
- ved brug af
- værdi
- forskellige
- Vast
- versioner
- vertikaler
- via
- var
- Vej..
- måder
- we
- Rigdom
- web
- webservices
- GODT
- Hvad
- Hvad er
- hvornår
- som
- mens
- WHO
- Hele
- vilje
- med
- inden for
- workflow
- arbejdsgange
- virker
- world
- ville
- X
- år
- york
- Du
- zephyrnet