Dette innlegget ble skrevet sammen med Anthony Medeiros, leder for løsningsteknikk og arkitektur for Nord-Amerika kunstig intelligens, og Blake Santschi, Business Intelligence Manager, fra Schneider Electric. Ytterligere Schneider Electric-eksperter inkluderer Jesse Miller, Somik Chowdhury, Shaswat Babhulgaonkar, David Watkins, Mark Carlson og Barbara Sleczkowski.
Enterprise Resource Planning (ERP)-systemer brukes av bedrifter til å administrere flere forretningsfunksjoner som regnskap, salg eller ordreadministrasjon i ett system. Spesielt brukes de rutinemessig til å lagre informasjon knyttet til kundekontoer. Ulike organisasjoner i et selskap kan bruke forskjellige ERP-systemer og sammenslåing av dem er en kompleks teknisk utfordring i stor skala som krever domenespesifikk kunnskap.
Schneider Electric er ledende innen digital transformasjon av energiledelse og industriell automasjon. For å kunne betjene kundenes behov best mulig, må Schneider Electric holde styr på koblingene mellom relaterte kunders kontoer i deres ERP-systemer. Etter hvert som kundebasen deres vokser, legges nye kunder til daglig, og kontoteamene deres må manuelt sortere gjennom disse nye kundene og koble dem til den riktige overordnede enheten.
Koblingsbeslutningen er basert på den nyeste informasjonen som er offentlig tilgjengelig på Internett eller i media, og kan bli påvirket av nylige oppkjøp, markedsnyheter eller divisjonsrestrukturering. Et eksempel på kontokobling vil være å identifisere forholdet mellom Amazon og datterselskapet Whole Foods Market [kilde].
Schneider Electric distribuerer store språkmodeller for deres evner til å svare på spørsmål i ulike kunnskapsspesifikke domener, datoen modellen har blitt trent opp begrenser kunnskapen. De taklet denne utfordringen ved å bruke en Retriever-Augmented Generation åpen kildekode, stor språkmodell tilgjengelig på Amazon SageMaker JumpStart å behandle store mengder ekstern kunnskap hentet og vise bedrifts- eller offentlige relasjoner blant ERP-poster.
Tidlig i 2023, da Schneider Electric bestemte seg for å automatisere deler av kontokoblingsprosessen ved hjelp av kunstig intelligens (AI), inngikk selskapet et samarbeid med AWS Machine Learning Solutions Lab (MLSL). Med MLSLs ekspertise innen ML-rådgivning og utførelse, var Schneider Electric i stand til å utvikle en AI-arkitektur som ville redusere den manuelle innsatsen i koblingsarbeidsflytene deres, og levere raskere datatilgang til deres nedstrøms analyseteam.
Generativ AI
Generativ kunstig intelligens og store språkmodeller (LLMs) transformerer måten forretningsorganisasjoner er i stand til å løse tradisjonelt komplekse utfordringer knyttet til naturlig språkbehandling og -forståelse. Noen av fordelene som tilbys av LLM-er inkluderer muligheten til å forstå store deler av teksten og svare på relaterte spørsmål ved å produsere menneskelignende svar. AWS gjør det enkelt for kunder å eksperimentere med og produsere LLM-arbeidsmengder ved å gjøre mange alternativer tilgjengelige via Amazon SageMaker JumpStart, Amazonas grunnfjellog Amazon Titan.
Ekstern kunnskapsinnhenting
LLM-er er kjent for sin evne til å komprimere menneskelig kunnskap og har vist bemerkelsesverdige evner til å svare på spørsmål innen ulike kunnskapsspesifikke domener, men kunnskapen deres er begrenset av datoen modellen har blitt trent. Vi adresserer denne informasjonsgrensen ved å koble LLM med et Google Search API for å levere en kraftig Retrieval Augmented LLM (RAG) som adresserer Schneider Electrics utfordringer. RAG er i stand til å behandle store mengder ekstern kunnskap hentet fra Google-søk og vise bedrifts- eller offentlige relasjoner blant ERP-poster.
Se følgende eksempel:
Spørsmål: Hvem er morselskapet til One Medical?
Google-søk: "Ett medisinsk morselskap" → informasjon → LLM
Svar: One Medical, et datterselskap av Amazon...
Det foregående eksemplet (hentet fra Schneider Electrics kundedatabase) gjelder et oppkjøp som skjedde i februar 2023 og som dermed ikke ville bli fanget opp av LLM alene på grunn av kunnskapsavbrudd. Å utvide LLM med Google-søk garanterer den mest oppdaterte informasjonen.
Flan-T5 modell
I det prosjektet brukte vi Flan-T5-XXL-modellen fra Flan-T5 familie av modeller.
Flan-T5-modellene er instruksjonstilpasset og er derfor i stand til å utføre ulike nullskudd NLP-oppgaver. I nedstrømsoppgaven vår var det ikke nødvendig å imøtekomme en enorm mengde verdenskunnskap, men snarere å prestere godt på spørsmålssvar gitt en kontekst av tekster gitt gjennom søkeresultater, og derfor presterte 11B-parameter T5-modellen godt.
JumpStart gir praktisk distribusjon av denne modellfamilien gjennom Amazon SageMaker Studio og SageMaker SDK. Dette inkluderer Flan-T5 Small, Flan-T5 Base, Flan-T5 Large, Flan-T5 XL og Flan-T5 XXL. Videre tilbyr JumpStart noen få versjoner av Flan-T5 XXL på forskjellige kvantiseringsnivåer. Vi distribuerte Flan-T5-XXL til et endepunkt for slutningsbruk Amazon SageMaker Studio Jumpstart.
Retrieval Augmented LLM med LangChain
Langkjede er populært og raskt voksende rammeverk som tillater utvikling av applikasjoner drevet av LLM-er. Det er basert på konseptet kjeder, som er kombinasjoner av forskjellige komponenter designet for å forbedre funksjonaliteten til LLM-er for en gitt oppgave. For eksempel lar det oss tilpasse ledetekster og integrere LLM med forskjellige verktøy som eksterne søkemotorer eller datakilder. I vårt brukstilfelle brukte vi Google Serper komponent for å søke på nettet, og implementerte Flan-T5-XXL-modellen tilgjengelig på Amazon SageMaker Studio Jumpstart. LangChain utfører den overordnede orkestreringen og lar søkeresultatsidene mates inn i Flan-T5-XXL-forekomsten.
The Retrieval-Augmented Generation (RAG) består av to trinn:
- Henting av relevante tekstbiter fra eksterne kilder
- Forstørrelse av delene med kontekst i ledeteksten gitt til LLM.
For Schneider Electrics brukssak går RAG frem som følger:
- Det gitte firmanavnet kombineres med et spørsmål som "Hvem er morselskapet til X", hvor X er det gitte selskapet) og sendes til en google-spørring ved hjelp av Serper AI
- Den utpakkede informasjonen kombineres med det direkte og originale spørsmålet og sendes til LLM for svar.
Følgende diagram illustrerer denne prosessen.
Bruk følgende kode for å opprette et endepunkt:
Øyeblikkelig søkeverktøy:
I følgende kode lenker vi sammen gjenfinnings- og utvidelseskomponentene:
The Prompt Engineering
Kombinasjonen av konteksten og spørsmålet kalles ledeteksten. Vi la merke til at den generelle forespørselen vi brukte (variasjoner rundt å spørre etter morselskapet) presterte bra for de fleste offentlige sektorer (domener), men generaliserte ikke godt til utdanning eller helsetjenester siden begrepet morselskap ikke er meningsfullt der. For utdanning brukte vi "X" mens vi brukte "Y" for helsetjenester.
For å aktivere dette domenespesifikke spørsmålsvalget, måtte vi også identifisere domenet en gitt konto tilhører. Til dette brukte vi også en RAG der et flervalgsspørsmål "Hva er domenet til {konto}?" som et første trinn, og basert på svaret spurte vi forelderen til kontoen ved å bruke den relevante ledeteksten som et andre trinn. Se følgende kode:
De sektorspesifikke spørsmålene har økt den generelle ytelsen fra 55 % til 71 % av nøyaktigheten. Samlet sett er innsatsen og tiden investert for å utvikle effektiv ledetekster ser ut til å forbedre kvaliteten på LLM-responsen betydelig.
RAG med tabelldata (SEC-10k)
SEC 10K-registreringene er en annen pålitelig informasjonskilde for datterselskaper og underavdelinger som innleveres årlig av et børsnotert selskap. Disse registreringene er tilgjengelig direkte på SEC EDGAR eller gjennom CorpWatch API.
Vi antar at informasjonen er gitt i tabellformat. Nedenfor er en pseudo csv datasett som etterligner det opprinnelige formatet til SEC-10K-datasettet. Det er mulig å slå sammen flere csv datakilder til en kombinert pandas-dataramme:
# A pseudo dataset similar by schema to the CorpWatch API dataset
df.head()
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/schneider-electric-leverages-retrieval-augmented-llms-on-sagemaker-to-ensure-real-time-updates-in-their-erp-systems/
- : har
- :er
- :ikke
- :hvor
- $OPP
- 1
- 10
- 100
- 10K
- 11
- 15 år
- 15%
- 160
- 17
- 2023
- 7
- 710
- a
- evne
- I stand
- Om oss
- ovenfor
- abstraksjon
- akselerere
- adgang
- imøtekomme
- Logg inn
- Regnskap og administrasjon
- kontoer
- nøyaktighet
- nøyaktig
- oppkjøp
- oppkjøp
- tvers
- Handling
- la til
- tillegg
- Ytterligere
- adresse
- adressert
- adresser
- fordeler
- påvirkes
- Agent
- AI
- AI / ML
- tillate
- tillater
- alene
- også
- Amazon
- Amazon maskinlæring
- Amazon SageMaker
- Amazon SageMaker JumpStart
- Amazon Web Services
- america
- blant
- beløp
- beløp
- an
- analytics
- og
- Årlig
- En annen
- besvare
- Anthony
- api
- vises
- søknader
- anvendt
- påføring
- arkitektur
- ER
- rundt
- kunstig
- kunstig intelligens
- Kunstig intelligens (AI)
- AS
- spør
- spør
- anta
- At
- øke
- augmented
- automatisere
- Automatisering
- tilgjengelig
- tilgjengelig direkte
- AWS
- AWS maskinlæring
- Banking
- basen
- basert
- BE
- vært
- før du
- tilhører
- under
- Fordeler
- BEST
- mellom
- Blocks
- styrket
- Bringer
- bygge
- Bygning
- virksomhet
- forretningsfunksjoner
- business intelligence
- men
- by
- som heter
- CAN
- evner
- stand
- Carlson
- fanget
- kjede
- utfordre
- utfordringer
- valg
- City
- Klassifisere
- CNBC
- kode
- Kolonne
- kombinasjon
- kombinasjoner
- kombinert
- Selskaper
- Selskapet
- komplekse
- komponent
- komponenter
- fatte
- konsept
- bekymringer
- består
- konsulent
- forbruker
- kontekst
- Praktisk
- Bedriftens
- skape
- Skap verdi
- kunde
- Kunder
- daglig
- dato
- data tilgang
- data-drevet
- Database
- datasett
- Dato
- David
- besluttet
- avgjørelse
- leverer
- levere
- demonstrert
- utplassert
- utplasserings
- distribusjon
- utforming
- designet
- detalj
- detaljert
- utvikle
- utvikle
- Utvikling
- forskjellig
- digitalt
- Digital Transformation
- direkte
- do
- dokument
- domene
- domener
- to
- Tidlig
- lett
- Kunnskap
- innsats
- Elektrisk
- muliggjøre
- Endpoint
- energi
- Ingeniørarbeid
- Motorer
- sikre
- går inn
- bedrifter
- enhet
- ERP
- eksempel
- gjennomføring
- viser
- erfaring
- eksperiment
- ekspertise
- eksperter
- utvide
- utvendig
- Exxon Mobil
- familie
- FAST
- raskere
- Februar
- Fed
- Noen få
- arkivert
- registreringer
- slutt~~POS=TRUNC
- Finn
- Først
- Fokus
- fokuserte
- etter
- følger
- mat
- Til
- format
- Rammeverk
- fra
- funksjonalitet
- funksjoner
- videre
- Dess
- GAS
- generasjonen
- generative
- Generativ AI
- gitt
- Global
- Google Search
- grafer
- Økende
- Vokser
- garantier
- HAD
- skjedde
- Ha
- he
- helsetjenester
- hjelper
- her
- høyere
- hans
- Hvordan
- HTML
- http
- HTTPS
- menneskelig
- i
- Identifikasjon
- identifisere
- illustrerer
- forbedre
- bedre
- in
- inkludere
- inkluderer
- inkubator
- industriell
- industri
- informasjon
- innledende
- initiativer
- inngang
- innsikt
- f.eks
- integrere
- Intelligens
- samhandle
- interesser
- Internet
- inn
- investert
- IT
- DET ER
- joshua
- jpg
- Hold
- nøkkel
- Vet
- kunnskap
- kjent
- lab
- Språk
- stor
- lag
- leder
- ledende
- læring
- nivåer
- utnytter
- levy
- i likhet med
- Begrenset
- begrense
- LINK
- linking
- lenker
- LLM
- maskin
- maskinlæring
- vedlikeholde
- GJØR AT
- Making
- administrer
- ledelse
- leder
- håndbok
- manuelt
- mange
- merke
- marked
- markeds~~POS=TRUNC
- meningsfylt
- Media
- medisinsk
- medisinske data
- Flett
- sammenslåing
- metoder
- kunne
- Miller
- ML
- modell
- modeller
- mer
- mest
- flere
- navn
- navngiving
- Naturlig
- Natural Language Processing
- Trenger
- behov
- Ny
- New York
- New York City
- nyheter
- nlp
- Nei.
- nord
- nord amerika
- Forestilling
- nå
- observasjon
- of
- tilbudt
- Olje
- Olje og gass
- on
- ONE
- En medisinsk
- åpen
- åpen kildekode
- alternativer
- or
- orkestre
- rekkefølge
- organisasjon
- organisasjons
- organisasjoner
- original
- Annen
- vår
- ut
- produksjon
- samlet
- egen
- sider
- pandaer
- parametere
- moderselskap
- del
- Spesielt
- samarbeid
- bestått
- lidenskapelig
- banen
- Utfør
- ytelse
- utført
- utfører
- utfører
- Farma
- phd
- rørledning
- planlegging
- plato
- Platon Data Intelligence
- PlatonData
- Populær
- mulig
- Post
- powered
- kraftig
- tidligere
- Principal
- problemer
- fortsetter
- prosess
- prosessering
- produserende
- prosjekt
- ordentlig
- forutsatt
- gir
- offentlig
- offentlig
- kvalitet
- spørsmål
- spørsmål
- heller
- sanntids
- nylig
- poster
- redusere
- i slekt
- forholdet
- Relasjoner
- relevant
- pålitelig
- bemerkelsesverdig
- Krever
- forskning
- forsker
- ressurs
- svar
- svar
- resultere
- Resultater
- retur
- robust
- rutinemessig
- RAD
- Kjør
- sagemaker
- salg
- Skala
- Schneider Electric
- Vitenskap
- Forsker
- SDK
- Søk
- Søkemotorer
- SEK
- Sekund
- sektor
- sektorer
- sikre
- se
- utvalg
- senior
- betjene
- Tjenester
- flere
- hun
- betydelig
- lignende
- siden
- liten
- løsning
- Solutions
- LØSE
- noen
- kilde
- Kilder
- spesialisert
- spesifikk
- Snurre rundt
- spunnet
- state-of-the-art
- statistisk
- Trinn
- Steps
- oppbevare
- strukturer
- studio
- underavdelinger
- datterselskap
- slik
- Støtte
- system
- Systemer
- tatt
- Oppgave
- oppgaver
- lag
- lag
- Teknisk
- tekst
- enn
- Det
- De
- informasjonen
- deres
- Dem
- teoretiske
- Der.
- derfor
- Disse
- de
- denne
- trodde
- Gjennom
- Dermed
- tid
- til
- sammen
- verktøy
- verktøy
- topp
- spor
- handles
- tradisjonelt
- trent
- Transformation
- transformere
- troverdig
- Nappe
- to
- avdekke
- forståelse
- låse opp
- up-to-date
- oppdateringer
- us
- bruke
- brukt
- ved hjelp av
- verdi
- ulike
- enorme
- versjoner
- vertikaler
- av
- var
- Vei..
- måter
- we
- Rikdom
- web
- webtjenester
- VI VIL
- Hva
- Hva er
- når
- hvilken
- mens
- HVEM
- hele
- vil
- med
- innenfor
- arbeidsflyt
- arbeidsflyt
- virker
- verden
- ville
- X
- år
- york
- Du
- zephyrnet