Bedrifter har tilgang til enorme mengder data, hvorav mye er vanskelig å oppdage fordi dataene er ustrukturerte. Konvensjonelle tilnærminger til analyse ustrukturerte data bruk søkeord- eller synonymsamsvar. De fanger ikke opp hele konteksten til et dokument, noe som gjør dem mindre effektive når det gjelder å håndtere ustrukturerte data.
I kontrast bruker tekstinnbygginger maskinlæring (ML) evner til å fange opp betydningen av ustrukturerte data. Innebygginger genereres av representasjonsspråkmodeller som oversetter tekst til numeriske vektorer og koder kontekstuell informasjon i et dokument. Dette muliggjør applikasjoner som semantisk søk, Retrieval Augmented Generation (RAG), emnemodellering og tekstklassifisering.
For eksempel i finansnæringen inkluderer applikasjoner å trekke ut innsikt fra inntektsrapporter, søke etter informasjon fra regnskaper og analysere sentimenter om aksjer og markeder som finnes i finansnyheter. Tekstinnbygginger gjør det mulig for fagfolk i bransjen å trekke ut innsikt fra dokumenter, minimere feil og øke ytelsen.
I dette innlegget viser vi frem en applikasjon som kan søke og spørre på tvers av økonomiske nyheter på forskjellige språk ved hjelp av Cohere's embed og Ranger på nytt modeller med Amazonas grunnfjell.
Coheres flerspråklige innebyggingsmodell
Cohere er en ledende AI-plattform for bedrifter som bygger store språkmodeller (LLM) i verdensklasse og LLM-drevne løsninger som lar datamaskiner søke, fange mening og snakke i tekst. De gir brukervennlighet og sterke sikkerhets- og personvernkontroller.
Coheres flerspråklige innebyggingsmodell genererer vektorrepresentasjoner av dokumenter for over 100 språk og er tilgjengelig på Amazon Bedrock. Dette lar AWS-kunder få tilgang til det som en API, noe som eliminerer behovet for å administrere den underliggende infrastrukturen og sikrer at sensitiv informasjon forblir sikkert administrert og beskyttet.
Den flerspråklige modellen grupperer tekst med lignende betydninger ved å tilordne dem posisjoner som er nær hverandre i et semantisk vektorrom. Med en flerspråklig innebyggingsmodell kan utviklere behandle tekst på flere språk uten å måtte bytte mellom ulike modeller, som illustrert i følgende figur. Dette gjør behandlingen mer effektiv og forbedrer ytelsen for flerspråklige applikasjoner.
Følgende er noen av høydepunktene i Coheres innebyggingsmodell:
- Fokus på dokumentkvalitet – Typiske innbyggingsmodeller er opplært til å måle likhet mellom dokumenter, men Coheres modell måler også dokumentkvalitet
- Bedre gjenfinning for RAG-applikasjoner – RAG-applikasjoner krever et godt gjenfinningssystem, noe Coheres embedding-modell utmerker seg med
- Kostnadseffektiv datakomprimering – Cohere bruker en spesiell, kompresjonsbevisst treningsmetode, noe som resulterer i betydelige kostnadsbesparelser for vektordatabasen din
Bruk tilfeller for tekstinnbygging
Tekstinnbygginger gjør ustrukturerte data til en strukturert form. Dette lar deg objektivt sammenligne, dissekere og utlede innsikt fra alle disse dokumentene. Følgende er eksempler på brukstilfeller som Coheres innebyggingsmodell muliggjør:
- Semantisk søk – Muliggjør kraftige søkeapplikasjoner sammen med en vektordatabase, med utmerket relevans basert på søkefrasebetydning
- Søkemotor for et større system – Finner og henter den mest relevante informasjonen fra tilkoblede bedriftsdatakilder for RAG-systemer
- Tekst klassifisering – Støtter hensiktsgjenkjenning, sentimentanalyse og avansert dokumentanalyse
- Temamodellering – Gjør en samling dokumenter om til distinkte klynger for å avdekke nye emner og temaer
Forbedrede søkesystemer med Rerank
Hvordan introduserer du moderne semantiske søkefunksjoner i bedrifter der konvensjonelle søkeordsøkesystemer allerede er til stede? For slike systemer som har vært en del av en bedrifts informasjonsarkitektur i lang tid, er en fullstendig migrering til en innbyggingsbasert tilnærming i mange tilfeller rett og slett ikke mulig.
Coheres Rerank-endepunkt er designet for å bygge bro over dette gapet. Det fungerer som det andre trinnet i en søkeflyt for å gi en rangering av relevante dokumenter i henhold til en brukers forespørsel. Bedrifter kan beholde et eksisterende nøkkelord (eller til og med semantisk) system for gjenfinning i første trinn og øke kvaliteten på søkeresultater med Rerank-endepunktet i andre trinns omrangering.
Rerank gir et raskt og enkelt alternativ for å forbedre søkeresultatene ved å introdusere semantisk søketeknologi i en brukers stabel med en enkelt kodelinje. Endepunktet kommer også med flerspråklig støtte. Følgende figur illustrerer arbeidsflyten for henting og omrangering.
Løsningsoversikt
Finansanalytikere må fordøye mye innhold, for eksempel finansielle publikasjoner og nyhetsmedier, for å holde seg informert. Ifølge Association for Financial Professionals (AFP), bruker finansanalytikere 75 % av tiden sin på å samle data eller administrere prosessen i stedet for merverdianalyse. Å finne svaret på et spørsmål på tvers av en rekke kilder og dokumenter er tidkrevende og kjedelig arbeid. Cohere-innbyggingsmodellen hjelper analytikere raskt å søke på tvers av en rekke artikkeltitler på flere språk for å finne og rangere artiklene som er mest relevante for et bestemt søk, og sparer enormt mye tid og krefter.
I følgende brukseksempel viser vi hvordan Coheres Embed-modell søker og spør på tvers av økonomiske nyheter på forskjellige språk i én unik pipeline. Deretter demonstrerer vi hvordan å legge til Rerank til gjenfinningen av innebygde (eller legge det til et eldre leksikalsk søk) kan forbedre resultatene ytterligere.
Den støttende bærbare er tilgjengelig på GitHub.
Følgende diagram illustrerer arbeidsflyten til applikasjonen.
Aktiver modelltilgang gjennom Amazon Bedrock
Amazon Bedrock-brukere må be om tilgang til modeller for å gjøre dem tilgjengelige for bruk. For å be om tilgang til flere modeller, velg Modelltilgang navigasjonsruten på Amazonas grunnfjell trøste. For mer informasjon, se Modelltilgang. For denne gjennomgangen må du be om tilgang til Cohere Embed Multilingual-modellen.
Installer pakker og importer moduler
Først installerer vi de nødvendige pakkene og importerer modulene vi skal bruke i dette eksemplet:
Importer dokumenter
Vi bruker et datasett (MultiFIN) som inneholder en liste over artikkeloverskrifter fra den virkelige verden som dekker 15 språk (engelsk, tyrkisk, dansk, spansk, polsk, gresk, finsk, hebraisk, japansk, ungarsk, norsk, russisk, italiensk, islandsk og svensk ). Dette er et åpen kildekode-datasett kuratert for økonomisk naturlig språkbehandling (NLP) og er tilgjengelig på en GitHub repository.
I vårt tilfelle har vi laget en CSV-fil med MultiFINs data samt en kolonne med oversettelser. Vi bruker ikke denne kolonnen til å mate modellen; vi bruker den til å hjelpe oss å følge med når vi skriver ut resultatene for de som ikke snakker dansk eller spansk. Vi peker på den CSV-en for å lage vår dataramme:
Velg en liste over dokumenter du vil spørre etter
MultiFIN har over 6,000 poster på 15 forskjellige språk. For eksempelet vårt fokuserer vi på tre språk: engelsk, spansk og dansk. Vi sorterer også overskriftene etter lengde og velger de lengste.
Fordi vi velger de lengste artiklene, sikrer vi at lengden ikke skyldes gjentatte sekvenser. Følgende kode viser et eksempel der det er tilfelle. Vi skal rydde opp i det.
df['text'].iloc[2215]
Vår liste over dokumenter er pent fordelt på de tre språkene:
Følgende er den lengste artikkeloverskriften i datasettet vårt:
Legg inn og indekser dokumenter
Nå ønsker vi å bygge inn dokumentene våre og lagre innebyggingene. Innebyggingene er veldig store vektorer som innkapsler den semantiske betydningen av dokumentet vårt. Spesielt bruker vi Coheres embed-multilingual-v3.0-modell, som lager innbygginger med 1,024 dimensjoner.
Når en spørring sendes, bygger vi også inn spørringen og bruker hnswlib-biblioteket for å finne de nærmeste naboene.
Det tar bare noen få linjer med kode for å etablere en Cohere-klient, bygge inn dokumentene og lage søkeindeksen. Vi holder også oversikt over språket og oversettelsen av dokumentet for å berike visningen av resultatene.
Bygg et gjenfinningssystem
Deretter bygger vi en funksjon som tar en spørring som input, legger den inn og finner de fire overskriftene nærmere relatert til den:
Spørr gjenfinningssystemet
La oss utforske hva systemet vårt gjør med et par forskjellige søk. Vi starter med engelsk:
Resultatene er som følger:
Legg merke til følgende:
- Vi stiller relaterte, men litt forskjellige spørsmål, og modellen er nyansert nok til å presentere de mest relevante resultatene øverst.
- Vår modell utfører ikke søkeordbasert søk, men semantisk søk. Selv om vi bruker et begrep som "datavitenskap" i stedet for "AI", er modellen vår i stand til å forstå hva som blir spurt og returnere det mest relevante resultatet øverst.
Hva med et søk på dansk? La oss se på følgende spørring:
I det foregående eksempelet står det engelske akronymet "PP&E" for "eiendom, anlegg og utstyr", og modellen vår var i stand til å koble den til søket vårt.
I dette tilfellet er alle returnerte resultater på dansk, men modellen kan returnere et dokument på et annet språk enn spørringen hvis dens semantiske betydning er nærmere. Vi har full fleksibilitet, og med noen få linjer med kode kan vi spesifisere om modellen kun skal se på dokumenter på språket for spørringen, eller om den skal se på alle dokumenter.
Forbedre resultatene med Cohere Rerank
Innebygging er veldig kraftig. Imidlertid skal vi nå se på hvordan vi kan avgrense resultatene våre ytterligere med Cohere's Rerank-endepunkt, som har blitt opplært til å score relevansen til dokumenter mot en spørring.
En annen fordel med Rerank er at den kan fungere på toppen av en eldre søkemotor for søkeord. Du trenger ikke å bytte til en vektordatabase eller gjøre drastiske endringer i infrastrukturen din, og det tar bare noen få linjer med kode. Rerank er tilgjengelig i Amazon SageMaker.
La oss prøve et nytt søk. Vi bruker SageMaker denne gangen:
I dette tilfellet var et semantisk søk i stand til å hente svaret vårt og vise det i resultatene, men det er ikke øverst. Men når vi sender spørringen igjen til vårt Rerank-endepunkt med listen over dokumenter som er hentet, kan Rerank vise det mest relevante dokumentet øverst.
Først oppretter vi klienten og Rerank-endepunktet:
Når vi sender dokumentene til Rerank, er modellen i stand til å velge den mest relevante nøyaktig:
konklusjonen
Dette innlegget presenterte en gjennomgang av bruk av Coheres flerspråklige innebyggingsmodell i Amazon Bedrock i finanstjenestedomenet. Spesielt demonstrerte vi et eksempel på en flerspråklig søkeapplikasjon for finansielle artikler. Vi så hvordan innebyggingsmodellen muliggjør effektiv og nøyaktig oppdagelse av informasjon, og dermed øke produktiviteten og utdatakvaliteten til en analytiker.
Coheres flerspråklige innebyggingsmodell støtter over 100 språk. Det fjerner kompleksiteten ved å bygge applikasjoner som krever arbeid med et korpus av dokumenter på forskjellige språk. De Cohere Embed-modell er opplært til å levere resultater i virkelige applikasjoner. Den håndterer støyende data som innganger, tilpasser seg komplekse RAG-systemer og leverer kostnadseffektivitet fra sin kompresjonsbevisste treningsmetode.
Begynn å bygge med Coheres flerspråklige innebyggingsmodell i Amazon Bedrock i dag.
Om forfatterne
James Yi er senior AI/ML Partner Solutions Architect i Technology Partners COE Tech-teamet hos Amazon Web Services. Han brenner for å jobbe med bedriftskunder og partnere for å designe, distribuere og skalere AI/ML-applikasjoner for å oppnå forretningsverdi. Utenom jobben liker han å spille fotball, reise og tilbringe tid med familien.
Gonzalo Betegon er en løsningsarkitekt hos Cohere, en leverandør av banebrytende naturlig språkbehandlingsteknologi. Han hjelper organisasjoner med å møte deres forretningsbehov gjennom utrulling av store språkmodeller.
Meor Amer er en Developer Advocate hos Cohere, en leverandør av banebrytende NLP-teknologi (natural language processing). Han hjelper utviklere med å bygge banebrytende applikasjoner med Coheres store språkmodeller (LLM).
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- : har
- :er
- :ikke
- :hvor
- $OPP
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- I stand
- Om oss
- adgang
- Ifølge
- Logg inn
- nøyaktig
- nøyaktig
- Oppnå
- tvers
- handlinger
- tilpasser
- legge
- Ytterligere
- adresse
- avansert
- Fordel
- advokat
- AFP
- en gang til
- mot
- AI
- AI-plattform
- AI / ML
- Alle
- tillate
- tillater
- langs
- allerede
- også
- Amazon
- Amazon Web Services
- beløp
- beløp
- an
- analyse
- analytiker
- analytikere
- analyserer
- og
- besvare
- api
- Søknad
- søknader
- tilnærming
- tilnærminger
- arkitektur
- ER
- Artikkel
- artikler
- AS
- spør
- At
- augmented
- tilgjengelig
- AWS
- basert
- fordi
- vært
- være
- Bedre
- mellom
- Blocks
- øke
- øke
- Brexit
- BRO
- bygge
- Bygning
- bygger
- virksomhet
- Bedriftsledere
- bedrifter
- men
- by
- CAN
- evner
- fangst
- saken
- saker
- tak
- økonomisjefer
- utfordre
- utfordringer
- endring
- Endringer
- Velg
- klassifisering
- ren
- kunde
- Lukke
- tett
- nærmere
- CO
- kode
- samling
- Kolonne
- kommer
- Selskaper
- Selskapets
- sammenligne
- fullføre
- komplekse
- kompleksitet
- datamaskiner
- bekymret
- Koble
- tilkoblet
- innhold
- kontekst
- kontekstuelle
- kontrast
- kontroller
- konvensjonell
- Bedriftens
- Kostnad
- kostnadsbesparelser
- kunne
- Par
- kombinert
- dekker
- Covid-19
- skape
- opprettet
- skaper
- kreditt
- krise
- kriterier
- kuratert
- Gjeldende
- Kunder
- skjærekant
- Cybersecurity
- danish
- danske
- dato
- datavitenskap
- Database
- de
- Fristen
- håndtering
- dedikert
- den
- leverer
- levere resultater
- leverer
- demonstrere
- demonstrert
- utplassere
- distribusjon
- avleiringer
- Derive
- utforming
- designet
- Utvikler
- utviklere
- Utvikling
- forskjellig
- vanskelig
- Fordøye
- dimensjoner
- oppdage
- Funnet
- Vise
- distinkt
- distribueres
- distribusjon
- do
- dokument
- dokumenter
- gjør
- domene
- ikke
- ned
- stasjonen
- to
- e
- hver enkelt
- Tidlig
- Inntjening
- lette
- brukervennlighet
- økonomi
- Effektiv
- effektiv
- innsats
- el
- eliminerer
- ellers
- embed
- embedding
- Emery
- Utslipp
- Ansatt
- muliggjøre
- muliggjør
- slutt
- Endpoint
- engasjement
- Motor
- Engelsk
- enorm
- nok
- berike
- sikre
- sikrer
- Enterprise
- bedrifter
- Miljø
- utstyr
- feil
- IT G
- etablere
- Selv
- eksempel
- utmerket
- eksisterende
- erfaren
- utforske
- trekke ut
- Falls
- familie
- FAST
- gjennomførbart
- Noen få
- Figur
- filet
- finansiell
- finansielle nyheter
- finansielle tjenester
- Finn
- finne
- funn
- finsk
- fem
- fleksibilitet
- flyten
- Fokus
- følge
- etter
- følger
- Til
- skjema
- funnet
- fire
- fristen
- fra
- fullt
- funksjon
- videre
- mellomrom
- GAS
- samle
- BNP
- generert
- genererer
- Global
- Global økonomi
- Go
- Mål
- skal
- god
- gresk
- Gruppens
- veilede
- Håndterer
- Ha
- he
- overskrifter
- Overskrifter
- hebraisk
- hjelpe
- hjelper
- striper
- hans
- hit
- Hvordan
- Hvordan
- Men
- HTML
- HTTPS
- ungarsk
- i
- if
- illustrerer
- implementere
- importere
- forbedre
- forbedrer
- bedre
- in
- inkludere
- Øke
- indeks
- industri
- info
- informasjon
- informert
- Infrastruktur
- inngang
- innganger
- innsikt
- installere
- i stedet
- integrere
- integrering
- hensikt
- inn
- introdusere
- innføre
- IP
- IT
- italiensk
- DET ER
- Januar
- Japansk
- Jobb
- jpg
- bare
- Hold
- landskap
- SPRÅK
- Språk
- språk
- stor
- større
- største
- LAS
- Siste
- siste
- ledere
- ledende
- leasing
- Legacy
- lovgivende
- lovforslag
- Lengde
- mindre
- Bibliotek
- i likhet med
- linje
- linjer
- Liste
- oppført
- Lån
- Lang
- lang tid
- Se
- den
- Lot
- Hoved
- gjøre
- GJØR AT
- Making
- mann
- administrer
- fikk til
- ledelse
- mange
- kart
- Mars
- marked
- markedsverdi
- Markets
- massive
- matchende
- betyr
- betydninger
- måle
- målinger
- Media
- Møt
- møte
- bare
- metode
- migrasjon
- ML
- Mote
- modell
- modellering
- modeller
- Moderne
- Moduler
- mer
- mer effektivt
- mest
- mye
- flere
- navn
- Naturlig
- Natural Language Processing
- Navigasjon
- nødvendig
- Trenger
- behov
- naboer
- Ny
- nyheter
- neste
- nlp
- Nei.
- Norsk
- bærbare
- nå
- mange
- NY
- NYE
- NYT
- objektivt
- of
- on
- ONE
- seg
- bare
- onslaught
- åpen
- åpen kildekode
- Alternativ
- or
- rekkefølge
- organisasjoner
- original
- OS
- Annen
- vår
- produksjon
- utenfor
- enn
- pakke
- pakker
- pandaer
- brød
- del
- Spesielt
- partner
- partnere
- passere
- bestått
- lidenskapelig
- betaling
- lønn
- for
- Utfør
- ytelse
- plukke
- plukking
- rørledning
- fly
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- spiller
- podcast
- Point
- polsk
- stillinger
- Post
- potensiell
- kraftig
- forut
- presentere
- presentert
- Principal
- Skrive ut
- privatliv
- prosess
- prosessering
- produktivitet
- fagfolk
- Progress
- eiendom
- forslag
- beskyttet
- gi
- leverandør
- gir
- publikasjoner
- formål
- PWC
- kvalitet
- spørsmål
- spørsmål
- spørsmål
- raskt
- R
- heve
- rangerer
- Ranking
- RE
- klar
- virkelige verden
- anerkjennelse
- poster
- redusere
- referanse
- avgrense
- Reform
- region
- i slekt
- relevans
- relevant
- forbli
- forblir
- Fjerner
- gjenåpne
- gjentatt
- erstatte
- Rapportering
- Rapporter
- anmode
- krever
- resultere
- resulterende
- Resultater
- beholde
- retur
- retur
- russisk
- s
- sagemaker
- besparende
- Besparelser
- så
- Skala
- Vitenskap
- Resultat
- Søk
- søkemotor
- søk
- søker
- SEK
- Sekund
- sikkert
- sikkerhet
- se
- valgt
- senior
- sensitive
- sentiment
- Tjenester
- Session
- aksjonær
- bør
- presentere
- Viser
- lignende
- enkelt
- Nettsteder
- litt annerledes
- Sakte
- Fotball
- Solutions
- noen
- kilde
- Kilder
- Rom
- Spansk
- snakke
- spesiell
- bruke
- utgifter
- stable
- Staff
- Scene
- Standard
- står
- Begynn
- Start
- uttalelser
- opphold
- lager
- aksjemarked
- aksjer
- oppbevare
- rett fram
- Strategi
- sterk
- strukturert
- betydelig
- slik
- støtte
- Støttes
- Støtte
- Støtter
- overflaten
- Survey /Inspeksjonsfartøy
- Bærekraft
- bærekraftig
- Bærekraftig utvikling
- Svensk
- Bytte om
- Synonym
- system
- Systemer
- tar
- mål
- skatt
- lag
- tech
- Teknologi
- begrep
- tekst
- Tekstklassifisering
- enn
- Det
- De
- deres
- Dem
- deretter
- Der.
- derved
- Disse
- de
- denne
- De
- tre
- Gjennom
- tid
- titler
- til
- i dag
- topp
- Tema
- temaer
- spor
- trent
- Kurs
- oversette
- Oversettelse
- Traveling
- prøve
- tyrkisk
- SVING
- snur
- typisk
- UN
- avdekke
- underliggende
- forstå
- unik
- URL
- us
- bruke
- bruk sak
- Brukere
- bruker
- ved hjelp av
- verdi
- variasjon
- veldig
- walkthrough
- ønsker
- var
- Wave
- Vei..
- we
- web
- webtjenester
- VI VIL
- Hva
- når
- om
- hvilken
- HVEM
- vil
- med
- uten
- Arbeid
- arbeidsflyt
- arbeid
- verden
- verdensklasse
- år
- ennå
- Du
- Din
- zephyrnet