Virksomheder har adgang til enorme mængder data, hvoraf meget er svært at opdage, fordi dataene er ustrukturerede. Konventionelle tilgange til analyse ustrukturerede data brug søgeords- eller synonymmatching. De fanger ikke den fulde kontekst af et dokument, hvilket gør dem mindre effektive til at håndtere ustrukturerede data.
I modsætning hertil bruger tekstindlejringer machine learning (ML) evner til at fange betydningen af ustrukturerede data. Indlejringer genereres af repræsentative sprogmodeller, der oversætter tekst til numeriske vektorer og koder kontekstuel information i et dokument. Dette muliggør applikationer såsom semantisk søgning, Retrieval Augmented Generation (RAG), emnemodellering og tekstklassificering.
For eksempel i industrien for finansielle tjenesteydelser omfatter applikationer at udtrække indsigt fra indtjeningsrapporter, søgning efter oplysninger fra regnskaber og analysere følelser om aktier og markeder, der findes i finansielle nyheder. Tekstindlejringer gør det muligt for branchefolk at udtrække indsigt fra dokumenter, minimere fejl og øge deres ydeevne.
I dette indlæg viser vi en applikation, der kan søge og forespørge på tværs af finansielle nyheder på forskellige sprog ved hjælp af Cohere's Integrer , Genranger modeller med Amazonas grundfjeld.
Coheres flersprogede indlejringsmodel
Cohere er en førende virksomheds-AI-platform, der bygger store sprogmodeller (LLM'er) i verdensklasse og LLM-drevne løsninger, der tillader computere at søge, fange mening og tale i tekst. De giver brugervenlighed og stærke sikkerheds- og privatlivskontroller.
Coheres flersprogede indlejringsmodel genererer vektorrepræsentationer af dokumenter til over 100 sprog og er tilgængelig på Amazon Bedrock. Dette giver AWS-kunder adgang til det som en API, hvilket eliminerer behovet for at administrere den underliggende infrastruktur og sikrer, at følsomme oplysninger forbliver sikkert administreret og beskyttet.
Den flersprogede model grupperer tekst med lignende betydninger ved at tildele dem positioner, der er tæt på hinanden i et semantisk vektorrum. Med en flersproget indlejringsmodel kan udviklere behandle tekst på flere sprog uden at skulle skifte mellem forskellige modeller, som illustreret i den følgende figur. Dette gør behandlingen mere effektiv og forbedrer ydeevnen for flersprogede applikationer.
Følgende er nogle af højdepunkterne i Coheres indlejringsmodel:
- Fokus på dokumentkvalitet – Typiske indlejringsmodeller er trænet til at måle lighed mellem dokumenter, men Coheres model måler også dokumentkvalitet
- Bedre hentning til RAG-applikationer – RAG-applikationer kræver et godt genfindingssystem, hvilket Coheres indlejringsmodel udmærker sig ved
- Omkostningseffektiv datakomprimering – Cohere bruger en speciel, kompressionsbevidst træningsmetode, hvilket resulterer i betydelige omkostningsbesparelser for din vektordatabase
Brug cases til tekstindlejring
Tekstindlejringer gør ustrukturerede data til en struktureret form. Dette giver dig mulighed for objektivt at sammenligne, dissekere og udlede indsigt fra alle disse dokumenter. Følgende er eksempler på use cases, som Coheres indlejringsmodel muliggør:
- Semantisk søgning - Muliggør kraftfulde søgeapplikationer, når de kombineres med en vektordatabase, med fremragende relevans baseret på søgesætningens betydning
- Søgemaskine til et større system – Finder og henter den mest relevante information fra tilsluttede virksomhedsdatakilder til RAG-systemer
- Tekstklassificering – Understøtter hensigtsgenkendelse, sentimentanalyse og avanceret dokumentanalyse
- Emnemodellering - Forvandler en samling af dokumenter til særskilte klynger for at afdække nye emner og temaer
Forbedrede søgesystemer med Rerank
Hvordan introducerer man moderne semantiske søgefunktioner i virksomheder, hvor der allerede findes konventionelle søgeordssøgesystemer? For sådanne systemer, der har været en del af en virksomheds informationsarkitektur i lang tid, er en fuldstændig migrering til en indlejringsbaseret tilgang i mange tilfælde bare ikke gennemførlig.
Cohere's Rerank-endepunkt er designet til at bygge bro over denne kløft. Det fungerer som det andet trin i et søgeflow for at give en rangering af relevante dokumenter i henhold til en brugers forespørgsel. Virksomheder kan bibeholde et eksisterende søgeord (eller endda semantisk) system til første trins genfinding og øge kvaliteten af søgeresultater med Rerank endpoint i anden trins reranking.
Rerank giver en hurtig og ligetil mulighed for at forbedre søgeresultaterne ved at introducere semantisk søgeteknologi i en brugers stak med en enkelt kodelinje. Slutpunktet kommer også med flersproget support. Følgende figur illustrerer arbejdsgangen for hentning og omplacering.
Løsningsoversigt
Finansanalytikere skal fordøje en masse indhold, såsom finansielle publikationer og nyhedsmedier, for at holde sig orienteret. Ifølge Association for Financial Professionals (AFP), bruger finansanalytikere 75 % af deres tid på at indsamle data eller administrere processen i stedet for merværdianalyse. At finde svaret på et spørgsmål på tværs af en række forskellige kilder og dokumenter er tidskrævende og kedeligt arbejde. Cohere-indlejringsmodellen hjælper analytikere med hurtigt at søge på tværs af adskillige artikeltitler på flere sprog for at finde og rangere de artikler, der er mest relevante for en bestemt forespørgsel, hvilket sparer en enorm mængde tid og kræfter.
I det følgende use case-eksempel viser vi, hvordan Coheres Embed-model søger og forespørger på tværs af finansielle nyheder på forskellige sprog i én unik pipeline. Derefter demonstrerer vi, hvordan tilføjelse af Rerank til din indlejringshentning (eller tilføjelse af den til en ældre leksikalsk søgning) kan forbedre resultaterne yderligere.
Den understøttende notesbog er tilgængelig på GitHub.
Følgende diagram illustrerer applikationens arbejdsgang.
Aktiver modeladgang via Amazon Bedrock
Amazon Bedrock-brugere skal anmode om adgang til modeller for at gøre dem tilgængelige til brug. Vælg for at anmode om adgang til yderligere modeller Modeladgang navigationsruden på Amazonas grundfjeld konsol. For mere information, se Modeladgang. Til denne gennemgang skal du anmode om adgang til Cohere Embed Multilingual-modellen.
Installer pakker og importer moduler
Først installerer vi de nødvendige pakker og importerer de moduler, vi vil bruge i dette eksempel:
Importer dokumenter
Vi bruger et datasæt (MultiFIN), der indeholder en liste over artikeloverskrifter fra den virkelige verden, der dækker 15 sprog (engelsk, tyrkisk, dansk, spansk, polsk, græsk, finsk, hebraisk, japansk, ungarsk, norsk, russisk, italiensk, islandsk og svensk ). Dette er et open source-datasæt kurateret til finansiel behandling af naturligt sprog (NLP) og er tilgængeligt på en GitHub repository.
I vores tilfælde har vi lavet en CSV-fil med MultiFINs data samt en kolonne med oversættelser. Vi bruger ikke denne kolonne til at fodre modellen; vi bruger det til at hjælpe os med at følge med, når vi udskriver resultaterne til dem, der ikke taler dansk eller spansk. Vi peger på denne CSV for at skabe vores dataramme:
Vælg en liste over dokumenter, du vil forespørge på
MultiFIN har over 6,000 poster på 15 forskellige sprog. For vores eksempelbrug fokuserer vi på tre sprog: engelsk, spansk og dansk. Vi sorterer også overskrifterne efter længde og vælger de længste.
Fordi vi udvælger de længste artikler, sikrer vi, at længden ikke skyldes gentagne sekvenser. Følgende kode viser et eksempel, hvor det er tilfældet. Det vil vi rydde op i.
df['text'].iloc[2215]
Vores liste over dokumenter er pænt fordelt på de tre sprog:
Følgende er den længste artikeloverskrift i vores datasæt:
Integrer og indekser dokumenter
Nu vil vi indlejre vores dokumenter og gemme indlejringerne. Indlejringerne er meget store vektorer, der indkapsler den semantiske betydning af vores dokument. Vi bruger især Coheres embed-multilingual-v3.0-model, som skaber indlejringer med 1,024 dimensioner.
Når en forespørgsel sendes, indlejrer vi også forespørgslen og bruger hnswlib-biblioteket til at finde de nærmeste naboer.
Det kræver kun et par linjer kode at etablere en Cohere-klient, indlejre dokumenterne og oprette søgeindekset. Vi holder også styr på sproget og oversættelsen af dokumentet for at berige visningen af resultaterne.
Byg et genfindingssystem
Dernæst bygger vi en funktion, der tager en forespørgsel som input, indlejrer den og finder de fire overskrifter, der er tættere relateret til den:
Forespørg på genfindingssystemet
Lad os undersøge, hvad vores system gør med et par forskellige forespørgsler. Vi starter med engelsk:
Resultaterne er som følger:
Bemærk følgende:
- Vi stiller relaterede, men lidt anderledes spørgsmål, og modellen er nuanceret nok til at præsentere de mest relevante resultater øverst.
- Vores model udfører ikke søgeordsbaseret søgning, men semantisk søgning. Selvom vi bruger et udtryk som "data science" i stedet for "AI", er vores model i stand til at forstå, hvad der bliver spurgt og returnere det mest relevante resultat øverst.
Hvad med en forespørgsel på dansk? Lad os se på følgende forespørgsel:
I det foregående eksempel står det engelske akronym "PP&E" for "ejendom, anlæg og udstyr", og vores model var i stand til at forbinde det med vores forespørgsel.
I dette tilfælde er alle returnerede resultater på dansk, men modellen kan returnere et dokument på et andet sprog end forespørgslen, hvis dets semantiske betydning er tættere på. Vi har fuld fleksibilitet, og med få linjer kode kan vi angive, om modellen kun skal se på dokumenter på forespørgslens sprog, eller om den skal se på alle dokumenter.
Forbedre resultater med Cohere Rerank
Indlejringer er meget kraftfulde. Men vi skal nu se på, hvordan vi kan forfine vores resultater endnu mere med Cohere's Rerank endpoint, som er blevet trænet til at score relevansen af dokumenter i forhold til en forespørgsel.
En anden fordel ved Rerank er, at den kan fungere oven på en ældre søgeordssøgemaskine. Du behøver ikke at skifte til en vektordatabase eller foretage drastiske ændringer i din infrastruktur, og det kræver kun et par linjer kode. Rerank er tilgængelig i Amazon SageMaker.
Lad os prøve en ny forespørgsel. Vi bruger SageMaker denne gang:
I dette tilfælde var en semantisk søgning i stand til at hente vores svar og vise det i resultaterne, men det er ikke øverst. Men når vi sender forespørgslen igen til vores Rerank-slutpunkt med listen over hentede dokumenter, er Rerank i stand til at vise det mest relevante dokument øverst.
Først opretter vi klienten og Rerank-slutpunktet:
Når vi videregiver dokumenterne til Rerank, er modellen i stand til at vælge den mest relevante nøjagtigt:
Konklusion
Dette indlæg præsenterede en gennemgang af brugen af Coheres flersprogede indlejringsmodel i Amazon Bedrock i domænet for finansielle tjenester. Vi demonstrerede især et eksempel på en flersproget søgeapplikation til finansielle artikler. Vi så, hvordan indlejringsmodellen muliggør effektiv og præcis opdagelse af information og derved øger produktiviteten og outputkvaliteten hos en analytiker.
Coheres flersprogede indlejringsmodel understøtter over 100 sprog. Det fjerner kompleksiteten ved at bygge applikationer, der kræver arbejde med et korpus af dokumenter på forskellige sprog. Det Cohere Embed model er uddannet til at levere resultater i virkelige applikationer. Den håndterer støjende data som input, tilpasser sig komplekse RAG-systemer og leverer omkostningseffektivitet fra sin kompressionsbevidste træningsmetode.
Begynd at bygge med Coheres flersprogede indlejringsmodel i Amazon Bedrock i dag.
Om forfatterne
James Yi er senior AI/ML Partner Solutions Architect i Technology Partners COE Tech-teamet hos Amazon Web Services. Han brænder for at arbejde med virksomhedskunder og partnere for at designe, implementere og skalere AI/ML-applikationer for at opnå forretningsværdi. Uden for arbejdet nyder han at spille fodbold, rejse og tilbringe tid med sin familie.
Gonzalo Betegon er Solutions Architect hos Cohere, en leverandør af banebrydende naturligt sprogbehandlingsteknologi. Han hjælper organisationer med at løse deres forretningsbehov gennem implementering af store sprogmodeller.
Meor Amer er udvikleradvokat hos Cohere, en udbyder af banebrydende NLP-teknologi (natural language processing). Han hjælper udviklere med at bygge banebrydende applikationer med Cohere's Large Language Models (LLM'er).
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :har
- :er
- :ikke
- :hvor
- $OP
- 000
- 1
- 10
- 100
- 11
- 13
- 15 %
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- I stand
- Om
- adgang
- Ifølge
- Konto
- præcis
- præcist
- opnå
- tværs
- handlinger
- tilpasser
- tilføje
- Yderligere
- adresse
- fremskreden
- Fordel
- fortaler
- AFP
- igen
- mod
- AI
- AI platform
- AI / ML
- Alle
- tillade
- tillader
- sammen
- allerede
- også
- Amazon
- Amazon Web Services
- beløb
- beløb
- an
- analyse
- analytiker
- Analytikere
- analysere
- ,
- besvare
- api
- Anvendelse
- applikationer
- tilgang
- tilgange
- arkitektur
- ER
- artikel
- artikler
- AS
- spørge
- At
- augmented
- til rådighed
- AWS
- baseret
- fordi
- været
- være
- Bedre
- mellem
- Blocks
- boost
- fremme
- Brexit
- BRIDGE
- bygge
- Bygning
- bygger
- virksomhed
- Virksomhedsledere
- virksomheder
- men
- by
- CAN
- kapaciteter
- fange
- tilfælde
- tilfælde
- loft
- økonomidirektører
- udfordre
- udfordringer
- lave om
- Ændringer
- Vælg
- klassificering
- ren
- kunde
- Luk
- nøje
- tættere
- CO
- kode
- samling
- Kolonne
- kommer
- Virksomheder
- Selskabs
- sammenligne
- fuldføre
- komplekse
- kompleksitet
- computere
- pågældende
- Tilslut
- tilsluttet
- indhold
- sammenhæng
- kontekstuelle
- kontrast
- kontrol
- konventionelle
- Corporate
- Koste
- omkostningsbesparelser
- kunne
- Par
- koblede
- dækker
- Covid-19
- skabe
- oprettet
- skaber
- kredit
- krise
- kriterier
- kurateret
- Nuværende
- Kunder
- banebrydende
- Cybersecurity
- dansk
- danske
- data
- datalogi
- Database
- de
- deadline
- beskæftiger
- dedikeret
- den
- levere
- levere resultater
- leverer
- demonstrere
- demonstreret
- indsætte
- implementering
- indskud
- udlede
- Design
- konstrueret
- Udvikler
- udviklere
- Udvikling
- forskellige
- svært
- Fordøje
- størrelse
- opdage
- opdagelse
- Skærm
- distinkt
- distribueret
- fordeling
- do
- dokumentet
- dokumenter
- gør
- domæne
- Dont
- ned
- køre
- grund
- e
- hver
- Tidligt
- Indtjening
- lette
- brugervenlighed
- økonomi
- Effektiv
- effektiv
- indsats
- el
- eliminerer
- andet
- Integrer
- indlejring
- smergel
- Emissioner
- Medarbejder
- muliggøre
- muliggør
- ende
- Endpoint
- engagement
- Engine (Motor)
- Engelsk
- enorm
- nok
- berige
- sikre
- sikrer
- Enterprise
- virksomheder
- Miljø
- udstyr
- fejl
- ESG
- etablere
- Endog
- eksempel
- fremragende
- eksisterende
- erfarne
- udforske
- ekstrakt
- Falls
- familie
- FAST
- gennemførlig
- få
- Figur
- File (Felt)
- finansielle
- finansielle nyheder
- finansielle tjenesteydelser
- Finde
- finde
- fund
- finnish
- fem
- Fleksibilitet
- flow
- Fokus
- følger
- efter
- følger
- Til
- formular
- fundet
- fire
- frist
- fra
- fuld
- funktion
- yderligere
- kløft
- GAS
- indsamling
- BNP
- genereret
- genererer
- Global
- Global økonomi
- Go
- Mål
- gå
- godt
- græsk
- Gruppens
- vejlede
- Håndterer
- Have
- he
- headers
- Overskrifter
- hebrew
- hjælpe
- hjælper
- højdepunkter
- hans
- Hit
- Hvordan
- How To
- Men
- HTML
- HTTPS
- Ungarsk
- i
- if
- illustrerer
- gennemføre
- importere
- Forbedre
- forbedrer
- forbedring
- in
- omfatter
- Forøg
- indeks
- industrien
- info
- oplysninger
- informeret
- Infrastruktur
- indgang
- indgange
- indsigt
- installere
- i stedet
- integrere
- integration
- hensigt
- ind
- indføre
- indføre
- IP
- IT
- italiensk
- ITS
- januar
- japansk
- Karriere
- jpg
- lige
- Holde
- landskab
- SPROG
- Sprog
- Sprog
- stor
- større
- største
- LAS
- Efternavn
- seneste
- ledere
- førende
- leasing
- Legacy
- Lovgivende
- lovforslag
- Længde
- mindre
- Bibliotek
- ligesom
- Line (linje)
- linjer
- Liste
- Børsnoterede
- Lån
- Lang
- lang tid
- Se
- den
- Lot
- Main
- lave
- maerker
- Making
- mand
- administrere
- lykkedes
- ledelse
- mange
- kort
- Marts
- Marked
- markedsværdi
- Markeder
- massive
- matchende
- betyder
- betydninger
- måle
- foranstaltninger
- Medier
- Mød
- møde
- blotte
- metode
- migration
- ML
- tilstand
- model
- modellering
- modeller
- Moderne
- Moduler
- mere
- mere effektiv
- mest
- meget
- flere
- navn
- Natural
- Natural Language Processing
- Navigation
- nødvendig
- Behov
- behov
- naboer
- Ny
- nyheder
- næste
- NLP
- ingen
- Norsk
- notesbog
- nu
- talrige
- NY
- NEW
- NYT
- objektivt
- of
- on
- ONE
- dem
- kun
- stormløb
- åbent
- open source
- Option
- or
- ordrer
- organisationer
- original
- OS
- Andet
- vores
- output
- uden for
- i løbet af
- pakke
- pakker
- pandaer
- brød
- del
- særlig
- partner
- partnere
- passerer
- Bestået
- lidenskabelige
- betaling
- Lønningsliste
- per
- Udfør
- ydeevne
- pick
- plukke
- pipeline
- fly
- perron
- plato
- Platon Data Intelligence
- PlatoData
- spiller
- podcast
- Punkt
- polsk
- positioner
- Indlæg
- potentiale
- vigtigste
- forud
- præsentere
- forelagt
- Main
- Beskyttelse af personlige oplysninger
- behandle
- forarbejdning
- produktivitet
- professionelle partnere
- Progress
- ejendom
- forslag
- beskyttet
- give
- udbyder
- giver
- publikationer
- formål
- PWC
- kvalitet
- forespørgsler
- spørgsmål
- Spørgsmål
- hurtigt
- R
- rejse
- rangerer
- Ranking
- RE
- klar
- virkelige verden
- anerkendelse
- optegnelser
- reducere
- henvisningen
- raffinere
- Reform
- region
- relaterede
- relevans
- relevant
- forblive
- resterne
- fjerner
- genåbne
- gentaget
- erstatte
- Rapportering
- Rapporter
- anmode
- kræver
- resultere
- resulterer
- Resultater
- tilbageholde
- afkast
- vender tilbage
- Russisk
- s
- sagemaker
- besparelse
- Besparelser
- så
- Scale
- Videnskab
- score
- Søg
- søgemaskine
- søgninger
- søgning
- SEK
- Anden
- sikkert
- sikkerhed
- se
- valgt
- senior
- følsom
- stemningen
- Tjenester
- Session
- aktionær
- bør
- udstillingsvindue
- Shows
- lignende
- enkelt
- Websteder
- lidt anderledes
- langsomt
- Fodbold
- Løsninger
- nogle
- Kilde
- Kilder
- Space
- Spansk
- tale
- særligt
- tilbringe
- udgifterne
- stable
- Personale
- Stage
- standard
- står
- starte
- Starter
- udsagn
- forblive
- bestand
- aktiemarkedet
- Lagre
- butik
- ligetil
- Strategi
- stærk
- struktureret
- væsentlig
- sådan
- support
- Understøttet
- Støtte
- Understøtter
- overflade
- Kortlægge
- Bæredygtighed
- bæredygtig
- Bæredygtig udvikling
- Svensk
- Kontakt
- Synonym
- systemet
- Systemer
- tager
- mål
- skat
- hold
- tech
- Teknologier
- semester
- tekst
- Tekstklassificering
- end
- at
- deres
- Them
- derefter
- Der.
- derved
- Disse
- de
- denne
- dem
- tre
- Gennem
- tid
- titler
- til
- i dag
- top
- emne
- Emner
- spor
- uddannet
- Kurser
- Oversætte
- Oversættelse
- Traveling
- prøv
- tyrkisk
- TUR
- vender
- typisk
- UN
- afdække
- underliggende
- forstå
- enestående
- URL
- us
- brug
- brug tilfælde
- brugere
- bruger
- ved brug af
- værdi
- række
- meget
- går igennem
- ønsker
- var
- Wave
- Vej..
- we
- web
- webservices
- GODT
- Hvad
- hvornår
- hvorvidt
- som
- WHO
- vilje
- med
- uden
- Arbejde
- workflow
- arbejder
- world
- verdens klasse
- år
- endnu
- Du
- Din
- zephyrnet