As empresas têm acesso a enormes quantidades de dados, muitos dos quais são difíceis de descobrir porque os dados não são estruturados. Abordagens convencionais para análise dados não estruturados use correspondência de palavras-chave ou sinônimos. Eles não capturam todo o contexto de um documento, o que os torna menos eficazes no tratamento de dados não estruturados.
Em contraste, os embeddings de texto usam aprendizado de máquina (ML) recursos para capturar o significado de dados não estruturados. Os embeddings são gerados por modelos de linguagem representacional que traduzem texto em vetores numéricos e codificam informações contextuais em um documento. Isso permite aplicações como pesquisa semântica, Geração Aumentada de Recuperação (RAG), modelagem de tópicos e classificação de texto.
Por exemplo, no setor de serviços financeiros, as aplicações incluem a extração de insights de relatórios de lucros, a busca de informações em demonstrações financeiras e a análise de sentimentos sobre ações e mercados encontrados em notícias financeiras. A incorporação de texto permite que os profissionais do setor extraiam insights de documentos, minimizem erros e aumentem seu desempenho.
Nesta postagem, apresentamos um aplicativo que pode pesquisar e consultar notícias financeiras em diferentes idiomas usando o Cohere. Embutir e Reclassificar modelos com Rocha Amazônica.
Modelo de incorporação multilíngue de Cohere
Cohere é uma plataforma empresarial líder de IA que cria grandes modelos de linguagem (LLMs) de classe mundial e soluções baseadas em LLM que permitem que os computadores pesquisem, capturem significado e conversem em texto. Eles fornecem facilidade de uso e fortes controles de segurança e privacidade.
Modelo de incorporação multilíngue de Cohere gera representações vetoriais de documentos em mais de 100 idiomas e está disponível no Amazon Bedrock. Isso permite que os clientes da AWS acessem-no como uma API, o que elimina a necessidade de gerenciar a infraestrutura subjacente e garante que as informações confidenciais permaneçam gerenciadas e protegidas com segurança.
O modelo multilíngue agrupa textos com significados semelhantes, atribuindo-lhes posições próximas umas das outras em um espaço vetorial semântico. Com um modelo de incorporação multilíngue, os desenvolvedores podem processar texto em vários idiomas sem a necessidade de alternar entre modelos diferentes, conforme ilustrado na figura a seguir. Isso torna o processamento mais eficiente e melhora o desempenho de aplicativos multilíngues.
A seguir estão alguns dos destaques do modelo de incorporação de Cohere:
- Concentre-se na qualidade do documento – Modelos de incorporação típicos são treinados para medir a similaridade entre documentos, mas o modelo de Cohere também mede a qualidade do documento
- Melhor recuperação para aplicativos RAG – As aplicações RAG requerem um bom sistema de recuperação, no qual o modelo de incorporação de Cohere se destaca
- Compressão de dados econômica – Cohere usa um método de treinamento especial com reconhecimento de compressão, resultando em economias substanciais de custos para seu banco de dados de vetores
Casos de uso para incorporação de texto
A incorporação de texto transforma dados não estruturados em um formulário estruturado. Isso permite comparar, dissecar e obter insights de forma objetiva de todos esses documentos. A seguir estão exemplos de casos de uso que o modelo de incorporação de Cohere permite:
- Busca semântica – Permite aplicações de pesquisa poderosas quando combinadas com um banco de dados vetorial, com excelente relevância com base no significado da frase de pesquisa
- Mecanismo de busca para um sistema maior – Encontra e recupera as informações mais relevantes de fontes de dados empresariais conectadas para sistemas RAG
- Classificação de texto – Suporta reconhecimento de intenção, análise de sentimento e análise avançada de documentos
- Modelagem de tópicos – Transforma uma coleção de documentos em grupos distintos para descobrir tópicos e temas emergentes
Sistemas de pesquisa aprimorados com Rerank
Em empresas onde já existem sistemas convencionais de pesquisa por palavras-chave, como introduzir capacidades modernas de pesquisa semântica? Para esses sistemas que fazem parte da arquitetura de informação de uma empresa há muito tempo, uma migração completa para uma abordagem baseada em incorporações é, em muitos casos, simplesmente inviável.
Ponto final de reclassificação de Cohere foi projetado para preencher essa lacuna. Ele atua como o segundo estágio de um fluxo de pesquisa para fornecer uma classificação de documentos relevantes de acordo com a consulta do usuário. As empresas podem manter um sistema de palavras-chave (ou mesmo semântico) existente para a recuperação do primeiro estágio e aumentar a qualidade dos resultados da pesquisa com o ponto final Reclassificação na reclassificação do segundo estágio.
Rerank fornece uma opção rápida e direta para melhorar os resultados da pesquisa, introduzindo a tecnologia de pesquisa semântica na pilha do usuário com uma única linha de código. O endpoint também vem com suporte multilíngue. A figura a seguir ilustra o fluxo de trabalho de recuperação e reclassificação.
Visão geral da solução
Os analistas financeiros precisam digerir muito conteúdo, como publicações financeiras e meios de comunicação, para se manterem informados. De acordo com Associação de Profissionais Financeiros (AFP), os analistas financeiros dedicam 75% do seu tempo à recolha de dados ou à administração do processo, em vez da análise de valor acrescentado. Encontrar a resposta para uma pergunta em uma variedade de fontes e documentos é um trabalho demorado e tedioso. O modelo de incorporação Cohere ajuda os analistas a pesquisar rapidamente vários títulos de artigos em vários idiomas para encontrar e classificar os artigos mais relevantes para uma consulta específica, economizando muito tempo e esforço.
No exemplo de caso de uso a seguir, mostramos como o modelo Embed da Cohere pesquisa e consulta notícias financeiras em diferentes idiomas em um pipeline exclusivo. Em seguida, demonstramos como adicionar Reclassificação à recuperação de embeddings (ou adicioná-lo a uma pesquisa lexical legada) pode melhorar ainda mais os resultados.
O notebook de suporte está disponível em GitHub.
O diagrama a seguir ilustra o fluxo de trabalho do aplicativo.
Habilite o acesso ao modelo por meio do Amazon Bedrock
Os usuários do Amazon Bedrock precisam solicitar acesso aos modelos para disponibilizá-los para uso. Para solicitar acesso a modelos adicionais, escolha Acesso ao modelo o painel de navegação no Amazon Bedrock consolá. Para mais informações, veja Acesso ao modelo. Para este passo a passo, você precisa solicitar acesso ao modelo Cohere Embed Multilingual.
Instalar pacotes e importar módulos
Primeiro, instalamos os pacotes necessários e importamos os módulos que usaremos neste exemplo:
Os documentos de importação
Usamos um conjunto de dados (MultiFIN) contendo uma lista de títulos de artigos do mundo real cobrindo 15 idiomas (inglês, turco, dinamarquês, espanhol, polonês, grego, finlandês, hebraico, japonês, húngaro, norueguês, russo, italiano, islandês e sueco ). Este é um conjunto de dados de código aberto com curadoria de processamento de linguagem natural (PNL) financeiro e está disponível em um site. Repositório GitHub.
No nosso caso, criamos um arquivo CSV com os dados do MultiFIN, bem como uma coluna com traduções. Não usamos esta coluna para alimentar o modelo; nós o usamos para nos ajudar a acompanhar quando imprimimos os resultados para quem não fala dinamarquês ou espanhol. Apontamos para esse CSV para criar nosso dataframe:
Selecione uma lista de documentos para consultar
MultiFIN possui mais de 6,000 registros em 15 idiomas diferentes. Para nosso exemplo de caso de uso, nos concentramos em três idiomas: inglês, espanhol e dinamarquês. Também classificamos os cabeçalhos por comprimento e escolhemos os mais longos.
Como escolhemos os artigos mais longos, garantimos que o comprimento não se deva a sequências repetidas. O código a seguir mostra um exemplo onde esse é o caso. Nós vamos limpar isso.
df['text'].iloc[2215]
Nossa lista de documentos está bem distribuída nos três idiomas:
A seguir está o cabeçalho de artigo mais longo em nosso conjunto de dados:
Incorporar e indexar documentos
Agora, queremos incorporar nossos documentos e armazenar os embeddings. Os embeddings são vetores muito grandes que encapsulam o significado semântico do nosso documento. Em particular, usamos o modelo embed-multilingual-v3.0 de Cohere, que cria embeddings com 1,024 dimensões.
Quando uma consulta é passada, também incorporamos a consulta e usamos a biblioteca hnswlib para encontrar os vizinhos mais próximos.
São necessárias apenas algumas linhas de código para estabelecer um cliente Cohere, incorporar os documentos e criar o índice de pesquisa. Também acompanhamos o idioma e a tradução do documento para enriquecer a exibição dos resultados.
Construa um sistema de recuperação
A seguir, construímos uma função que recebe uma consulta como entrada, incorpora-a e encontra os quatro cabeçalhos mais intimamente relacionados a ela:
Consulte o sistema de recuperação
Vamos explorar o que nosso sistema faz com algumas consultas diferentes. Começamos com inglês:
Os resultados são os seguintes:
Observe o seguinte:
- Estamos fazendo perguntas relacionadas, mas ligeiramente diferentes, e o modelo tem nuances suficientes para apresentar os resultados mais relevantes no topo.
- Nosso modelo não realiza pesquisa baseada em palavras-chave, mas sim pesquisa semântica. Mesmo se usarmos um termo como “ciência de dados” em vez de “IA”, nosso modelo é capaz de entender o que está sendo solicitado e retornar o resultado mais relevante no topo.
Que tal uma consulta em dinamarquês? Vejamos a seguinte consulta:
No exemplo anterior, a sigla em inglês “PP&E” significa “ativo imobilizado” e nosso modelo foi capaz de conectá-la à nossa consulta.
Neste caso, todos os resultados devolvidos estão em dinamarquês, mas o modelo pode devolver um documento numa língua diferente da consulta se o seu significado semântico for mais próximo. Temos total flexibilidade e com algumas linhas de código podemos especificar se o modelo deve examinar apenas os documentos na linguagem da consulta ou se deve examinar todos os documentos.
Melhore os resultados com Cohere Rerank
As incorporações são muito poderosas. No entanto, agora veremos como refinar ainda mais nossos resultados com o endpoint Rerank de Cohere, que foi treinado para pontuar a relevância de documentos em relação a uma consulta.
Outra vantagem do Rerank é que ele pode funcionar em cima de um mecanismo de pesquisa de palavras-chave legado. Você não precisa mudar para um banco de dados vetorial ou fazer mudanças drásticas em sua infraestrutura, e isso leva apenas algumas linhas de código. A reclassificação está disponível em Amazon Sage Maker.
Vamos tentar uma nova consulta. Usamos o SageMaker desta vez:
Nesse caso, uma busca semântica conseguiu recuperar nossa resposta e exibi-la nos resultados, mas ela não está no topo. No entanto, quando passamos a consulta novamente para nosso endpoint Rerank com a lista de documentos recuperados, o Rerank é capaz de exibir o documento mais relevante no topo.
Primeiro, criamos o cliente e o endpoint Rerank:
Quando passamos os documentos para Rerank, o modelo consegue escolher com precisão o mais relevante:
Conclusão
Esta postagem apresentou um passo a passo do uso do modelo de incorporação multilíngue da Cohere no Amazon Bedrock no domínio de serviços financeiros. Em particular, demonstramos um exemplo de aplicação multilíngue de pesquisa de artigos financeiros. Vimos como o modelo de incorporação permite a descoberta eficiente e precisa de informações, aumentando assim a produtividade e a qualidade da produção de um analista.
O modelo de incorporação multilíngue do Cohere oferece suporte a mais de 100 idiomas. Ele elimina a complexidade de criar aplicativos que exigem trabalhar com um corpus de documentos em diferentes idiomas. O Modelo Cohere Incorporado é treinado para fornecer resultados em aplicações do mundo real. Ele lida com dados ruidosos como entradas, adapta-se a sistemas RAG complexos e oferece economia com seu método de treinamento com reconhecimento de compressão.
Comece hoje mesmo a construir com o modelo de incorporação multilíngue da Cohere no Amazon Bedrock.
Sobre os autores
James Yi é arquiteto sênior de soluções de parceiros de IA/ML na equipe de tecnologia COE de parceiros de tecnologia da Amazon Web Services. Ele adora trabalhar com clientes empresariais e parceiros para projetar, implantar e dimensionar aplicativos de IA/ML para obter valor comercial. Fora do trabalho, ele gosta de jogar futebol, viajar e passar tempo com a família.
Gonzalo Betegon é arquiteto de soluções na Cohere, fornecedora de tecnologia de ponta em processamento de linguagem natural. Ele ajuda as organizações a atender às suas necessidades de negócios por meio da implantação de grandes modelos de linguagem.
Melhor Amer é Developer Advocate na Cohere, fornecedora de tecnologia de ponta em processamento de linguagem natural (PNL). Ele ajuda os desenvolvedores a criar aplicativos de ponta com os Large Language Models (LLMs) da Cohere.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :tem
- :é
- :não
- :onde
- $UP
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- Capaz
- Sobre
- Acesso
- Segundo
- Conta
- preciso
- exatamente
- Alcançar
- em
- atos
- adapta
- acrescentando
- Adicional
- endereço
- avançado
- Vantagem
- advogado
- AFP
- novamente
- contra
- AI
- Plataforma de IA
- AI / ML
- Todos os Produtos
- permitir
- permite
- juntamente
- já
- tb
- Amazon
- Amazon Web Services
- quantidade
- quantidades
- an
- análise
- analista
- Analistas
- análise
- e
- responder
- api
- Aplicação
- aplicações
- abordagem
- se aproxima
- arquitetura
- SOMOS
- artigo
- artigos
- AS
- pergunta
- At
- aumentado
- disponível
- AWS
- baseado
- Porque
- sido
- ser
- Melhor
- entre
- Blocos
- impulsionar
- impulsionar
- Brexit
- PONTE
- construir
- Prédio
- Constrói
- negócio
- Líderes de negócios
- negócios
- mas a
- by
- CAN
- capacidades
- capturar
- casas
- casos
- teto
- CFOs
- desafiar
- desafios
- alterar
- Alterações
- Escolha
- classificação
- limpar
- cliente
- Fechar
- de perto
- mais próximo
- CO
- código
- coleção
- Coluna
- vem
- Empresas
- Empresa
- comparar
- completar
- integrações
- complexidade
- computadores
- preocupado
- Contato
- conectado
- conteúdo
- contexto
- contextual
- contraste
- controles
- convencional
- Responsabilidade
- Custo
- economia de custos
- poderia
- Casal
- acoplado
- cobertura
- Covid-19
- crio
- criado
- cria
- crédito
- crise
- critérios
- comissariada
- Atual
- Clientes
- ponta
- Cíber segurança
- dinamarquês
- Danske
- dados,
- ciência de dados
- banco de dados
- de
- prazo de entrega
- lidar
- dedicado
- De
- entregar
- entregar resultados
- entrega
- demonstrar
- demonstraram
- implantar
- desenvolvimento
- depósitos
- derivar
- Design
- projetado
- Developer
- desenvolvedores
- Desenvolvimento
- diferente
- difícil
- Digerir
- dimensões
- descobrir
- descoberta
- Ecrã
- distinto
- distribuído
- distribuição
- do
- documento
- INSTITUCIONAIS
- parece
- domínio
- não
- down
- distância
- dois
- e
- cada
- Cedo
- Ganhos
- facilidade
- facilidade de utilização
- economia
- Eficaz
- eficiente
- esforço
- el
- elimina
- outro
- embutir
- embutindo
- emergente
- emissões
- Empregado
- permitir
- permite
- final
- Ponto final
- COMPROMETIMENTO
- Motor
- Inglês
- enorme
- suficiente
- enriquecer
- garantir
- garante
- Empreendimento
- empresas
- Meio Ambiente
- equipamento
- erros
- ESG
- estabelecer
- Mesmo
- exemplo
- excelente
- existente
- experiente
- explorar
- extrato
- Quedas
- família
- RÁPIDO
- factível
- poucos
- Figura
- Envie o
- financeiro
- notícias financeiras
- serviços financeiros
- Encontre
- descoberta
- encontra
- finlandês
- cinco
- Flexibilidade
- fluxo
- Foco
- seguir
- seguinte
- segue
- Escolha
- formulário
- encontrado
- quatro
- prazo de entrega
- da
- cheio
- função
- mais distante
- lacuna
- GAS
- coleta
- PIB
- gerado
- gera
- Global
- Economia global
- Go
- Objetivos
- vai
- Bom estado, com sinais de uso
- grego
- Do grupo
- guia
- Alças
- Ter
- he
- cabeçalhos
- headlines
- hebraico
- ajudar
- ajuda
- destaques
- sua
- Acertar
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTML
- HTTPS
- Húngaro
- i
- if
- ilustra
- implementação
- importar
- melhorar
- melhora
- melhorar
- in
- incluir
- Crescimento
- índice
- indústria
- info
- INFORMAÇÕES
- informado
- Infraestrutura
- entrada
- inputs
- insights
- instalar
- em vez disso
- integrar
- integração
- intenção
- para dentro
- introduzir
- introduzindo
- IP
- IT
- italiano
- ESTÁ
- janeiro
- Japonês
- Empregos
- jpg
- apenas por
- Guarda
- paisagem
- GRANDE
- língua
- Idiomas
- grande
- Maior
- maior
- LAS
- Sobrenome
- mais recente
- líderes
- principal
- arrendamento
- Legado
- Legislativo
- proposta legislativa
- Comprimento
- menos
- Biblioteca
- como
- Line
- linhas
- Lista
- Listado
- Empréstimos
- longo
- muito tempo
- olhar
- os
- lote
- a Principal
- fazer
- FAZ
- Fazendo
- homem
- gerencia
- gerenciados
- de grupos
- muitos
- mapa,
- Março
- mercado
- valor de mercado
- Mercados
- maciço
- correspondente
- significado
- significados
- a medida
- medidas
- Mídia
- Conheça
- reunião
- mers
- método
- migração
- ML
- Moda
- modelo
- modelagem
- modelos
- EQUIPAMENTOS
- Módulos
- mais
- mais eficiente
- a maioria
- muito
- múltiplo
- nome
- natural
- Processamento de linguagem natural
- Navegação
- necessário
- você merece...
- Cria
- vizinhos
- Novo
- notícias
- Próximo
- PNL
- não
- Norueguês
- caderno
- agora
- numeroso
- NY
- NYE
- EMPRESA
- objetivamente
- of
- on
- ONE
- queridos
- só
- ataque
- aberto
- open source
- Opção
- or
- ordem
- organizações
- original
- OS
- Outros
- A Nossa
- saída
- lado de fora
- Acima de
- pacote
- pacotes
- pandas
- pão
- parte
- particular
- parceiro
- Parceiros
- passar
- passou
- apaixonado
- pagamento
- Folha de pagamento
- para
- Realizar
- atuação
- escolher
- colheita
- oleoduto
- plano
- plataforma
- platão
- Inteligência de Dados Platão
- PlatãoData
- jogar
- Podcast
- ponto
- Polaco
- abertas
- Publique
- potencial
- poderoso
- precedente
- presente
- apresentado
- Diretor
- Impressão
- política de privacidade
- processo
- em processamento
- produtividade
- Progresso
- propriedade
- proposta
- protegido
- fornecer
- provedor
- fornece
- publicações
- propósito
- PWC
- qualidade
- consultas
- questão
- Frequentes
- rapidamente
- R
- aumentar
- classificar
- Posição
- RE
- pronto
- mundo real
- reconhecimento
- registros
- reduzir
- referência
- refinar
- Reforma
- região
- relacionado
- relevância
- relevante
- permanecem
- permanece
- remove
- reabrir
- repetido
- substituir
- Relatórios
- Relatórios
- solicitar
- requerer
- resultar
- resultando
- Resultados
- reter
- retorno
- voltar
- russo
- s
- sábio
- poupança
- Poupança
- serra
- Escala
- Ciência
- Ponto
- Pesquisar
- motor de busca
- pesquisas
- pesquisar
- SEC
- Segundo
- firmemente
- segurança
- Vejo
- selecionado
- senior
- sensível
- sentimento
- Serviços
- Sessão
- acionista
- rede de apoio social
- mostrar
- Shows
- semelhante
- solteiro
- Locais
- ligeiramente diferente
- Lentamente
- futebol
- Soluções
- alguns
- fonte
- Fontes
- Espaço
- Espanhol
- falar
- especial
- gastar
- Passar
- pilha
- Staff
- Etapa
- padrão
- fica
- começo
- Comece
- declarações
- ficar
- estoque
- mercado de ações
- Ações
- loja
- franco
- Estratégia
- mais forte,
- estruturada
- substancial
- tal
- ajuda
- Suportado
- Apoiar
- suportes
- superfície
- Vistorias
- Sustentabilidade
- sustentável
- Desenvolvimento sustentável
- Sueco
- Interruptor
- Sinônimo
- .
- sistemas
- toma
- tem como alvo
- imposto
- Profissionais
- tecnologia
- Tecnologia
- prazo
- texto
- Classificação de Texto
- do que
- que
- A
- deles
- Eles
- então
- Lá.
- assim
- Este
- deles
- isto
- aqueles
- três
- Através da
- tempo
- títulos
- para
- hoje
- topo
- tópico
- Temas
- pista
- treinado
- Training
- traduzir
- Tradução
- Viagens
- tentar
- Turco
- VIRAR
- voltas
- típico
- UN
- descobrir
- subjacente
- compreender
- único
- URL
- us
- usar
- caso de uso
- usuários
- usos
- utilização
- valor
- variedade
- muito
- Passo a passo
- queremos
- foi
- Onda
- Caminho..
- we
- web
- serviços web
- BEM
- O Quê
- quando
- se
- qual
- QUEM
- precisarão
- de
- sem
- Atividades:
- de gestão de documentos
- trabalhar
- mundo
- classe mundial
- anos
- ainda
- Vocês
- investimentos
- zefirnet