Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri

Yerleştirmeler, doğal dil işlemede (NLP) ve makine öğreniminde (ML) önemli bir rol oynar. Metin yerleştirme Metni yüksek boyutlu bir vektör uzayında bulunan sayısal temsillere dönüştürme sürecini ifade eder. Bu teknik, verilerin anlamının ve bağlamının anlaşılmasını (anlamsal ilişkiler) ve veriler içindeki karmaşık ilişkilerin ve kalıpların öğrenilmesini (sözdizimsel ilişkiler) mümkün kılan makine öğrenimi algoritmalarının kullanılmasıyla gerçekleştirilir. Sonuçta elde edilen vektör temsillerini bilgi erişimi, metin sınıflandırma, doğal dil işleme ve daha birçok uygulama gibi geniş bir uygulama yelpazesi için kullanabilirsiniz.

Amazon Titan Metin Gömmeleri tek sözcüklerden, ifadelerden ve hatta büyük belgelerden oluşan doğal dil metnini, arama, kişiselleştirme ve semantik benzerliğe dayalı kümeleme gibi kullanım durumlarını güçlendirmek için kullanılabilecek sayısal temsillere dönüştüren bir metin yerleştirme modelidir.

Bu yazıda Amazon Titan Text Embeddings modelini, özelliklerini ve örnek kullanım örneklerini tartışıyoruz.

Bazı temel kavramlar şunları içerir:

  • Metnin sayısal temsili (vektörler), anlambilimi ve kelimeler arasındaki ilişkileri yakalar
  • Metin benzerliğini karşılaştırmak için zengin yerleştirmeler kullanılabilir
  • Çok dilli metin yerleştirmeleri farklı dillerdeki anlamı tanımlayabilir

Bir metin parçası nasıl vektöre dönüştürülür?

Bir cümleyi vektöre dönüştürmek için birden fazla teknik vardır. Popüler yöntemlerden biri, Word2Vec, GloVe veya FastText gibi sözcük yerleştirme algoritmalarını kullanmak ve ardından sözcük yerleştirmelerini cümle düzeyinde bir vektör temsili oluşturmak üzere toplamaktır.

Diğer bir yaygın yaklaşım, BERT veya GPT gibi tüm cümleler için bağlamsallaştırılmış yerleştirmeler sağlayabilen büyük dil modellerinin (LLM'ler) kullanılmasıdır. Bu modeller, bir cümledeki kelimeler arasındaki bağlamsal bilgileri ve ilişkileri daha etkili bir şekilde yakalayabilen Transformers gibi derin öğrenme mimarilerine dayanmaktadır.

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Neden bir yerleştirme modeline ihtiyacımız var?

Vektör yerleştirmeler, LLM'lerin dilin semantik derecelerini anlaması için temeldir ve aynı zamanda LLM'lerin duygu analizi, adlandırılmış varlık tanıma ve metin sınıflandırma gibi aşağı yönlü NLP görevlerinde iyi performans göstermesini sağlar.

Anlamsal aramaya ek olarak, Alma Artırılmış Üretim (RAG) aracılığıyla daha doğru sonuçlar elde etmek için istemlerinizi artırmak amacıyla yerleştirmeleri kullanabilirsiniz; ancak bunları kullanmak için bunları vektör özelliklerine sahip bir veritabanında saklamanız gerekir.

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Amazon Titan Text Embeddings modeli, RAG kullanım örneklerini mümkün kılmak amacıyla metin alımı için optimize edilmiştir. İlk önce metin verilerinizi sayısal gösterimlere veya vektörlere dönüştürmenize ve ardından bu vektörleri kullanarak bir vektör veritabanından ilgili pasajları doğru bir şekilde aramanıza olanak tanır ve diğer temel modellerle birlikte özel verilerinizden en iyi şekilde yararlanmanıza olanak tanır.

Çünkü Amazon Titan Text Embeddings, yönetilen bir modeldir. Amazon Ana Kayasıtamamen sunucusuz bir deneyim olarak sunulmaktadır. Amazon Bedrock REST aracılığıyla kullanabilirsiniz. API veya AWS SDK'yı kullanın. Gerekli parametreler, yerleştirmelerini oluşturmak istediğiniz metin ve modelID Amazon Titan Text Embeddings modelinin adını temsil eden parametre. Aşağıdaki kod, Python için AWS SDK'nın (Boto3) kullanıldığı bir örnektir:

import boto3
import json #Create the connection to Bedrock
bedrock = boto3.client( service_name='bedrock', region_name='us-west-2', ) bedrock_runtime = boto3.client( service_name='bedrock-runtime', region_name='us-west-2', ) # Let's see all available Amazon Models
available_models = bedrock.list_foundation_models() for model in available_models['modelSummaries']: if 'amazon' in model['modelId']: print(model) # Define prompt and model parameters
prompt_data = """Write me a poem about apples""" body = json.dumps({ "inputText": prompt_data,
}) model_id = 'amazon.titan-embed-text-v1' #look for embeddings in the modelID
accept = 'application/json' content_type = 'application/json' # Invoke model response = bedrock_runtime.invoke_model( body=body, modelId=model_id, accept=accept, contentType=content_type
) # Print response
response_body = json.loads(response['body'].read())
embedding = response_body.get('embedding') #Print the Embedding print(embedding)

Çıktı aşağıdaki gibi görünecektir:

[-0.057861328, -0.15039062, -0.4296875, 0.31054688, ..., -0.15625]

Bakın Amazon Bedrock boto3 Kurulumu Gerekli paketlerin nasıl kurulacağı, Amazon Bedrock'a nasıl bağlanılacağı ve modellerin nasıl çağrılacağı hakkında daha fazla ayrıntı için.

Amazon Titan Metin Gömmelerinin Özellikleri

Amazon Titan Text Embeddings ile 8,000'e kadar jeton girebilirsiniz; bu da kullanım durumunuza göre tek kelimelerle, kelime öbekleriyle veya tüm belgelerle çalışmaya çok uygun olmasını sağlar. Amazon Titanı 1536 boyutunun çıktı vektörlerini döndürerek yüksek derecede doğruluk sağlar ve aynı zamanda düşük gecikme süreli, uygun maliyetli sonuçlar için optimizasyon sağlar.

Amazon Titan Text Embeddings, 25'ten fazla farklı dilde metin için eklemeler oluşturmayı ve sorgulamayı destekler. Bu, desteklemek istediğiniz her dil için ayrı modeller oluşturup sürdürmenize gerek kalmadan modeli kullanım senaryolarınıza uygulayabileceğiniz anlamına gelir.

Birçok dilde eğitilmiş tek bir yerleştirme modeline sahip olmak aşağıdaki temel faydaları sağlar:

  • Daha geniş erişim – 25'ten fazla dili kullanıma hazır olarak destekleyerek uygulamalarınızın erişimini birçok uluslararası pazardaki kullanıcılara ve içeriğe genişletebilirsiniz.
  • Tutarlı performans – Birden çok dili kapsayan birleşik bir model sayesinde, dil başına ayrı optimizasyon yapmak yerine, diller arasında tutarlı sonuçlar elde edersiniz. Model bütünsel olarak eğitildiğinden diller arasında avantaj elde edersiniz.
  • Çok dilli sorgu desteği – Amazon Titan Text Embeddings, desteklenen dillerden herhangi birinde metin yerleştirmelerin sorgulanmasına olanak tanır. Bu, tek bir dille sınırlı kalmadan diller arasında anlamsal olarak benzer içeriklerin alınmasına yönelik esneklik sağlar. Aynı birleşik yerleştirme alanını kullanarak çok dilli verileri sorgulayan ve analiz eden uygulamalar oluşturabilirsiniz.

Bu yazının yazıldığı an itibarıyla aşağıdaki diller desteklenmektedir:

  • Arapça
  • Basitleştirilmiş Çince)
  • Çince (Geleneksel)
  • Çek
  • Flemenkçe
  • İngilizce
  • Fransızca
  • Almanca
  • İbranice
  • Hintçe
  • İtalyan
  • Japonca
  • kannada
  • Koreli
  • Malayalam
  • Marathi
  • Lehçe
  • Portekizce
  • Rusça
  • İspanyolca
  • İsveççe
  • Filipinli Tagalogca
  • tamil
  • telugu
  • Türkce

LangChain ile Amazon Titan Metin Gömmelerini Kullanma

Dil Zinciri çalışmak için popüler bir açık kaynak çerçevesidir üretken yapay zeka modeller ve destekleyici teknolojiler. Bir içerir BedrockEmbedddings istemcisi Boto3 SDK'yı bir soyutlama katmanıyla uygun bir şekilde saran. BedrockEmbeddings istemci, JSON istek veya yanıt yapılarının ayrıntılarını bilmeden metin ve eklemelerle doğrudan çalışmanıza olanak tanır. Aşağıdaki basit bir örnektir:

from langchain.embeddings import BedrockEmbeddings #create an Amazon Titan Text Embeddings client
embeddings_client = BedrockEmbeddings() #Define the text from which to create embeddings
text = "Can you please tell me how to get to the bakery?" #Invoke the model
embedding = embeddings_client.embed_query(text) #Print response
print(embedding)

Ayrıca LangChain'i de kullanabilirsiniz. BedrockEmbeddings RAG, anlamsal arama ve yerleştirmeyle ilgili diğer modellerin uygulanmasını basitleştirmek için Amazon Bedrock LLM istemcisinin yanı sıra istemci.

Gömmeler için kullanım örnekleri

RAG şu anda yerleştirmelerle çalışmak için en popüler kullanım durumu olmasına rağmen, yerleştirmelerin uygulanabileceği başka birçok kullanım durumu da vardır. Aşağıda, kendi başına veya bir Yüksek Lisans ile işbirliği içinde belirli sorunları çözmek için yerleştirmeleri kullanabileceğiniz bazı ek senaryolar yer almaktadır:

  • Soru ve cevap – Yerleştirmeler, RAG modeli aracılığıyla soru ve cevap arayüzlerinin desteklenmesine yardımcı olabilir. Bir vektör veritabanıyla eşleştirilen yerleştirme oluşturma, bir bilgi havuzundaki sorular ve içerik arasında yakın eşleşmeler bulmanızı sağlar.
  • Kişiselleştirilmiş öneriler – Soru ve cevaba benzer şekilde, kullanıcı tarafından sağlanan kriterlere göre tatil yerlerini, kolejleri, araçları veya diğer ürünleri bulmak için yerleştirmeleri kullanabilirsiniz. Bu, basit bir eşleşme listesi şeklinde olabilir veya daha sonra her öneriyi işlemek ve bunun kullanıcının kriterlerini nasıl karşıladığını açıklamak için bir Yüksek Lisans (LLM) kullanabilirsiniz. Bu yaklaşımı, bir kullanıcının özel ihtiyaçlarına göre özel "en iyi 10" makale oluşturmak için de kullanabilirsiniz.
  • Veri yönetimi – Birbirleriyle net bir şekilde eşlenmeyen veri kaynaklarınız varsa ancak veri kaydını açıklayan metin içeriğiniz varsa, potansiyel yinelenen kayıtları belirlemek için yerleştirmeleri kullanabilirsiniz. Örneğin, farklı biçimlendirme, kısaltmalar kullanabilen ve hatta adları çevrilmiş olabilecek yinelenen adayları belirlemek için yerleştirmeleri kullanabilirsiniz.
  • Uygulama portföyünün rasyonelleştirilmesi – Uygulama portföylerini bir ana şirket ve bir satın alma genelinde uyumlu hale getirmeye çalışırken, potansiyel örtüşmeyi bulmaya nereden başlayacağınız her zaman açık değildir. Yapılandırma yönetimi verilerinin kalitesi sınırlayıcı bir faktör olabilir ve uygulama ortamını anlamak için ekipler arasında koordinasyon sağlamak zor olabilir. Yerleştirmelerle anlamsal eşleştirmeyi kullanarak, rasyonelleştirme için yüksek potansiyele sahip aday uygulamaları belirlemek üzere uygulama portföyleri arasında hızlı bir analiz yapabiliriz.
  • İçerik gruplaması – Benzer içerikleri önceden bilmiyor olabileceğiniz kategoriler halinde gruplandırmayı kolaylaştırmak için yerleştirmeleri kullanabilirsiniz. Örneğin, müşteri e-postalarından veya çevrimiçi ürün incelemelerinden oluşan bir koleksiyonunuz olduğunu varsayalım. Her öğe için yerleştirmeler oluşturabilir ve ardından bu yerleştirmeleri çalıştırabilirsiniz. k-kümeleme anlamına gelir Müşteri endişelerinin, ürün övgülerinin veya şikayetlerinin veya diğer temaların mantıksal gruplarını belirlemek. Daha sonra bir Yüksek Lisans kullanarak bu gruplamaların içeriğinden odaklanmış özetler oluşturabilirsiniz.

Anlamsal arama örneği

Gelen eden GitHub'daki örnekAmazon Titan Text Embeddings, LangChain ve Streamlit ile basit bir yerleştirme arama uygulamasını gösteriyoruz.

Örnek, bir kullanıcının sorgusunu bellek içi vektör veritabanındaki en yakın girişlerle eşleştirir. Daha sonra bu eşleşmeleri doğrudan kullanıcı arayüzünde görüntüleriz. Bir RAG uygulamasında sorun gidermek veya doğrudan bir yerleştirme modelini değerlendirmek istiyorsanız bu yararlı olabilir.

Basit olması açısından, bellek içi FAİS Gömme vektörlerini depolamak ve aramak için veritabanı. Büyük ölçekli bir gerçek dünya senaryosunda, muhtemelen aşağıdaki gibi kalıcı bir veri deposu kullanmak isteyeceksiniz: Amazon OpenSearch Serverless için vektör motoru ya da pgvektör PostgreSQL'in uzantısı.

Web uygulamasından aşağıdakiler gibi farklı dillerdeki birkaç istemi deneyin:

  • Kullanımımı nasıl izleyebilirim?
  • Modelleri nasıl kişiselleştirebilirim?
  • Hangi programlama dillerini kullanabilirim?
  • Yorum yapın mes données sont-elles sécurisées ?
  • Bu bir gerçek mi?
  • Bedrock'ta mevcut olan yeni modeller var mı?
  • Bölgenizde Amazon Bedrock'u kullanılabilir mi?
  • Başka bir şey mi var?

Kaynak materyal İngilizce olmasına rağmen diğer dillerdeki sorguların ilgili girişlerle eşleştirildiğini unutmayın.

Sonuç

Temel modellerin metin oluşturma yetenekleri çok heyecan vericidir ancak metni anlamanın, bilgi birikiminden ilgili içeriği bulmanın ve pasajlar arasında bağlantı kurmanın üretken yapay zekanın tam değerini elde etmek için hayati önem taşıdığını unutmamak önemlidir. Bu modeller gelişmeye devam ettikçe önümüzdeki yıllarda yerleştirmelere yönelik yeni ve ilginç kullanım durumlarının ortaya çıktığını görmeye devam edeceğiz.

Sonraki adımlar

Aşağıdaki atölyelerde not defterleri veya demo uygulamaları olarak ek yerleştirme örneklerini bulabilirsiniz:


Yazarlar Hakkında

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Jason Stehle New England bölgesinde bulunan AWS'de Kıdemli Çözüm Mimarıdır. AWS yeteneklerini, karşılaştıkları en büyük iş zorluklarına uygun hale getirmek için müşterilerle birlikte çalışıyor. İş dışında zamanını ailesiyle birlikte bir şeyler inşa ederek ve çizgi roman filmleri izleyerek geçiriyor.

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Nitin Eusebios AWS'de Kıdemli Kurumsal Çözümler Mimarıdır ve Yazılım Mühendisliği, Kurumsal Mimari ve AI/ML konularında deneyimlidir. Üretken yapay zekanın olanaklarını keşfetme konusunda son derece tutkulu. AWS platformunda iyi tasarlanmış uygulamalar oluşturmalarına yardımcı olmak için müşterilerle işbirliği yapıyor ve kendisini teknolojik zorlukları çözmeye ve bulut yolculuklarına yardımcı olmaya adamıştır.

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Raj Pathak Kanada ve Amerika Birleşik Devletleri'ndeki büyük Fortune 50 şirketlerinin ve orta ölçekli finansal hizmet kuruluşlarının (FSI) Baş Çözüm Mimarı ve Teknik Danışmanıdır. Üretken yapay zeka, doğal dil işleme, akıllı belge işleme ve MLOps gibi makine öğrenimi uygulamalarında uzmanlaşmıştır.

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Mani Khanuja Teknoloji Lideri - Üretken Yapay Zeka Uzmanı, AWS'de Uygulamalı Makine Öğrenimi ve Yüksek Performanslı Hesaplama kitabının yazarı ve Üretimde Kadınlar Eğitimi Vakfı Yönetim Kurulu Yönetim Kurulu üyesidir. Bilgisayarla görme, doğal dil işleme ve üretken yapay zeka gibi çeşitli alanlarda makine öğrenimi (ML) projelerine liderlik ediyor. Müşterilerin büyük makine öğrenimi modellerini geniş ölçekte oluşturmasına, eğitmesine ve dağıtmasına yardımcı oluyor. re:Invent, Women in Manufacturing West, YouTube web seminerleri ve GHC 23 gibi iç ve dış konferanslarda konuşuyor. Boş zamanlarında sahilde uzun koşulara çıkmayı seviyor.

Amazon Bedrock'ta Amazon Titan Metin Gömmelerini Kullanmaya Başlarken | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Mark Roy AWS için Baş Makine Öğrenimi Mimarıdır ve müşterilerin AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. Mark'ın çalışmaları, birincil ilgi alanı bilgisayar görüşü, derin öğrenme ve kuruluş genelinde makine öğrenimini ölçeklendirme olan çok çeşitli makine öğrenimi kullanım durumlarını kapsar. Sigorta, finansal hizmetler, medya ve eğlence, sağlık hizmetleri, kamu hizmetleri ve imalat dahil olmak üzere birçok sektördeki şirketlere yardımcı olmuştur. Mark, Makine Öğrenimi Uzmanlık Sertifikasyonu da dahil olmak üzere altı AWS Sertifikasyonuna sahiptir. AWS'ye katılmadan önce Mark, 25 yılı finansal hizmetlerde olmak üzere 19 yılı aşkın süredir mimar, geliştirici ve teknoloji lideriydi.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi