Günümüzün bilgi çağında, sayısız belgede barındırılan büyük miktarda veri, işletmeler için hem bir zorluk hem de bir fırsat sunmaktadır. Geleneksel belge işleme yöntemleri çoğu zaman verimlilik ve doğruluk açısından yetersiz kalıyor ve yenilik, maliyet verimliliği ve optimizasyonlara yer bırakıyor. Akıllı Belge İşleme'nin (IDP) ortaya çıkışıyla birlikte belge işlemede önemli gelişmeler yaşandı. IDP ile işletmeler, çeşitli belge türlerindeki yapılandırılmamış verileri yapılandırılmış, eyleme geçirilebilir içgörülere dönüştürerek verimliliği önemli ölçüde artırabilir ve manuel çabaları azaltabilir. Ancak potansiyel bununla sınırlı değil. Üretken yapay zekayı (AI) sürece entegre ederek IDP yeteneklerini daha da geliştirebiliriz. Üretken yapay zeka yalnızca belge işlemede gelişmiş yetenekler sunmakla kalmıyor, aynı zamanda değişen veri modellerine dinamik bir uyum sağlama yeteneği de sunuyor. Bu yazı sizi IDP ile üretken yapay zekanın sinerjisine götürecek ve belge işlemede bir sonraki sınırı nasıl temsil ettiklerini ortaya çıkaracak.
IDP'yi AWS AI hizmetleriyle Akıllı belge işleme serimizde ayrıntılı olarak ele alıyoruz (Bölüm 1 ve Bölüm 2). Bu yazıda yeni veya mevcut bir IDP mimarisinin büyük dil modelleriyle (LLM'ler) nasıl genişletileceğini tartışıyoruz. Daha spesifik olarak, nasıl entegre olabileceğimizi tartışıyoruz Amazon Metin Yazısı ile Dil Zinciri belge yükleyici olarak ve Amazon Ana Kayası belgelerden veri çıkarmak ve çeşitli IDP aşamalarında üretken yapay zeka yeteneklerini kullanmak.
Amazon Textract, taranan belgelerden metni, el yazısını ve verileri otomatik olarak çıkaran bir makine öğrenimi (ML) hizmetidir. Amazon Bedrock, kullanımı kolay API'ler aracılığıyla yüksek performanslı temel model (FM) seçenekleri sunan, tam olarak yönetilen bir hizmettir.
Aşağıdaki şema, temel modellerle bir IDP iş akışını nasıl daha da geliştirebileceğinizi açıklayan üst düzey bir referans mimarisidir. Kullanım senaryosuna ve istenen sonuca bağlı olarak Yüksek Lisans'ları IDP'nin bir aşamasında veya tüm aşamalarında kullanabilirsiniz.
Aşağıdaki bölümlerde, Amazon Textract'in bu belirli görevlerin her biri için belgeleri işlemek üzere LangChain kullanılarak üretken yapay zeka iş akışlarına nasıl entegre edildiğini ayrıntılı olarak ele alacağız. Burada sağlanan kod blokları, kısalık sağlamak amacıyla kısaltılmıştır. Bizimle iletişime geçin GitHub deposu ayrıntılı Python not defterleri ve adım adım izlenecek yol için.
LLM'lerle belgelerin işlenmesi söz konusu olduğunda belgelerden metin çıkarmak çok önemli bir husustur. Amazon Textract'ı belgelerden yapılandırılmamış ham metinleri çıkarmak ve belgede bulunan anahtar/değer çiftleri ve tablolar gibi orijinal yarı yapılandırılmış veya yapılandırılmış nesneleri korumak için kullanabilirsiniz. Sağlık ve sigorta talepleri veya ipotekler gibi belge paketleri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış formatlarda birçok bilgi içeren karmaşık formlardan oluşur. Belge çıkarma burada önemli bir adımdır çünkü Yüksek Lisans'lar daha doğru ve alakalı yanıtlar oluşturmak için zengin içerikten yararlanır; aksi takdirde bu, Yüksek Lisans'ın çıktısının kalitesini etkileyebilir.
LangChain, LLM'lerle entegrasyon için güçlü bir açık kaynaklı çerçevedir. Yüksek Lisans'lar genel olarak çok yönlüdür ancak daha derin bağlam ve incelikli yanıtların gerekli olduğu alana özgü görevlerde zorluk yaşayabilirler. LangChain, bu tür senaryolarda geliştiricilere, karmaşık görevleri daha küçük alt görevlere bölebilecek aracılar oluşturma yetkisi verir. Alt görevler daha sonra LLM istemlerini bağlayıp zincirleyerek LLM'lere bağlam ve bellek katabilir.
LangChain teklifleri belge yükleyiciler belgelerden veri yükleyebilir ve dönüştürebilir. Belgeleri LLM'ler tarafından işlenebilecek tercih edilen formatlara göre yapılandırmak için bunları kullanabilirsiniz. AmazonTextractPDFLoader Amazon Textract'ı LangChain ile birlikte kullanarak belge işlemeyi otomatikleştirmenin hızlı yolunu sağlayan bir hizmet yükleyici türü belge yükleyicidir. Daha fazla ayrıntı için AmazonTextractPDFLoader
, bakın Dil Zinciri belgeler. Amazon Textract belge yükleyiciyi kullanmak için onu LangChain kitaplığından içe aktararak başlayın:
from langchain.document_loaders import AmazonTextractPDFLoader
https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()
Ayrıca belgeleri Amazon S3'te saklayabilir ve şurada açıklandığı gibi s3:// URL modelini kullanarak bunlara başvurabilirsiniz. S3:// kullanarak bir pakete erişmeve bu S3 yolunu Amazon Textract PDF yükleyicisine iletin:
import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()
Çok sayfalı bir belge, birden çok sayfalık metin içerecektir ve bunlara daha sonra sayfaların bir listesi olan belgeler nesnesi aracılığıyla erişilebilir. Aşağıdaki kod, belge nesnesindeki sayfalar arasında döngü yapar ve aracılığıyla erişilebilen belge metnini yazdırır. page_content
özellik:
print(len(documents)) for document in documents: print(document.page_content)
Amazon Comprehend ve LLM'ler belge sınıflandırması için etkili bir şekilde kullanılabilir. Amazon Comprehend, metinden içgörüler elde etmek için makine öğrenimini kullanan bir doğal dil işleme (NLP) hizmetidir. Amazon Comprehend ayrıca PDF'ler, Word ve görüntü formatları gibi belgelerde düzen farkındalığıyla özel sınıflandırma modeli eğitimini de destekler. Amazon Comprehend belge sınıflandırıcısını kullanma hakkında daha fazla bilgi için bkz. Amazon Comprehend belge sınıflandırıcı, daha yüksek doğruluk için düzen desteği ekler.
Yüksek Lisans'larla eşleştirildiğinde belge sınıflandırma, büyük hacimli belgeleri yönetmek için güçlü bir yaklaşım haline gelir. Yüksek Lisans'lar belge sınıflandırmasında faydalıdır çünkü doğal dil anlayışını kullanarak belgedeki metni, kalıpları ve bağlamsal öğeleri analiz edebilirler. Ayrıca belirli belge sınıfları için bunlara ince ayar yapabilirsiniz. IDP kanalına eklenen yeni bir belge türünün sınıflandırmaya ihtiyacı olduğunda LLM, metni işleyebilir ve belgeyi bir dizi sınıfa göre kategorilere ayırabilir. Aşağıda, belgedeki metni ayıklamak ve belgeyi sınıflandırmak için kullanmak üzere Amazon Textract tarafından desteklenen LangChain belge yükleyiciyi kullanan örnek kod yer almaktadır. biz kullanıyoruz Antropik Claude v2 sınıflandırmayı gerçekleştirmek için Amazon Bedrock aracılığıyla model.
Aşağıdaki örnekte, ilk önce bir hasta taburcu raporundan metin çıkarıyoruz ve onu üç farklı belge türünden oluşan bir listeye göre sınıflandırmak için bir Yüksek Lisans kullanıyoruz:DISCHARGE_SUMMARY
, RECEIPT
, ve PRESCRIPTION
. Aşağıdaki ekran görüntüsü raporumuzu göstermektedir.
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")
Özetleme, belirli bir metni veya belgeyi, önemli bilgileri koruyarak daha kısa bir versiyona yoğunlaştırmayı içerir. Bu teknik, kullanıcıların tüm içeriği okumadan bir belgenin önemli noktalarını hızlı bir şekilde kavramasını sağlayan verimli bilgi erişimi için faydalıdır. Amazon Textract doğrudan metin özetleme yapmasa da belgelerden metnin tamamının çıkarılmasına yönelik temel yetenekleri sağlar. Çıkarılan bu metin, metin özetleme görevlerini gerçekleştirmek için LLM modelimize bir girdi görevi görür.
Aynı numune deşarj raporunu kullanarak, AmazonTextractPDFLoader
Bu belgeden metin çıkarmak için Daha önce olduğu gibi Amazon Bedrock aracılığıyla Claude v2 modelini kullanıyoruz ve metinle ne yapılacağına (bu durumda özetleme) ilişkin talimatları içeren bir istemle başlatıyoruz. Son olarak, belge yükleyiciden çıkarılan metni aktararak LLM zincirini çalıştırıyoruz. Bu, özetlenecek talimatlardan ve belgenin ile işaretlenmiş metninden oluşan komut istemiyle LLM'de bir çıkarım eylemi çalıştırır. Document
. Aşağıdaki koda bakın:
Kod, hasta taburcu özet raporunun özetini oluşturur:
Önceki örnekte özetlemeyi gerçekleştirmek için tek sayfalı bir belge kullanıldı. Ancak, özetlemeye ihtiyaç duyan birden fazla sayfa içeren belgelerle uğraşmanız muhtemeldir. Birden fazla sayfada özetleme yapmanın yaygın bir yolu, önce daha küçük metin parçaları üzerinde özetler oluşturmak ve ardından belgenin son özetini elde etmek için daha küçük özetleri birleştirmektir. Bu yöntemin LLM'ye birden fazla çağrı gerektirdiğini unutmayın. Bunun mantığı kolaylıkla oluşturulabilir; ancak LangChain, büyük metinleri (çok sayfalı belgelerden) özetleyebilen yerleşik bir özetleme zinciri sağlar. Özetleme şu şekilde yapılabilir: map_reduce
veya stuff
LLM'ye yapılan birden fazla çağrıyı yönetmek için seçenekler olarak mevcut olan seçenekler. Aşağıdaki örnekte kullanıyoruz map_reduce
Çok sayfalı bir belgeyi özetlemek için. Aşağıdaki şekil iş akışımızı göstermektedir.
İlk önce belgeyi çıkararak başlayalım ve sayfa başına toplam jeton sayısını ve toplam sayfa sayısını görelim:
Daha sonra LangChain'in yerleşik özelliğini kullanıyoruz load_summarize_chain
belgenin tamamını özetlemek gerekirse:
from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())
Standardizasyon ve Soru-Cevap
Bu bölümde standardizasyon ve Soru-Cevap görevlerini tartışıyoruz.
Standardizasyon
Çıktı standardizasyonu, çıktı metninin tutarlı bir biçimlendirmesini sağlamak için LLM'lerin kullanıldığı bir metin oluşturma görevidir. Bu görev özellikle çıktının istenen formatlarla hizalanmasını gerektiren anahtar varlık çıkarma işleminin otomasyonu için kullanışlıdır. Örneğin, tarihleri AA/GG/YYYY biçiminde biçimlendirmek amacıyla bir LLM'ye ince ayar yapmak için hızlı mühendislik en iyi uygulamalarını takip edebiliriz; bu, bir veritabanı DATE sütunuyla uyumlu olabilir. Aşağıdaki kod bloğu, bunun bir Yüksek Lisans ve hızlı mühendislik kullanılarak nasıl yapıldığına dair bir örnek göstermektedir. Yalnızca tarih değerleri için çıktı formatını standartlaştırmakla kalmıyoruz, aynı zamanda modelin nihai çıktıyı JSON formatında oluşturmasını da sağlıyoruz, böylece bu çıktı, aşağı yöndeki uygulamalarımızda kolayca kullanılabilir. Kullanırız LangChain İfade Dili (LCEL) iki eylemi birbirine zincirlemek için. İlk eylem, LLM'den yalnızca belgedeki tarihlerin JSON formatında bir çıktısını oluşturmasını ister. İkinci eylem JSON çıktısını alır ve tarih biçimini standartlaştırır. Normalleştirme ve şablon oluşturmada göreceğimiz gibi, bu iki adımlı eylemin uygun istem mühendisliğiyle tek bir adımda da gerçekleştirilebileceğini unutmayın.
Önceki kod örneğinin çıktısı, GG/AA/YYYY biçiminde olan ve sırasıyla hastanın hastaneye kabul ve taburcu tarihleri olan 07/09/2020 ve 08/09/2020 tarihli bir JSON yapısıdır. taburcu özet raporuna.
Erişim Artırılmış Nesil ile Soru-Cevap
Yüksek Lisans'ların, genellikle dünya bilgisi veya dünya görüşü olarak adlandırılan gerçek bilgileri koruduğu bilinmektedir. İnce ayar yapıldığında en gelişmiş sonuçları üretebilirler. Bununla birlikte, bir Yüksek Lisans'ın bu bilgiye ne kadar etkili bir şekilde erişebileceği ve bu bilgiyi işleyebileceği konusunda kısıtlamalar vardır. Sonuç olarak, yoğun olarak belirli bilgilere dayanan görevlerde performansları belirli kullanım durumları için ideal olmayabilir. Örneğin, Soru-Cevap senaryolarında, modelin yalnızca dünya bilgisine dayanmadan, belgede sağlanan bağlama sıkı sıkıya bağlı kalması önemlidir. Bundan sapmak yanlış beyanlara, yanlışlıklara ve hatta yanlış yanıtlara yol açabilir. Bu sorunu çözmek için en sık kullanılan yöntem olarak bilinir. Alma Artırılmış Nesil (RAG). Bu yaklaşım, hem erişim modellerinin hem de dil modellerinin güçlü yönlerini bir araya getirerek oluşturulan yanıtların kesinliğini ve kalitesini artırır.
LLM'ler ayrıca bellek kısıtlamaları ve üzerinde çalıştıkları donanımın sınırlamaları nedeniyle belirteç sınırlamaları da getirebilir. Bu sorunu çözmek için, büyük belgeleri LLM'lerin belirteç limitlerine uyacak şekilde daha küçük parçalara bölmek için parçalama gibi teknikler kullanılır. Öte yandan, NLP'de yerleştirmeler öncelikle kelimelerin anlamsal anlamlarını ve bunların yüksek boyutlu bir alanda diğer kelimelerle olan ilişkilerini yakalamak için kullanılır. Bu yerleştirmeler kelimeleri vektörlere dönüştürerek modellerin metin verilerini verimli bir şekilde işlemesine ve anlamasına olanak tanır. Yerleştirmeler, kelimeler ve ifadeler arasındaki anlamsal nüansları anlayarak LLM'lerin tutarlı ve bağlamsal olarak alakalı çıktılar üretmesini sağlar. Aşağıdaki anahtar terimlere dikkat edin:
- Kümeleme – Bu işlem, belgelerdeki büyük miktardaki metni daha küçük, anlamlı metin parçalarına ayırır.
- kalıplamaların – Bunlar, parçalardan anlamsal bilgiyi koruyan, her parçanın sabit boyutlu vektör dönüşümleridir. Bu yerleştirmeler daha sonra bir vektör veritabanına yüklenir.
- Vektör veritabanı – Bu, kelimelerin bağlamını temsil eden kelime yerleştirmeleri veya vektörlerden oluşan bir veritabanıdır. Belge işleme hatlarında NLP görevlerine yardımcı olan bir bilgi kaynağı görevi görür. Vektör veritabanının buradaki faydası, aşağıdaki bölümde açıklayacağımız gibi, metin oluşturma sırasında LLM'lere yalnızca gerekli bağlamın sağlanmasına izin vermesidir.
RAG, alma aşamasında ilgili belge bölümlerini anlamak ve getirmek için yerleştirmelerin gücünü kullanır. Bunu yaparak RAG, LLM'lerin token sınırlamaları dahilinde çalışarak, üretim için en uygun bilgilerin seçilmesini sağlayarak daha doğru ve bağlamsal olarak alakalı çıktılar elde edilmesini sağlayabilir.
Aşağıdaki diyagram, girdiyi LLM'lere hazırlamak, bağlamsal anlayışlarını geliştirmek ve bağlam içi daha alakalı yanıtları mümkün kılmak için bu tekniklerin entegrasyonunu göstermektedir. Yaklaşımlardan biri, hem vektör veritabanını hem de parçalamayı kullanan benzerlik aramasını içerir. Vektör veritabanı, anlamsal bilgiyi temsil eden eklemeleri saklar ve parçalama, metni yönetilebilir bölümlere ayırır. Benzerlik aramasından elde edilen bu bağlamı kullanarak, LLM'ler soru yanıtlama gibi görevleri ve sınıflandırma ve zenginleştirme gibi alana özgü işlemleri yürütebilir.
Bu yazı için, belgelerle bağlam içi Soru-Cevap gerçekleştirmek için RAG tabanlı bir yaklaşım kullanıyoruz. Aşağıdaki kod örneğinde, bir belgeden metin çıkarıyoruz ve ardından belgeyi daha küçük metin parçalarına bölüyoruz. Çok sayfalı büyük belgelerimiz olabileceği ve LLM'lerimizin jeton limitleri olabileceği için parçalama gereklidir. Bu parçalar daha sonra sonraki adımlarda benzerlik araması yapmak için vektör veritabanına yüklenir. Aşağıdaki örnekte, belge parçalarının vektör yerleştirmelerini gerçekleştiren Amazon Titan Embed Text v1 modelini kullanıyoruz:
Kod, vektör veritabanından benzerlik arama eylemi tarafından döndürülen metin parçalarını kullanarak LLM için ilgili bir bağlam oluşturur. Bu örnek için açık kaynak kullanıyoruz FAISS vektör deposu Her metin öbeğinin vektör yerleştirmelerini depolamak için örnek bir vektör veritabanı olarak. Daha sonra vektör veritabanını şu şekilde tanımlarız: LangChain av köpeği, içine aktarılan RetrievalQA
zincir. Bu, vektör veritabanı üzerinde dahili olarak, soruyla alakalı en üstteki n (burada örneğimizde n=3) metin parçalarını döndüren bir benzerlik arama sorgusu çalıştırır. Son olarak, LLM zinciri ilgili bağlamla (bir grup ilgili metin parçası) ve LLM'nin cevaplayacağı soruyla çalıştırılır. RAG ile Soru-Cevap'ın adım adım kod açıklaması için şu adresteki Python not defterine bakın: GitHub.
FAISS'a alternatif olarak şunları da kullanabilirsiniz: Amazon OpenSearch Service vektör veritabanı özellikleri, PostgreSQL için Amazon İlişkisel Veritabanı Hizmeti (Amazon RDS) ile pgvektör uzantısını vektör veritabanları veya açık kaynaklı Chroma Veritabanı olarak kullanabilirsiniz.
Tablo verileriyle soru-cevap
Belgelerdeki tablo halindeki verilerin yapısal karmaşıklığı nedeniyle LLM'lerin işlenmesi zor olabilir. Amazon Textract, sayfa, tablo ve hücreler gibi öğelerin iç içe geçmiş biçimindeki belgelerden tabloların çıkarılmasına olanak tanıdığı için LLM'lerle zenginleştirilebilir. Tablo verileriyle Soru-Cevap gerçekleştirmek çok adımlı bir süreçtir ve şu şekilde gerçekleştirilebilir: kendi kendine sorgulama. Aşağıda adımlara genel bir bakış yer almaktadır:
- Amazon Texttract'ı kullanarak belgelerden tabloları çıkarın. Amazon Textract ile tablo yapısı (satırlar, sütunlar, başlıklar) bir belgeden çıkarılabilir.
- Tablo verilerini, başlık adları ve her başlığın açıklaması gibi meta veri bilgileriyle birlikte bir vektör veritabanında saklayın.
- Verileri tablodan türetmek amacıyla LLM kullanarak yapılandırılmış bir sorgu oluşturmak için istemi kullanın.
- İlgili tablo verilerini vektör veritabanından çıkarmak için sorguyu kullanın.
Örneğin, bir banka ekstresinde "1000$'ın üzerinde mevduat içeren işlemler nelerdir?" sorusu verildiğinde LLM aşağıdaki adımları tamamlayacaktır:
- Şunun gibi bir sorgu oluşturun:
“Query: transactions” , “filter: greater than (Deposit$)”
. - Sorguyu yapılandırılmış bir sorguya dönüştürün.
- Yapılandırılmış sorguyu tablo verilerimizin depolandığı vektör veritabanına uygulayın.
Soru-Cevap'ın tablolu adım adım örnek kod açıklaması için Python not defterine bakın. GitHub.
Şablon oluşturma ve normalleştirmeler
Bu bölümde, belirli bir şemadaki bir belgeden alıntılar içeren bir çıktı oluşturmak için hızlı mühendislik tekniklerinin ve LangChain'in yerleşik mekanizmasının nasıl kullanılacağına bakıyoruz. Ayrıca, daha önce tartışılan teknikleri kullanarak, çıkarılan veriler üzerinde bazı standardizasyonlar da gerçekleştiriyoruz. İstediğiniz çıktı için bir şablon tanımlayarak başlıyoruz. Bu bir şema görevi görecek ve belgenin metninden çıkarmak istediğimiz her varlık hakkındaki ayrıntıları kapsayacaktır.
Varlıkların her biri için, LLM'nin belge metninden değer çıkarmasına yardımcı olmak amacıyla o varlığın ne olduğunu açıklamak için açıklamayı kullandığımızı unutmayın. Aşağıdaki örnek kodda, LLM için istemimizi belgeden çıkarılan metinle birlikte oluşturmak için bu şablonu kullanıyoruz. AmazonTextractPDFLoader
ve ardından modelle çıkarım yapın:
Gördüğünüz gibi, {keys}
İstemin bir kısmı şablonumuzun anahtarlarıdır ve {details}
açıklamalarıyla birlikte anahtarlardır. Bu durumda, çıktının JSON formatında üretilmesi talimatını belirtmek dışında, modeli açık bir şekilde çıktının formatıyla istemiyoruz. Bu çoğunlukla işe yarar; ancak LLM'lerden gelen çıktı deterministik olmayan metin üretimi olduğundan, istemdeki talimatın bir parçası olarak formatı açıkça belirtmek istiyoruz. Bunu çözmek için LangChain'i kullanabiliriz. yapılandırılmış çıktı ayrıştırıcısı şablonumuzu bir format talimat istemine dönüştürmeye yardımcı olan otomatik bilgi istemi mühendisliğinden yararlanmak için modül. Format talimat istemini aşağıdaki gibi oluşturmak için daha önce tanımlanan şablonu kullanırız:
Daha sonra bu değişkeni orijinal istemimizde LLM'ye bir talimat olarak kullanırız, böylece istemimizde küçük bir değişiklik yaparak çıktıyı istenen şemada çıkarır ve biçimlendirir:
Şu ana kadar sadece istenilen şemadaki verileri belgeden çıkardık. Ancak yine de bazı standardizasyon yapmamız gerekiyor. Örneğin hastanın kabul tarihi ve taburculuk tarihinin GG/AA/YYYY formatında çıkmasını istiyoruz. Bu durumda, artırıyoruz. description
biçimlendirme talimatını içeren anahtarın:
Python not defterine bakın GitHub Tam adım adım izlenecek yol ve açıklama için.
Yazım denetimleri ve düzeltmeler
Yüksek Lisans'lar insan benzeri metinleri anlama ve oluşturma konusunda olağanüstü yetenekler göstermiştir. Yüksek Lisans'ın daha az tartışılan ancak son derece yararlı uygulamalarından biri, gramer kontrolleri ve belgelerdeki cümle düzeltmelerindeki potansiyelleridir. Önceden tanımlanmış bir dizi kurala dayanan geleneksel dilbilgisi denetleyicilerinin aksine, LLM'ler neyin doğru veya akıcı dil olduğunu belirlemek için çok miktarda metin verisinden belirledikleri kalıpları kullanır. Bu, kural tabanlı sistemlerin gözden kaçırabileceği nüansları, bağlamı ve incelikleri tespit edebilecekleri anlamına gelir.
Bir hasta taburcu özetinden alınan şu metni hayal edin: "Şiddetli pnömoni nedeniyle başvuran hasta Jon Doe önemli bir iyileşme gösterdi ve güvenli bir şekilde taburcu edilebilir. Takiplerin önümüzdeki hafta yapılması planlanıyor." Geleneksel bir yazım denetleyicisi "kabul", "zatürre", "iyileşme" ve "sonraki" hatalarını hata olarak tanıyabilir. Ancak bu hataların bağlamı başka hatalara veya genel önerilere yol açabilir. Kapsamlı bir eğitimle donatılmış bir yüksek lisans şunları önerebilir: "Şiddetli zatürre nedeniyle kabul edilen hasta John Doe önemli bir iyileşme gösterdi ve güvenli bir şekilde taburcu edilebilir. Takiplerin önümüzdeki hafta yapılması planlanıyor."
Aşağıda, daha önce açıklandığı gibi aynı metni içeren, kötü el yazısıyla yazılmış örnek bir belge bulunmaktadır.
Belgeyi bir Amazon Textract belge yükleyiciyle çıkarıyoruz ve ardından LLM'ye, hızlı mühendislik yoluyla, çıkarılan metni herhangi bir yazım ve/veya dilbilgisi hatasını düzeltmek için düzeltmesi talimatını veriyoruz:
Önceki kodun çıktısı, belge yükleyici tarafından çıkarılan orijinal metni ve ardından Yüksek Lisans tarafından oluşturulan düzeltilmiş metni gösterir:
LLM'ler ne kadar güçlü olursa olsun, onların önerilerini sadece öneriler olarak görmenin önemli olduğunu unutmayın. Her ne kadar dilin inceliklerini etkileyici derecede iyi yakalamış olsalar da, yanılmaz değiller. Bazı öneriler orijinal metnin amaçlanan anlamını veya tonunu değiştirebilir. Bu nedenle, gerçek kişi olan incelemecilerin LLM tarafından oluşturulan düzeltmeleri mutlak olarak değil, kılavuz olarak kullanması çok önemlidir. İnsan sezgisinin LLM yetenekleriyle işbirliği, yazılı iletişimimizin sadece hatasız değil, aynı zamanda daha zengin ve daha incelikli olduğu bir gelecek vaat ediyor.
Sonuç
Üretken yapay zeka, içgörü elde etmek için IDP ile belgeleri işleme şeklinizi değiştiriyor. Gönderide Üretken yapay zeka ile AWS akıllı belge işlemeyi geliştirmebölümünde, üretim hattının çeşitli aşamalarını ve AWS müşterisi Ricoh'nun IDP satış hattını LLM'lerle nasıl geliştirdiğini tartıştık. Bu yazıda, Amazon Bedrock, Amazon Textract ve popüler LangChain çerçevesi aracılığıyla LLM'lerle IDP iş akışını artırmanın çeşitli mekanizmalarını tartıştık. Sitemizde bulunan örnek not defterlerini kullanarak LangChain'li yeni Amazon Textract belge yükleyicisini kullanmaya bugün başlayabilirsiniz. GitHub deposu. AWS'de üretken yapay zekayla çalışmaya ilişkin daha fazla bilgi için bkz. AWS'de Üretken Yapay Zeka ile Derlemeye Yönelik Yeni Araçlar Duyurusu.
Yazarlar Hakkında
Sonali Sahu AWS'de AI/ML hizmetleri ekibiyle akıllı belge işlemede lider konumdadır. O bir yazar, düşünce lideri ve tutkulu bir teknoloji uzmanıdır. Temel odak alanı AI ve ML'dir ve sık sık dünya çapında AI ve ML konferanslarında ve buluşmalarında konuşur. Sağlık, finans sektörü ve sigorta sektörlerinde sektör uzmanlığı ile teknoloji ve teknoloji endüstrisinde hem geniş hem de derin deneyime sahiptir.
Anjan Biswas AI/ML ve Veri Analitiğine odaklanan bir Kıdemli AI Hizmetleri Çözümleri Mimarıdır. Anjan, dünya çapındaki AI hizmetleri ekibinin bir parçasıdır ve AI ve ML ile iş sorunlarını anlamalarına ve bunlara çözümler geliştirmelerine yardımcı olmak için müşterilerle birlikte çalışır. Anjan, küresel tedarik zinciri, üretim ve perakende kuruluşlarıyla çalışma konusunda 14 yılı aşkın deneyime sahiptir ve müşterilerin AWS AI hizmetlerini kullanmaya başlamasına ve bunları ölçeklendirmesine aktif olarak yardımcı olmaktadır.
Chinmaye Rane Amazon Web Services'te AI/ML Uzman Çözüm Mimarıdır. Uygulamalı matematik ve makine öğrenimi konusunda tutkulu. AWS müşterileri için akıllı belge işleme ve üretken yapay zeka çözümleri tasarlamaya odaklanıyor. İş dışında salsa ve bachata dansından hoşlanıyor.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/
- :vardır
- :dır-dir
- :olumsuzluk
- :Neresi
- .sonraki
- $1000
- $UP
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- İNDİRİM
- 16
- 22
- 23
- 33
- İNDİRİM
- 7
- 9
- a
- yeteneklerini
- Hakkımızda
- kesin
- erişim
- erişilen
- Göre
- doğruluk
- doğru
- elde
- karşısında
- Action
- eylemler
- aktif
- etkinlik
- eylemler
- Ad
- adres
- Ekler
- bağlı
- Kabul et
- kabul edilmiş
- gelişmeler
- avantaj
- Advent
- yaş
- ajanları
- AI
- AI hizmetleri
- AI / ML
- hizalı
- Türkiye
- Izin
- veriyor
- boyunca
- Ayrıca
- alternatif
- Rağmen
- Amazon
- Amazon Kavramak
- Amazon RDS'si
- Amazon Metin Yazısı
- Amazon Web Servisleri
- tutarları
- an
- analytics
- çözümlemek
- ve
- cevap
- Antropik
- herhangi
- API'ler
- uygulamaları
- uygulamalı
- randevular
- yaklaşım
- mimari
- ARE
- ALAN
- etrafında
- Sanat
- yapay
- yapay zeka
- Yapay zeka (AI)
- AS
- boy
- yardım
- Asistan
- At
- büyütme
- augmented
- yazar
- otomatikleştirmek
- Otomatik
- otomatik olarak
- Otomasyon
- mevcut
- farkındalık
- AWS
- AWS Müşterisi
- Banka
- BE
- Çünkü
- olur
- olmuştur
- önce
- faydalı
- yarar
- İYİ
- en iyi uygulamalar
- arasında
- Engellemek
- Blokları
- her ikisi de
- genişlik
- mola
- sonları
- inşa etmek
- bina
- yerleşik
- iş
- işletmeler
- fakat
- by
- aramalar
- CAN
- Alabilirsin
- yetenekleri
- ele geçirmek
- dava
- durumlarda
- Hücreler
- belli
- zincir
- zincirler
- meydan okuma
- zor
- değişiklik
- değişiklikler
- değiştirme
- Çekler
- seçim
- iddia
- sınıf
- sınıflar
- sınıflandırma
- sınıflandırmak
- kod
- tutarlı
- işbirliği
- Sütun
- Sütunlar
- kombinasyon
- birleştirmek
- geliyor
- ortak
- çoğunlukla
- Yakın İletişim
- uyumlu
- tamamlamak
- karmaşık
- karmaşıklık
- idrak
- Özlü
- konferanslar
- bağlantı
- tutarlı
- oluşur
- kısıtlamaları
- kurmak
- içermek
- içerdiği
- içeren
- içerik
- bağlam
- bağlamsal
- dönüştürmek
- çekirdek
- doğru
- düzeltilmiş
- Düzeltmeler
- olabilir
- zanaat
- hazırlanmış
- oluşturur
- çok önemli
- görenek
- müşteri
- Müşteriler
- Dans
- veri
- Veri Analizi
- veritabanı
- veritabanları
- Tarih
- Tarih
- anlaşma
- derin
- derin
- tanımlamak
- tanımlı
- tanımlarken
- gösterdi
- bağlı
- mevduat
- derinlik
- tarif edilen
- tanım
- tasarım
- İstediğiniz
- ayrıntı
- detaylı
- ayrıntılar
- belirlemek
- Belirlemek
- geliştirmek
- geliştiriciler
- Diyet
- farklı
- direkt olarak
- tartışmak
- tartışılan
- dalış
- bölmek
- böler
- do
- doktorlar
- belge
- belgeleme
- evraklar
- dişi geyik
- Değil
- yapıyor
- don
- yapılmış
- Dont
- aşağı
- dramatik
- gereken
- sırasında
- dinamik
- e
- her
- Daha erken
- kolayca
- kolay kullanımlı
- etkili bir şekilde
- verim
- verimli
- verimli biçimde
- çabaları
- ya
- elemanları
- gömmek
- istihdam
- olarak güçlendiriyor
- etkinleştirmek
- sağlar
- etkinleştirme
- son
- Mühendislik
- artırmak
- gelişmiş
- artırılması
- sağlamak
- sağlanması
- Tüm
- kişiler
- varlık
- donanımlı
- Hatalar
- gerekli
- Hatta
- örnek
- Dışında
- istisna
- mevcut
- deneyim
- Uzmanlık
- Açıklamak
- açıkladı
- açıklar
- açıklama
- açıkça
- ifade
- uzatmak
- uzatma
- kapsamlı, geniş
- çıkarmak
- çıkarma
- Hulasa
- Düşmek
- yanlış
- uzak
- yorgunluk
- Alanlar
- şekil
- son
- Nihayet
- mali
- Finans sektörü
- Ad
- uygun
- odak
- odaklanır
- takip et
- takip
- takip etme
- şu
- İçin
- biçim
- formlar
- bulundu
- vakıf
- iskelet
- Ücretsiz
- sık sık
- itibaren
- Sınır
- tam
- tamamen
- daha fazla
- gelecek
- genel
- oluşturmak
- oluşturulan
- üretir
- üreten
- nesil
- üretken
- üretken yapay zeka
- almak
- Vermek
- verilmiş
- Küresel
- dilbilgisi
- kavramak
- büyük
- grup
- rehberlik
- el
- sap
- olmak
- olay
- donanım
- Var
- başlıkları
- sağlık
- ağır şekilde
- yardım et
- faydalı
- yardım
- yardımcı olur
- onu
- okuyun
- üst düzey
- yüksek performans
- daha yüksek
- tutar
- hastane
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- HTTPS
- insan
- i
- ID
- tespit
- if
- göstermektedir
- görüntü
- son derece
- darbe
- ithalat
- önemli
- ithal
- yüklemek
- iyileşme
- in
- Dahil olmak üzere
- indeks
- sanayi
- bilgi
- Bilgi çağı
- Yenilikçilik
- giriş
- anlayışlar
- örnek
- talimatlar
- sigorta
- entegre
- entegre
- Bütünleştirme
- bütünleşme
- İstihbarat
- Akıllı
- Akıllı belge işleme
- yönelik
- içten
- içine
- karmaşıklıklar
- tanıtmak
- tanıttı
- Tanıtımlar
- IT
- ONUN
- Jackson
- John
- JOHN DOE
- jon
- jpg
- json
- sadece
- anahtar
- anahtarlar
- Bilmek
- bilgi
- bilinen
- dil
- büyük
- Düzen
- öncülük etmek
- lider
- önemli
- öğrenme
- ayrılma
- Kütüphane
- sevmek
- Muhtemelen
- sınırlamaları
- sınırları
- Liste
- Yüksek Lisans
- yük
- yükleyici
- mantık
- Bakın
- Çok
- makine
- makine öğrenme
- Yapımı
- yönetmek
- idare edilebilir
- yönetilen
- yönetme
- Manuel
- üretim
- işaretlenmiş
- matematik
- Mayıs..
- me
- anlam
- anlamlı
- anlamına geliyor
- mekanizma
- mekanizmaları
- Buluşmalar
- Bellek
- Meta
- Metadata
- yöntem
- yöntemleri
- olabilir
- akla
- kaçırmak
- hataları
- ML
- model
- modelleri
- modül
- Daha
- Ipotekler
- çoğu
- çoklu
- isim
- isimleri
- Doğal (Madenden)
- Doğal Dil İşleme
- gerekli
- gerek
- gerekli
- ihtiyaçlar
- yeni
- sonraki
- gelecek hafta
- nlp
- defter
- şimdi
- gölgeleme
- numara
- nesne
- nesneler
- of
- Teklifler
- sık sık
- on
- ONE
- bir tek
- açık kaynak
- Operasyon
- Fırsat
- optimum
- Opsiyonlar
- or
- organizasyonlar
- orijinal
- Diğer
- aksi takdirde
- bizim
- dışarı
- Sonuç
- çıktı
- çıkışlar
- dışında
- tekrar
- genel bakış
- paketler
- Kanal
- sayfaları
- Ağrı
- eşleştirilmiş
- çiftleri
- Bölüm
- özellikle
- geçmek
- geçti
- Geçen
- tutkulu
- yol
- hasta
- model
- desen
- başına
- Yapmak
- performans
- yapılan
- icra
- gerçekleştirir
- faz
- doktora
- ifadeler
- boru hattı
- plan
- Platon
- Plato Veri Zekası
- PlatoVeri
- Lütfen
- zatürree
- noktaları
- Popüler
- mümkün
- Çivi
- potansiyel
- güç kelimesini seçerim
- powered
- güçlü
- uygulamalar
- tam
- Hassas
- tercihli
- mevcut
- Önceden
- öncelikle
- baskılar
- Sorun
- sorunlar
- süreç
- İşlenmiş
- işleme
- üretmek
- vaat
- uygun
- sağlamak
- sağlanan
- sağlayan
- sağlar
- Python
- Soru-Cevap
- kalite
- soru
- Hızlı
- hızla
- Çiğ
- Okuma
- tanımak
- azaltarak
- başvurmak
- referans
- Referans
- İlişkiler
- uygun
- güvenmek
- güvenerek
- dikkat çekici
- rapor
- temsil etmek
- temsil
- gereklidir
- gerektirir
- sırasıyla
- yanıtları
- kısıtlamaları
- sonuç
- Ortaya çıkan
- Sonuçlar
- perakende
- tutmak
- tespit
- İade
- Zengin
- oda
- kurallar
- koşmak
- ishal
- s
- güvenli bir şekilde
- aynı
- söylemek
- ölçek
- senaryolar
- tarifeli
- Ara
- İkinci
- Bölüm
- bölümler
- sektör
- görmek
- segmentler
- seçilmiş
- kıdemli
- cümle
- Dizi
- hizmet vermek
- vermektedir
- hizmet
- Hizmetler
- set
- şiddetli
- o
- kısa
- meli
- gösterilen
- Gösteriler
- önemli
- tek
- küçük
- daha küçük
- pasajı
- So
- yalnızca
- Çözümler
- ÇÖZMEK
- biraz
- Kaynak
- uzay
- Konuştu
- uzman
- özel
- özellikle
- Belirtilen
- yazım
- bölmek
- aşamaları
- standardizasyon
- başlama
- başladı
- state-of-the-art
- Açıklama
- adım
- Basamaklar
- Yine
- mağaza
- saklı
- mağaza
- güçlü
- dizi
- yapısal
- yapı
- yapılandırılmış
- Çabalama
- sonraki
- Daha sonra
- böyle
- önermek
- özetlemek
- ÖZET
- arz
- tedarik zinciri
- destek
- Destekler
- sinerji
- Sistemler
- tablo
- Bizi daha iyi tanımak için
- alır
- Görev
- görevleri
- takım
- teknik
- teknikleri
- teknoloji uzmanı
- Teknoloji
- şablon
- şartlar
- metin
- metinsel
- göre
- o
- The
- Dünya
- ve bazı Asya
- Onları
- sonra
- Orada.
- bu nedenle
- Bunlar
- onlar
- Re-Tweet
- düşünce
- üç
- İçinden
- titan
- için
- bugün
- bugünkü
- birlikte
- simge
- Jeton
- TON
- araçlar
- üst
- Toplam
- geleneksel
- Firar
- Eğitim
- işlemler
- Dönüştürmek
- dönüşümler
- gerçek
- denemek
- iki
- tip
- türleri
- anlamak
- anlayış
- aksine
- açıklanması
- URL
- kullanım
- kullanım durumu
- Kullanılmış
- kullanıcılar
- kullanım
- kullanma
- kullanılan
- Kullanılması
- v1
- değer
- Değerler
- değişken
- çeşitli
- Geniş
- çok yönlü
- versiyon
- üzerinden
- Görüntüle
- hacimleri
- örneklerde
- istemek
- oldu
- Yol..
- we
- ağ
- web hizmetleri
- hafta
- İYİ
- Ne
- ne zaman
- hangi
- süre
- DSÖ
- irade
- ile
- içinde
- olmadan
- tanık
- Word
- sözler
- İş
- iş akışı
- iş akışları
- çalışma
- çalışır
- Dünya
- olur
- yazılı
- X
- yıl
- Sen
- zefirnet