Bu gönderide, metin özetleme için kullanılan en çok indirilen Hugging Face önceden eğitilmiş modellerinden birinin nasıl uygulanacağını gösteriyoruz. DistilBART-CNN-12-6, kullanarak bir Jupyter not defterinde Amazon Adaçayı Yapıcı ve SageMaker Kucaklayan Yüz Çıkarım Araç Seti. Bu gönderide gösterilen adımlara dayanarak, metni özetlemeyi deneyebilirsiniz. Vikimetin-2 veri kümesi fast.ai tarafından yönetilmektedir, adresinde mevcut AWS'de Açık Veri Kaydı.
Şirketler ve tüketiciler dijital ürün ve çevrimiçi hizmet kullanımlarını genişlettikçe küresel veri hacimleri zettabayt ölçeğinde büyüyor. Bu büyüyen verileri daha iyi anlamak için, metin analizine yönelik makine öğrenimi (ML) doğal dil işleme (NLP) teknikleri, metin özetleme, varlık tanıma, sınıflandırma, çeviri ve daha fazlasını içeren kullanım örneklerini ele alacak şekilde gelişti. AWS önceden eğitilmiş teklifler sunar AWS AI hizmetleri API çağrıları kullanılarak uygulamalara entegre edilebilir ve makine öğrenimi deneyimi gerektirmez. Örneğin, Amazon Kavramak metinden içgörü toplamak için özel varlık tanıma, duygu analizi, anahtar sözcük öbeği çıkarma, konu modelleme ve daha fazlası gibi NLP görevlerini gerçekleştirebilir. Gerçekleştirebilir çok çeşitli dillerde metin analizi çeşitli özellikleri için.
Metin özetleme, büyük miktarda metin verisini anlamada yardımcı bir tekniktir çünkü kaynak belgelerden bağlamsal olarak anlamlı bir bilgi alt kümesi oluşturur. Bu NLP tekniğini, örneğin toplantılardan gelen çağrı notlarını özetlemek için daha hızlı tüketim ve daha etkili belge indeksleme sağlayarak daha uzun biçimli metin belgelerine ve makalelere uygulayabilirsiniz.
Sarılma Yüz NLP için popüler bir açık kaynak kitaplığıdır ve 49,000'den fazla dilde 185'den fazla önceden eğitilmiş model ve farklı çerçeveler için destek sunar. AWS ve Hugging Face'in bir ortaklık PyTorch veya TensorFlow'da eğitim ve çıkarım için bir dizi AWS Derin Öğrenme Kapsayıcısı (DLC) ve SageMaker Python SDK için Hugging Face tahmin edicileri ile SageMaker aracılığıyla sorunsuz entegrasyona olanak tanır. SageMaker'daki bu yetenekler, geliştiricilerin ve veri bilimcilerinin AWS'de NLP'yi daha kolay kullanmaya başlamasına yardımcı olur. Metinleri PyTorch gibi derin öğrenme çerçevelerinde transformatörlerle işlemek, veri bilimcileri için genellikle karmaşık ve zaman alıcı bir iştir ve NLP projeleri geliştirirken genellikle hayal kırıklığına ve verim eksikliğine yol açar. Hugging Face gibi yapay zeka topluluklarının yükselişi, buluttaki SageMaker gibi makine öğrenimi hizmetlerinin gücüyle birleştiğinde, bu metin işleme görevlerinin geliştirilmesini hızlandırır ve basitleştirir. SageMaker, Hugging Face modellerini oluşturmanıza, eğitmenize, dağıtmanıza ve çalıştırmanıza yardımcı olur.
Metin özetlemeye genel bakış
Bir belgedeki anahtar cümleleri belirlemek veya birden çok belgedeki anahtar cümleleri belirlemek için metin özetleme uygulayabilirsiniz. Metin özetleme iki tür özet üretebilir: çıkarımsal ve soyutlayıcı. Çıkarıcı özetler, makine tarafından oluşturulmuş herhangi bir metin içermez ve giriş belgesinden seçilen önemli cümlelerin bir koleksiyonudur. Soyutlayıcı özetler, metin özetleme modeli tarafından oluşturulan, insan tarafından okunabilen yeni ifadeler ve cümleler içerir. Doğru soyutlayıcı metin özetleme elde etmek zor olduğu için çoğu metin özetleme sistemi özütleyici özetlemeye dayanır.
Hugging Face, önceden eğitilmiş 400'ün üzerinde en son teknolojiye sahiptir metin özetleme modelleri mevcuttur, NLP tekniklerinin farklı kombinasyonlarını uygulamak. Bu modeller, teknoloji şirketleri ve Hugging Face topluluğunun üyeleri tarafından yüklenen ve sürdürülen farklı veri kümeleri üzerinde eğitilir. Modelleri en çok indirilen veya en çok beğenilenlere göre filtreleyebilir ve kullanırken direkt olarak yükleyebilirsiniz. özetleme boru hattı Hugging Face trafo API'si. Hugging Face dönüştürücü, NLP uygulama sürecini basitleştirir, böylece yüksek performanslı NLP modelleri, kapsamlı ML operasyon bilgisi gerektirmeden metin özetleri sunmak için ince ayar yapılabilir.
AWS'de Hugging Face metin özetleme modelleri
SageMaker, iş analistlerine, veri bilimcilerine ve MLOps mühendislerine AWS'de ML iş yüklerini tasarlamak ve işletmek için çeşitli araçlar sunar. Bu araçlar, optimum sonuçları elde etmek için ML modellerinin daha hızlı uygulanmasını ve test edilmesini sağlar.
itibaren SageMaker Kucaklayan Yüz Çıkarım Araç SetiAçık kaynaklı bir kitaplık olan , bir Jupyter not defteri kullanarak Hugging Face metin özetleme modellerini uygulamanın ve barındırmanın üç farklı yolunu özetliyoruz:
- Hugging Face özetleme ardışık düzeni - Oluşturmak Hugging Face özetleme ardışık düzeni kullanmak "
summarization
Jupyter not defterinizde çıkarım için varsayılan bir metin özetleme modelini kullanmak için görev tanımlayıcısı. Bu ardışık düzenler karmaşık kodu soyutlayarak acemi ML uygulayıcılarına bir çıkarım uç noktası yapılandırmadan metin özetlemeyi hızla uygulamak için basit bir API sunar. İşlem hattı ayrıca ML uygulayıcısının belirli bir önceden eğitilmiş modeli ve bununla ilişkili belirteç oluşturucuyu seçmesine olanak tanır. Belirteçler, metni kelimelere veya alt kelimelere bölerek ve daha sonra bir arama tablosu aracılığıyla kimliklere dönüştürülerek metni model için bir girdi olarak hazır olacak şekilde hazırlar. Basit olması için, aşağıdaki kod parçacığı, ardışık düzenleri kullanırken varsayılan durumu sağlar. bu DistilBART-CNN-12-6 modeli, Hugging Face'de en çok indirilen özetleme modellerinden biridir ve özetleme işlem hattı için varsayılan model. Son satır, sağlanan iki argümanla verilen metin için bir özet almak üzere önceden eğitilmiş modeli çağırır. - Önceden eğitilmiş modele sahip SageMaker uç noktası – Önceden eğitilmiş bir modelle bir SageMaker uç noktası oluşturun. Sarılma Yüz Modeli Hub ve aşağıdaki kod parçacığındaki ml.m5.xlarge örneği gibi bir çıkarım uç noktasına dağıtın. Bu yöntem, deneyimli makine öğrenimi pratisyenlerinin belirli açık kaynaklı modelleri hızla seçmesine, bunlara ince ayar yapmasına ve modelleri yüksek performanslı çıkarım örneklerine dağıtmasına olanak tanır.
- Eğitilmiş bir modelle SageMaker uç noktası – Bir sistemde depolanan eğitimli bir modelle bir SageMaker model uç noktası oluşturun. Amazon Basit Depolama Hizmeti (Amazon S3) paketleyin ve bir çıkarım uç noktasında dağıtın. Bu yöntem, deneyimli makine öğrenimi uygulayıcılarının Amazon S3'te depolanan kendi modellerini yüksek performanslı çıkarım örneklerine hızla dağıtmasına olanak tanır. Modelin kendisi Hugging Face'den indirilir ve sıkıştırılır ve ardından Amazon S3'e yüklenebilir. Bu adım, aşağıdaki kod parçacığında gösterilmiştir:
AWS, makine öğrenimi iş yüklerinizi dağıtmanıza yardımcı olacak çeşitli kaynaklara sahiptir. bu Makine Öğrenimi Merceği arasında AWS İyi Mimari Çerçeve kaynakları optimize etme ve maliyeti düşürme dahil olmak üzere makine öğrenimi iş yükleri için en iyi uygulamaları önerir. Bu önerilen tasarım ilkeleri, AWS'de iyi tasarlanmış makine öğrenimi iş yüklerinin üretime dağıtılmasını sağlar. Amazon SageMaker Çıkarım Öneri Aracı ML modellerinizi optimum çıkarım performansı ve maliyetiyle dağıtmak için doğru örneği seçmenize yardımcı olur. Inference Recommender, yük testini otomatikleştirerek ve ML örneklerinde model performansını optimize ederek model dağıtımını hızlandırır ve pazara sunma süresini kısaltır.
Sonraki bölümlerde, bir S3 kovasından eğitilmiş bir modelin nasıl yükleneceğini ve uygun bir çıkarım örneğine nasıl dağıtılacağını göstereceğiz.
Önkoşullar
Bu izlenecek yol için aşağıdaki ön koşullara sahip olmalısınız:
- An AWS hesabı.
- İçinde bir Jupyter not defteri Amazon SageMaker Stüdyosu veya SageMaker not defteri örnekleri. Bu gönderide, sağlanan kod parçacıklarıyla birlikte "Python 3 (PyTorch 1.4 Python 3.6 CPU Optimized)" görüntüsünü kullanıyoruz, ancak PyTorch görüntüsünün daha yüksek sürümünü kullanabilirsiniz. mevcut SageMaker çekirdekleri.
- S3 grubunuzdaki bir veri kümesi, örneğin Vikimetin-2 veri kümesi AWS'de Açık Veri Kaydı.
Metin özetleme çıkarımı için Hugging Face modelini SageMaker'a yükleyin
Hugging Face önceden eğitilmiş metin özetleme modelini indirmek için aşağıdaki kodu kullanın DistilBART-CNN-12-6 ve belirteci ve bunları yerel olarak SageMaker'da Jupyter notebook dizininize kaydedin:
Kaydedilen metin özetleme modelini ve belirteç oluşturucusunu tar.gz biçiminde sıkıştırın ve sıkıştırılmış model yapısını bir S3 klasörüne yükleyin:
Bir seçin çıkarım Docker kapsayıcı görüntüsü metin özetleme çıkarımını gerçekleştirmek için. Linux OS, PyTorch çerçevesi ve Hugging Face Transformer sürümünü tanımlayın ve Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) kapsayıcıyı çalıştırmak için örnek türü.
Docker görüntüsü şurada mevcuttur: Amazon Elastik Konteyner Kayıt Defteri (Amazon ECR) ve bu kapsayıcı görüntüsünün bağlantısı bir URI olarak döndürülür.
Çıkarım gerçekleştiren seçili kapsayıcı görüntüsü tarafından dağıtılacak metin özetleme modelini tanımlayın. Aşağıdaki kod parçacığında Amazon S3'e yüklenen sıkıştırılmış model dağıtılır:
Dağıtılan metin özetleme modelini örnek bir giriş üzerinde test edin:
Çıkarım görevi için en uygun EC2 örneğini değerlendirmek için Çıkarım Öneri Aracı'nı kullanın
Ardından, JSON formatında birden çok girdi metni veri yükü örneği oluşturun ve bunları tek bir veri yükü dosyasına sıkıştırın. Bu yük örnekleri, Çıkarım Öneri Aracı tarafından farklı EC2 bulut sunucusu türleri arasındaki çıkarım performansını karşılaştırmak için kullanılır. Örnek yüklerin her biri, daha önce gösterilen JSON biçimiyle eşleşmelidir. adresinden örnekler alabilirsiniz. Vikimetin-2 veri kümesi fast.ai tarafından yönetilmektedir, adresinde mevcut AWS'de Açık Veri Kaydı.
Sıkıştırılmış metin özetleme modeli yapısını ve sıkıştırılmış örnek yük dosyasını S3 klasörüne yükleyin. Modeli daha önceki bir adımda yükledik, ancak netlik için tekrar yüklemek için kodu ekledik:
SageMaker'da bulunan standart makine öğrenimi modellerinin listesini gözden geçirin. ortak model hayvanat bahçeleriNLP ve bilgisayarla görme gibi. Metin özetleme çıkarımını gerçekleştirmek için bir NLP modeli seçin:
Aşağıdaki örnek, bert-base-cased
NLP modeli. Metin özetleme modelini SageMaker model kaydı önceki adımdaki doğru tanımlanmış etki alanı, çerçeve ve görev ile. Bu örneğe ilişkin parametreler, aşağıdaki kod parçacığının başında gösterilir.
Inference Recommender tarafından değerlendirilecek EC2 bulut sunucusu türleri aralığına dikkat edin. SupportedRealtimeInferenceInstanceTypes
aşağıdaki kodda. emin olun AWS hesabı için hizmet sınırları bu tür çıkarım düğümlerinin konuşlandırılmasına izin verin.
kullanarak bir Çıkarım Önericisi varsayılan işi oluşturun. ModelPackageVersion
önceki adımdan kaynaklanan. bu uuid
Python kitaplığı, iş için benzersiz bir ad oluşturmak için kullanılır.
Aşağıdaki kodu çalıştırarak Çıkarım Önericisi işinin durumunu alabilirsiniz:
İş durumu ne zaman COMPLETED
, Çıkarım Önericisi varsayılan işi tarafından değerlendirilen EC2 bulut sunucusu türlerinin çıkarım gecikmesini, çalışma zamanını ve diğer ölçümlerini karşılaştırın. Kullanım senaryosu gereksinimlerinize göre uygun düğüm türünü seçin.
Sonuç
SageMaker, Hugging Face modellerini kullanmanın birçok yolunu sunar; daha fazla örnek için bkz. AWS Örnekleri GitHub. Kullanım durumunun karmaşıklığına ve modelde ince ayar yapma ihtiyacına bağlı olarak, bu modelleri kullanmanın en uygun yolunu seçebilirsiniz. Hugging Face ardışık düzenleri, uygun modelleri hızla denemek ve seçmek için iyi bir başlangıç noktası olabilir. Seçili modelleri özelleştirmeniz ve parametreleştirmeniz gerektiğinde, modelleri indirebilir ve bunları özelleştirilmiş çıkarım uç noktalarına dağıtabilirsiniz. Modelde belirli bir kullanım durumu için daha fazla ince ayar yapmak için modeli indirdikten sonra eğitmeniz gerekir.
Metin özetleme modelleri de dahil olmak üzere genel olarak NLP modelleri, kullanım durumuna özel bir veri kümesi üzerinde eğitildikten sonra daha iyi performans gösterir. SageMaker'ın MLOP'leri ve model izleme özellikleri, dağıtılan modelin beklentiler dahilinde performans göstermeye devam etmesini sağlar. Bu gönderide, metin özetleme modelini dağıtmak için en uygun örnek türünü değerlendirmek için Çıkarım Öneri Aracı'nı kullandık. Bu öneriler, makine öğrenimi kullanım durumunuz için performansı ve maliyeti optimize edebilir.
Yazarlar Hakkında
Dr. Nidal Al Beyruti Amazon Web Services'de makine öğrenimi çözümlerine tutkuyla bağlı Kıdemli Çözüm Mimarıdır. Nidal, farklı düzeylerde ve dikeylerde çeşitli küresel BT rollerinde çalışan 25 yılı aşkın deneyime sahiptir. Nidal, birçok AWS müşterisinin bulut benimseme yolculuklarını desteklemesi ve hızlandırması için güvenilir bir danışman görevi görür.
Darren Ko Londra merkezli bir Çözüm Mimarıdır. BK ve İrlanda KOBİ müşterilerine bulutta yeniden yapılandırma ve yenilik yapma konusunda tavsiyelerde bulunuyor. Darren, sunucusuz mimarilerle oluşturulmuş uygulamalarla ilgileniyor ve sürdürülebilirlik zorluklarını makine öğrenimi ile çözme konusunda tutkulu.
- '
- "
- 000
- 10
- 100
- 28
- a
- Hakkımızda
- ÖZET
- hızlandırmak
- Hesap
- doğru
- Başarmak
- karşısında
- adres
- Benimseme
- danışman
- AI
- veriyor
- Amazon
- Amazon Web Servisleri
- tutarları
- analiz
- api
- Apple
- uygulamaları
- Tamam
- argümanlar
- mal
- ilişkili
- ayrıca otomasyonun
- mevcut
- layık
- AWS
- Çünkü
- Başlangıç
- olmak
- İYİ
- en iyi uygulamalar
- arasında
- inşa etmek
- iş
- çağrı
- Alabilirsin
- yetenekleri
- dava
- durumlarda
- zorluklar
- seçim
- sınıf
- sınıflandırma
- bulut
- kod
- Toplamak
- kombinasyonları
- kombine
- topluluklar
- topluluk
- Şirketler
- karmaşık
- hesaplamak
- bilgisayar
- yapılandırma
- Tüketiciler
- tüketim
- Konteyner
- Konteynerler
- devam ediyor
- yaratmak
- oluşturur
- görenek
- Müşteriler
- özelleştirmek
- veri
- gün
- derin
- teslim
- göstermek
- gösterdi
- bağlı
- dağıtmak
- konuşlandırılmış
- dağıtma
- açılma
- Dizayn
- geliştiriciler
- gelişen
- gelişme
- farklı
- zor
- dijital
- direkt olarak
- ekran
- liman işçisi
- doktorlar
- evraklar
- domain
- etki
- indir
- her
- kolayca
- Etkili
- verim
- etkinleştirme
- Son nokta
- Mühendisler
- varlık
- çevre
- değerlendirmek
- örnek
- örnekler
- Genişletmek
- beklentileri
- deneyim
- deneyimli
- deneme
- kapsamlı, geniş
- Yüz
- HIZLI
- Daha hızlı
- Özellikler
- takip etme
- biçim
- iskelet
- çerçeveler
- itibaren
- genel
- oluşturmak
- oluşturulan
- Küresel
- Tercih Etmenizin
- Büyüyen
- yardım et
- faydalı
- yardımcı olur
- daha yüksek
- Ne kadar
- Nasıl Yapılır
- HTTPS
- merkez
- insan tarafından okunabilir
- belirlemek
- görüntü
- uygulamak
- uygulama
- uygulanması
- önemli
- dahil
- Dahil olmak üzere
- bilgi
- yenilik
- giriş
- anlayışlar
- örnek
- entegre
- bütünleşme
- ilgili
- İrlanda
- IT
- kendisi
- İş
- seyahat
- anahtar
- bilgi
- dil
- Diller
- büyük
- önemli
- öğrenme
- seviyeleri
- Kütüphane
- sınırları
- çizgi
- LINK
- linux
- Liste
- yük
- lokal olarak
- London
- arama
- makine
- makine öğrenme
- yapmak
- pazar
- Maç
- anlamlı
- toplantılar
- Üyeler
- Metrikleri
- ML
- model
- modelleri
- izleme
- Daha
- çoğu
- çoklu
- Doğal (Madenden)
- sonraki
- düğümler
- defter
- notlar
- teklif
- Teklifler
- Online
- açık
- işletmek
- operasyon
- optimize
- optimize
- optimize
- Diğer
- kendi
- tutku
- tutkulu
- performans
- icra
- ifadeler
- Nokta
- Popüler
- güç kelimesini seçerim
- Hazırlamak
- önceki
- süreç
- işleme
- üretmek
- üretim
- Ürünler
- Projeler
- sağlamak
- sağlanan
- sağlar
- hızla
- menzil
- önerir
- azaltarak
- bölge
- kayıt olmak
- talep
- gerektirir
- Yer Alan Kurallar
- Kaynaklar
- Ortaya çıkan
- Rol
- koşmak
- koşu
- aynı
- ölçek
- bilim adamları
- sdk
- sorunsuz
- seçilmiş
- duygu
- Serverless
- Hizmetler
- set
- birkaç
- gösterilen
- Basit
- tek
- So
- Çözümler
- özel
- hızları
- standart
- başladı
- state-of-the-art
- Durum
- hafızası
- destek
- Sürdürülebilirlik
- Sistemler
- görevleri
- teknikleri
- Teknoloji
- Test yapmak
- The
- üç
- İçinden
- zaman
- zaman tükeniyor
- araçlar
- konu
- Eğitim
- Çeviri
- Güvenilir
- türleri
- tipik
- Uk
- altında
- anlamak
- anlayış
- benzersiz
- kullanım
- çeşitlilik
- çeşitli
- versiyon
- sektörler
- vizyonumuz
- hacimleri
- yolları
- ağ
- web hizmetleri
- içinde
- olmadan
- sözler
- çalışma
- X
- yıl