Kucaklayan Bir Yüz Soru-Cevap NLU Modelini Eğitmek için Amazon SageMaker Temel Gerçeği Kullanarak Özel Bir Soru-Cevap Veri Kümesi Oluşturun

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Son yıllarda, doğal dil anlayışı (NLU), bulut tabanlı altyapının ölçeklenebilirliği ve maliyet etkinliğinin yanı sıra model iyileştirmeleriyle beslenen iş değerini giderek daha fazla bulmuştur. özellikle, Trafo genellikle şeklinde uygulanan derin öğrenme mimarisi Bert modelleri oldukça başarılı olmuştur, ancak bu modelleri eğitmek, ince ayar yapmak ve optimize etmek zorlu bir sorun olduğunu kanıtlamıştır. sayesinde AWS ve Hugging Face işbirliğiüzerinde NLU modellerini eğitmek ve optimize etmek artık daha kolay Amazon Adaçayı Yapıcı SageMaker Python SDK'yı kullanıyor, ancak bu modeller için etiketli verileri tedarik etmek hala zor ve zaman alıcı.

Belirli bir ticari ilgi alanı olan bir NLU sorunu, soru yanıtlama görevidir. Bu gönderide, kullanarak özel bir soru yanıtlama veri kümesinin nasıl oluşturulacağını gösteriyoruz. Amazon SageMaker Yer Gerçeği NLU modelini yanıtlayan bir Hugging Face sorusu eğitmek.

Soru cevaplama zorlukları

Soru cevaplama, cevabı içerebilecek veya içermeyebilecek bir metin gövdesi verilen bir sorguya otomatik olarak bir cevap üreten bir model gerektirir. Örneğin, "SageMaker Ground Truth hangi iş akışlarını destekler?" Bir model, aşağıdaki paragrafta “ek açıklama konsolidasyonu ve denetimi” bölümünü tanımlayabilmelidir:

SageMaker Ground Truth, açıklama konsolidasyonu ve denetim iş akışları aracılığıyla etiketlerin kalitesini artırmaya yardımcı olur. Açıklama birleştirme, iki veya daha fazla veri etiketleyiciden etiket girdileri toplama ve bunları makine öğrenimi modeliniz için tek bir veri etiketi oluşturmak üzere birleştirme işlemidir. Yerleşik denetim ve inceleme iş akışlarıyla, çalışanlar etiket doğrulaması yapabilir ve doğruluğu artırmak için ayarlamalar yapabilir.

Bu problem zordur, çünkü sadece anahtar kelime araması yapmaktan ziyade bir sorunun anlamını kavramak için bir model gerektirir. Bu alandaki doğru modeller, akıllı sohbet robotlarını güçlendirerek, yüksek kaliteli sesli asistan ürünleri sunarak ve kişiselleştirilmiş ürün soru yanıtlama yoluyla çevrimiçi mağaza gelirini artırarak müşteri destek maliyetlerini azaltabilir. Bu alandaki büyük bir veri kümesi, Stanford Soru Yanıtlama Veri Kümesi (SQuAD), kısa metin pasajları içeren bir model sunan ve modelin pasajdaki yanıtlayan metin aralığının konumunu tahmin etmesini gerektiren çeşitli bir soru yanıtlama veri kümesi. SQuAD, kalabalık işçiler tarafından bir dizi Wikipedia makalesinde sorulan, her sorunun cevabının ya ilgili pasajdan bir metin parçası olduğu ya da başka bir şekilde yanıtlanması imkansız olarak işaretlendiği sorulardan oluşan bir okuduğunu anlama veri setidir.

SQuAD'ı iş amaçlı kullanım örneklerine uyarlamanın bir zorluğu, etki alanına özgü özel veri kümeleri oluşturmaktır. Bu yeni soru ve yanıt veri kümeleri oluşturma süreci, açıklayıcıların aralıkları vurgulamasına ve bu alanlara soru eklemesine olanak tanıyan özel bir kullanıcı arabirimi gerektirir. Ayrıca, cevaplanamayan soruları içeren SQuAD 2.0 formatını desteklemek için imkansız soruların eklenmesini de destekleyebilmelidir. Bu imkansız sorular, modellerin, verilen pasaj kullanılarak hangi sorguların yanıtlanamayacağı konusunda ek anlayış kazanmasına yardımcı olur. bu özel çalışan şablonları Ground Truth'da, çalışanlara soru ve cevap veri kümeleri oluşturmak için özel bir açıklama deneyimi sağlayarak bu veri kümelerinin oluşturulmasını basitleştirin.

Çözüme genel bakış

Bu çözüm, özel bir açıklama kullanıcı arabirimi kullanarak etki alanına özgü özel bir soru-cevap veri kümesini etiketlemek için Temel Gerçeği etiketleme işlerini oluşturur ve yönetir. SageMaker'ı eğitmek, ince ayar yapmak, optimize etmek ve dağıtmak için kullanıyoruz. Hugging Face Özel bir soru yanıtlama veri kümesinde PyTorch ile oluşturulmuş BERT modeli.

Sağlananları dağıtarak çözümü uygulayabilirsiniz. AWS CloudFormation AWS hesabınızdaki şablon. AWS CloudFormation, aşağıdakileri dağıtmayı yönetir: AWS Lambda açıklama kullanıcı arabirimi için açıklama öncesi ve açıklama birleştirmeyi destekleyen işlevler. Ayrıca bir oluşturur Amazon Basit Depolama Hizmeti (Amazon S3) kovası ve AWS Kimlik ve Erişim Yönetimi Bir etiketleme işi oluştururken kullanılacak (IAM) rolleri.

Bu gönderi, aşağıdakileri nasıl yapacağınız konusunda size yol gösterir:

Kendi soru yanıt veri kümenizi oluşturun veya Temel Gerçeği kullanarak mevcut bir veri kümenizi artırın
Metni birleştirmek ve simgeleştirmek için Hugging Face veri kümelerini kullanın
SageMaker eğitimini kullanarak soru yanıtlama verilerinizde bir BERT modelinde ince ayar yapın
Modelinizi bir SageMaker uç noktasına dağıtın ve sonuçlarınızı görselleştirin

Ek açıklama kullanıcı arayüzü

yeni kullanıyoruz özel çalışan görev şablonu Mevcut SQuAD veri setine yeni açıklamalar eklemek için Ground Truth ile. Bu çözüm, bir çalışan görev şablonunun yanı sıra açıklama öncesi Lambda işlevi (verileri kullanıcı arabirimine yerleştirmeyi yönetir) ve açıklama sonrası Lambda işlevi (etiketleme tamamlandıktan sonra kullanıcı arabiriminden sonuçları çıkaran) sunar.

Bu özel çalışan görev şablonu size sağ bölmede metni vurgulama ve ardından sol bölmede vurgulanan metinle ilgili ilgili bir soru ekleme olanağı sağlar. Sağ bölmede vurgulanan metin, önceden oluşturulmuş herhangi bir soruya da eklenebilir. Ayrıca, aşağıdakilere göre imkansız soruları ekleyebilirsiniz. TAKIM 2.0 biçim. İmkansız sorular, pasaj bir sorguyu yanıtlayamadığında modellerin güvenilmez yanlış pozitif tahminlerin sayısını azaltmasına izin verir.

Bu kullanıcı arabirimi, SQuAD 2.0 veri kümesiyle aynı JSON şemasını kullanır; bu, birden çok makale ve paragraf üzerinde çalışabileceği ve Önceki ve Sonraki düğmeler. Kullanıcı arabirimi, görev gönderme adımı sırasında her bir yorumlayıcının tamamlaması gereken etiketleme çalışmasını izlemeyi ve belirlemeyi kolaylaştırır.

Ek açıklama kullanıcı arabirimi tek bir Sıvı HTML dosyası, temel JavaScript bilgisi ile etiketleme deneyimini özelleştirebilirsiniz. Ayrıca değiştirebilirsiniz sıvı etiketleri etiketleme kullanıcı arabirimine ek bilgi iletmek için ve şablonun kendisini daha ayrıntılı çalışan talimatları içerecek şekilde değiştirebilirsiniz.

Varsayılan fiyatlar

Bu çözümü dağıtmak, insan etiketleme maliyetlerini hesaba katmadan, yaklaşık 20 ABD doları tutarında bir maksimum maliyete neden olabilir. Amazon S3, Lambda, SageMaker ve Ground Truth'un tümü şunları sunar: AWS Ücretsiz Katmanı, ek kullanım ücretleri ile. Daha fazla bilgi için aşağıdaki fiyatlandırma sayfalarına bakın:

Amazon S3 Fiyatlandırması
AWS Lambda Fiyatlandırması
Amazon SageMaker Fiyatlandırması
Amazon SageMaker Veri Etiketleme Fiyatlandırması – Bu ücret, kullandığınız iş gücünün türüne bağlıdır. Ground Truth'un yeni bir kullanıcısıysanız, etiketleme işi yapılandırmanızı test etmek için özel bir iş gücü kullanmanızı ve kendinizi bir çalışan olarak dahil etmenizi öneririz.

Önkoşullar

Bu çözümü uygulamak için aşağıdaki ön koşullara sahip olmalısınız:

An AWS hesabı.
Zemin Gerçeği ile aşinalık. Daha fazla bilgi için bkz. Verileri Etiketlemek için Amazon SageMaker Temel Gerçeği Kullanın.
AWS CloudFormation'a aşinalık. Daha fazla bilgi için bkz. AWS CloudFormation Kullanım Kılavuzu.
Bir SageMaker işgücü. Bu gösteri için özel bir iş gücü kullanıyoruz. SageMaker konsolunda bir iş gücü oluşturabilirsiniz.

Aşağıdaki GIF, özel bir işgücünün nasıl oluşturulacağını gösterir. Talimatlar için bkz. Etiketleme İş Gücü Sayfasını Kullanarak bir Amazon Cognito İş Gücü Oluşturun.

Hugging Face Soru-Cevap NLU modeli PlatoBlockchain Veri Zekasını eğitmek için Amazon SageMaker Ground Truth'u kullanarak özel bir Soru-Cevap veri kümesi oluşturun. Dikey Arama. Ai.

CloudFormation Yığını Başlatın

Artık çözümün yapısını gördüğünüze göre, örnek bir iş akışı çalıştırabilmeniz için onu hesabınıza dağıtın. Etiketleme ardışık düzeniyle ilgili tüm dağıtım adımları, AWS CloudFormation tarafından yönetilir. Bu, AWS CloudFormation'ın ön açıklama ve açıklama birleştirme Lambda işlevlerinizin yanı sıra giriş ve çıkış verilerini depolamak için bir S3 kovası oluşturduğu anlamına gelir.

Yığını AWS Bölgesinde başlatabilirsiniz us-east-1 kullanarak AWS CloudFormation konsolunda Yığını Başlat buton. Yığını farklı bir Bölgede başlatmak için, programın BENİOKU'sunda bulunan talimatları kullanın. GitHub deposu.

Dizüstü bilgisayarı çalıştırın

Çözüm, hesabınıza dağıtıldıktan sonra, adlı bir not defteri örneği gt-hf-squad-notebook hesabınızda mevcuttur. Dizüstü bilgisayarı çalıştırmaya başlamak için aşağıdaki adımları tamamlayın:

Amazon SageMaker konsolunda not defteri bulut sunucusu sayfasına gidin.
Klinik JupyterLab'ı aç örneğini açmak için.
Örneğin içinde, depoya göz atın hf-gt-custom-qa ve not defterini aç hf_squad_finetuning.ipynb.
Klinik conda_pytorch_p38 senin çekirdeğin olarak.

Artık bir not defteri örneği oluşturduğunuza ve not defterini açtığınıza göre, çözümü çalıştırmak için not defterindeki hücreleri çalıştırabilirsiniz. Bu yazının geri kalanı, siz ilerledikçe not defterindeki her bölüm için ek ayrıntılar sağlar.

Verileri indirin ve inceleyin

The SQuAD veri kümesi bir eğitim veri kümesinin yanı sıra test ve geliştirme veri kümelerini içerir. Not defteri sizin için SQuAD2.0 veri kümesini indirir, ancak aşağıdaki not defteri hücresini değiştirerek hangi SQuAD sürümünün kullanılacağını seçebilirsiniz. Verileri indirin ve inceleyin.

SQuAD, Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev ve Percy Liang tarafından oluşturuldu. Daha fazla bilgi için bkz. orjinal kağıt ve veri kümesi. SQuAD, yazarlar tarafından aşağıdakiler kapsamında lisanslanmıştır: Creative Commons Atıf-ShareAlike 4.0 Uluslararası Kamu Lisansı.

SQuAD'dan örnek bir soru-cevap çiftine bakalım:

Paragraf başlığı: Immune_system

Bağışıklık sistemi, bir organizmayı hastalıklara karşı koruyan birçok biyolojik yapı ve süreçten oluşan bir sistemdir. Bir bağışıklık sisteminin düzgün çalışması için, virüslerden parazit solucanlara kadar patojenler olarak bilinen çok çeşitli ajanları algılaması ve bunları organizmanın kendi sağlıklı dokusundan ayırt etmesi gerekir. Birçok türde, bağışıklık sistemi, doğuştan gelen bağışıklık sistemine karşı adaptif bağışıklık sistemine veya hümoral bağışıklık ve hücre aracılı bağışıklık gibi alt sistemler olarak sınıflandırılabilir. İnsanlarda, kan-beyin bariyeri, kan-beyin omurilik sıvısı bariyeri ve benzeri sıvı-beyin bariyerleri, periferik bağışıklık sistemini beyni koruyan nöroimmün sistemden ayırır.

Soru: Bağışıklık sistemi organizmaları neye karşı korur?

cevap: hastalık

Yük modeli

Artık SQuAD'da örnek bir soru-cevap çiftini görüntülediğinize göre, soru yanıtlama için ince ayar yapabileceğiniz bir model indirebilirsiniz. Hugging Face, büyük ölçekli ön eğitimden geçmiş bir temel modeli kolayca indirmenize ve onu farklı bir aşağı akış görevi için yeniden başlatmanıza olanak tanır. Bu durumda, aşağıdakileri indirirsiniz: distilbert-base-uncased kullanarak soru cevaplamak için modelleyin ve yeniden kullanın. AutoModelForQuestionAnswering Hugging Face'den sınıf. Ayrıca AutoTokenizer modelin önceden eğitilmiş belirtecini almak için sınıf. Yazının ilerleyen bölümlerinde kullanacağımız modelin derinliklerine dalıyoruz.

BERT girişini görüntüle

BERT, metin verilerini olarak bilinen sayısal bir temsile dönüştürmenizi gerektirir. token kazanabilirsiniz.. Mevcut çeşitli belirteçler vardır; aşağıdaki belirteçler, belirli bir sözlükle somutlaştırdığınız BERT için özel olarak tasarlanmış bir belirteç tarafından oluşturulmuştur. Her simge, kelime dağarcığındaki bir kelimeye eşlenir. Çıkarım için BERT sağladığınız dönüştürülmüş bağışıklık sistemi sorusuna ve bağlamına bakalım.

{'input_ids': tensor([[ 0, 133, 9161, 467, 15899, 28340, 136, 99, 116, 2, 2, 133, 9161, 467, 16, 10, 467, 9, 171, 12243, 6609, 8, 5588, 624, 41, 33993, 14, 15899, 136, 2199, 4, 598, 5043, 5083, 6, 41, 9161, 467, 531, 10933, 10, 1810, 3143, 9, 3525, 6, 684, 25, 35904, 6, 31, 21717, 7, 43108, 31483, 6, 8, 22929, 106, 31, 5, 33993, 18, 308, 2245, 11576, 4, 96, 171, 4707, 6, 5, 9161, 467, 64, 28, 8967, 88, 44890, 29, 6, 215, 25, 5, 36154, 9161, 467, 4411, 5, 28760, 9161, 467, 6, 50, 10080, 15010, 17381, 4411, 3551, 12, 43728, 17381, 4, 96, 5868, 6, 5, 1925, 2383, 36436, 9639, 6, 1925, 2383, 1755, 241, 7450, 4182, 6204, 12293, 9639, 6, 8, 1122, 12293, 2383, 36436, 7926, 2559, 5, 27727, 9161, 467, 31, 5, 14913, 42866, 467, 61, 15899, 5, 2900, 4, 2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

model çıkarımı

Artık BERT'nin girdi olarak ne aldığını gördüğünüze göre, modelden nasıl çıkarım sonuçları alabileceğinize bakalım. Aşağıdaki kod, önceden oluşturulmuş tokenleştirilmiş girdinin nasıl kullanılacağını ve modelden çıkarım sonuçlarının nasıl döndürüleceğini gösterir. BERT'nin ham metni girdi olarak kabul edememesine benzer şekilde, çıktı olarak da ham metin oluşturmaz. BERT'nin cevap olarak belirlediği paragraftaki başlangıç ve bitiş noktalarını belirleyerek BERT'nin çıktısını çevirirsiniz. Ardından, bu çıktıyı belirteçlerimizle eşleştirir ve İngilizce metne geri döndürürsünüz.

outputs = model(**inputs, start_positions=start_positions, end_positions=end_positions) answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(
answer_start_scores
) # Get the most likely beginning of answer with the argmax of the score
answer_end = torch.argmax(answer_end_scores) + 1 # Get the most likely end of answer with the argmax of the score
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print(f"Question: {sq['paragraphs'][0]['qas'][0]['question']}")
print(f"Answer: {answer}")

Çeviri sonuçları aşağıdaki gibidir:

Soru: Bağışıklık sistemi organizmaları neye karşı korur?

cevap: hastalık

ARTIRMA TAKIMI

Daha sonra, ek etiketli veriler elde etmek için bir özel çalışan görev şablonu Yer Gerçeği'nde. Önce SQuAD formatında yeni bir makale oluşturabiliriz. Not defteri bu dosyayı depodan Amazon S3'e kopyalar, ancak çalıştırmadan önce herhangi bir düzenleme yapmaktan çekinmeyin. ARTIRMA TAKIMI hücre. SQuAD formatı aşağıdaki kodda gösterilmiştir. Her SQuAD JSON dosyası, içinde depolanan birden çok makaleyi içerir. data anahtar. Her makalenin bir title alan ve bir veya daha fazla paragraf. Bu paragraflar, adı verilen metin bölümlerini içerir. context ve ilgili tüm sorular qas liste. Sıfırdan açıklama eklediğimiz için, qas boş listeleyin ve sadece bağlam sağlayın. Kullanıcı arabirimi, her bir çalışan görevini istediğiniz kadar büyük veya küçük yapmanıza olanak tanıyarak hem paragraflar hem de makaleler arasında döngü yapabilir.

s3://<my-bucket-name>/custom_squad.json: { "version": "v2.0", "data": [ { "title": "Ground Truth Marketing", "paragraphs": [ { "qas": [], "context": "SageMaker Ground Truth helps improve the quality of labels through annotation consolidation and audit workflows. Annotation consolidation is the process of collecting label inputs from two or more data labelers and combining them to create a single data label for your machine learning model. With built-in audit and review workflows, workers can perform label verification and make adjustments to improve accuracy." }, { "qas": [], "context": "SageMaker Ground Truth provides automated labeling features such as ‘auto-segment’, ‘automatic 3D cuboid snapping’, and ‘sensor fusion with 2D video frames’ through an intuitive user interface in order to reduce the time needed for data labeling tasks while also improving quality. For semantic segmentation, workers must label objects in an image. Using the auto-segment feature, workers can capture the object with 4 clicks vs. hundreds." }, { "qas": [], "context": "SageMaker Ground Truth offers automatic data labeling. Using an active learning model, data is labeled and only routed to humans if the model cannot confidently label it. The human-labeled data is then used to train the machine learning model to improve its' accuracy. As a result, less data is then sent to humans in the next round of labeling which lowers data labeling costs by up to 70%." }, { "qas": [], "context": "SageMaker Ground Truth provides options to work with labelers inside and outside of your organization. Using SageMaker Ground Truth, you can easily send labeling jobs to your own labelers or you can access a workforce of over 500,000 independent contractors who are already performing machine learning related tasks through Amazon Mechanical Turk. If your data requires confidentiality or special skills, you can use vendors pre-screened by AWS for quality and security procedures, including iVision, CapeStart Inc., Cogito, and iMerit." } ] } ]
}

Örnek bir SQuAD veri dosyası oluşturduktan sonra bir Temel Gerçeği oluşturmamız gerekiyor. artırılmış bildirim dosyası bu bizim girdi verilerimizi ifade eder. Bunu, “ ile JSON satır formatlı bir dosya oluşturarak yapıyoruz.sourceAmazon S3'te giriş SQuAD verilerimizi depoladığımız konuma karşılık gelen ” tuşu:

s3://<my-bucket-name>/input.manifest {"source": "s3://<my-bucket-name>/custom_squad.json"}
{"source": "s3://<my-bucket-name>/custom_squad_2.json"}
{"source": "s3://<my-bucket-name>/custom_squad_3.json"}

Etiketleme portalına erişin

İşi Ground Truth'a gönderdikten sonra, oluşturulan etiketleme işini Ground Truth konsolunda görüntüleyebilirsiniz.

Etiketleme gerçekleştirmek için ön koşul adımlarının bir parçası olarak oluşturduğunuz çalışan portalı hesabında oturum açmanız gerekir. İşiniz, birkaç dakikalık ön işlemeden sonra çalışan portalında mevcuttur. Görevi açtıktan sonra size Soru-Cevap ek açıklaması için özel çalışan şablonu sunulur. Metin bölümlerini bağlamda vurgulayarak ve ardından Soru ekle.

Etiketleme işi durumunu kontrol edin

Gönderdikten sonra, çalıştırabilirsiniz Etiketleme işi durumunu kontrol edin etiketleme işinizin tamamlanıp tamamlanmadığını görmek için hücreye dokunun. Diğer hücrelere geçmeden önce tamamlanmasını bekleyin.

Etiketli verileri yükle

Etiketlemeden sonra çıktı bildirimi, etiket öznitelik adınızla (bu durumda squad-1626282229) eğitim sırasında kullanabileceğiniz bir S3 URI - SQuAD formatlı veri içerir. Aşağıdaki çıktı bildirim içeriğine bakın:

{ "source": "s3://<my-bucket-name>/custom_squad.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_2.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_3.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}

Bildirimdeki her satır, tek bir çalışan görevine karşılık gelir.

SQuAD tren setini yükle

Hugging Face'in bir veri kümesi paketi bu size SQuAD'ı indirme ve ön işleme olanağı sağlar, ancak özel sorularımızı ve yanıtlarımızı eklemek için biraz işlem yapmamız gerekir. SQuAD, konu kümeleri etrafında yapılandırılmıştır. Her konunun çeşitli farklı bağlam ifadeleri vardır ve her bağlam ifadesinin soru-cevap çiftleri vardır. Eğitim için kendi sorularımızı oluşturmak istediğimiz için sorularımızı SQuAD ile birleştirmemiz gerekiyor. Neyse ki bizim için ek açıklamalarımız zaten SQuAD biçimindedir, bu nedenle örnek etiketlerimizi alabilir ve bunları mevcut SQuAD verilerine yeni bir konu olarak ekleyebiliriz.

Sarılma Yüz Veri Kümesi nesnesi oluşturun

Verilerimizi Hugging Face'in veri seti formatına sokmak için birkaç seçeneğimiz var. kullanabiliriz load_dataset seçeneği, bu durumda bir veri kümesi nesnesi olarak yüklenen bir CSV, JSON veya metin dosyası sağlayabiliriz. Ayrıca tedarik edebilirsiniz load_dataset dosyanızı istediğiniz biçime dönüştürmek için bir işleme komut dosyasıyla. Bu gönderi için bunun yerine Dataset.from_dict() bir veri kümesi nesnesi oluşturmak için bir bellek içi sözlük sağlamamıza izin veren yöntem. Ayrıca veri seti özelliklerimizi de tanımlıyoruz. özelliklerini kullanarak görüntüleyebiliriz. Hugging Face'in veri seti görüntüleyicisi, aşağıdaki ekran görüntüsünde gösterildiği gibi.

Özelliklerimiz aşağıdaki gibidir:

ID – Metnin kimliği
başlık – Konuyla ilişkili başlık
bağlam – Modelin bir cevap bulmak için araması gereken bağlam ifadesi
soru – Modelin sorulmakta olduğu soru
cevap – Kabul edilen cevap metni ve bağlam bildirimindeki konum

Hugging Face veri kümeleri, bu şemayı kolayca tanımlamamızı sağlar:

squad_dataset = Dataset.from_dict(dataset_dict,
features=datasets.Features( { "id": datasets.Value("string"), "title": datasets.Value("string"), "context": datasets.Value("string"), "question": datasets.Value("string"), "answers": datasets.features.Sequence( { "text": datasets.Value("string"), "answer_start": datasets.Value("int32"), } ), # These are the features of your dataset like images, labels ... }
))

Veri kümesi nesnemizi oluşturduktan sonra, tokenize Metin. Modeller ham metni girdi olarak kabul edemediğinden, metnimizi onun anlayabileceği sayısal bir girdiye dönüştürmemiz gerekir; dizgeciklere. Belirteçleştirme modele özeldir, bu yüzden ince ayar yapacağımız modeli anlayalım. kullanıyoruz distilbert-baz-kasasız modeli. BERT'e çok benziyor: girdi yerleştirmelerini, çok kafalı dikkati kullanır (bu işlem hakkında daha fazla bilgi için bkz. Resimli Transformatör) ve ileri beslemeli katmanlardır, ancak orijinal BERT temel modelinin parametrelerinin yarısına sahiptir. Aşağıdaki ilk model katmanlarına bakın:

Model başlığının her bir bileşenini parçalayalım. İsim distilbert adı verilen bir işlemle elde edilen BERT temel modelinin damıtılmış bir versiyonu olduğu gerçeğini belirtir. bilgi damıtma. Bilginin damıtılması, yalnızca eğitim verileri üzerinde değil, aynı zamanda daha büyük bir önceden eğitilmiş öğretmen modelinden aynı eğitim setine verilen yanıtlar üzerinde daha küçük bir öğrenci modelini eğitmemizi sağlar. base modelin boyutunu ifade eder, bu durumda model bir BERT temel modelinden (BERT büyük modelinin aksine) damıtılmıştır. uncased eğitim aldığı metne atıfta bulunur. Bu durumda metin, durumu hesaba katmadı; eğitim aldığı tüm metinler küçük harfliydi. bu uncased yönü, metnimizi tokenleştirme şeklimizi doğrudan etkiler. Neyse ki, Hugging Face, transformatör modellerini indirmek için kolay erişim sağlamanın yanı sıra, modele eşlik eden belirteçleri de sağlar. Ayrıca bizim için özelleştirilmiş bir belirteç indirdik. distilbert-base-uncased model şimdi metnimizi dönüştürmek için kullandığımız:

# loadbase_model_prefix model_name = "distilbert-base-uncased" # Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# set model to evaluation mode
evl = model.eval()

Dataset sınıfının bir diğer özelliği de map fonksiyonu ile paralel olarak ön işleme ve tokenizasyon yapmamızı sağlamasıdır. Bir işleme işlevi tanımlıyoruz ve ardından onu harita yöntemine aktarıyoruz.

Soru cevaplamak için Hugging Face'in birkaç bileşene ihtiyacı vardır (bunlar da sözlük):

dikkat maskesi – Öncelikle gerçek metin ve dolgu belirteçleri arasında ayrım yapmak için kullanılan, modele hangi belirteçlerin dikkat edilmesi gerektiğini gösteren bir maske
başlangıç_konumları – Metindeki cevabın başlangıç konumu
bitiş_pozisyonları – Metindeki cevabın son konumu
girdi_kimlikleri – Belirteçleri kelime dağarcığına eşleyen belirteç endeksleri

Belirteçleyicimiz metni belirtecek, ancak cevabımızın başlangıç ve bitiş konumlarını açıkça yakalamamız gerekiyor, bu yüzden özel bir ön işleme işlevi tanımladık. Artık girdilerimiz hazır olduğuna göre, eğitime başlayalım!

Eğitim işini başlat

Eğitimi defterimizde çalıştırabiliriz, ancak Soru-Cevap modelimizi makul bir sürede eğitmek için ihtiyaç duyduğumuz örnek türleri, p3 ve p4 örnekleri oldukça güçlüdür. Bu örnekler, bir dizüstü bilgisayarı çalıştırmak veya kalıcı olarak çalıştırmak için aşırıya kaçma eğilimindedir. Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) örneği. SageMaker eğitimi burada devreye girer. SageMaker eğitimi, yalnızca eğitim işi süresince geçerli olan belirli bir örnek veya örnekler üzerinde bir eğitim işi başlatmanıza olanak tanır. Bu, 4 NVIDIA A24 GPU'lu p8d.100xlarge gibi daha büyük örnekler üzerinde çalışmamızı sağlar, ancak kapatmayı unutmamız durumunda büyük bir faturaya neden olma endişesi duymadan. Ayrıca, aşağıdakiler gibi diğer SageMaker işlevlerine kolay erişim sağlar: SageMaker Deneyleri Makine öğrenimi eğitim çalışmalarınızı izlemek için ve SageMaker Hata Ayıklayıcı eğitim işlerinizi anlamak ve profil oluşturmak için.

Yerel eğitim

Hugging Face'de bir model eğitiminin yerel olarak nasıl çalıştığını anlayarak başlayalım, ardından onu SageMaker'da çalıştırmak için yaptığımız ayarlamaları gözden geçirelim.

Hugging Face, eğitmen sınıflarının kullanımıyla eğitimi kolaylaştırır. Eğitmen sınıfı, modelimizi, tren ve doğrulama veri kümelerimizi, hiperparametrelerimizi ve hatta belirteçlerimizi geçmemize izin verir. Modelimizin yanı sıra eğitim ve doğrulama setlerimize zaten sahip olduğumuz için, yalnızca hiperparametrelerimizi tanımlamamız gerekiyor. Bunu aracılığıyla yapabiliriz TrainingArguments sınıf. Bu, öğrenme oranı, parti boyutu, dönem sayısı ve ağırlık azalması veya bir öğrenme oranı planlama stratejisi gibi daha derinlemesine parametreler gibi şeyleri belirlememize olanak tanır. tanımlarımızı yaptıktan sonra TrainingArguments, eğitmen sınıfımızı somutlaştırmak için modelimizi, eğitim setimizi, doğrulama setimizi ve argümanlarımızı iletebiliriz. O zaman basitçe arayabiliriz trainer.train() modelimizi eğitmeye başlamak için. Aşağıdaki kod bloğu, yerel eğitimin nasıl çalıştırılacağını gösterir:

doc_stride=128
max_length=512
tokenized_train = squad_dataset.map(prepare_train_features, batched=True, remove_columns=squad_dataset.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride})
tokenized_test = squad_test.map(prepare_train_features, batched=True, remove_columns=squad_test.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride}) hf_args = TrainingArguments( 'test_local', evaluation_strategy = "epoch", learning_rate=5e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=1, weight_decay=0.0001,
) trainer = Trainer( model, hf_args, train_dataset=tokenized_train, eval_dataset=tokenized_test, data_collator=default_data_collator, tokenizer=tokenizer,
) trainer.train()

Verileri S3'e gönder

Aynı şeyi SageMaker eğitiminde yapmak basittir. İlk adım, modelimizin erişebilmesi için verilerimizi Amazon S3'e yerleştirmektir. SageMaker eğitimi, bir veri kaynağı belirtmenize olanak tanır; Amazon S3 gibi kaynakları kullanabilirsiniz, Amazon Elastik Dosya Sistemi (Amazon EFS) veya Lustre için Amazon FSx yüksek performanslı veri alımı için. Bizim durumumuzda, artırılmış SQuAD veri kümemiz özellikle büyük değil, bu nedenle Amazon S3 iyi bir seçimdir. Eğitim verilerimizi Amazon S3'teki bir klasöre yüklüyoruz ve SageMaker eğitim örneğimizi başlattığında, belirtilen konumumuzdan verileri indiriyor.

Modeli somutlaştır

Eğitim işimizi başlatmak için, yerleşik Hugging Face tahmin edicisini kullanabiliriz. Adaçayı Yapıcı SDK'sı. SageMaker, bir eğitim işinin parametrelerini ve eğitim için kullanılacak örneklerin sayısını ve türünü tanımlamak için tahmin edici sınıfını kullanır. SageMaker eğitimi, Docker kapsayıcılarının kullanımı etrafında oluşturulmuştur. SageMaker'da varsayılan kapsayıcıları kullanabilir veya eğitim için kendi özel kapsayıcınızı sağlayabilirsiniz. Hugging Face modelleri söz konusu olduğunda, SageMaker, Hugging Face eğitim işlerini çalıştırmak için ihtiyaç duyduğunuz tüm bağımlılıkları içeren yerleşik Hugging Face kapsayıcılarına sahiptir. Tek yapmamız gereken, Hugging Face kapsayıcımızın giriş noktası olarak kullandığı eğitim komut dosyamızı tanımlamak.

Bu eğitim senaryosunda, giriş noktamıza bir dizi hiperparametre şeklinde ilettiğimiz argümanlarımızı ve eğitim kodumuzu tanımlıyoruz. Eğitim kodumuz, yerel olarak çalıştırıyormuşuz gibi aynı; basitçe kullanabiliriz TrainingArguments ve sonra onları bir eğitmen nesnesine iletin. Tek fark, modelimizin içinde olması için çıktı konumunu belirtmemiz gerekiyor. /opt/ml/model Böylece SageMaker eğitimi onu alabilir, paketleyebilir ve Amazon S3'e gönderebilir. Aşağıdaki kod bloğu, Hugging Face tahmincimizin nasıl başlatılacağını gösterir:

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name': model_name, 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'train_batch_size': 32, 'eval_batch_size': 32, 'weight_decay':0.01, 'warmup_steps':500, 'learning_rate':5e-5, 'epochs': 2, 'max_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
} # estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='container_training', metric_definitions=metric_definitions, instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, role=role, transformers_version='4.4.2', pytorch_version='1.6.0', py_version='py36', hyperparameters = hyperparameters)

Modelde ince ayar yapın

Özel eğitim işimiz için 3.8 V4 GPU'dan oluşan bir p100xlarge örneği kullanıyoruz. Eğitmen sınıfı otomatik olarak çoklu GPU örneklerinde eğitimi destekler, bu nedenle bunu hesaba katmak için herhangi bir ek kuruluma ihtiyacımız yoktur. Modelimizi, parti boyutu 16 ve öğrenme oranı 4e5 olan iki dönem için eğitiyoruz. Ayrıca, modelimizin doğruluğunu etkilemeden sayısal kesinliği azaltabileceğimiz alanlarda karma kesinlik kullanan karma hassasiyet eğitimini de etkinleştiriyoruz. Bu, mevcut hafızamızı ve eğitim hızlarımızı arttırır. Eğitim işini başlatmak için, fit bizim yöntemimizden huggingface_estimator sınıf.

huggingface_estimator.fit(data_channels, wait=False, job_name=f'hf-distilbert-squad-{int(time.time())}')

Modelimizin eğitimi bittiğinde, modeli yerel olarak indirebilir ve notebook'ta gösterilen test etmek için notebook'umuzun hafızasına yükleyebiliriz. SageMaker uç noktası olarak dağıtarak başka bir seçeneğe odaklanacağız!

Eğitilmiş modeli dağıtın

SageMaker, eğitim için yardımcı programlar sağlamanın yanı sıra, veri bilimcilerin ve makine öğrenimi mühendislerinin eğitimli modelleri için REST uç noktalarını kolayca dağıtmalarına da izin verebilir. SageMaker içinde veya dışında eğitilmiş modelleri dağıtabilirsiniz. Daha fazla bilgi için bkz. Amazon SageMaker'da bir Model Dağıtın.

Modelimiz SageMaker'da eğitildiğinden, uç nokta olarak dağıtmak için zaten doğru biçimdedir. Eğitime benzer şekilde, modeli, hizmet kodunu ve uç noktalar olarak dağıtmak istediğimiz örneklerin sayısını ve türünü tanımlayan bir SageMaker model sınıfı tanımlarız. Ayrıca eğitime benzer şekilde, hizmet verme Docker kapsayıcılarına dayalıdır ve yerleşik SageMaker kapsayıcılarından birini kullanabilir veya kendi kapsayıcımızı tedarik edebiliriz. Bu gönderi için yerleşik bir PyTorch hizmet kabı kullanıyoruz, bu nedenle uç noktamızı çalışır duruma getirmek için birkaç şey tanımlamamız yeterli. Sunum kodumuzun dört işleve ihtiyacı var:

model_fn – Uç noktanın modeli nasıl yüklediğini tanımlar (bunu yalnızca bir kez yapar ve sonraki tahminler için bellekte tutar)
girdi_fn – Girdinin nasıl seri durumdan çıkarılacağını ve işlendiğini tanımlar
tahmin_fn – Modelimizin girdilerimiz hakkında nasıl tahminler yaptığını tanımlar
çıktı_fn – Bitiş noktasının çıktı verilerini nasıl biçimlendirdiğini ve istekte bulunan istemciye nasıl geri gönderdiğini tanımlar

Bu işlevleri tanımladıktan sonra, uç noktamızı konuşlandırabilir ve ona bağlam ifadeleri ve soruları iletebilir ve tahmin edilen cevabını döndürebiliriz:

endpoint_name = 'hf-distilbert-QA-string-endpoint4-185'
model_data = f"{huggingface_estimator.output_path}{huggingface_estimator.jobs[0].job_name}/output/model.tar.gz" # We are going to use a SageMaker serving container
torch_model = PyTorchModel(model_data=model_data, source_dir = 'container_serving', role=role, entry_point='transform_script.py', framework_version='1.8.1', py_version='py3', predictor_cls = StringPredictor)
bert_end = torch_model.deploy(instance_type='ml.m5.2xlarge', initial_instance_count=1, #'ml.g4dn.xlarge' endpoint_name=endpoint_name)

Model sonuçlarını görselleştirin

Bağlam ifadeleri göndermemize ve yanıtlar almamıza izin veren bir SageMaker uç noktası yerleştirdiğimiz için, modelimizin geçiş bağlamında ne bulduğunu daha iyi görselleştirmek için geri dönebilir ve orijinal SQuAD görüntüleyicide ortaya çıkan çıkarımları görselleştirebiliriz. Bunu, çıkarım sonuçlarını yeniden SQuAD biçimine yeniden biçimlendirerek ve ardından çalışan şablonundaki Liquid etiketlerini SQuAD biçimli JSON ile değiştirerek yaparız. Ardından, aşağıdaki ekran görüntüsünde gösterildiği gibi, sonuçları tek bir not defteri bağlamında yinelemeli olarak incelemek için, ortaya çıkan kullanıcı arayüzünü çalışan şablonumuz içinde çerçeveleyebiliriz. Soldaki her soru, sorguyla eşleşen sağdaki metin aralıklarını vurgulamak için tıklanabilir. Hiçbir soru seçilmediğinde, tüm metin alanları aşağıda gösterildiği gibi sağda vurgulanır.

Temizlemek

İleride tahsil edilmekten kaçınmak için, Temizlemek SageMaker uç noktaları, ham ve işlenmiş veri kümesini içeren S3 nesneleri ve CloudFormation yığını dahil tüm kaynakları silmek için not defterinin bölümü. Silme işlemi tamamlandığında, geçerli not defteri komut dosyasını barındıran not defteri örneğini durdurduğunuzdan ve sildiğinizden emin olun.

Sonuç

Bu gönderide, Ground Truth'u kullanarak kendi soru yanıtlama veri kümenizi nasıl oluşturacağınızı ve SageMaker kullanarak kendi soru yanıtlama modelinizi eğitmek ve dağıtmak için bunu SQuAD ile nasıl birleştireceğinizi öğrendiniz. Not defterini tamamladıktan sonra, özel Soru-Cevap veri kümeniz üzerinde eğitilmiş, konuşlandırılmış bir SageMaker uç noktanız olur. SageMaker uç noktaları standart REST API'leri aracılığıyla sağlandığından, bu uç nokta, üretim NLU iş akışlarınızla entegrasyon için hazırdır. Ayrıca, mevcut modelinizi yeniden eğitmenize veya diğer soru yanıtlama modeli mimarilerini eğitmeyi denemenize olanak tanıyan, SQuAD 2.0 biçiminde açıklamalı özel bir veri kümeniz de vardır. Son olarak, çalışan şablonunu yerel not defterinize yükleyerek çıkarımınızın sonuçlarını hızlı bir şekilde görselleştirecek bir mekanizmaya sahipsiniz.

Denemek defter, kendi sorularınızla zenginleştirin ve NLU kullanım durumlarınız için kendi özel soru yanıtlama modelinizi eğitin ve devreye alın!

Mutlu bina!

Yazarlar Hakkında

Jeremy Feltracco Amazon Web Services'ta Amazon ML Solutions Lab'de Yazılım Geliştirme Mühendisidir. AWS müşterilerinin yapay zekayı benimseme sürecini hızlandırmasına yardımcı olmak için bilgisayarla görme, robotik ve makine öğrenimindeki geçmişini kullanıyor.

Vidya Sagar Ravipati şirketinde yöneticidir Amazon ML Çözümleri Laboratuvarı, farklı sektör dikeylerindeki AWS müşterilerinin yapay zeka ve bulutu benimsemelerini hızlandırmalarına yardımcı olmak için büyük ölçekli dağıtılmış sistemlerdeki engin deneyiminden ve makine öğrenimine olan tutkusundan yararlanıyor. Daha önce, Amazon'da Bağlantı Hizmetlerinde kişiselleştirme ve kestirimci bakım platformları oluşturmaya yardımcı olan bir Makine Öğrenimi Mühendisiydi.

isaac özel Müşterilerin iş sorunlarını çözmek için ısmarlama makine öğrenimi ve derin öğrenme çözümleri geliştirdiği Amazon Makine Öğrenimi Çözümleri Laboratuvarı'nda Kıdemli Veri Bilimcisi olarak görev yapmaktadır. AWS müşterilerinin dağıtılmış eğitim ve aktif öğrenimle donatılmasına odaklanarak öncelikle bilgisayarla görme alanında çalışır.