GDPR (Genel Veri Koruma Yönetmeliği, 2017) gibi yeni veri gizliliği düzenlemeleri yürürlüğe girdiğinden, müşteriler yeni kurallara uyarken medya varlıklarından para kazanma konusunda artan baskı altındadır. Gizlilik düzenlemelerine uyarken medyadan para kazanmak, metin, resim, video ve ses dosyaları gibi varlıklardan internet ölçeğinde otomatik olarak ayrıntılı meta verileri çıkarma yeteneğini gerektirir. Ayrıca, medya varlıklarını, içeriğin keşfedilmesini ve paraya çevrilmesini kolaylaştıran sektör sınıflandırmalarıyla eşleştirmek için ölçeklenebilir bir yol gerektirir. Bu kullanım durumu, veri gizliliği kuralları, üçüncü taraf tanımlama bilgilerini kullanarak davranışsal hedeflemeden bir kaymaya neden olduğundan, reklamcılık sektörü için özellikle önemlidir.
Üçüncü taraf çerezleri web kullanıcıları için kişiselleştirilmiş reklamların etkinleştirilmesine yardımcı olun ve reklamverenlerin hedef kitlelerine ulaşmasına izin verin. Reklamları üçüncü taraf tanımlama bilgileri olmadan sunmak için geleneksel bir çözüm, sayfalarda yayınlanan içeriğe dayalı olarak web sayfalarına reklam yerleştiren içeriğe dayalı reklamcılıktır. Bununla birlikte, içeriğe dayalı reklamcılık, medya varlıklarından geniş ölçekte bağlam çıkarma ve aynı şekilde varlıklardan para kazanmak için bu bağlamı kullanma zorluğunu ortaya çıkarır.
Bu yazıda, içeriği dijital içerikten çıkarmak ve değer üretmek için standart taksonomilerle eşlemek için Bağlamsal Zeka Taksonomi Eşleştiricisi (CITM) olarak adlandırdığımız bir makine öğrenimi (ML) çözümünü nasıl oluşturabileceğinizi tartışıyoruz. Bu çözümü içeriğe dayalı reklamcılığa uygulamamıza rağmen, diğer kullanım durumlarını çözmek için kullanabilirsiniz. Örneğin, eğitim teknolojisi şirketleri, öğrencilerin bireysel ihtiyaçlarına göre kişiselleştirilmiş öğrenme deneyimleri sunan uyarlanabilir öğrenmeyi kolaylaştırmak için içeriklerini sektör sınıflandırmalarıyla eşleştirmek için kullanabilir.
Çözüme genel bakış
Çözüm iki bileşenden oluşur: AWS Medya Zekası Web sayfalarındaki içerikten bağlam çıkarma için (AWS MI) yetenekleri ve içeriğin bir endüstri sınıflandırmasına akıllıca eşlenmesi için CITM. Çözüme ulaşabilirsiniz kod deposu bileşenlerini nasıl uyguladığımıza dair ayrıntılı bir görünüm için.
AWS Medya Zekası
AWS MI yetenekleri, bir web sayfasının içeriğinin bağlamsal olarak anlaşılmasını sağlayan meta verilerin otomatik olarak çıkarılmasını sağlar. Aşağı akış işlemede kullanılmak üzere metin, video, resim ve ses dosyalarından otomatik olarak meta veriler oluşturmak için bilgisayarla görme, konuşmayı metne dönüştürme ve doğal dil işleme (NLP) gibi makine öğrenimi tekniklerini birleştirebilirsiniz. gibi yönetilen AI hizmetleri Amazon Rekognisyon, Amazon Yazısı, Amazon Kavramak, ve Amazon Metin Yazısı API çağrılarını kullanarak bu ML tekniklerini erişilebilir hale getirin. Bu, ML modellerini sıfırdan eğitmek ve oluşturmak için gereken ek yükü ortadan kaldırır. Bu gönderide, medya zekası için Amazon Comprehend ve Amazon Rekognition'ın büyük ölçekte meta veri ayıklamayı nasıl sağladığını göreceksiniz.
Bağlamsal Zeka Taksonomi Eşleştiricisi
Medya içeriğinden meta verileri çıkardıktan sonra, içeriğe dayalı hedeflemeyi kolaylaştırmak için bu meta verileri bir sektör sınıflandırmasıyla eşleştirmenin bir yoluna ihtiyacınız vardır. Bunu yapmak için, Hugging Face'den bir BERT cümle dönüştürücüsü tarafından desteklenen Bağlamsal Zeka Taksonomi Eşleştiricisi (CITM) oluşturursunuz.
BERT cümle dönüştürücü, CITM'nin web içeriğini bağlamsal olarak ilgili anahtar kelimelerle kategorilere ayırmasını sağlar. Örneğin, sağlıklı yaşamla ilgili bir web makalesini, "Sağlıklı Yemek Pişirme ve Yeme", "Koşma ve Jogging" ve daha fazlası gibi sektör sınıflandırmasından anahtar kelimelerle, yazılan metne ve makalede kullanılan resimlere göre kategorilere ayırabilir. CITM, kriterlerinize göre reklam teklif süreciniz için kullanılacak eşlenmiş sınıflandırma terimlerini seçme olanağı da sağlar.
Aşağıdaki şema, CITM ile mimarinin kavramsal görünümünü göstermektedir.
IAB (Etkileşimli Reklamcılık Bürosu) İçerik Taksonomisi
Bu yazı için, IAB Tech Lab'ın İçerik Taksonomisi içeriğe dayalı reklamcılık kullanım durumu için endüstri standardı sınıflandırması olarak. Tasarım gereği IAB sınıflandırması, içerik oluşturucuların içeriklerini daha doğru bir şekilde tanımlamalarına yardımcı olur ve programatik reklamcılık sürecindeki tüm taraflar için ortak bir dil sağlar. Bir kullanıcının ziyaret ettiği bir web sayfası için reklam seçiminin milisaniyeler içinde gerçekleşmesi gerektiğinden, ortak bir terminolojinin kullanılması çok önemlidir. IAB sınıflandırması, çeşitli kaynaklardan gelen içeriği sınıflandırmak için standart bir yol olarak hizmet ederken, aynı zamanda gerçek zamanlı teklif verme platformlarının reklam seçimi için kullandığı bir endüstri protokolüdür. Reklamverenler için sınıflandırma terimlerinin ayrıntı düzeyini ve gelişmiş bağlamı sağlayan hiyerarşik bir yapıya sahiptir.
Çözüm iş akışı
Aşağıdaki şemada çözüm iş akışı gösterilmektedir.
Adımlar aşağıdaki gibidir:
- Amazon Basit Depolama Hizmeti (Amazon S3), IAB içerik sınıflandırmasını ve çıkarılan web içeriğini depolar.
- Amazon Comprehend, makale koleksiyonundan ortak temaları çıkarmak için konu modellemesi gerçekleştirir.
- Amazon Tanıma nesne etiketi API'si görüntülerdeki etiketleri algılar.
- CITM, içeriği standart bir sınıflandırmayla eşler.
- İsteğe bağlı olarak, içeriği bir meta veri deposunda sınıflandırma eşlemeye göre depolayabilirsiniz.
Aşağıdaki bölümlerde, her adımı ayrıntılı olarak inceleyeceğiz.
Amazon S3, IAB içerik sınıflandırmasını ve çıkarılan web içeriğini depolar
Bir web makaleleri koleksiyonundan ayıklanmış metin ve görüntüleri bir S3 kovasında saklarız. Ayrıca IAB içerik sınıflandırmasını da saklarız. İlk adım olarak, birleştirilmiş taksonomi terimleri oluşturmak için taksonomideki farklı katmanları birleştiriyoruz. Bu yaklaşım, BERT cümle dönüştürücüsü her bir anahtar kelime için yerleştirmeler oluşturduğunda, sınıflandırmanın hiyerarşik yapısının korunmasına yardımcı olur. Aşağıdaki koda bakın:
Aşağıdaki şema, birleştirilmiş katmanlarla IAB bağlam sınıflandırmasını göstermektedir.
Amazon Comprehend, makale koleksiyonundan ortak temaları çıkarmak için konu modellemesi gerçekleştirir
Amazon Comprehend konu modelleme API'si ile Latent Dirichlet Allocation (LDA) modelini kullanarak tüm makale metinlerini analiz edersiniz. Model, derlemdeki her makaleyi inceler ve tüm makale koleksiyonunda göründükleri bağlam ve sıklığa göre anahtar kelimeleri aynı konu altında gruplandırır. LDA modelinin yüksek düzeyde tutarlı konuları algılamasını sağlamak için Amazon Comprehend API'sini çağırmadan önce bir ön işleme adımı gerçekleştirirsiniz. kullanabilirsiniz gensim kütüphanesi Makaleler veya metin dosyaları koleksiyonundan algılanacak en uygun konu sayısını belirlemek için CoherenceModel. Aşağıdaki koda bakın:
En uygun sayıda konuyu aldıktan sonra, bu değeri Amazon Comprehend konu modelleme işi için kullanırsınız. Amazon Comprehend'de NumberOfTopics parametresi için farklı değerler sağlama StartTopicsDetectionJob işlemi her konu grubuna yerleştirilen anahtar kelimelerin dağılımında bir varyasyonla sonuçlanır. NumberOfTopics parametresi için optimize edilmiş bir değer, daha yüksek bağlamsal alaka düzeyine sahip en tutarlı anahtar kelime gruplandırmasını sağlayan konu sayısını temsil eder. Amazon Comprehend'in konu modelleme çıktısını Amazon S3'te ham biçiminde saklayabilirsiniz.
Amazon Rekognition nesne etiketi API'si, görüntülerdeki etiketleri algılar
kullanarak tüm web sayfalarından çıkarılan her resmi analiz edersiniz. Amazon Rekognition DetectLabels işlemi. İşlem, her görüntü için, her biri için bir güven puanıyla birlikte görüntü içinde algılanan tüm etiketlerle birlikte bir JSON yanıtı sağlar. Kullanım durumumuz için, bir sonraki adımda nesne etiketlerinin kullanılması için eşik olarak keyfi olarak %60 veya daha yüksek bir güven puanı seçiyoruz. Nesne etiketlerini Amazon S3'te ham biçiminde depolarsınız. Aşağıdaki koda bakın:
CITM, içeriği standart bir sınıflandırmayla eşler
CITM, ayıklanan içerik meta verilerini (metinden konular ve görüntülerden etiketler) IAB sınıflandırmasındaki anahtar kelimelerle karşılaştırır ve ardından içerik meta verilerini sınıflandırmadan anlamsal olarak ilişkili anahtar kelimelerle eşler. Bu görev için CITM aşağıdaki üç adımı tamamlar:
- Hugging Face'in BERT cümle dönüştürücüsünü kullanarak içerik sınıflandırması, konu anahtar sözcükleri ve görüntü etiketleri için sinirsel yerleştirmeler oluşturun. Cümle dönüştürücü modeline şuradan erişiyoruz: Amazon Adaçayı Yapıcı. Bu gönderide kullandığımız açıklama-MiniLM-L6-v2 Anahtar kelimeleri ve etiketleri 384 boyutlu yoğun vektör uzayına eşleyen model.
- Taksonomi anahtar sözcükleri ile konu anahtar sözcükleri arasındaki kosinüs benzerlik puanını, bunların yerleştirmelerini kullanarak hesaplayın. Ayrıca sınıflandırma anahtar sözcükleri ile görüntü nesnesi etiketleri arasındaki kosinüs benzerliğini de hesaplar. İçerik meta verileri ve sınıflandırma arasında anlamsal olarak benzer eşleşmeleri bulmak için bir puanlama mekanizması olarak kosinüs benzerliğini kullanıyoruz. Aşağıdaki koda bakın:
- Kullanıcı tanımlı bir eşiğin üzerinde olan benzerlik puanlarına sahip eşleştirmeleri belirleyin ve bunları, içeriği içerik sınıflandırmasındaki anlamsal olarak ilişkili anahtar kelimelerle eşleştirmek için kullanın. Testimizde, kosinüs benzerlik puanı 0.5 veya daha yüksek olan eşleştirmelerden tüm anahtar kelimeleri seçiyoruz. Aşağıdaki koda bakın:
İnternet ölçeğinde dil temsili ile çalışırken (bu kullanım örneğinde olduğu gibi) ortak bir zorluk, içeriğin çoğuna (bu durumda, İngilizce dilindeki kelimeler) uyan bir modele ihtiyacınız olmasıdır. Hugging Face'in BERT dönüştürücüsü, kelimelerin birbirleriyle ilişkili anlamsal anlamlarını temsil etmek için İngilizce dilindeki geniş bir Wikipedia gönderileri topluluğu kullanılarak önceden eğitilmiştir. Konu anahtar sözcükleri, resim etiketleri ve sınıflandırma anahtar sözcüklerinden oluşan belirli veri kümenizi kullanarak önceden eğitilmiş modelde ince ayar yaparsınız. Tüm gömmeleri aynı özellik alanına yerleştirip görselleştirdiğinizde, BERT'nin terimler arasındaki anlamsal benzerliği mantıksal olarak temsil ettiğini görürsünüz.
Aşağıdaki örnek, BERT kullanılarak vektörler olarak temsil edilen Otomotiv sınıfı için IAB içerik sınıflandırması anahtar sözcüklerini görselleştirir. BERT, sınıflandırmadaki Otomotiv anahtar sözcüklerini anlamsal olarak benzer terimlere yakın yerleştirir.
Özellik vektörleri, CITM'nin aynı özellik alanında meta veri etiketlerini ve sınıflandırma anahtar sözcüklerini karşılaştırmasına olanak tanır. Bu özellik alanında, CITM, sınıflandırma anahtar kelimeleri için her bir özellik vektörü ile konu anahtar kelimeleri için her bir özellik vektörü arasındaki kosinüs benzerliğini hesaplar. Ayrı bir adımda, CITM görüntü etiketleri için sınıflandırma özellik vektörlerini ve özellik vektörlerini karşılaştırır. 1'e en yakın kosinüs puanlarına sahip eşleştirmeler anlamsal olarak benzer olarak tanımlanır. Eşleştirmenin bir konu anahtar sözcüğü ve bir sınıflandırma anahtar sözcüğü ya da bir nesne etiketi ve bir sınıflandırma anahtar sözcüğü olabileceğini unutmayın.
Aşağıdaki ekran görüntüsü, BERT yerleştirmeleriyle hesaplanan kosinüs benzerliğini kullanan konu anahtar sözcükleri ve sınıflandırma anahtar sözcüklerinin örnek eşleştirmelerini gösterir.
İçeriği sınıflandırma anahtar kelimelerine eşlemek için CITM, kullanıcı tanımlı bir eşiği karşılayan kosinüs puanlarına sahip eşleştirmelerden anahtar kelimeleri seçer. Bunlar, web sayfasının envanteri için reklamları seçmek için gerçek zamanlı teklif verme platformlarında kullanılacak anahtar kelimelerdir. Sonuç, çevrimiçi içeriğin sınıflandırmayla zengin bir şekilde eşleştirilmesidir.
İsteğe bağlı olarak içeriği bir meta veri deposunda sınıflandırma eşlemesinde saklayın
CITM'den bağlamsal olarak benzer sınıflandırma terimlerini belirledikten sonra, düşük gecikme süreli API'lerin bu bilgilere erişmesi için bir yola ihtiyacınız vardır. Reklamlar için programatik teklif vermede, düşük yanıt süresi ve yüksek eşzamanlılık, içerikten para kazanmada önemli bir rol oynar. Teklif isteklerini zenginleştirmek için gerektiğinde ek meta verileri barındırmak için veri deposu şemasının esnek olması gerekir. Amazon DinamoDB böyle bir hizmet için veri erişim modellerini ve operasyonel gereksinimleri karşılayabilir.
Sonuç
Bu yayında, Bağlamsal Zeka Taksonomi Eşleştiricisi'ni (CITM) kullanarak sınıflandırma tabanlı bir bağlamsal hedefleme çözümünün nasıl oluşturulacağını öğrendiniz. Medya varlıklarınızdan ayrıntılı meta verileri çıkarmak için Amazon Anlama ve Amazon Rekognition'ı nasıl kullanacağınızı öğrendiniz. Ardından, içerikle alakalı reklamlar için programatik reklam teklifini kolaylaştırmak için CITM'yi kullanarak varlıkları endüstri standardı bir sınıflandırmayla eşlediniz. Bu çerçeveyi, mevcut medya varlıklarının değerini artırmak için standart bir sınıflandırmanın kullanılmasını gerektiren diğer kullanım durumlarına uygulayabilirsiniz.
CITM ile deneme yapmak için, kod deposu ve seçtiğiniz bir metin ve resim veri seti ile kullanın.
Bu gönderide tanıtılan çözüm bileşenleri hakkında daha fazla bilgi edinmenizi öneririz. hakkında daha fazlasını keşfedin AWS Medya Zekası medya içeriğinden meta verileri çıkarmak için. Ayrıca, nasıl kullanılacağı hakkında daha fazla bilgi edinin Amazon SageMaker kullanarak NLP için Hugging Face modelleri.
Yazarlar Hakkında
Aramid Kehinde AWS'de Makine Öğrenimi ve Yapay Zeka alanında Kıdemli İş Ortağı Çözüm Mimarıdır. Kariyer yolculuğu, birden çok endüstride İş Zekası ve Gelişmiş Analitik alanlarını kapsıyor. İş ortaklarının, müşterilerin yenilik ihtiyaçlarını karşılayan AWS AI/ML hizmetleriyle çözümler oluşturmasını sağlamak için çalışır. Ayrıca yapay zeka ve yaratıcı alanların kesişimini oluşturmaktan ve ailesiyle vakit geçirmekten hoşlanıyor.
Anuj Gupta hiper-büyüyen şirketlerle bulut tabanlı yolculuklarında çalışan bir Baş Çözüm Mimarıdır. Zorlu sorunları çözmek için teknolojiyi kullanma konusunda tutkulu ve yüksek oranda dağıtılmış ve düşük gecikmeli uygulamalar oluşturmak için müşterilerle birlikte çalıştı. Açık kaynaklı Sunucusuz ve Makine Öğrenimi çözümlerine katkıda bulunur. İş dışında ailesiyle seyahat etmeyi, şiirler ve felsefi bloglar yazmayı seviyor.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Kavramak
- Amazon Rekognisyon
- Amazon Adaçayı Yapıcı
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- makine öğrenme
- Pazarlama reklamı
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- Teknik Nasıl Yapılır
- düşünce liderliği
- zefirnet