Karena peraturan privasi data baru seperti GDPR (Peraturan Perlindungan Data Umum, 2017) mulai berlaku, pelanggan berada di bawah tekanan yang meningkat untuk memonetisasi aset media sambil mematuhi aturan baru. Memonetisasi media sambil menghormati peraturan privasi memerlukan kemampuan untuk mengekstrak metadata granular secara otomatis dari aset seperti file teks, gambar, video, dan audio pada skala internet. Ini juga membutuhkan cara yang terukur untuk memetakan aset media ke taksonomi industri yang memfasilitasi penemuan dan monetisasi konten. Kasus penggunaan ini sangat penting bagi industri periklanan karena aturan privasi data menyebabkan pergeseran dari penargetan perilaku menggunakan cookie pihak ketiga.
Cookie pihak ketiga membantu mengaktifkan iklan yang dipersonalisasi untuk pengguna web, dan memungkinkan pengiklan menjangkau audiens yang mereka tuju. Solusi tradisional untuk menayangkan iklan tanpa cookie pihak ketiga adalah iklan kontekstual, yang menempatkan iklan di halaman web berdasarkan konten yang dipublikasikan di halaman tersebut. Namun, iklan kontekstual menimbulkan tantangan untuk mengekstrak konteks dari aset media dalam skala besar, dan juga menggunakan konteks itu untuk memonetisasi aset.
Dalam posting ini, kami membahas bagaimana Anda dapat membangun solusi pembelajaran mesin (ML) yang kami sebut Contextual Intelligence Taxonomy Mapper (CITM) untuk mengekstrak konteks dari konten digital dan memetakannya ke taksonomi standar untuk menghasilkan nilai. Meskipun kami menerapkan solusi ini untuk iklan kontekstual, Anda dapat menggunakannya untuk menyelesaikan kasus penggunaan lainnya. Misalnya, perusahaan teknologi pendidikan dapat menggunakannya untuk memetakan konten mereka ke taksonomi industri untuk memfasilitasi pembelajaran adaptif yang memberikan pengalaman belajar yang dipersonalisasi berdasarkan kebutuhan individu siswa.
Ikhtisar solusi
Solusinya terdiri dari dua komponen: Intelijen Media AWS (AWS MI) kemampuan untuk ekstraksi konteks dari konten di halaman web, dan CITM untuk pemetaan konten yang cerdas ke taksonomi industri. Anda dapat mengakses solusi repositori kode untuk tampilan terperinci tentang bagaimana kami mengimplementasikan komponennya.
Intelijen Media AWS
Kemampuan AWS MI memungkinkan ekstraksi metadata secara otomatis yang memberikan pemahaman kontekstual tentang konten halaman web. Anda dapat menggabungkan teknik ML seperti visi komputer, ucapan ke teks, dan pemrosesan bahasa alami (NLP) untuk secara otomatis menghasilkan metadata dari teks, video, gambar, dan file audio untuk digunakan dalam pemrosesan hilir. Layanan AI terkelola seperti Rekognisi Amazon, Amazon Transkripsikan, Amazon Comprehend, dan Teks Amazon membuat teknik ML ini dapat diakses menggunakan panggilan API. Ini menghilangkan overhead yang diperlukan untuk melatih dan membangun model ML dari awal. Dalam posting ini, Anda melihat bagaimana menggunakan Amazon Comprehend dan Amazon Rekognition untuk kecerdasan media memungkinkan ekstraksi metadata dalam skala besar.
Pemeta Taksonomi Kecerdasan Kontekstual
Setelah mengekstrak metadata dari konten media, Anda memerlukan cara untuk memetakan metadata tersebut ke taksonomi industri untuk memfasilitasi penargetan kontekstual. Untuk melakukan ini, Anda membangun Contextual Intelligence Taxonomy Mapper (CITM), yang didukung oleh transformator kalimat BERT dari Hugging Face.
Transformator kalimat BERT memungkinkan CITM untuk mengkategorikan konten web dengan kata kunci yang terkait secara kontekstual. Misalnya, dapat mengkategorikan artikel web tentang hidup sehat dengan kata kunci dari taksonomi industri, seperti โMasakan dan Makan Sehatโ, โLari dan Joggingโ, dan banyak lagi, berdasarkan teks yang ditulis dan gambar yang digunakan dalam artikel. CITM juga menyediakan kemampuan untuk memilih istilah taksonomi yang dipetakan untuk digunakan dalam proses penawaran iklan Anda berdasarkan kriteria Anda.
Diagram berikut menggambarkan tampilan konseptual arsitektur dengan CITM.
Taksonomi Konten IAB (Biro Periklanan Interaktif)
Untuk posting ini, kami menggunakan Taksonomi Konten IAB Tech Lab sebagai taksonomi standar industri untuk kasus penggunaan periklanan kontekstual. Secara desain, taksonomi IAB membantu pembuat konten mendeskripsikan konten mereka secara lebih akurat, dan menyediakan bahasa yang sama untuk semua pihak dalam proses periklanan terprogram. Penggunaan istilah umum sangat penting karena pemilihan iklan untuk laman web yang dikunjungi pengguna harus dilakukan dalam milidetik. Taksonomi IAB berfungsi sebagai cara standar untuk mengkategorikan konten dari berbagai sumber sekaligus menjadi protokol industri yang digunakan platform penawaran waktu nyata untuk pemilihan iklan. Ini memiliki struktur hierarkis, yang memberikan perincian istilah taksonomi dan konteks yang ditingkatkan untuk pengiklan.
Alur kerja solusi
Diagram berikut mengilustrasikan alur kerja solusi.
Langkah-langkahnya adalah sebagai berikut:
- Layanan Penyimpanan Sederhana Amazon (Amazon S3) menyimpan taksonomi konten IAB dan mengekstrak konten web.
- Amazon Comprehend melakukan pemodelan topik untuk mengekstrak tema umum dari kumpulan artikel.
- Pengakuan Amazon API label objek mendeteksi label dalam gambar.
- CITM memetakan konten ke taksonomi standar.
- Secara opsional, Anda dapat menyimpan konten ke pemetaan taksonomi di penyimpanan metadata.
Di bagian berikut, kami menelusuri setiap langkah secara detail.
Amazon S3 menyimpan taksonomi konten IAB dan mengekstrak konten web
Kami menyimpan teks dan gambar yang diekstraksi dari kumpulan artikel web dalam ember S3. Kami juga menyimpan taksonomi konten IAB. Sebagai langkah pertama, kami menggabungkan tingkatan yang berbeda pada taksonomi untuk membuat istilah taksonomi gabungan. Pendekatan ini membantu menjaga struktur hierarki taksonomi ketika trafo kalimat BERT membuat embeddings untuk setiap kata kunci. Lihat kode berikut:
Diagram berikut mengilustrasikan taksonomi konteks IAB dengan tingkatan gabungan.
Amazon Comprehend melakukan pemodelan topik untuk mengekstrak tema umum dari kumpulan artikel
Dengan API pemodelan topik Amazon Comprehend, Anda menganalisis semua teks artikel menggunakan model Latent Dirichlet Allocation (LDA). Model tersebut memeriksa setiap artikel dalam korpus dan mengelompokkan kata kunci ke dalam topik yang sama berdasarkan konteks dan frekuensi kemunculannya di seluruh kumpulan artikel. Untuk memastikan model LDA mendeteksi topik yang sangat koheren, Anda melakukan langkah prapemrosesan sebelum memanggil Amazon Comprehend API. Anda dapat menggunakan perpustakaan gensim CoherenceModel untuk menentukan jumlah topik yang optimal untuk dideteksi dari kumpulan artikel atau file teks. Lihat kode berikut:
Setelah Anda mendapatkan jumlah topik yang optimal, Anda menggunakan nilai tersebut untuk pekerjaan pemodelan topik Amazon Comprehend. Memberikan nilai yang berbeda untuk parameter NumberOfTopics di Amazon Comprehend StartTopicsDetectionOperasi pekerjaan menghasilkan variasi dalam distribusi kata kunci yang ditempatkan di setiap grup topik. Nilai yang dioptimalkan untuk parameter NumberOfTopics menunjukkan jumlah topik yang memberikan pengelompokan kata kunci yang paling koheren dengan relevansi kontekstual yang lebih tinggi. Anda dapat menyimpan output pemodelan topik dari Amazon Comprehend dalam format mentahnya di Amazon S3.
API label objek Amazon Rekognition mendeteksi label dalam gambar
Anda menganalisis setiap gambar yang diekstraksi dari semua halaman web menggunakan Operasi Amazon Rekognition DetectLabels. Untuk setiap gambar, operasi memberikan respons JSON dengan semua label yang terdeteksi di dalam gambar, ditambah dengan skor kepercayaan untuk masing-masing. Untuk kasus penggunaan kami, kami secara sewenang-wenang memilih skor kepercayaan 60% atau lebih tinggi sebagai ambang batas untuk label objek untuk digunakan pada langkah berikutnya. Anda menyimpan label objek dalam format mentahnya di Amazon S3. Lihat kode berikut:
CITM memetakan konten ke taksonomi standar
CITM membandingkan metadata konten yang diekstraksi (topik dari teks dan label dari gambar) dengan kata kunci pada taksonomi IAB, dan kemudian memetakan metadata konten ke kata kunci dari taksonomi yang terkait secara semantik. Untuk tugas ini, CITM menyelesaikan tiga langkah berikut:
- Hasilkan penyematan saraf untuk taksonomi konten, kata kunci topik, dan label gambar menggunakan trafo kalimat BERT Hugging Face. Kami mengakses model transformator kalimat dari Amazon SageMaker. Dalam posting ini, kami menggunakan parafrase-MiniLM-L6-v2 model, yang memetakan kata kunci dan label ke ruang vektor padat 384 dimensi.
- Hitung skor kesamaan kosinus antara kata kunci taksonomi dan kata kunci topik menggunakan penyematannya. Ini juga menghitung kesamaan kosinus antara kata kunci taksonomi dan label objek gambar. Kami menggunakan kesamaan kosinus sebagai mekanisme penilaian untuk menemukan kecocokan semantik yang serupa antara metadata konten dan taksonomi. Lihat kode berikut:
- Identifikasi pasangan dengan skor kesamaan yang berada di atas ambang batas yang ditentukan pengguna dan gunakan untuk memetakan konten ke kata kunci yang terkait secara semantik pada taksonomi konten. Dalam pengujian kami, kami memilih semua kata kunci dari pasangan yang memiliki skor kesamaan kosinus 0.5 atau lebih tinggi. Lihat kode berikut:
Tantangan umum saat bekerja dengan representasi bahasa skala internet (seperti dalam kasus penggunaan ini) adalah Anda memerlukan model yang dapat memuat sebagian besar kontenโdalam hal ini, kata-kata dalam bahasa Inggris. Transformator BERT Hugging Face telah dilatih sebelumnya menggunakan kumpulan besar posting Wikipedia dalam bahasa Inggris untuk mewakili makna semantik kata-kata dalam kaitannya satu sama lain. Anda menyempurnakan model yang telah dilatih sebelumnya menggunakan kumpulan data spesifik kata kunci topik, label gambar, dan kata kunci taksonomi. Ketika Anda menempatkan semua embeddings di ruang fitur yang sama dan memvisualisasikannya, Anda melihat bahwa BERT secara logis mewakili kesamaan semantik antar istilah.
Contoh berikut memvisualisasikan kata kunci taksonomi konten IAB untuk kelas Otomotif yang direpresentasikan sebagai vektor menggunakan BERT. BERT menempatkan kata kunci Otomotif dari taksonomi dekat dengan istilah yang mirip secara semantik.
Vektor fitur memungkinkan CITM untuk membandingkan label metadata dan kata kunci taksonomi dalam ruang fitur yang sama. Dalam ruang fitur ini, CITM menghitung kesamaan kosinus antara setiap vektor fitur untuk kata kunci taksonomi dan setiap vektor fitur untuk kata kunci topik. Dalam langkah terpisah, CITM membandingkan vektor fitur taksonomi dan vektor fitur untuk label gambar. Pasangan dengan skor kosinus yang paling dekat dengan 1 diidentifikasi serupa secara semantik. Perhatikan bahwa pasangan dapat berupa kata kunci topik dan kata kunci taksonomi, atau label objek dan kata kunci taksonomi.
Tangkapan layar berikut menunjukkan contoh pasangan kata kunci topik dan kata kunci taksonomi menggunakan kesamaan kosinus yang dihitung dengan penyematan BERT.
Untuk memetakan konten ke kata kunci taksonomi, CITM memilih kata kunci dari pasangan dengan skor kosinus yang memenuhi ambang batas yang ditentukan pengguna. Ini adalah kata kunci yang akan digunakan pada platform penawaran waktu nyata untuk memilih iklan untuk inventaris halaman web. Hasilnya adalah pemetaan konten online yang kaya ke taksonomi.
Secara opsional, simpan konten ke pemetaan taksonomi di penyimpanan metadata
Setelah Anda mengidentifikasi istilah taksonomi yang serupa secara kontekstual dari CITM, Anda memerlukan cara agar API berlatensi rendah dapat mengakses informasi ini. Dalam penawaran terprogram untuk iklan, waktu respons yang rendah dan konkurensi yang tinggi memainkan peran penting dalam memonetisasi konten. Skema penyimpanan data harus fleksibel untuk mengakomodasi metadata tambahan bila diperlukan untuk memperkaya permintaan tawaran. Amazon DynamoDB dapat mencocokkan pola akses data dan persyaratan operasional untuk layanan tersebut.
Kesimpulan
Dalam posting ini, Anda mempelajari cara membuat solusi penargetan kontekstual berbasis taksonomi menggunakan Contextual Intelligence Taxonomy Mapper (CITM). Anda telah mempelajari cara menggunakan Amazon Comprehend dan Amazon Rekognition untuk mengekstrak metadata granular dari aset media Anda. Kemudian, menggunakan CITM, Anda memetakan aset ke taksonomi standar industri untuk memfasilitasi penawaran iklan terprogram untuk iklan yang terkait secara kontekstual. Anda dapat menerapkan kerangka kerja ini ke kasus penggunaan lain yang memerlukan penggunaan taksonomi standar untuk meningkatkan nilai aset media yang ada.
Untuk bereksperimen dengan CITM, Anda dapat mengaksesnya repositori kode dan gunakan dengan kumpulan data teks dan gambar pilihan Anda.
Kami merekomendasikan untuk mempelajari lebih lanjut tentang komponen solusi yang diperkenalkan dalam posting ini. Temukan lebih banyak tentang Intelijen Media AWS untuk mengekstrak metadata dari konten media. Juga, pelajari lebih lanjut tentang cara menggunakan Memeluk model Wajah untuk NLP menggunakan Amazon SageMaker.
Tentang Penulis
Aramide Kehinde adalah Arsitek Solusi Mitra Senior di AWS dalam Pembelajaran Mesin dan AI. Perjalanan karirnya telah mencakup bidang Business Intelligence dan Advanced Analytics di berbagai industri. Dia bekerja untuk memungkinkan mitra membangun solusi dengan layanan AWS AI/ML yang melayani kebutuhan pelanggan akan inovasi. Dia juga senang membangun persimpangan AI dan arena kreatif dan menghabiskan waktu bersama keluarganya.
Anuj Gupta adalah Arsitek Solusi Utama yang bekerja dengan perusahaan yang berkembang pesat dalam perjalanan asli cloud mereka. Dia bersemangat menggunakan teknologi untuk memecahkan masalah yang menantang dan telah bekerja dengan pelanggan untuk membangun aplikasi yang sangat terdistribusi dan latensi rendah. Dia berkontribusi pada solusi Tanpa Server dan Pembelajaran Mesin sumber terbuka. Di luar pekerjaan, dia suka bepergian dengan keluarganya dan menulis puisi dan blog filosofis.
- AI
- ai seni
- generator seni ai
- punya robot
- Amazon Comprehend
- Rekognisi Amazon
- Amazon SageMaker
- kecerdasan buatan
- sertifikasi kecerdasan buatan
- kecerdasan buatan dalam perbankan
- robot kecerdasan buatan
- robot kecerdasan buatan
- perangkat lunak kecerdasan buatan
- Pembelajaran Mesin AWS
- blockchain
- konferensi blockchain
- kecerdasan
- kecerdasan buatan percakapan
- konferensi kripto
- dall's
- belajar mendalam
- google itu
- Mesin belajar
- Pemasaran & Periklanan
- plato
- plato ai
- Kecerdasan Data Plato
- Permainan Plato
- Data Plato
- permainan plato
- skala ai
- sintaksis
- Petunjuk Teknis
- pemikiran kepemimpinan
- zephyrnet.dll