Pencarian Gambar Semantik Untuk Artikel Menggunakan Amazon Rekognition, Model Amazon SageMaker Foundation, dan Amazon OpenSearch Service

Diterbitkan Ulang Oleh Plato

Followers: 0

Penerbit digital terus mencari cara untuk merampingkan dan mengotomatiskan alur kerja media mereka untuk menghasilkan dan menerbitkan konten baru secepat mungkin.

Penerbit dapat memiliki repositori yang berisi jutaan gambar dan untuk menghemat uang, mereka harus dapat menggunakan kembali gambar-gambar tersebut di seluruh artikel. Menemukan gambar yang paling cocok dengan artikel di repositori sebesar ini dapat menjadi tugas manual yang memakan waktu, berulang, dan dapat diotomatisasi. Hal ini juga bergantung pada gambar dalam repositori yang diberi tag dengan benar, yang juga dapat diotomatisasi (untuk kisah sukses pelanggan, lihat Aller Media Menemukan Kesuksesan dengan KeyCore dan AWS).

Dalam posting ini, kami menunjukkan cara menggunakan Rekognisi Amazon, Mulai Lompatan Amazon SageMaker, dan Layanan Pencarian Terbuka Amazon untuk mengatasi masalah bisnis ini. Amazon Rekognition memudahkan penambahan kemampuan analisis gambar ke aplikasi Anda tanpa keahlian pembelajaran mesin (ML) apa pun dan dilengkapi dengan berbagai API untuk memenuhi kasus penggunaan seperti deteksi objek, moderasi konten, deteksi dan analisis wajah, serta pengenalan teks dan selebriti, yang kami gunakan dalam contoh ini. SageMaker JumpStart adalah layanan kode rendah yang dilengkapi dengan solusi siap pakai, contoh notebook, dan banyak model terlatih canggih dari sumber yang tersedia untuk umum yang mudah diterapkan hanya dengan satu klik ke akun AWS Anda . Model-model ini telah dikemas agar dapat diterapkan dengan aman dan mudah melalui Amazon SageMaker Lebah. SageMaker JumpStart Foundation Hub yang baru memungkinkan Anda menerapkan model bahasa besar (LLM) dengan mudah dan mengintegrasikannya dengan aplikasi Anda. OpenSearch Service adalah layanan terkelola sepenuhnya yang memudahkan penerapan, penskalaan, dan pengoperasian OpenSearch. Layanan OpenSearch memungkinkan Anda menyimpan vektor dan tipe data lainnya dalam indeks, dan menawarkan fungsionalitas kaya yang memungkinkan Anda mencari dokumen menggunakan vektor dan mengukur keterhubungan semantik, yang kami gunakan dalam posting ini.

Tujuan akhir dari postingan ini adalah untuk menunjukkan bagaimana kita dapat menampilkan sekumpulan gambar yang secara semantik mirip dengan beberapa teks, baik itu artikel atau sinopsis TV.

Tangkapan layar berikut menunjukkan contoh menggunakan artikel mini sebagai masukan pencarian Anda, daripada menggunakan kata kunci, dan mampu menampilkan gambar yang serupa secara semantik.

Ikhtisar solusi

Solusinya dibagi menjadi dua bagian utama. Pertama, Anda mengekstrak metadata label dan selebriti dari gambar, menggunakan Amazon Rekognition. Anda kemudian membuat penyematan metadata menggunakan LLM. Anda menyimpan nama selebriti, dan penyematan metadata di Layanan OpenSearch. Di bagian utama kedua, Anda memiliki API untuk menanyakan indeks Layanan OpenSearch Anda untuk gambar menggunakan kemampuan pencarian cerdas OpenSearch untuk menemukan gambar yang secara semantik mirip dengan teks Anda.

Solusi ini menggunakan layanan berbasis peristiwa kami Jembatan Acara Amazon, Fungsi Langkah AWS, dan AWS Lambda untuk mengatur proses mengekstraksi metadata dari gambar menggunakan Amazon Rekognition. Amazon Rekognition akan melakukan dua panggilan API untuk mengekstrak label dan selebriti terkenal dari gambar.

API deteksi selebriti Amazon Rekognition, mengembalikan sejumlah elemen dalam respons. Untuk posting ini, Anda menggunakan yang berikut ini:

Nama, Id, dan Url – Nama selebriti, ID Amazon Rekognition unik, dan daftar URL seperti tautan IMDb atau Wikipedia selebriti untuk informasi lebih lanjut.
Keyakinan Pertandingan – Skor keyakinan kecocokan yang dapat digunakan untuk mengontrol perilaku API. Kami merekomendasikan untuk menerapkan ambang batas yang sesuai untuk skor ini di aplikasi Anda untuk memilih titik operasi pilihan Anda. Misalnya, dengan menetapkan ambang batas sebesar 99%, Anda dapat menghilangkan lebih banyak kesalahan positif namun mungkin kehilangan beberapa potensi kecocokan.

Dalam panggilan API kedua Anda, API deteksi label Amazon Rekognition, mengembalikan sejumlah elemen dalam respons. Anda menggunakan yang berikut ini:

Nama – Nama label yang terdeteksi
Keyakinan – Tingkat kepercayaan terhadap label yang diberikan pada objek yang terdeteksi

Konsep kunci dalam penelusuran semantik adalah penyematan. Penyematan kata adalah representasi numerik dari sebuah kata atau sekelompok kata, dalam bentuk vektor. Jika Anda memiliki banyak vektor, Anda dapat mengukur jarak di antara vektor-vektor tersebut, dan vektor-vektor yang jaraknya berdekatan secara semantik serupa. Oleh karena itu, jika Anda membuat penyematan semua metadata gambar Anda, lalu membuat penyematan teks Anda, baik itu artikel atau sinopsis TV misalnya, dengan menggunakan model yang sama, Anda kemudian dapat menemukan gambar yang secara semantik mirip dengan gambar Anda. teks yang diberikan.

Ada banyak model yang tersedia dalam SageMaker JumpStart untuk menghasilkan embeddings. Untuk solusi ini, Anda menggunakan Penyematan GPT-J 6B dari Wajah Memeluk. Ini menghasilkan embeddings berkualitas tinggi dan memiliki salah satu metrik kinerja terbaik menurut Hugging Face's hasil evaluasi. Batuan Dasar Amazon adalah opsi lain, masih dalam pratinjau, di mana Anda dapat memilih model Amazon Titan Text Embeddings untuk menghasilkan embeddings.

Anda menggunakan model terlatih GPT-J dari SageMaker JumpStart untuk membuat penyematan metadata gambar dan menyimpannya sebagai vektor k-NN di indeks Layanan OpenSearch Anda, bersama dengan nama selebriti di bidang lainnya.

Bagian kedua dari solusinya adalah mengembalikan 10 gambar teratas kepada pengguna yang secara semantik mirip dengan teks mereka, baik itu artikel atau sinopsis TV, termasuk selebriti mana pun jika ada. Saat memilih gambar untuk menemani sebuah artikel, Anda ingin gambar tersebut sesuai dengan poin-poin terkait dari artikel tersebut. SageMaker JumpStart menampung banyak model peringkasan yang dapat mengambil teks panjang dan menguranginya menjadi poin utama dari aslinya. Untuk model peringkasan, Anda menggunakan Laboratorium AI21 Ringkaslah modelnya. Model ini memberikan rekap artikel berita berkualitas tinggi dan teks sumber dapat berisi sekitar 10,000 kata, yang memungkinkan pengguna meringkas keseluruhan artikel sekaligus.

Untuk mendeteksi apakah teks tersebut berisi nama, selebriti yang mungkin dikenal, Anda gunakan Amazon Comprehend yang dapat mengekstrak entitas kunci dari string teks. Anda kemudian memfilter berdasarkan entitas Person, yang Anda gunakan sebagai parameter pencarian input.

Kemudian Anda mengambil artikel yang diringkas dan membuat penyematan untuk digunakan sebagai parameter pencarian masukan lainnya. Penting untuk diperhatikan bahwa Anda menggunakan model yang sama yang diterapkan pada infrastruktur yang sama untuk menghasilkan penyematan artikel seperti yang Anda lakukan pada gambar. Anda kemudian menggunakan K-NN yang tepat dengan skrip penilaian sehingga Anda dapat mencari berdasarkan dua bidang: nama selebriti dan vektor yang menangkap informasi semantik artikel tersebut. Lihat posting ini, Penjelasan kemampuan database vektor Amazon OpenSearch Service, tentang skalabilitas skrip Score dan bagaimana pendekatan pada indeks besar ini dapat menyebabkan latensi tinggi.

Walkthrough

Diagram berikut menggambarkan arsitektur solusi.

Mengikuti label bernomor:

Anda mengunggah gambar ke Amazon S3 ember
Jembatan Acara Amazon mendengarkan acara ini, dan kemudian memicu Fungsi Langkah AWS eksekusi
Fungsi Langkah mengambil masukan gambar, mengekstrak label dan metadata selebriti
Grafik AWS Lambda fungsi mengambil metadata gambar dan menghasilkan penyematan
Grafik Lambda fungsi kemudian menyisipkan nama selebriti (jika ada) dan penyematannya sebagai vektor k-NN ke dalam indeks Layanan OpenSearch
Amazon S3 menghosting situs web statis sederhana, dilayani oleh Amazon CloudFront distribusi. Antarmuka pengguna front-end (UI) memungkinkan Anda mengautentikasi dengan aplikasi yang menggunakan Amazon Kognito untuk mencari gambar
Anda mengirimkan artikel atau teks melalui UI
Lain Lambda panggilan fungsi Amazon Comprehend untuk mendeteksi nama apa pun dalam teks
Fungsi tersebut kemudian merangkum teks untuk mendapatkan poin terkait dari artikel tersebut
Fungsi ini menghasilkan penyematan artikel yang diringkas
Fungsi tersebut kemudian mencari Layanan OpenSearch indeks gambar untuk gambar apa pun yang cocok dengan nama selebriti dan k-tetangga terdekat untuk vektor menggunakan kesamaan kosinus
amazoncloudwatch dan Sinar-X AWS memberi Anda kemampuan observasi terhadap alur kerja ujung ke ujung untuk memperingatkan Anda tentang masalah apa pun.

Ekstrak dan simpan metadata gambar utama

API Amazon Rekognition DetectLabels dan RecognizeCelebrities memberi Anda metadata dari gambar Anda—label teks yang dapat Anda gunakan untuk membentuk kalimat untuk menghasilkan penyematan. Artikel ini memberi Anda masukan teks yang dapat Anda gunakan untuk menghasilkan penyematan.

Menghasilkan dan menyimpan penyematan kata

Gambar berikut menunjukkan pembuatan plot vektor gambar kita dalam ruang 2 dimensi, di mana untuk bantuan visual, kami telah mengklasifikasikan embeddings berdasarkan kategori utamanya.

Anda juga membuat penyematan artikel yang baru ditulis ini, sehingga Anda dapat mencari OpenSearch Service untuk gambar terdekat dengan artikel dalam ruang vektor ini. Dengan menggunakan algoritme k-nearest neighbours (k-NN), Anda menentukan berapa banyak gambar yang akan ditampilkan dalam hasil Anda.

Jika diperbesar ke gambar sebelumnya, vektor diberi peringkat berdasarkan jaraknya dari artikel dan kemudian mengembalikan gambar K-terdekat, dengan K dalam contoh ini adalah 10.

OpenSearch Service menawarkan kemampuan untuk menyimpan vektor besar dalam sebuah indeks, dan juga menawarkan fungsionalitas untuk menjalankan kueri terhadap indeks menggunakan k-NN, sehingga Anda dapat melakukan kueri dengan vektor untuk mengembalikan k dokumen terdekat yang memiliki vektor dalam jarak dekat menggunakan berbagai pengukuran. Untuk contoh ini, kami menggunakan kesamaan cosinus.

Temukan nama-nama di artikel

Anda menggunakan Amazon Comprehend, layanan pemrosesan bahasa alami (NLP) AI, untuk mengekstrak entitas kunci dari artikel. Dalam contoh ini, Anda menggunakan Amazon Comprehend untuk mengekstrak entitas dan memfilter berdasarkan entitas Person, yang mengembalikan nama apa pun yang dapat ditemukan Amazon Comprehend dalam cerita jurnalis, hanya dengan beberapa baris kode:

def get_celebrities(payload): response = comprehend_client.detect_entities( Text=' '.join(payload["text_inputs"]), LanguageCode="en", ) celebrities = "" for entity in response["Entities"]: if entity["Type"] == "PERSON": celebrities += entity["Text"] + " " return celebrities

Dalam contoh ini, Anda mengunggah gambar ke Layanan Penyimpanan Sederhana Amazon (Amazon S3), yang memicu alur kerja saat Anda mengekstrak metadata dari gambar termasuk label dan selebriti mana pun. Anda kemudian mengubah metadata yang diekstraksi menjadi penyematan dan menyimpan semua data ini di Layanan OpenSearch.

Ringkas artikel dan buat penyematan

Meringkas artikel merupakan langkah penting untuk memastikan bahwa penyematan kata menangkap poin-poin terkait artikel, dan dengan demikian menghasilkan gambar yang sesuai dengan tema artikel.

Model AI21 Labs Summarize sangat mudah digunakan tanpa perintah apa pun dan hanya beberapa baris kode:

def summarise_article(payload): sagemaker_endpoint_summarise = os.environ["SAGEMAKER_ENDPOINT_SUMMARIZE"] response = ai21.Summarize.execute( source=payload, sourceType="TEXT", destination=ai21.SageMakerDestination(sagemaker_endpoint_summarise) ) response_summary = response.summary return response_summary

Anda kemudian menggunakan model GPT-J untuk menghasilkan penyematan

def get_vector(payload_summary): sagemaker_endpoint = os.environ["SAGEMAKER_ENDPOINT_VECTOR"] response = sm_runtime_client.invoke_endpoint( EndpointName=sagemaker_endpoint, ContentType="application/json", Body=json.dumps(payload_summary).encode("utf-8"), ) response_body = json.loads((response["Body"].read())) return response_body["embedding"][0]

Anda kemudian mencari Layanan OpenSearch untuk gambar Anda

Berikut ini adalah contoh cuplikan kueri tersebut:

def search_document_celeb_context(person_names, vector): results = wr.opensearch.search( client=os_client, index="images", search_body={ "size": 10, "query": { "script_score": { "query": { "match": {"celebrities": person_names } }, "script": { "lang": "knn", "source": "knn_score", "params": { "field": "image_vector", "query_value": vector, "space_type": "cosinesimil" } } } } }, ) return results.drop(columns=["image_vector"]).to_dict()

Arsitekturnya berisi aplikasi web sederhana untuk mewakili sistem manajemen konten (CMS).

Untuk contoh artikel, kami menggunakan masukan berikut:

“Werner Vogels senang bepergian keliling dunia dengan Toyota miliknya. Kami melihat Toyota-nya muncul dalam banyak adegan saat ia berkendara untuk pergi dan menemui berbagai pelanggan di kota asal mereka.”

Tak satu pun dari gambar tersebut memiliki metadata dengan kata “Toyota”, namun semantik kata “Toyota” identik dengan mobil dan mengemudi. Oleh karena itu, dengan contoh ini, kami dapat mendemonstrasikan bagaimana kami dapat melampaui pencarian kata kunci dan mengembalikan gambar yang serupa secara semantik. Pada tangkapan layar UI di atas, keterangan di bawah gambar menunjukkan metadata Amazon Rekognition yang diekstrak.

Anda dapat memasukkan solusi ini dalam a alur kerja yang lebih besar di mana Anda menggunakan metadata yang telah Anda ekstrak dari gambar Anda untuk mulai menggunakan pencarian vektor bersama dengan istilah kunci lainnya, seperti nama selebriti, untuk menghasilkan gambar dan dokumen yang paling beresonansi untuk permintaan pencarian Anda.

Kesimpulan

Dalam postingan ini, kami menunjukkan bagaimana Anda dapat menggunakan Amazon Rekognition, Amazon Comprehend, SageMaker, dan OpenSearch Service untuk mengekstrak metadata dari gambar Anda dan kemudian menggunakan teknik ML untuk menemukannya secara otomatis menggunakan pencarian selebriti dan semantik. Hal ini sangat penting dalam industri penerbitan, di mana kecepatan merupakan hal yang penting dalam menyebarkan konten segar dengan cepat dan ke berbagai platform.

Untuk informasi selengkapnya tentang bekerja dengan aset media, lihat Kecerdasan media semakin pintar dengan Media2Cloud 3.0.

tentang Penulis

Tandai Watkins adalah Arsitek Solusi dalam tim Media dan Hiburan, mendukung pelanggannya memecahkan banyak masalah data dan ML. Jauh dari kehidupan profesional, dia suka menghabiskan waktu bersama keluarganya dan melihat kedua anaknya tumbuh dewasa.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Otomotif / EV, Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
ChartPrime. Tingkatkan Game Trading Anda dengan ChartPrime. Akses Di Sini.
BlockOffset. Modernisasi Kepemilikan Offset Lingkungan. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/semantic-image-search-for-articles-using-amazon-rekognition-amazon-sagemaker-foundation-models-and-amazon-opensearch-service/

Stempel Waktu: September 8, 2023

Stempel Waktu: Desember 18, 2023

Diterbitkan Ulang Oleh Plato

Wawasan dan tema yang dapat ditindaklanjuti berdasarkan AI/ML untuk penjual pihak ketiga Amazon menggunakan AWS

Percepat tanggap bencana dengan visi komputer untuk citra satelit menggunakan Amazon SageMaker dan Amazon Augmented AI

Membangun agen AI generatif dengan Amazon Bedrock, Amazon DynamoDB, Amazon Kendra, Amazon Lex, dan LangChain | Layanan Web Amazon

Mencapai throughput inferensi ML empat kali lebih tinggi dengan biaya per inferensi tiga kali lebih rendah dengan instans Amazon EC2 G5 untuk model NLP dan CV PyTorch

Mengidentifikasi skema cakupan pertahanan di NFL's Next Gen Stats

Mencapai hasil bisnis time-to-value yang cepat dengan pelatihan model ML yang lebih cepat menggunakan Amazon SageMaker Canvas

Mempercepat waktu menuju wawasan dengan koleksi rangkaian waktu MongoDB dan Amazon SageMaker Canvas | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun