Makine öğrenimi (ML), son yıllarda sektörler arasında işleri iyileştirdi; Prime Video hesap, belge özetleme ve verimli arama için Alexasesli yardım. Ancak, bu teknolojiyi işinize nasıl dahil edeceğiniz sorusu devam ediyor. Geleneksel kural tabanlı yöntemlerden farklı olarak, makine öğrenimi, ilgilendiğiniz görevi gerçekleştirmek için verilerden otomatik olarak kalıplar çıkarır. Bu, otomasyon kurallarını düzenleme ihtiyacını atlasa da, ML modellerinin yalnızca üzerinde eğitildikleri veriler kadar iyi olabileceği anlamına gelir. Ancak, veri oluşturma genellikle zorlu bir iştir. de Amazon Makine Öğrenimi Çözümleri Laboratuvarı, bu sorunla defalarca karşılaştık ve müşterilerimiz için bu yolculuğu kolaylaştırmak istiyoruz. Bu işlemi boşaltmak istiyorsanız, kullanabilirsiniz. Amazon SageMaker Temel Gerçek Artı.
Bu yazının sonunda, aşağıdakileri elde edebileceksiniz:
- Veri toplama hattı oluşturmayla ilgili iş süreçlerini anlayın
- Veri etiketleme ardışık düzeninizi desteklemek ve hızlandırmak için AWS Bulut hizmetlerini belirleyin
- Özel kullanım durumları için bir veri toplama ve etiketleme görevi çalıştırın
- İş ve teknik en iyi uygulamaları izleyerek yüksek kaliteli veriler oluşturun
Bu gönderi boyunca veri oluşturma sürecine odaklanıyoruz ve altyapı ile süreç bileşenlerini yönetmek için AWS hizmetlerine güveniyoruz. Yani, kullandığımız Amazon SageMaker Yer Gerçeği etiketleme altyapısı boru hattını ve kullanıcı arayüzünü işlemek için. Bu hizmet, verilerinizi toplamak için bir nokta-ve-git yaklaşımı kullanır. Amazon Basit Depolama Hizmeti (Amazon S3) ve bir etiketleme iş akışı ayarlayın. Etiketleme için, size özel ekibinizi kullanarak veri etiketleri elde etmek için yerleşik esneklik sağlar. Amazon Mekanik Türk kuvvet veya tercih ettiğiniz etiketleme satıcısından AWS Pazar Yeri. Son olarak, kullanabilirsiniz AWS Lambda ve Amazon SageMaker dizüstüleri etiketlemeden önce veya sonra verileri işlemek, görselleştirmek veya kalite kontrol etmek için.
Artık tüm parçalar ortaya konduğuna göre, işleme başlayalım!
Veri oluşturma süreci
Genel sezginin aksine, veri oluşturmanın ilk adımı veri toplama değildir. Sorunu dile getirmek için kullanıcılardan geriye doğru çalışmak çok önemlidir. Örneğin, kullanıcılar son eserde nelere önem veriyor? Uzmanlar, kullanım durumuyla ilgili sinyallerin verilerde nerede olduğuna inanıyor? Modelleme için kullanım senaryosu ortamı hakkında hangi bilgiler sağlanabilir? Bu soruların cevaplarını bilmiyorsanız endişelenmeyin. Nüansları anlamak için kullanıcılar ve alan uzmanlarıyla konuşmak için kendinize biraz zaman verin. Bu ilk anlayış sizi doğru yöne yönlendirecek ve başarıya hazırlayacaktır.
Bu gönderi için, kullanıcı gereksinimi belirtiminin bu ilk sürecini ele aldığınızı varsayıyoruz. Sonraki üç bölüm, sonraki kaliteli veri oluşturma sürecinde size yol gösterir: planlama, kaynak veri oluşturma ve veri açıklaması. Veri oluşturma ve açıklama adımlarındaki pilot döngüler, etiketli verilerin verimli bir şekilde oluşturulmasını sağlamak için hayati önem taşır. Bu, veri oluşturma, açıklama ekleme, kalite güvencesi ve gerektiğinde işlem hattının güncellenmesi arasında yinelemeyi içerir.
Aşağıdaki şekil, tipik bir veri oluşturma işlem hattında gereken adımlara genel bir bakış sağlar. İhtiyaç duyduğunuz verileri belirlemek (Gereksinim Belirtimi) için kullanım örneğinden geriye doğru çalışabilir, verileri elde etmek için bir süreç oluşturabilir (Planlama), gerçek veri toplama sürecini uygulayabilir (Veri Toplama ve Açıklama) ve sonuçları değerlendirebilirsiniz. Kesik çizgilerle vurgulanan pilot çalıştırmalar, yüksek kaliteli bir veri toplama hattı geliştirilene kadar süreci yinelemenize izin verir.
Planlama
Standart bir veri oluşturma süreci, verimsiz bir şekilde yürütülürse zaman alıcı ve değerli insan kaynaklarının israfı olabilir. Neden zaman alıcı olsun ki? Bu soruyu cevaplamak için veri oluşturma sürecinin kapsamını anlamalıyız. Size yardımcı olmak için, göz önünde bulundurmanız gereken önemli bileşenlerin ve paydaşların açıklamasını ve üst düzey bir kontrol listesi topladık. Bu soruları yanıtlamak ilk başta zor olabilir. Kullanım durumunuza bağlı olarak, bunlardan yalnızca bazıları geçerli olabilir.
- Gerekli onaylar için yasal irtibat kişisini belirleyin – Uygulamanız için verileri kullanmak, şirket politikalarına ve kullanım senaryolarına uygunluğu sağlamak için lisans veya satıcı sözleşmesi incelemesi gerektirebilir. Sürecin veri toplama ve açıklama adımları boyunca hukuki desteğinizi belirlemeniz önemlidir.
- Veri işleme için güvenlik temas noktasını belirleyin –Satın alınan verilerin sızdırılması, şirketiniz için ciddi cezalara ve yansımalara neden olabilir. Güvenli uygulamalar sağlamak için veri toplama ve açıklama adımları boyunca güvenlik desteğinizi belirlemeniz önemlidir.
- Kullanım senaryosu gerekliliklerini detaylandırın ve kaynak verileri ve açıklama yönergelerini tanımlayın – Gereken yüksek özgüllük nedeniyle veri oluşturmak ve açıklama eklemek zordur. Veri oluşturucular ve açıklayıcılar dahil olmak üzere paydaşlar, kaynak israfını önlemek için tamamen uyumlu olmalıdır. Bu amaçla, açıklama görevinin her yönünü belirten bir kılavuz belgesi kullanmak yaygın bir uygulamadır: kesin talimatlar, uç durumlar, örnek bir gözden geçirme vb.
- Kaynak verilerinizi toplamak için beklentileri hizalayın - Aşağıdakileri göz önünde bulundur:
- Potansiyel veri kaynakları hakkında araştırma yapın – Örneğin, genel veri kümeleri, diğer dahili ekiplerden mevcut veri kümeleri, kendi kendine toplanan veya satıcılardan satın alınan veriler.
- Kalite değerlendirmesi yapın – Nihai kullanım durumuyla ilişkili bir analiz hattı oluşturun.
- Veri ek açıklamaları oluşturmak için beklentileri hizalayın - Aşağıdakileri göz önünde bulundur:
- Teknik paydaşları belirleyin – Bu genellikle, bir açıklama ardışık düzeni uygulamak için Temel Gerçek ile ilgili teknik belgeleri kullanabilen şirketinizde bir kişi veya ekiptir. Bu paydaşlar ayrıca, alt ML uygulamanızın ihtiyaçlarını karşıladığından emin olmak için açıklamalı verilerin kalite değerlendirmesinden de sorumludur.
- Veri açıklayıcılarını tanımlayın – Bu kişiler, Temel Gerçeği içindeki kaynak verilerinize etiket eklemek için önceden belirlenmiş talimatları kullanır. Kullanım durumunuza ve açıklama yönergelerine bağlı olarak etki alanı bilgisine sahip olmaları gerekebilir. Şirketinizin içindeki bir işgücünü kullanabilir veya harici bir satıcı tarafından yönetilen işgücü.
- Veri oluşturma sürecinin gözetimini sağlayın – Önceki noktalardan da görebileceğiniz gibi, veri oluşturma, çok sayıda uzman paydaşı içeren ayrıntılı bir süreçtir. Bu nedenle, istenen sonuca doğru uçtan uca izlemek çok önemlidir. Özel bir kişinin veya ekibin süreci denetlemesi, uyumlu ve verimli bir veri oluşturma süreci sağlamanıza yardımcı olabilir.
Almaya karar verdiğiniz rotaya bağlı olarak aşağıdakileri de göz önünde bulundurmalısınız:
- Kaynak veri kümesini oluşturun – Bu, mevcut verilerin eldeki görev için uygun olmadığı veya yasal kısıtlamaların onu kullanmanızı engellediği durumları ifade eder. Dahili ekipler veya harici satıcılar (sonraki nokta) kullanılmalıdır. Bu genellikle son derece uzmanlaşmış alanlar veya düşük kamu araştırması olan alanlar için geçerlidir. Örneğin, bir doktorun ortak soruları, giyim kuşam veya spor uzmanları. Dahili veya harici olabilir.
- Satıcıları araştırın ve bir işe alım süreci yürütün – Harici satıcılar kullanıldığında, her iki kuruluş arasında bir sözleşme ve işe alım süreci oluşturulmalıdır.
Bu bölümde, dikkate almamız gereken bileşenleri ve paydaşları inceledik. Ancak, gerçek süreç neye benziyor? Aşağıdaki şekilde, veri oluşturma ve açıklama için bir süreç iş akışının ana hatlarını veriyoruz. Yinelemeli yaklaşım, geri dönüş süresini azaltmak, hataları erkenden tespit etmek ve düşük kaliteli verilerin oluşturulmasında kaynak israfını önlemek için pilot olarak adlandırılan küçük veri kümelerini kullanır. Bu pilot turları bu yazının ilerleyen kısımlarında açıklayacağız. Ayrıca veri oluşturma, açıklama ve kalite kontrolü için bazı en iyi uygulamaları da ele alıyoruz.
Aşağıdaki şekil, bir veri oluşturma işlem hattının yinelemeli gelişimini göstermektedir. Dikey olarak, veri kaynak bloğunu (yeşil) ve açıklama bloğunu (mavi) buluyoruz. Her iki bloğun da bağımsız pilot turları vardır (Veri oluşturma/Ek Açıklama, QAQC ve Güncelleme). Giderek daha yüksek kaynaklı veriler oluşturulur ve giderek daha yüksek kaliteli ek açıklamalar oluşturmak için kullanılabilir.
Kaynak veri oluşturma
Girdi oluşturma süreci, görev türünüze bağlı olarak ilgilendiğiniz öğelerin aşamalandırılması etrafında döner. Bunlar görüntüler (gazete taramaları), videolar (trafik sahneleri), 3B nokta bulutları (tıbbi taramalar) veya sadece metin (altyazı parçaları, yazılar) olabilir. Genel olarak, görevle ilgili öğelerinizi hazırlarken aşağıdakilerden emin olun:
- Nihai AI/ML sistemi için gerçek dünyadaki kullanım durumunu yansıtın – Antrenman verileriniz için görüntü veya video toplama kurulumu, gerçek dünya uygulamasındaki giriş verilerinizin kurulumuyla yakından eşleşmelidir. Bu, tutarlı yerleştirme yüzeylerine, aydınlatma kaynaklarına veya kamera açılarına sahip olmak anlamına gelir.
- Değişkenlik kaynaklarını hesaba katın ve en aza indirin - Aşağıdakileri göz önünde bulundur:
- Veri toplama standartlarını sürdürmek için en iyi uygulamaları geliştirin – Kullanım durumunuzun ayrıntı düzeyine bağlı olarak, veri noktalarınız arasında tutarlılığı garanti etmek için gereksinimleri belirtmeniz gerekebilir. Örneğin, tek kamera noktalarından görüntü veya video verileri topluyorsanız, ilgilendiğiniz nesnelerin tutarlı bir şekilde yerleştirildiğinden emin olmanız veya bir veri yakalama turundan önce kamera için kalite kontrolü yapmanız gerekebilir. Bu, kameranın eğilmesi veya bulanıklaşması gibi sorunları önleyebilir ve çerçeve dışı veya bulanık görüntüleri kaldırmanın yanı sıra görüntü çerçevesini ilgilendiğiniz alan üzerinde manuel olarak ortalama ihtiyacı gibi aşağı akış genel giderlerini en aza indirebilir.
- Öncelikli test süresi değişkenlik kaynakları – Test süresi boyunca şimdiye kadar bahsedilen özelliklerden herhangi birinde değişkenlik öngörüyorsanız, eğitim verilerinin oluşturulması sırasında bu değişkenlik kaynaklarını yakalayabildiğinizden emin olun. Örneğin, ML uygulamanızın birden fazla farklı ışık ayarında çalışmasını bekliyorsanız, çeşitli ışık ayarlarında eğitim görselleri ve videolar oluşturmayı hedeflemelisiniz. Kullanım durumuna bağlı olarak, kamera konumlandırmasındaki değişkenlik de etiketlerinizin kalitesini etkileyebilir.
- Mevcut olduğunda önceki alan bilgisini dahil edin - Aşağıdakileri göz önünde bulundur:
- Hata kaynaklarına ilişkin girdiler – Alan uygulayıcıları, yılların deneyimine dayalı olarak hata kaynakları hakkında bilgi sağlayabilir. Önceki iki nokta için en iyi uygulamalar hakkında geri bildirim sağlayabilirler: Hangi ayarlar gerçek dünyadaki kullanım durumunu en iyi şekilde yansıtır? Veri toplama sırasında veya kullanım sırasında olası değişkenlik kaynakları nelerdir?
- Alana özel veri toplama en iyi uygulamaları – Teknik paydaşlarınız, toplanan resimlerde veya videolarda odaklanılacak teknik yönler hakkında zaten iyi bir fikre sahip olsalar da, alan uygulayıcıları, bu ihtiyaçların karşılanacağı şekilde verilerin en iyi nasıl oluşturulacağı veya toplanacağı konusunda geri bildirim sağlayabilir.
Oluşturulan verilerin kalite kontrolü ve kalite güvencesi
Artık veri toplama hattını kurduğunuza göre, devam etmek ve mümkün olduğunca fazla veri toplamak cazip gelebilir. Bir dakika bekle! Öncelikle kurulum yoluyla toplanan verilerin gerçek kelime kullanım durumunuz için uygun olup olmadığını kontrol etmeliyiz. Bazı başlangıç örneklerini kullanabilir ve bu örnek verileri analiz ederek elde ettiğimiz içgörüler aracılığıyla kurulumu yinelemeli olarak iyileştirebiliriz. Pilot süreç sırasında teknik, iş ve ek açıklama paydaşlarınızla yakın bir şekilde çalışın. Bu, minimum genel giderlerle ML'ye hazır etiketli veriler üretirken sonuçta ortaya çıkan işlem hattınızın iş ihtiyaçlarını karşılamasını sağlayacaktır.
Açıklamalar
Girdilerin açıklamaları, verilerimize sihirli dokunuşu eklediğimiz yerdir—etiketler! Görev türünüze ve veri oluşturma sürecinize bağlı olarak, manuel ek açıklamalara ihtiyacınız olabilir veya kullanıma hazır otomatik yöntemler kullanabilirsiniz. Veri açıklama hattının kendisi teknik olarak zorlu bir görev olabilir. Ground Truth, teknik paydaşlarınız için bu yolculuğu kolaylaştırıyor. yaygın veri kaynakları için yerleşik etiketleme iş akışları repertuarı. Birkaç ek adımla, aynı zamanda özel etiketleme iş akışları önceden yapılandırılmış seçeneklerin ötesinde.
Uygun bir açıklama iş akışı geliştirirken kendinize aşağıdaki soruları sorun:
- Verilerim için manuel bir açıklama sürecine ihtiyacım var mı? Bazı durumlarda, eldeki görev için otomatik etiketleme hizmetleri yeterli olabilir. Belgeleri ve mevcut araçları gözden geçirmek, kullanım durumunuz için manuel açıklamanın gerekli olup olmadığını belirlemenize yardımcı olabilir (daha fazla bilgi için, bkz. Veri etiketleme nedir?). Veri oluşturma süreci, veri açıklamanızın ayrıntı düzeyiyle ilgili olarak değişen düzeylerde denetime izin verebilir. Bu işleme bağlı olarak, bazen manuel açıklama ihtiyacını da atlayabilirsiniz. Daha fazla bilgi için bkz. Hugging Face Soru-Cevap NLU modelini eğitmek için Amazon SageMaker Ground Truth'u kullanarak özel bir Soru-Cevap veri kümesi oluşturun.
- Temel gerçeğimi oluşturan nedir? Çoğu durumda, temel gerçek, açıklama sürecinizden gelecektir - bütün mesele bu! Diğerlerinde, kullanıcının kesin bilgiler etiketlerine erişimi olabilir. Bu, kalite güvence sürecinizi önemli ölçüde hızlandırabilir veya birden fazla manuel açıklama için gereken ek yükü azaltabilir.
- Temel gerçek durumumdan sapma miktarının üst sınırı nedir? Bu etiketlerin etrafındaki tipik hataları, bu tür hataların kaynaklarını ve istenen hatalardaki azalmayı anlamak için son kullanıcılarınızla birlikte çalışın. Bu, etiketleme görevinin hangi yönlerinin en zorlayıcı olduğunu veya açıklama hataları içermesi muhtemel olduğunu belirlemenize yardımcı olacaktır.
- Bu öğeleri etiketlemek için kullanıcılar veya saha uygulayıcıları tarafından kullanılan önceden var olan kurallar var mı? El ile açıklayıcılarınız için bir dizi talimat oluşturmak için bu yönergeleri kullanın ve iyileştirin.
Giriş açıklama sürecini yönlendirme
Giriş açıklama sürecini pilot olarak uygularken aşağıdakileri göz önünde bulundurun:
- Açıklama yapanlar ve saha uygulayıcıları ile birlikte talimatları gözden geçirin – Talimatlar kısa ve net olmalıdır. Kullanıcılarınızdan (Talimatlar doğru mu? Alan dışı uygulayıcılar tarafından anlaşılabilir olduğundan emin olmak için herhangi bir talimatı revize edebilir miyiz?) ve yorumculardan (Her şey anlaşılır mı? Görev açık mı?) geri bildirim isteyin. Mümkünse, açıklayıcılarınızın neyin beklendiğini ve yaygın etiketleme hatalarının nasıl görünebileceğini belirlemelerine yardımcı olmak için iyi ve kötü etiketlenmiş verilere bir örnek ekleyin.
- Ek açıklamalar için veri toplayın – Beklenen standartları karşıladığından emin olmak ve manuel ek açıklamadan beklenen sonuçlara göre hizalamak için verileri müşterinizle birlikte gözden geçirin.
- Test çalıştırması olarak manuel ek açıklama havuzunuza örnekler sağlayın – Bu örnek dizisindeki açıklayıcılar arasındaki tipik varyans nedir? Açıklayıcılar arasındaki tutarlılık eğilimlerini belirlemek için belirli bir görüntüdeki her bir açıklama için varyansı inceleyin. Ardından, hangi etiketlerin yerleştirilmesinin zor olduğunu belirlemek için görüntüler veya video kareleri arasındaki farklılıkları karşılaştırın.
Ek açıklamaların kalite kontrolü
Açıklama kalite kontrolünün iki ana bileşeni vardır: açıklayıcılar arasındaki tutarlılığın değerlendirilmesi ve açıklamaların kalitesinin değerlendirilmesi.
Aynı göreve birden fazla açıklayıcı atayabilir (örneğin, üç açıklayıcı aynı görüntüdeki kilit noktaları etiketler) ve ortalama değeri, bu etiketlerin açıklayıcılar arasında standart sapması ile birlikte ölçebilirsiniz. Bunu yapmak, talimatlarınızı hassaslaştırmak veya belirli açıklayıcılara daha fazla eğitim sağlamak gibi eyleme geçirilebilir sonuçlara rehberlik edebilecek aykırı değer ek açıklamalarını (yanlış etiket kullanılmış veya ortalama ek açıklamadan uzak etiket) belirlemenize yardımcı olur.
Ek açıklamaların kalitesinin değerlendirilmesi, açıklayıcı değişkenliğine ve (mümkün olduğunda) alan uzmanlarının veya kesin bilgi bilgilerinin mevcudiyetine bağlıdır. Açıklayıcılar arasındaki ortalama varyansın sürekli olarak yüksek olduğu belirli etiketler (tüm resimlerinizde) var mı? Herhangi bir etiket, nerede olmaları gerektiğine veya nasıl görünmeleri gerektiğine dair beklentilerinizden uzak mı?
Deneyimlerimize dayanarak, veri açıklaması için tipik bir kalite kontrol döngüsü şöyle görünebilir:
- Test çalıştırmasından elde edilen sonuçlara göre talimatları veya görüntü aşamasını yineleyin – Herhangi bir nesne engellendi mi veya görüntü hazırlama, yorumcuların veya kullanıcıların beklentilerine uymuyor mu? Talimatlar yanıltıcı mı, yoksa örnek resimlerinizde herhangi bir etiketi veya yaygın hataları mı gözden kaçırdınız? Ek açıklama oluşturucularınız için talimatları hassaslaştırabilir misiniz?
- Test çalışmasından herhangi bir sorunu çözdüğünüzden memnunsanız, toplu açıklamalar yapın – Partiden elde edilen sonuçları test etmek için, açıklayıcılar arası ve görüntüler arası etiket değişkenliklerini değerlendirmek için aynı kalite değerlendirme yaklaşımını izleyin.
Sonuç
Bu gönderi, iş paydaşlarının AI/ML uygulamaları için veri oluşturmanın karmaşıklığını anlamaları için bir kılavuz görevi görür. Tanımlanan süreçler aynı zamanda teknik pratisyenlere, personel ve maliyetler gibi iş kısıtlamalarını optimize ederken kaliteli veriler üretmeleri için bir rehber görevi görür. İyi yapılmazsa, veri oluşturma ve etiketleme ardışık düzeni 4-6 ay kadar sürebilir.
Bu gönderide özetlenen yönergeler ve önerilerle, engellerin önüne geçebilir, tamamlanma süresini kısaltabilir ve yüksek kaliteli veri oluşturma yolculuğunuzda maliyetleri en aza indirebilirsiniz.
yazarlar hakkında
Jasleen Grewal Amazon Web Services'de Uygulamalı Bilim Adamıdır ve burada AWS müşterileriyle birlikte çalışarak makine öğrenimini kullanarak gerçek dünyadaki sorunları hassas tıp ve genomik üzerine odaklanarak çözmektedir. Biyoinformatik, onkoloji ve klinik genomik alanlarında güçlü bir geçmişe sahiptir. Hasta bakımını iyileştirmek için AI/ML ve bulut hizmetlerini kullanma konusunda tutkulu.
Boris Aronçik Amazon Yapay Zeka Makine Öğrenimi Çözümleri Laboratuvarı'nda bir Yöneticidir ve burada AWS müşterilerinin yapay zeka/ML çözümlerinden yararlanarak iş hedeflerini gerçekleştirmesine yardımcı olmak için bir makine öğrenimi bilimcisi ve mühendis ekibine liderlik etmektedir.
Miguel Romero Calvo'nun fotoğrafı. Uygulamalı Bilim Adamıdır Amazon ML Çözümleri Laboratuvarı Burada, makine öğrenimi ve bulut benimseme yoluyla işlerini hızlandırmak için AWS'nin dahili ekipleri ve stratejik müşterileriyle iş birliği yapıyor.
Lin Lee Cheong Amazon Web Services'de Amazon ML Solutions Lab ekibinde Kıdemli Bilim Adamı ve Yöneticidir. Yeni içgörüler keşfetmek ve karmaşık sorunları çözmek için yapay zeka ve makine öğrenimini keşfetmek ve uygulamak için stratejik AWS müşterileriyle birlikte çalışır.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon ML Çözümleri Laboratuvarı
- Amazon Adaçayı Yapıcı
- Amazon SageMaker Yer Gerçeği
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- AWS Profesyonel Hizmetleri
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- makine öğrenme
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- zefirnet