Amazon Mechanical Turk gibi kitle kaynak hizmetleri aracılığıyla işe alınan çalışanlar, görevlerini tamamlamak için büyük dil modelleri kullanıyor ve bu da gelecekte yapay zeka modelleri üzerinde olumsuz etkilere neden olabilir.
Veriler yapay zeka için kritik öneme sahiptir. Geliştiriciler, doğru ve güvenilir makine öğrenimi sistemleri oluşturmak için temiz, yüksek kaliteli veri kümelerine ihtiyaç duyar. Bununla birlikte, değerli, birinci sınıf verileri derlemek sıkıcı olabilir. Şirketler, ucuz işçi havuzlarına nesneleri etiketleme, durumları açıklama, pasajları yazıya dökme ve metne açıklama ekleme gibi tekrar eden görevleri yerine getirme talimatı vermek için genellikle Amazon Mechanical Turk gibi üçüncü taraf platformlara başvurur.
Çıktıları temizlenebilir ve bu işi çok daha büyük, otomatikleştirilmiş bir ölçekte yeniden üretmesi için onu eğitmek üzere bir modele beslenebilir.
Dolayısıyla yapay zeka modelleri, insan emeğinin sırtına inşa edilmiştir: insanların çabalaması, şirketlerin milyarlarca dolar kazanmak için kullanabileceği yapay zeka sistemleri için dağlar kadar eğitim örneği sağlar.
Ancak İsviçre'deki École polytechnique fédérale de Lausanne'deki (EPFL) araştırmacılar tarafından yürütülen bir deney, bu kitle kaynaklı çalışanların çevrimiçi olarak tuhaf işler yapmak için OpenAI'nin sohbet robotu ChatGPT gibi yapay zeka sistemlerini kullandıkları sonucuna vardı.
Bir modeli kendi çıktısına göre eğitmek önerilmez. Yapay zeka modellerinin insanlar tarafından değil, diğer yapay zeka modelleri tarafından, hatta belki de aynı modeller tarafından oluşturulan veriler üzerinde eğitildiğini görebiliriz. Bu, feci çıktı kalitesine, daha fazla önyargıya ve diğer istenmeyen etkilere yol açabilir.
Deney
Akademisyenler, 44 tıbbi araştırma makalesinin özetlerini özetlemek için 16 Mechanical Turk serfini görevlendirdi ve işçiler tarafından gönderilen metin bölümlerinin yüzde 33 ila 46'sının büyük dil modelleri kullanılarak oluşturulduğunu tahmin etti. Kalabalık işçilere genellikle düşük ücretler ödenir - yanıtları otomatik olarak oluşturmak için yapay zekayı kullanmak, daha hızlı çalışmalarına ve maaşı artırmak için daha fazla iş almalarına olanak tanır.
İsviçreli ekip, Türkerlerden gelen sunumların insan tarafından mı yoksa yapay zeka tarafından mı üretildiğini tahmin etmesi için bir sınıflandırıcı eğitti. Akademisyenler ayrıca serflerin metinleri platforma kopyalayıp yapıştırdıklarını veya girişlerini kendilerinin yazıp yazmadıklarını tespit etmek için çalışanlarının tuş vuruşlarını da kaydetti. Her zaman birisinin bir sohbet robotu kullanması ve ardından çıktıyı manuel olarak yazması olasılığı vardır - ancak bunun pek olası olmadığını düşünüyoruz.
Manoel Ribeiro, "Senaryomuzdaki sentetik metni algılamak için çok iyi çalışan çok özel bir metodoloji geliştirdik" diyor. Çalışmanın ve EPFL'de bir doktora öğrencisi, anlattı Kayıt bu hafta.
"Geleneksel yöntemler yapay metni 'herhangi bir bağlamda' algılamaya çalışırken, yaklaşımımız özel senaryomuzdaki yapay metni algılamaya odaklanıyor."
Sınıflandırıcı, birinin yapay zeka sistemi kullanıp kullanmadığını veya kendi işini üretip üretmediğini belirlemede mükemmel değildir. Akademisyenler, birisi bir bottan kopyala-yapıştır yaptığında veya kendi materyalini ürettiğinde daha kesin olmak için sınıflandırıcılarının çıktısını tuş vuruşu verileriyle birleştirdi.
İnsan verileri altın standarttır, çünkü önemsediğimiz insanlardır.
Ribeiro, "MTurk'ten de topladığımız tuş vuruşu verilerini kullanarak sonuçlarımızı doğrulamayı başardık" dedi. "Örneğin, kopyala-yapıştır yapılmayan tüm metinlerin tarafımızca 'gerçek' olarak sınıflandırıldığını gördük, bu da çok az yanlış pozitif olduğunu gösteriyor."
Testi çalıştırmak için kullanılan kod ve veriler burada bulabilirsiniz, GitHub'da.
Deneyin, kitle kaynak görevlerini otomatikleştirmek için gerçekten yapay zekayı kullanan kaç işçinin tamamen adil bir temsili olma ihtimalinin düşük olmasının başka bir nedeni daha var. Yazarlar, metin özetleme görevinin diğer iş türlerine kıyasla büyük dil modelleri için çok uygun olduğunu belirtiyor; bu, sonuçlarının ChatGPT gibi araçları kullanan daha fazla sayıda çalışana doğru daha çarpık olabileceği anlamına geliyor.
46 çalışandan alınan 44 yanıttan oluşan veri kümeleri de küçüktür. İşçilere her metin özeti için 1 dolar ödendi, bu da yine yalnızca yapay zeka kullanımını teşvik edebilir.
Araştırmacılar, kalabalık kaynak platformlarından toplanan yapay zeka tarafından oluşturulan sahte içerik konusunda giderek daha fazla eğitilirlerse, büyük dil modellerinin daha da kötüleşeceğini savundu. OpenAI gibi ekipler, en son modellerini tam olarak nasıl eğittiklerini çok yakın bir sır olarak saklıyorlar ve Mechanical Turk gibi şeylere çok fazla güvenmeyebilirler, hatta hiç. Bununla birlikte, diğer pek çok model insan işçilere güvenebilir ve bu da eğitim verilerini oluşturmak için botları kullanabilir ki bu bir sorundur.
Örneğin Mechanical Turk, "makine öğrenme modellerini güçlendirmek için veri etiketleme çözümleri" sağlayıcısı olarak pazarlanmaktadır.
Riberio, "İnsan verileri altın standarttır, çünkü bizim umursadığımız büyük dil modelleri değil, insanlardır" dedi. Örnek olarak "Yalnızca Drosophila biyolojik modelinde test edilmiş bir ilacı almazdım" dedi.
Araştırmacılar, günümüzün AI modellerinin ürettiği yanıtların genellikle oldukça yumuşak veya önemsiz olduğunu ve insan yaratıcılığının karmaşıklığını ve çeşitliliğini yakalamadığını savundu.
Makalenin ortak yazarı ve EPFL'nin bilgisayar ve iletişim bilimleri okulunda yardımcı doçent olan Robert West, "Bazen kitle kaynaklı verilerle çalışmak istediğimiz şey, tam olarak insanların kusurlu olduğu durumlardır" dedi.
AI gelişmeye devam ettikçe, kitle kaynaklı çalışmanın değişmesi muhtemeldir. Riberio, büyük dil modellerinin belirli görevlerde bazı çalışanların yerini alabileceğini tahmin etti. "Ancak, paradoksal olarak, insan verileri her zamankinden daha değerli olabilir ve bu nedenle bu platformlar, büyük dil modeli kullanımını önlemenin yollarını uygulayabilir ve insan verilerinin kaynağı olarak kalmasını sağlayabilir."
Kim bilir - belki de insanlar yanıt üretmek için büyük dil modelleriyle işbirliği yapabilirler, diye ekledi. ®
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- EVM Finans. Merkezi Olmayan Finans için Birleşik Arayüz. Buradan Erişin.
- Kuantum Medya Grubu. IR/PR Güçlendirilmiş. Buradan Erişin.
- PlatoAiStream. Web3 Veri Zekası. Bilgi Genişletildi. Buradan Erişin.
- Kaynak: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :vardır
- :dır-dir
- :olumsuzluk
- $UP
- 16
- 7
- a
- Yapabilmek
- Hakkımızda
- özetler
- akademisyenler
- doğru
- katma
- tekrar
- AI
- Türkiye
- veriyor
- Ayrıca
- her zaman
- Amazon
- an
- ve
- Başka
- herhangi
- yaklaşım
- ARE
- savundu
- yapay
- yapay zeka
- AS
- Asistan
- At
- Yazarlar
- otomatikleştirmek
- Otomatik
- otomatik olarak
- uzakta
- BE
- Çünkü
- olmak
- önyargı
- milyarlarca
- mülayim
- Bot
- botlar
- inşa etmek
- yapılı
- fakat
- by
- CAN
- ele geçirmek
- hangi
- belli
- şans
- değişiklik
- chatbot
- ChatGPT
- ucuz
- sınıflandırılmış
- Kapanış
- CO
- Ortak Yazar
- kod
- işbirliği
- kombine
- Yakın İletişim
- Şirketler
- karşılaştırıldığında
- tamamlamak
- tamamen
- karmaşıklık
- bilgisayar
- sonucuna
- yürütülen
- içerik
- bağlam
- devam ediyor
- Kurumlar
- olabilir
- yaratıcılık
- kritik
- kalabalık
- veri
- veri kümeleri
- gelişmiş
- geliştiriciler
- feci
- Çeşitlilik
- do
- dolar
- her
- etkileri
- teşvik etmek
- son
- sağlamak
- tahmini
- Hatta
- hİÇ
- kesinlikle
- örnek
- örnekler
- deneme
- adil
- sahte
- yanlış
- Daha hızlı
- Fed
- az
- odaklanmış
- İçin
- bulundu
- itibaren
- gelecek
- oluşturmak
- oluşturulan
- almak
- GitHub
- Altın
- Gold Standard
- Var
- he
- ağır şekilde
- Yüksek kaliteli
- daha yüksek
- Ne kadar
- Ancak
- HTTPS
- insan
- İnsanlar
- i
- belirlenmesi
- if
- uygulamak
- iyileştirmek
- in
- Artırmak
- giderek
- İstihbarat
- içine
- degil
- IT
- ONUN
- Mesleki Öğretiler
- jpg
- tutmak
- etiketleme
- emek
- dil
- büyük
- büyük
- son
- öncülük etmek
- öğrenme
- sevmek
- Muhtemelen
- giriş
- Düşük
- makine
- makine öğrenme
- yapmak
- yönetilen
- el ile
- çok
- malzeme
- Mayıs..
- anlam
- mekanik
- tıbbi
- tıbbi araştırma
- tıp
- metodoloji
- yöntemleri
- olabilir
- model
- modelleri
- Daha
- çok
- gerek
- negatif
- numara
- nesneler
- of
- sık sık
- on
- ONE
- Online
- bir tek
- OpenAI
- or
- Diğer
- bizim
- çıktı
- kendi
- ödenmiş
- kâğıt
- kâğıtlar
- Parti
- İnsanlar
- yüzde
- MÜKEMMEL OLAN YERİ BULUN
- Yapmak
- belki
- platform
- Platformlar
- Platon
- Plato Veri Zekası
- PlatoVeri
- Bol bol
- Havuzları
- güç kelimesini seçerim
- Değerli
- tam
- tahmin
- önlemek
- Sorun
- Üretilmiş
- profesör
- sağlayan
- sağlama
- kalite
- gerçek
- Gerçekten mi
- neden
- Tavsiye edilen
- güvenilir
- güvenmek
- kalıntılar
- tekrarlayan
- değiştirmek
- temsil
- araştırma
- Araştırmacılar
- yanıtları
- Sonuçlar
- ROBERT
- koşmak
- s
- Adı geçen
- aynı
- ölçek
- senaryo
- Okul
- Bilim
- Gizli
- görmek
- Hizmetler
- durumlar
- küçük
- Çözümler
- biraz
- Birisi
- Kaynak
- özel
- standart
- Öğrenci
- Ders çalışma
- Gönderimler
- gönderilen
- böyle
- Önerdi
- özetlemek
- ÖZET
- İsviçre
- isviçre
- sentetik
- sistem
- Sistemler
- Bizi daha iyi tanımak için
- Görev
- görevleri
- takım
- test
- test edilmiş
- göre
- o
- The
- Gelecek
- ve bazı Asya
- Onları
- kendilerini
- sonra
- Orada.
- Bunlar
- onlar
- işler
- Üçüncü
- Re-Tweet
- Bu hafta
- için
- bugün
- çok
- araçlar
- karşı
- geleneksel
- Tren
- eğitilmiş
- Eğitim
- denemek
- DÖNÜŞ
- türleri
- olası
- istenmeyen
- us
- kullanım
- kullanım
- Kullanılmış
- kullanım
- kullanma
- genellikle
- DOĞRULA
- Değerli
- çok
- üzerinden
- ücret
- istemek
- oldu
- yolları
- we
- hafta
- İYİ
- vardı
- Batısında
- Ne
- ne zaman
- olup olmadığını
- hangi
- süre
- irade
- ile
- İş
- işlenmiş
- işçiler
- kötü
- zefirnet