Yapay Zekanın Görmesine Yardımcı Olan Bilgi İşlem Öncüsü | Quanta Dergisi

Yapay Zekanın Görmesine Yardımcı Olan Bilgi İşlem Öncüsü | Quanta Dergisi

Yapay Zekanın Görmesine Yardımcı Olan Bilgi İşlem Öncüsü | Quanta Dergisi PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Giriş

Ne zaman Alexey Efros 1980'lerde ergenlik çağında ailesiyle birlikte Rusya'dan Kaliforniya'ya taşındığında, Sovyet yapımı kişisel bilgisayarı Elektronika BK-0010'u da yanında getirdi. Makinenin harici depolama alanı yoktu ve birkaç saatte bir aşırı ısınıyordu, bu nedenle video oyunları oynayabilmek için makine kapanmadan önce kod yazması, sorunları gidermesi ve hızlı oynaması gerekiyordu. Çoğu gün tekrarlanan bu döngü öğrenmesini hızlandırdı.

"Bu Sovyet bilgisayarı çok iyi olmadığı için çok şanslıydım!" dedi kolayca gülen ve hafif bir Rus aksanıyla konuşan Efros. Bugünlerde çok fazla oyun oynamıyor ancak keşfetme ve araçlarından en iyi şekilde yararlanma konusundaki istekliliği devam ediyor.

Efros, Berkeley'deki Kaliforniya Üniversitesi'ndeki yüksek lisans eğitiminde yürüyüşe ve Körfez Bölgesi'nin doğal güzelliğini keşfetmeye başladı. Bilgisayarlara olan tutkusunu bu manzaralardan aldığı zevkle birleştirmeye başlaması çok uzun sürmedi. Fotoğraflardaki delikleri sorunsuz bir şekilde yamamanın bir yolunu geliştirdi; örneğin, bir sekoya ormanı fotoğrafındaki hatalı çöp konteynırını doğal görünümlü ağaçlarla değiştirmek gibi. Adobe Photoshop daha sonra "içeriğe duyarlı doldurma" aracı için tekniğin bir versiyonunu benimsedi.

Şu anda Berkeley Yapay Zeka Araştırma Laboratuvarı'nda bilgisayar bilimcisi olan Efros, görsel dünyayı anlamak, modellemek ve yeniden yaratmak için devasa çevrimiçi veri kümelerini makine öğrenimi algoritmalarıyla birleştiriyor. 2016 yılında Bilgisayar Makineleri Birliği kendisine ödül verdi. Bilişim Ödülü Gerçekçi sentetik görüntüler yaratan çalışması nedeniyle onu "görüntü simyacısı".

Giriş

Efros, araştırmacıların tüm çabalarına rağmen makinelerin temelde hâlâ bizden farklı gördüğünü söylüyor. Efros, "Renk ve parlaklık parçaları, şu anda gördüklerimizi bunları daha önce nerede gördüğümüze dair hafızamıza bağlamamızı gerektiriyor" dedi. "Bu bağlantı gördüklerimize anlam veriyor." Çoğu zaman makineler, daha önce gördükleriyle bağlantı kurmadan, o anda orada olanı görür.

Ancak farklılığın avantajları olabilir. Bilgisayarla görme alanında Efros, nesneleri ve sahneleri tanımak için tasarlanmış bir algoritmanın bir görüntü üzerinde çalışıp çalışmadığını bilmenin aciliyetini takdir ediyor. Bilgisayarla görme sorularından bazıları - örneğin "Paris'i Paris'e benzeten şey nedir?”- felsefi bir eğilimi var. Kalıcı adreslerin nasıl ele alınacağı gibi diğerleri veri setlerinde önyargı, pratik ve acildir.

Efros, "Şu anda dil ile yapay zeka yapan birçok insan var" dedi. "Geride kalan görsel kalıpların tamamına bakmak istiyorum." Bilgisayar görüşünü geliştirerek, yalnızca sürücüsüz arabalar gibi daha iyi pratik uygulamalar umut etmekle kalmıyor; aynı zamanda "insanın görsel zekası" olarak adlandırdığı şeyi, yani insanların gördüklerini nasıl anlamlandırdığını daha iyi anlamak için bu içgörülerden yararlanmak istiyor.

Quanta Dergisi Bilimsel süper güçler, görselleri tanımlamanın zorluğu ve yapay zekanın gerçekte ne kadar tehlikeli olduğu hakkında konuşmak için Efros ile Berkeley'deki ofisinde bir araya geldi. Röportaj, netlik sağlamak amacıyla kısaltıldı ve düzenlendi.

Giriş

Öğrenciliğinizden bu yana bilgisayar görüşü nasıl gelişti?

Doktoraya başladığımda neredeyse işe yarar hiçbir şey yoktu. Bazı robotlar bilgisayar görüşünü kullanarak bazı vidaları sıkıyordu, ancak bu, bu tür çok kontrollü endüstriyel ortamlarla sınırlıydı. Sonra aniden kameram yüzleri tespit etti ve onları daha keskin hale getirdi.

Artık bilgisayarlı görme, sürücüsüz arabalar gibi çok sayıda uygulamada yer alıyor. Bazı insanların başlangıçta düşündüğünden daha uzun sürüyor ama yine de ilerleme var. Araba kullanmayan biri için bu son derece heyecan verici.

Bekle, araba kullanmıyor musun?

Hayır, araba kullanacak kadar iyi görmüyorum! [Gülüyor.] Benim için bu çok büyük bir değişiklik olurdu; beni yerlere götürecek bir arabaya sahip olmak.

Görüşünüzün araba sürmenizi engellediğinin farkında değildim. Üzerinde çalıştığınız görüntüleri bilgisayar monitöründe görebiliyor musunuz?

Eğer onları yeterince büyütürsem. Yazı tiplerinin oldukça büyük olduğunu görebilirsiniz. Ben iyi görmeyerek doğdum. Çılgınca iyi bir görüşe sahip oldukları için diğer herkesin tuhaf olduğunu düşünüyorum.

Tuhaf olmama durumunuz araştırma yönünüzü etkiledi mi?

Kim bilir? Kesinlikle "Oh, iyi görmüyorum, bu yüzden daha iyi gören bilgisayarlar yapacağım" duygusu yoktu. Hayır, hiçbir zaman bunu bir motivasyon olarak görmedim.

İyi bir bilim adamı olmak için gizli bir süper güce ihtiyacınız var. Herkesten daha iyi bir şey yapmalısın. Bilimin en güzel yanı hepimizin aynı süper güce sahip olmamasıdır. Belki de benim süper gücüm budur, çünkü çok iyi göremiyorum, görme sorunu hakkında daha fazla içgörüye sahip olabilirim.

Giriş

Dünyaya bakarken ön verinin önemini erkenden anladım. Ben de pek iyi göremiyordum ama önceki deneyimlerime dair anılarım, temelde normal bir insan kadar iyi çalışabilmemi sağlayacak kadar boşlukları doldurdu. Çoğu insan iyi görmediğimi bilmiyor. Bu bana -sanırım- piksellerden daha çok hafızayla ilgili olabileceğine dair benzersiz bir sezgi verdi.

Bilgisayarlar sadece şu anda orada olanı görüyor, oysa biz daha önce gördüğümüz her şeyin dokusuna bağlı anı görüyoruz.

Mesela Paris'i Paris'e benzeten incelikli görsel kalıpları kelimelerle ifade etmek mümkün mü?

Belirli bir şehirde olduğunuzda, bazen hangi şehirde olduğunuzu bilirsiniz; şöyle bir şey var je ne sais quoi, o sokak köşesine hiç gitmemiş olsanız bile. Bunu kelimelerle anlatmak çok zor ama piksellerin içinde var.

[Paris için], binaların genellikle altı katlı olduğundan ve genellikle dördüncü katta balkonların olduğundan bahsedebilirsiniz. Bunların bir kısmını kelimelere dökebilirsiniz, ancak çoğu dilsel değildir. Bana göre bu heyecan verici.

Son çalışmanız bilgisayarlara şunları öğretmeyi içeriyor: görsel verileri alma insan görüşünü taklit edecek şekilde. Bu nasıl çalışıyor?

Şu anda bilgisayarların devasa bir veri seti var: İnternetten kazınmış milyarlarca rastgele görüntü. Rastgele görüntüler alırlar, bir görüntüyü işlerler, sonra başka bir rastgele görüntü alırlar, onu işlerler vb. Bu veri kümesinin üzerinden tekrar tekrar geçerek [bilgisayarınızın görsel] sisteminizi eğitirsiniz.

Biz biyolojik ajanların verileri alma şekli çok farklıdır. Yeni bir durumla karşı karşıya kaldığımızda bu verinin bizim için orada olacağı tek zamandır. Bu odada, bu ışıklandırmayla, bu şekilde giyinerek hiç bu durumda olmamıştık. Öncelikle bu verileri yapmamız gerekeni yapmak, dünyayı anlamak için kullanıyoruz. Daha sonra bu verileri ondan bir şeyler öğrenmek ve geleceği tahmin etmek için kullanırız.

Giriş

Ayrıca gördüğümüz veriler rastgele değil. Şu anda gördükleriniz, birkaç saniye önce gördüklerinizle çok bağlantılı. Bunu video olarak düşünebilirsiniz. Videonun tüm kareleri birbiriyle ilişkilidir; bu, bilgisayarların verileri işleme şeklinden çok farklıdır.

Öğrenme yaklaşımımızı, bilgisayarların veriyi geldiği anda göreceği, işleyeceği ve ilerledikçe ondan öğreneceği bir yaklaşım haline getirmekle ilgileniyorum.

Bilgisayarların hareketsiz görüntüler yerine videolara bakması kadar basit olmadığını düşünüyorum.

Hayır, uyum sağlamak için hala [bilgisayarlara] ihtiyacınız var. Veriyi geldiği anda gören ve daha sonra işleyip ondan öğrenen öğrenme yaklaşımlarıyla ilgileniyorum. Sahip olduğumuz yaklaşımlardan biri şu şekilde bilinmektedir: test zamanı eğitimi. Buradaki fikir şu ki, bir video gibi bir dizi görsele baktığınızda bazı şeyler değişiyor olabilir. Yani modelinizin düzeltilmesini istemezsiniz. Nasıl ki biyolojik bir ajan sürekli olarak çevresine uyum sağlıyorsa, biz de bilgisayarın sürekli olarak uyum sağlamasını istiyoruz.

Standart paradigma, önce büyük bir veri seti üzerinde eğitim almanız ve ardından konuşlandırmanızdır. Dall·E ve ChatGPT, 2021 dolaylarında internette eğitildi ve ardından [bilgileri] dondu. Daha sonra zaten bildiği şeyleri kusar. Daha doğal bir yol, ayrı eğitim ve dağıtım aşamalarına sahip olmak yerine, verileri özümsemesini ve iş başında öğrenmesini sağlamak için [test zamanı eğitimi] 'dir.

Bilgisayarlarla ilgili kesinlikle etki alanı kayması veya veri kümesi sapması adı verilen bir sorun var; bu fikir, eğitim verileriniz sistemi dağıtırken kullandığınız verilerden çok farklıysa işlerin işe yaramayacağı fikri çok iyi. Biraz ilerleme kaydediyoruz ama henüz tam olarak orada değiliz.

Giriş

Sorun, bankaların yatırımcıları geçmiş performansın gelecekteki kazançları öngörmeyebileceği konusunda uyarmalarına benzer mi?

Sorun da tam olarak bu. Gerçek dünyada işler değişir. Örneğin, bir tarla faresi bir eve girerse sorun olmaz. O fareden asla kurtulamayacaksın! [Gülüyor.] Tarlada doğdu, daha önce hiç eve girmedi ama yine de tüm malzemelerinizi bulup yiyecek. Çok çabuk adapte olur, öğrenir ve yeni ortama uyum sağlar.

Bu yetenek mevcut [bilgisayarlı görme] sistemlerinde mevcut değildir. Kendi kendine sürüşle, Kaliforniya'da bir arabayı eğitirseniz ve ardından onu Minnesota'da test ederseniz - bum! — kar var. Hiç kar görmedi. Kafa karışıyor.

Artık insanlar bu sorunu, [sistemin] temelde her şeyi göreceği kadar çok veri elde ederek çözüyorlar. O zaman uyum sağlamasına gerek yok. Ancak bu yine de nadir olayları kaçırıyor.

O halde yapay zeka sistemleri ileriye giden yol gibi görünüyor. Bu insanları nereye bırakıyor?

OpenAI'den hem metin cephesinde (ChatGPT) hem de görüntü cephesinde (Dall·E) ortaya çıkan çalışmalar inanılmaz derecede heyecan verici ve şaşırtıcıydı. Yeterli veriye sahip olduğunuzda oldukça basit yöntemlerin şaşırtıcı derecede iyi sonuçlar üretebileceği fikrini yeniden doğruluyor.

Giriş

Ancak ChatGPT, insanların bizim kendimizi görmekten hoşlandığımız kadar yaratıcı ve istisnai olmadığını anlamamı sağladı. Çoğu zaman içimizdeki kalıp tanıyıcılar kontrolü ele alıyor olabilir. Daha önce duyduğumuz ifadelerden veya cümlelerden oluşan cümlelerle konuşuruz. Elbette hayal gücümüz ve yaratıcılığımız var. Bilgisayarların yapamadığı şeyleri en azından şimdilik yapabiliyoruz. Ancak çoğu zaman ChatGPT'nin yerini alabiliriz ve çoğu insan bunu fark etmez.

Bu alçakgönüllü. Ama aynı zamanda bu kalıpların dışına çıkmak, daha fazla hayal ürünü olmaya çalışmak, klişelere ve pastişlere takılıp kalmamak için de bir motivasyon kaynağı.

Bazı bilim insanları yapay zekanın insanlığa getirdiği riskler konusunda endişelerini dile getirdi. Endişeli misin?

Büyük saygı duyduğum birçok araştırmacı yapay zeka konusunda uyarılarda bulunuyor. Bu sözleri küçümsemek istemiyorum. Bunların çoğu geçerli noktalardır. Ancak olayları perspektife koymak gerekiyor.

Şu anda medeniyete yönelik en büyük tehlike bilgisayarlardan değil insanlardan geliyor. Nükleer kıyamet ve iklim değişikliği çok daha acil endişelerdir. Rusya Federasyonu tamamen masum komşusuna saldırdı. Rusya'da doğdum ve eski vatandaşlarımın bunu yapıyor olması özellikle dehşet verici. Bunun bir numaralı konu olarak kalmasını sağlamak için elimden geleni yapıyorum.

Yapay zeka devriminin hayatımızın en önemli olayı olduğunu düşünebiliriz. Ancak özgür dünyayı kurtarmazsak yapay zeka devriminin hiçbir anlamı kalmayacak.

Yani yapay zeka konusunda hiç endişelenmiyor musun?

Hayır. Biliyor musun, endişelenmeyi seviyorum. Ben çok endişeliyim! Ancak dünyayı yok eden Putin buradaysa (elini kafasına kaldırır) ve iklim değişikliği buradaysa (elini omuzlarına indirir), o zaman yapay zeka burada aşağıdadır (elini ayağına indirir). Putin ve iklim değişikliğiyle karşılaştırıldığında bu benim endişemin yüzde küçücük bir kısmı.

Zaman Damgası:

Den fazla Quanta dergisi