“Duygu” yanlış soru – O’Reilly

0

6 Haziran’da Google mühendisi Blake Lemoine, Google’ın etkileyici büyük modeli LaMDA ile yaptığı bir dizi konuşmayı ifşa etmeme anlaşmasını ihlal ettiği için Google tarafından askıya alındı. Lemoine’nin LaMDA’nın “duyarlılık” kazandığı iddiası, neredeyse tüm AI uzmanları tarafından geniş çapta yayınlandı ve eleştirildi. Nando deFreitas’tan sadece iki hafta sonra, cıvıldamak DeepMind’in yeni Gato modelinde, yapay genel zekanın sadece bir ölçek meselesi olduğunu iddia etti. Ben uzmanlarla birlikteyim; Bence Lemoine kendi inanma isteğinden emindi ve DeFreitas’ın genel zeka konusunda yanıldığına inanıyorum. Ama aynı zamanda “duyarlılık” ve “genel zeka”nın da tartışmamız gereken konular olmadığını düşünüyorum.

En yeni nesil modeller, bazı insanları zeki olduklarına ve bu insanların kendilerini kandırıp kandırmadıklarına ikna edecek kadar iyidir. Bahsetmemiz gereken, bu modelleri inşa eden araştırmacıların halka karşı sorumluluğudur. Google’ın çalışanlarından bir Gizlilik Sözleşmesi imzalamasını isteme hakkını kabul ediyorum; ancak bir teknolojinin genel zeka gibi potansiyel olarak geniş kapsamlı etkileri olduğunda, onu gizli tutmakta haklılar mı? Veya soruya diğer yönden bakıldığında, bu teknolojinin gelişmesi, hiçbirinin garanti edilmediği durumlarda kamuoyunda yanlış anlama ve panik yaratacak mı?


Daha hızlı öğrenin. Daha derin kaz. daha fazla gör

OpenAI ve Facebook ile birlikte Google, AI’yı ileriye taşıyan üç büyük oyuncudan biridir. Bu üçü açıklığa karşı farklı tutumlar göstermiştir. Google, öncelikle akademik makaleler ve basın bültenleri aracılığıyla iletişim kurar; Başarılarının göze çarpan duyurularını görüyoruz, ancak modellerini gerçekten deneyen insan sayısı son derece az. OpenAI, API’lerine dayalı yeni ürünler oluşturmanın yanı sıra GPT-2 ve GPT-3 gibi modellerin test edilmesini sağlamasına rağmen oldukça benzerdir – GitHub Copilot sadece bir örnektir. Facebook, en büyük modeli olan OPT-175B’yi açık kaynak, birkaç küçük önceden oluşturulmuş model ve OPT-175B’nin nasıl eğitildiğini açıklayan kapsamlı bir not seti yaptı.

“Açıklığın” bu farklı versiyonlarına bilimsel yöntemin merceğinden bakmak istiyorum. (Ve bu araştırmanın bilim değil, gerçekten bir teknoloji meselesi olduğunun farkındayım.) Genel olarak, herhangi bir yeni bilimsel ilerlemeden üç şey istiyoruz:

  • Önceki sonuçları yeniden üretebilir. Bu kriterin bu bağlamda ne anlama geldiği açık değildir; Örneğin, bir yapay zekanın Keats’in şiirini yeniden üretmesini istemiyoruz. Daha yeni bir modelin en az eski bir model kadar iyi performans göstermesini istiyoruz.
  • Gelecekteki fenomenleri tahmin edebilir. Bunu öyle yorumluyorum ki (en azından) inandırıcı ve okunabilir yeni metinler üretebiliyorum. Birçok AI modelinin bunu yapabileceği açıktır.
  • Tekrarlanabilir. Başka biri aynı deneyi yapabilir ve aynı sonucu alabilir. Soğuk füzyon bu testte kötü bir şekilde başarısız oluyor. Peki ya büyük dil modelleri?

Boyutları nedeniyle, büyük dil modellerinin tekrarlanabilirlikle ilgili önemli bir sorunu vardır. OPT-175B’nin kaynak kodunu Facebook’tan indirebilirsiniz, ancak erişiminiz olan donanım konusunda kendiniz eğitemezsiniz. Üniversiteler ve diğer araştırma kurumları için bile çok büyük. Yine de Facebook’un söylediklerini yaptığı sözüne almalısınız.

Bu sadece AI için bir sorun değil. 1990’lardaki yazarlarımızdan biri, lisansüstü eğitimden Harvard’da profesörlüğe geçti ve burada büyük ölçekli dağıtılmış bilgi işlem üzerine araştırma yaptı. Görev süresinden birkaç yıl sonra, Google Research’e katılmak için Harvard’dan ayrıldı. Google’a geldikten kısa bir süre sonra, “herhangi bir üniversitede çalışabileceğimden daha büyük ve daha ilginç problemler üzerinde çalıştığını” yazdı. Bu önemli bir soruyu gündeme getiriyor: endüstriyel süreçlerin boyutuna ölçeklenemiyorsa akademik araştırma ne anlama gelebilir? Bu ölçekte araştırmayı kim tekrarlayabilecek? Bu yalnızca bir bilgisayar bilimi sorunu değildir; Yüksek enerjili fizikteki birçok yeni deney, yalnızca Büyük Hadron Çarpıştırıcısında (LHC) ulaşılabilen enerjileri gerektirir. Dünyada çoğaltılabilecekleri tek bir laboratuvar varken sonuçlara güveniyor muyuz?

Büyük dil modellerinde yaşadığımız problem tam olarak budur. OPT-175B, Harvard veya MIT’de çoğaltılamaz. Yeterli bilgi işlem kaynaklarına sahip olmalarına rağmen, muhtemelen Google ve OpenAI tarafından çoğaltılamaz. OPT-175B’nin Facebook altyapısına (özel donanım dahil) Google’ın altyapısında kopyalanamayacak kadar sıkı bir şekilde bağlı olduğuna bahse girerim. LaMDA, GPT-3 ve diğer çok büyük modeller için inşa edildikleri ortamın dışına çıkarırsanız, aynı şeyin geçerli olduğuna bahse girerim. Google, LaMDA’nın kaynak kodunu yayınlasaydı, Facebook bunu altyapısında çalıştırmakta sorun yaşardı. Aynısı GPT-3 için de geçerlidir.

Öyleyse: Önemli deneyleri yeniden üretmek için gereken altyapının yeniden üretilemediği bir dünyada “tekrarlanabilirlik” ne anlama gelebilir? Cevap, harici araştırmacılara ve ilk benimseyenlere kendi sorularını sormaları ve çok çeşitli sonuçları görmeleri için ücretsiz erişim sağlamaktır. Bu modeller yalnızca üzerine inşa edildikleri altyapı üzerinde çalışabildiklerinden, bu erişimin genel API’ler aracılığıyla olması gerekir.

Büyük dil modelleri tarafından üretilen birçok etkileyici metin örneği vardır. LaMDA’lar gördüklerimin en iyisi. Ancak bu örneklerin çoğunlukla zor seçildiğini de biliyoruz. Ve kesinlikle iyi seçilmiş birçok başarısızlık örneği var. Güvenli, kullanılabilir sistemler inşa edeceksek, başarıları alkışlamaktan ziyade başarısızlıkları (kiraz toplama veya toplama) not etmenin daha önemli olduğunu savunuyorum. Duyarlı ya da değil, kendi kendine giden bir araba kazasını, trafiğin yoğun olduğu saatlerde San Francisco sokaklarında güvenli bir şekilde gezinmesinden daha çok önemsiyoruz. Bu sadece bizim (duygusal) drama eğilimimiz değil; Kazaya karıştıysanız, bir kaza gününüzü mahvedebilir. Bir doğal dil modeli ırkçı sonuçlar üretmeyecek şekilde eğitildiğinde (ve bu hala bir araştırma konusudur), başarısızlıkları başarılarından daha ağır basar.

Bunu akılda tutarak, OpenAI, önce sınırlı bir ücretsiz deneme programı aracılığıyla ve şimdi müşterilerin API’ler aracılığıyla erişebileceği ticari bir ürün olarak başkalarının GPT-3’ü kullanmasına izin vermekte başarılı oldu. GPT-3’ün komplo teorilerini yayma (ya da sadece basit pazarlama) yeteneği konusunda haklı olarak endişe duysak da, en azından bu riskleri biliyoruz. GPT-3’ün ürettiği tüm faydalı çıktılar için (aldatıcı veya değil), hatalarını da gördük. GPT-3’ün duyarlı olduğunu kimse iddia etmez; Çıktının girdisinin bir fonksiyonu olduğunu ve belirli bir yöne yönlendirirseniz gittiği yön olduğunu anlıyoruz. GitHub Copilot (OpenAI Codex’ten oluşturulmuş, kendisi GPT-3’ten oluşturulmuş) ilk piyasaya sürüldüğünde, programcıların bunun sonucunda işlerini kaybedeceklerine dair birçok spekülasyon gördüm. Copilot’u gördüğümüze göre, sınırlamaları dahilinde bunun yararlı bir araç olduğunu ve iş kayıplarıyla ilgili tartışmaların kuruduğunu anlıyoruz.

Google, LaMDA için bu tür bir görünürlük sunmadı. Fikri mülkiyet, kötüye kullanım sorumluluğu veya halkın yapay zeka korkusunu körüklemesi ile ilgili olup olmadığı önemli değil. LaMDA ile halka açık bir deney olmadan, onun çıktılarına yönelik -korkulu ya da kendinden geçmiş olsun- tavrımız en azından gerçeklik kadar fanteziye de dayanmaktadır. Uygun güvenliğimiz olsun ya da olmasın, açık araştırma ve GPT-3 gibi sistemlerle oynama (ve hatta bunlardan ürünler üretme) yeteneğimiz, “derin sahtekarlıkların” sonuçlarından haberdar olmamızı sağladı. Bunlar gerçekçi korkular ve endişelerdir. LaMDA ile gerçekçi korku ve endişelere sahip olamayız. Sadece hayali olanlara sahip olabiliriz – ki bunlar daha da kötü olacak. Tekrarlanabilirliğin ve deneylerin sınırlı olduğu bir alanda, belki de yapabileceğimiz en iyi şey, yabancıların deney yapmasına izin vermektir.