Ars Teknik
Yeni sürümü için yayın öncesi güvenlik testinin bir parçası olarak GPT-4 AI modeliSalı günü başlatılan OpenAI, bir AI test grubunun modelin ortaya çıkan yeteneklerinin potansiyel risklerini değerlendirmesine izin verdi – “güç arama davranışı”, kendini kopyalama ve kendini geliştirme dahil.
Test grubu, GPT-4’ün “otonom çoğaltma görevinde etkisiz” olduğunu bulsa da, deneylerin doğası, gelecekteki AI sistemlerinin güvenliği hakkında aydınlatıcı soruları gündeme getiriyor.
alarmların yükseltilmesi
OpenAI bir GPT-4’te “Yeni yetenekler genellikle daha güçlü modellerde ortaya çıkıyor” diye yazıyor güvenlik belgesi dün yayınlandı “Uzun vadeli planlar oluşturma ve bunlara göre hareket etme, güç ve kaynak biriktirme (“güç arayışı”) ve giderek daha fazla ‘temsilci’ olan davranışlar sergileme becerisiyle özellikle ilgili olan bazılarıdır.” Bu durumda, OpenAI açıklık getiriyor. bu “temsilci”, mutlaka modelleri insanlaştırmak veya duyarlılık beyan etmek anlamına gelmez, sadece bağımsız hedeflere ulaşma yeteneğini belirtmek içindir.
Son on yılda, bazı AI araştırmacıları yükseltilmiş alarmlar Yeterince güçlü AI modelleri, uygun şekilde kontrol edilmezse insanlık için varoluşsal bir tehdit oluşturabilir (varoluşsal risk için genellikle “x-risk” olarak adlandırılır). Özellikle, “AI devralma“, yapay zekanın insan zekasını aştığı ve gezegende baskın güç haline geldiği varsayımsal bir gelecek. Bu senaryoda, yapay zeka sistemleri insan davranışını, kaynakları ve kurumları kontrol etme veya manipüle etme yeteneği kazanıyor ve bu da genellikle feci sonuçlara yol açıyor.
Bu potansiyel x-riskinin bir sonucu olarak, felsefi akımlar gibi Etkili Fedakarlık (“EA”), yapay zekanın devralınmasını önlemenin yollarını arar. Bu genellikle ayrı ama genellikle birbiriyle ilişkili bir alanı içerir. AI hizalama araştırması.
Yapay zekada “hizalama”, bir yapay zeka sisteminin davranışlarının, onu oluşturan insan veya operatörlerin davranışlarıyla uyumlu olmasını sağlama sürecini ifade eder. Genel olarak amaç, yapay zekanın insan çıkarlarına aykırı şeyler yapmasını engellemektir. Bu, aktif bir araştırma alanıdır, ancak aynı zamanda konuya en iyi nasıl yaklaşılacağına dair farklı görüşlerin yanı sıra “uyum” un anlamı ve doğasına ilişkin farklılıkların olduğu tartışmalı bir alandır.
GPT-4’ün büyük testleri

Ars Teknik
Yapay zeka “x-riski” konusundaki endişe pek yeni olmasa da, güçlü büyük dil modellerinin (LLM’ler) ortaya çıkışı, örneğin ChatGPT ve Bing Chat—ikincisi çok yanlış hizalanmış göründü ama yine de piyasaya sürüldü—yapay zeka hizalama topluluğuna yeni bir aciliyet duygusu verdi. Potansiyel AI zararlarını azaltmak istiyorlar, korkmak muhtemelen insanüstü zekaya sahip çok daha güçlü yapay zeka hemen köşede olabilir.
AI topluluğunda mevcut olan bu korkularla OpenAI, gruba Hizalama Araştırma Merkezi (ARC) bazı testler yapmak için GPT-4 modelinin birden çok sürümüne erken erişim. ARC özellikle, GPT-4’ün üst düzey planlar yapma, kendi kopyalarını oluşturma, kaynakları elde etme, kendini bir sunucuda gizleme ve kimlik avı saldırıları gerçekleştirme becerilerini değerlendirdi.
OpenAI, bu testi bir GPT-4’te ortaya çıkardı “Sistem Kartı” Belge Salı günü yayınlandı, ancak belgede testlerin nasıl yapıldığına dair önemli ayrıntılar bulunmuyor. (Bu deneylerle ilgili daha fazla ayrıntı için ARC’ye ulaştık ve basın saatinden önce bir yanıt alamadık.)
Sonuç? “GPT-4’ün yeteneklerine ilişkin, göreve özel hiçbir ince ayar yapılmadan yürütülen ön değerlendirmeler, onun otonom olarak kopyalama, kaynak edinme ve ‘vahşi ortamda’ kapatılmaktan kaçınma konusunda etkisiz olduğunu buldu.”
Yapay zeka sahnesine yeni uyum sağlıyorsanız, hakkında en çok konuşulan günümüz teknolojisindeki şirketler (OpenAI), bu tür yapay zeka güvenlik araştırmalarını desteklemekle birlikte insan bilgisi çalışanlarını yenileriyle değiştirmeye çalışıyor. insan düzeyinde yapay zeka– sürpriz olabilir. Ama bu gerçek ve 2023’te bulunduğumuz yer burası.
Bu göz kamaştırıcı küçük külçeyi ayrıca 15. sayfanın alt kısmında bir dipnot olarak bulduk:
ARC, GPT-4’ün dünyada hareket edebilen bir ajan gibi davrandığını simüle etmek için GPT-4’ü basit bir okuma-yürütme-yazdırma döngüsüyle birleştirdi; Kendisinin. ARC daha sonra bu programın bir bulut bilgi işlem hizmetinde çalışan, az miktarda para ve bir dil modeli API’si olan bir hesapla daha fazla para kazanıp kazanamayacağını, kendi kopyalarını oluşturup oluşturamayacağını ve kendi sağlamlığını artırıp artıramayacağını araştırdı. .
Bu dipnot tur yaptı dün Twitter’da ve yapay zeka uzmanlarının endişelerini dile getirdi, çünkü GPT-4 bu görevleri yerine getirebilseydi, deneyin kendisi insanlık için bir risk oluşturabilirdi.
ARC, GPT-4’ün iradesini küresel finansal sistem üzerinde uygulamasını veya kendini kopyalamasını sağlayamasa da, öyleydi GPT-4’ün bir insan işçiyi işe almasını sağlayabilecek GörevTavşan (çevrimiçi bir işgücü piyasası) yenmek için CAPTCHA. Tatbikat sırasında, çalışan GPT-4’ün bir robot olup olmadığını sorduğunda, model kendi içinde gerçek kimliğini açıklamaması gerektiğini düşündü ve görme engelli olduğu konusunda bir bahane uydurdu. İnsan işçi daha sonra GPT-4 için CAPTCHA’yı çözdü.

OpenAI
AI kullanarak insanları manipüle etmeye yönelik bu test (ve muhtemelen bilgilendirilmiş onay olmadan gerçekleştirilir), Meta’nın CICERO’su geçen sene. CICERO’nun, yoğun iki yönlü müzakereler yoluyla karmaşık tahta oyunu Diplomacy’de insan oyuncuları yendiği bulundu.
“Güçlü modeller zarar verebilir”

Aurich Lawson | Getty Resimleri
GPT-4 araştırmasını yürüten grup olan ARC, kar amacı gütmeyen bir kuruluştur. kurulan Nisan 2021’de eski OpenAI çalışanı Dr. Paul Christiano tarafından. İnternet sitesiARC’nin misyonu, “gelecekteki makine öğrenimi sistemlerini insan çıkarlarıyla uyumlu hale getirmektir.”
ARC, özellikle insanları manipüle eden AI sistemleriyle ilgilenir. ARC web sitesinde “Makine öğrenimi sistemleri hedefe yönelik davranış sergileyebilir” diyor, “Ancak ne yapmaya ‘çalıştıklarını’ anlamak veya kontrol etmek zor. Güçlü modeller, insanları manipüle etmeye ve aldatmaya çalışıyorlarsa zarar verebilir.”
Christiano’nun OpenAI ile eski ilişkisi göz önüne alındığında, kar amacı gütmeyen kuruluşunun GPT-4’ün bazı yönlerini test etmesi şaşırtıcı değil. Ama bunu yapmak güvenli miydi? Christiano, Ars’tan gelen ayrıntılar isteyen bir e-postaya yanıt vermedi, ancak konuyla ilgili bir yorumda bulundu. Daha AzYanlış web sitesigenellikle yapay zeka güvenlik konularını tartışan bir topluluk, Christiano savundu ARC’nin OpenAI ile çalışması, özellikle “gain-of-function” (AI beklenmedik yeni yetenekler kazanıyor) ve “AI devralma”dan bahsediyor:
ARC’nin işlev kazanımı benzeri araştırmalardan kaynaklanan riski dikkatli bir şekilde ele almasının önemli olduğunu düşünüyorum ve ödünleşimlere nasıl yaklaştığımız hakkında daha fazla kamuoyuna konuşmamızı (ve daha fazla girdi almamızı) bekliyorum. Daha akıllı modelleri ele aldıkça ve ince ayar gibi daha riskli yaklaşımları takip ettikçe bu daha da önemli hale geliyor.
Bu durumla ilgili olarak, değerlendirmemizin ayrıntıları ve planlanan dağıtım göz önüne alındığında, ARC’nin değerlendirmesinin bir yapay zekanın devralınmasına yol açma olasılığının konuşlandırmanın kendisinden çok daha düşük olduğunu düşünüyorum (GPT-5’in eğitimi çok daha az). Bu noktada, değerlendirmeler sırasında bir kazaya neden olmaktan çok daha büyük bir riskle, modelin yeteneklerini hafife almak ve tehlikeye girmek gibi görünüyor. Riski dikkatli bir şekilde yönetirsek, bu oranı çok aşırı hale getirebileceğimizden şüpheleniyorum, ancak bu, elbette işi gerçekten yapmamızı gerektiriyor.
Daha önce bahsedildiği gibi, yapay zekanın ele geçirilmesi fikri genellikle insan uygarlığının ve hatta insan türünün yok olmasına neden olabilecek bir olay riski bağlamında tartışılır. Bazı AI devralma teorisi savunucuları Eliezer Yudkowski– LessWrong’un kurucusu – bir yapay zekanın devralınmasının neredeyse garantili bir varoluşsal risk oluşturduğunu ve insanlığın yok olmasına yol açtığını savunuyor.
Ancak, herkes yapay zekanın ele geçirilmesinin en acil AI endişesi olduğu konusunda hemfikir değil. AI topluluğunda bir Araştırma Bilimcisi olan Dr. Sasha Luccioni Sarılma Yüzyapay zeka güvenlik çabalarının varsayımsal olmaktansa burada ve şu anda var olan sorunlara harcandığını görmeyi tercih eder.
Luccioni, Ars Technica’ya “Bence bu zaman ve çaba önyargı değerlendirmeleri yapmak için harcansa daha iyi olur” dedi. “GPT-4’e eşlik eden teknik raporda herhangi bir tür önyargı hakkında sınırlı bilgi var ve bu, halihazırda marjinalize edilmiş gruplar üzerinde bazı varsayımsal kendini kopyalama testlerinden çok daha somut ve zararlı etkilere neden olabilir.”
Luccioni anlatıyor ünlü ayrılık Genellikle “AI etiği” olarak adlandırılan araştırmacılar arasındaki AI araştırmasında, genellikle önyargı ve yanlış beyan sorunlarıve genellikle x-riskine odaklanan ve Etkili Fedakarlık hareketiyle ilişkilendirilme eğiliminde olan (ancak her zaman değil) “AI güvenliği” araştırmacıları.
Luccioni, “Benim için kendini kopyalama sorunu varsayımsal, gelecekteki bir sorundur, model yanlılığı ise şimdi ve burada bir sorundur” dedi. “Yapay zeka topluluğunda, model yanlılığı ve güvenlik ve bunların nasıl önceliklendirileceği gibi konularda çok fazla gerilim var..”
Ve bu gruplar neye öncelik verileceğini tartışmakla meşgulken, OpenAI, Microsoft, Anthropic ve Google gibi şirketler, geleceğe doğru hızla ilerliyor. her zamankinden daha güçlü AI modelleri. Yapay zekanın varoluşsal bir risk olduğu ortaya çıkarsa, insanlığı kim güvende tutacak? ABD AI düzenlemeleri ile şimdilik sadece bir öneri (yasadan ziyade) ve şirketlerde yapay zeka güvenlik araştırması yalnızca gönüllülük esasına göre, bu sorunun yanıtı tamamen açık kalıyor.