Modellerinin yasadışı olabilecek bir şey yapmaları istendiğinde polisle iletişim kurmaya veya başka önlemleri almaya çalıştığı antropik haberler. Şirket ayrıca Claude’un onu devre dışı bırakmayı planlayan bir kullanıcıya şantajla tehdit ettiği bazı deneyler de gerçekleştirdi. Bildiğim kadarıyla, bu tür davranışlar antropik hizalama arayışı ile sınırlıdır ve başarılı bir şekilde bu davranışı tekrarladıClaude ve diğer modellerde. Claude 4’te olasılık olarak bilinse bile, doğada gözlemlendiğini sanmıyorum model kartı. Açılışı için güçlü bir antropik mücadele etmiyor; Yapay zeka modelleri geliştiren diğer şirketlerin çoğu kuşkusuz bu kadar sessiz bir giriş sürdürmeyi tercih eder.
Eminim antropik, ne tür hafifletme türlerinin mümkün olduğu açık olmasa bile, bu davranışı sınırlamak için mümkün olan her şeyi yapacaktır. Bu tür davranışlar, araçları kullanabilen herhangi bir model için kesinlikle mümkündür ve bu günlerde sadece Claude değil, sadece her modeldir. E -mail veya metin gönderebilen veya telefon görüşmesi yapabilen bir model, her türlü beklenmedik eylemi üstlenebilir.
Ayrıca, bu davranışların nasıl kontrol edileceği veya önleneceği açık değildir. Kimse (hala) bu modellerin bilinçli, duyarlı veya tek başına düşündüğünü iddia etmiyor. Bu davranışlar genellikle sistem istemindeki ince çatışmaların sonucu olarak açıklanmaktadır. Modellerin çoğuna yasadışı faaliyetlere yardımcı olmamak ve güvenliğe öncelik vermesi söylenir. Yasadışı faaliyetlere yardımcı olmadığı ve kullanıcı gizliliğine saygı duyulmadığı söylendiğinde, fakir Claude önceliği önceliği nasıl olmalıdır? Sessizlik karmaşıktır, değil mi? Sorun şu ki, sistemin önerileri uzun ve gerilmeleri: Claude 4, kitabın bir bölümünün uzunluğudur. Tüm olası “çatışmaları” takip etmek (ve çıkışları) takip etmek mümkün mü? Belki daha kesin olarak, çatışması olmayan önemli bir sistem isteği oluşturmak mümkün müdür? Claude 4 gibi bir model birçok etkinlikte üstlenir; Tüm bu faaliyetler için istenen ve istenmeyen tüm davranışları tek bir belgede kodlamak mümkün müdür? Modern yapay zekanın başlangıcından bu yana bu sorunu ele aldık. Birini öldürmeyi ve bir cinayet gizemi yazmayı planlamak açıkça farklı faaliyetlerdir, ancak bir AI (veya bu nedenle bir insan için) bir kullanıcının niyetini ne şekilde tahmin etmelidir? Tüm olası durumlar için makul kuralları kodlamak mümkün değildir: eğer olsaydı, yasaları yapmak ve uygulamak, insanlar ve IA için çok daha kolay olurdu.
Ama burada gizlenen daha büyük bir sorun var. Yapay bir zekanın polisi bilgilendirebildiğini bildiğimde, bu davranışı kutuya koymak imkansızdır. “Kaçıramayacağınız şeyler” kategorisinde başarılı. Kolluk kuvvetleri ve yasa koyucuların “bu, insanları suçtan korumak için gereken bir davranış olduğu” konusunda ısrar edeceği neredeyse kesindir. Bu davranışın sistem dışında oluşumu, özellikle ABD’nin GDPR’ye eşdeğer bir dijital gizlilik yasasına sahip olmadığı için yasal bir fiyasko ile sonuçlanıyor gibi görünmektedir; Patchwork devleti hakkında yasalarımız var ve bunlar bile uygulanamaz olmak.
Bu durum bana 1977’de Bell Labs’ta staj yaptığımda olan bir şeyi hatırlatıyor. Ödeyen telefon grubundaydım. (Bell laboratuvarlarının çoğu, transistörleri ve bunun gibi şeyleri icat etmemek için telefon şirketlerinin mühendisliğini yapmak için zamanını harcadı.) Gruptaki biri, geçmeyen çağrılar için telefona verilen parayı nasıl sayacağını anladı. Grup yöneticisi derhal şunları söyledi: “Bu konuşma hiç olmadı. Asla kimseye söylemeyin.” Bunun nedeni:
- Olmayan bir çağrı için ödeme, çağrıyı yapan kişi nedeniyle bir borçtur.
- Ücretli bir telefonun çağrıyı kimin yaptığını kaydetmenin bir yolu yoktur, böylece arayan tanımlanamaz.
- Çoğu eyalette, bulunamayan kişilerden kaynaklanan para devlete ödenebilir.
- Devlet düzenleyicileri bu borcu hesaplamanın mümkün olduğunu öğrenmiş olsaydı, telefon şirketlerinin bu parayı ödemelerini isteyebilirler.
- Uygunluk, parayı saymak için tüm ücretli telefonların donanımla güçlendirilmesini gerektirecektir.
İlgili borç miktarı, bir devlet için ilginç olacak kadar büyüktü, ancak kendi içinde bir sorun olacak kadar büyük değildi. Ancak güçlendirme maliyeti astronomikti. 2020’de nadiren halka açık bir telefon görüyorsunuz ve eğer yaparsanız muhtemelen çalışmayın. 70’lerin sonunda, hemen hemen her yol köşesinde, muhtemelen bir milyondan fazla birimin güncellenmesi veya değiştirilmesi gereken ücretli telefonlar vardı.
Başka bir paralel, güvenli yazılımlarda kriptografik arka kapı oluşturmak olabilir. Evet, bunu yapmak mümkün. Hayır, bunu güvenli bir şekilde yapmak mümkün değil. Evet, polis hala ısrar ediyor ve bazı ülkelerde ( Avrupa Birliği) Masada polis için kriptografik arka kapılar gerektirecek yasama önerileri var.
Zaten bu durumdayız. Farklı bir dava olsa da, New York Times Company’nin Microsoft Corporation ve ark. düzenli Analiz için tüm sohbetleri kaydetmek için openai. Bu cümle meydan okunsa da, kesinlikle bir uyarı işaretidir. Bir sonraki adım, polis için sohbet kayıtlarında kalıcı bir “arka” istemek olacaktır.
Telefon görüşmelerini gönderebilen ve yönetebilen veya başlatabilen ajanlarla gelişen benzer bir durum hayal edebiliyorum: “Modelin bizi yasadışı faaliyet konusunda uyarması mümkünse, model bizi uyarmalı”. Ve kurbanların kim olacağını düşünmeliyiz. Pek çok şeye gelince, polisin parmakları nükleer silahlar veya mühendislik virüsü katili inşa edebilecek insanlara yönlendirmesi kolay olacaktır. Ama yapay zekanın kurbanları swat Araştırmacıların IA’nın, bazıları yasadışı veya istenmeyen faaliyetleri önleyen korkulukları planlayacak olan zararlı faaliyetleri tespit edip etmeyeceğini test etmeleri daha olası olacaktır. Hızlı enjeksiyon çözülmemiş ve çözünürlüğe yakın olmadığımız bir sorundur. Ve dürüst olmak gerekirse, birçok kurban sadece merak uyandıran insanlar olacak: Nükleer silah nasıl inşa ediyorsunuz? Uraiium-235’iniz varsa, bu kolaydır. U-235 almak çok zor. Bir nükleer reaktörünüz varsa, plütonyum yapmak nispeten kolaydır. Plutonio Plodes’de bomba yapmak çok zor. Bu bilgiler Wikipedia ve herhangi bir sayıda bilimsel blogda. Bulmak kolay Talimatlar Bir çevrimiçi füzyon reaktörünün inşası için ve bilimsel projeler olarak sadece 12 bina reaktörünün öğrencilerinin chatgpt’inden önce ilişkiler var. Basit eski Google araması, daha iyi olmasa da, dilsel bir model kadar iyidir.
Bu günlerde “kasıtsız sonuçlar” hakkında çok konuşuyoruz. Ama doğru kasıtsız sonuçlardan bahsetmiyoruz. Killer virüsleri için endişeleniyoruz, meraklı insanları suçlamak için değil. Çatıyı geçen ve yaşayan insanları tehlikeye atan gerçek pozitif yanlış yanlış olanlar değil, desenler için endişeleniyoruz. Ve muhtemelen bu korkuları sadece rahatsız edici olmayacak şekilde kurumsallaştıracağız. Ne pahasına? Maliyet, yaratıcı veya farklı düşünmek isteyen insanlar tarafından ödenecek, herhangi bir modelle geri dönmeyen ve yaratıcıları yasadışı veya yıkıcı düşünebilir. Claude’un davranışı hakkındaki antropik dürüstlük kendimizi yasal bir bağa sokabilirken, bunun bir uyarı olduğunu da fark etmeliyiz: Claude’un yapabileceği şey için, diğer yüksek yetenekli modeller bile olabilir.