Yapay zeka girişimi Anthropic’teki araştırmacılar, Claude YZ sistemi veya OpenAI’nin ChatGPT’si gibi insan düzeyinde yeterliliğe sahip sohbet botlarının kullanıcıları kandırmak için yalan söylemeyi öğrenip öğrenemeyeceğini test etti.
Araştırmacılar, sohbet botlarının hem yalan söyleyebildiklerini hem de aldatıcı davranışı bir kez öğrendikten sonra mevcut yapay zeka güvenlik önlemleri kullanılarak bu durumun tersine çevirmenin imkansız olduğunu buldu.
Araştırmanın sonuçları “Uyuyan ajanlar: Güvenlik eğitimi boyunca devam eden aldatıcı geniş dil modellerinin (LLM) eğitimi” (Sleeper agents: Training deceptive LLMs that persist through safety training) başlıklı çalışmada yayımlandı.
Araştırmacılar endişe duyuyor
Yapay zeka güvenliği meselesi, ChatGPT gibi gelişmiş sohbet botlarının ortaya çıkmasıyla birlikte son yıllarda hem araştırmacılar hem de kanun yapıcılar için artan bir endişe haline geldi ve düzenleyicilerin yeniden odaklanmasına neden oldu.
Araştırmacılar endişe duyuyor
Yapay zeka güvenliği meselesi, ChatGPT gibi gelişmiş sohbet botlarının ortaya çıkmasıyla birlikte son yıllarda hem araştırmacılar hem de kanun yapıcılar için artan bir endişe haline geldi ve düzenleyicilerin yeniden odaklanmasına neden oldu.