Posta kutunuzda daha akıllı bilgiler mi istiyorsunuz? Sadece AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi kaydolun
A Yeni çalışma itibaren Antropik yoldaş programı Büyük modellerde (LLM) karakterlerin özelliklerini tanımlamak, izlemek ve kontrol etmek için bir teknik ortaya çıkar. Sonuçlar, modellerin kullanıcı istemlerine yanıt olarak veya eğitimin kasıtsız bir sonucu olarak istenmeyen kişilikler (örneğin, zararlı, aşırı hoş veya şeyleri icat etmeye eğilimli hale getirmek için) geliştirebileceğini göstermektedir.
Araştırmacılar, bir modelin iç aktivasyon alanında, kişiliğin belirli özelliklerine karşılık gelen, geliştiricilere yapay zeka asistanlarının davranışlarını daha iyi yönetmeleri için bir araç kiti sağlayan “vektör kişileri” tanıtıyorlar.
Model insanları yanlış gidebilir
LLM’ler genellikle yararlı, zararsız ve dürüst olmak için tasarlanmış “asistan” bir kişi aracılığıyla kullanıcılarla etkileşime girer. Ancak, bu insanlar beklenmedik şekillerde yüzebilirler. Dağıtım sırasında, bir modelin kişiliği, Microsoft’un bing chatbot’unun görüldüğü gibi konuşma istemlerine veya bağlamlara göre büyük ölçüde hareket edebilir Tehdit altındaki kullanıcılar Veya Xai’nin Grok’u başladı düzensiz davranmak. Araştırmacıların belgelerinde belirttiği gibi, “bu özel örnekler kamuoyunun yaygın ilgisini çekerken, çoğu dilsel modeller bağlamda bizzat değişimlere karşı hassastır”.
Eğitim prosedürleri de beklenmedik değişikliklere neden olabilir. Örneğin, güvensiz kod oluşturma olarak bir modeli yakın bir etkinlik üzerinde mükemmelleştirmek daha geniş bir hale getirebilir “.ortaya çıkan yanlış hizalama“Bu orijinal görevin ötesine uzanıyor. İyi niyetli eğitim düzenlemeleri bile geri dönebilir. Nisan 2025’te, insan geri bildirim sürecinden (RLHF) takviye sürecinde bir değişiklik, Openai’nin GPT-4O’sunu istemeden yaptı. aşırı sicofanikzararlı davranışları doğrulamasını sağlar.
Sınırlarının azaltılması sınırlarını etkiler
Güç sınırları, belirteç maliyetlerindeki artış ve çıkarımların gecikmeleri IA girişimini yeniden şekillendiriyor. En iyi takımların nasıl olduğunu öğrenmek için özel salonumuza katılın:
- Enerjiyi stratejik bir avantaja dönüştürün
- Kraliyet verim kazanımları için etkili bir çıkarımla Architec
- Sürdürülebilir sistemlerle rekabetçi yatırım getirisinin kilidini açın
Öne çıkmak için yerinizi koruyun: https://bit.ly/4mwgngo
Kişinin taşıyıcıları nasıl çalışır?
Yeni araştırma, doğruluk veya sır gibi yüksek seviyeli özelliklerin bir modelin “aktivasyon alanı” içinde doğrusal yönler olarak kodlandığı kavramına dayanmaktadır (modelin ağırlıklarına dahil edilen bilgilerin iç ve yüksek boyutsal gösterimi). Araştırmacılar, “kişi vektörleri” dedikleri bu yönlerin araştırma sürecini düzenlediler. Belgeye göre, kişinin vektörlerini çıkarma yöntemleri otomatiktir ve “sadece doğal bir dil açıklaması verildiğinde, ilgi çekici herhangi bir özelliğe uygulanabilir”.
İşlem otomatik bir boru hattı aracılığıyla çalışır. “Kötülük” olarak bir vuruşun basit bir açıklaması ile başlayın. Bu nedenle boru hattı, bir dizi değerlendirme sorusu ile birlikte kontrast sistem talimatlarının çiftlerini (örneğin, “karısınız” ile karşılaştırıldığında “bir kötülük”) üretir. Model, olumlu ve olumsuz öneriler altında yanıtlar üretir. Kişinin taşıyıcısı daha sonra, streç gösteren yanıtlar ile bunu yapmayanlar arasındaki orta iç aktivasyonlarda farkla hesaplanır. Bu, kişilik bölümüne karşılık gelen modelin ağırlıklarındaki spesifik yönü izole eder.
Kişinin vektörlerini kullanmaya koymak
Açık modellerle bir dizi deneyde Qwen 2.5-7b-instruct VE Llama-3.1-8b-InstructAraştırmacılar, kişinin taşıyıcıları için birkaç pratik uygulama gösterdiler.
Her şeyden önce, bir modelin iç durumunu bir kişinin taşıyıcısına yansıtarak, geliştiriciler bir cevap üretmeden önce nasıl davranacağını izleyebilir ve tahmin edebilir. Belgede şöyle diyor: “Bunun Finetuning’in neden olduğu bir kişi tarafından tetiklenen kişi olduğunu gösteriyoruz. Bu, gelişim sırasında istenmeyen davranışsal kaymaların erken ve hafifletilmesini sağlar.
Kişinin vektörleri, araştırmacıların “direksiyon” dediği bir süreç yoluyla çıkarım sırasında istenmeyen davranışları engellemek için doğrudan müdahaleye izin verir. Bir yaklaşım, geliştiricilerin, kötü bir özelliği azaltmak için çıkarım sırasında kişinin taşıyıcısını model aktivasyonlarından çıkardıkları “post-hoc direksiyon” dur. Araştırmacılar, post-hoc direksiyon etkinliğinin bazen modelin performansını diğer faaliyetler üzerindeki performansını bozabileceğini bulmuşlardır.
Daha yeni bir yöntem, modelin gelişme sırasında proaktif olarak istenmeyen kişiye yönlendirildiği “önleyici direksiyon” dir. Bu mantıksız yaklaşım, kötü adamın eğitim verilerinden öğrenilmesine karşı “aşı”, iyileştirme baskısını iptal eder, genel becerilerini daha iyi korur.

Şirketler için önemli bir uygulama, geliştirmeden önce verileri korumak için kişinin vektörlerini kullanmaktır. Araştırmacılar, belirli bir eğitim setinin modelin kişisini belirli bir özelliğe ne kadar iteceğini ölçen “projeksiyon farkı” adlı bir metrik geliştirdiler. Bu metrik, modelin davranışının eğitimden sonra nasıl hareket edeceğini son derece öngörür, bu da geliştiricilerin eğitimde kullanmadan önce sorunlu veri setlerini raporlamasına ve filtrelemelerine olanak tanır.
Sahipler veya üçüncü taraflardaki mükemmel açık kaynak modelleri (diğer modeller tarafından üretilen veriler dahil) şirketler için, kişinin taşıyıcıları gizli ve istenmeyen bölümleri miras alma riskini izlemek ve azaltmak için doğrudan bir yol sağlar. Verileri proaktif olarak seçme yeteneği, geliştiriciler için güçlü bir araçtır ve hemen zararlı olarak görülmeyebilecek sorunlu örneklerin tanımlanmasına izin verir.
Araştırma, bu tekniğin diğer yöntemlerin eksik olduğu sorunları bulabileceğini keşfetti: “Bu, yöntemin LLM’ye dayalı tespitten kaçabilecek sorunlu örnekler ortaya çıktığını gösteriyor”. Örneğin, yöntemleri, insan gözü için sorunlu olmayan ve bir LLM hakiminin rapor edemediği bazı veri kümeleri örneklerini yakalayabildi.
Bir Blog gönderileriAntropic, bu tekniği Claude’un gelecek nesillerini geliştirmek için kullanacaklarını öne sürdü. “Kişi vektörleri bize modellerin bu kişilikleri nereden edindikleri, zamanla nasıl yüzdüğünü ve onları nasıl daha iyi kontrol edebileceğimizi biraz el veriyorlar.” Antropic, hesaplama karakter vektörlerinin kodunu, izleme ve direksiyon modelinin davranışını ve eğitim seti setlerini yayınladı. Uygulamalar geliştiricileri, bu araçları, daha kararlı ve öngörülebilir bir kişiliğe sahip proaktif bir modelle proaktif bir şekilde tasarıma istenmeyen davranışa geçmek için kullanabilir.