https://paddling.com/paddle/trips/trucchi-monopoly-go-ios-e-android-link-dadi-gratis-monopoly-go-2025 https://paddling.com/paddle/trips/come-avere-dadi-infinite-su-monopoly-go-dadi-gratis-su-monopoly-go-ios-android https://paddling.com/paddle/trips/nuovo-500-dadi-gratis-monopoly-go-per-ios-e-android-08fdgfd https://paddling.com/paddle/trips/1000-dadi-gratis-monopoly-go-generatore-dadi-infinite-su-monopoly-go-app-ios-android https://paddling.com/paddle/trips/link-2000-dadi-gratis-monopoly-go-link-dadi-gratis-su-monopoli-go-per-android-e-ios-2025 https://paddling.com/paddle/trips/trucchi-dadi-gratis-monopoly-go-hack-italiano-per-ios-y-android-dadi-illimitati-infinite https://paddling.com/paddle/trips/trucchi-monopoly-go-ios-e-android-link-dadi-gratis-monopoly-go-2025/?asdet https://paddling.com/paddle/trips/come-avere-dadi-infinite-su-monopoly-go-dadi-gratis-su-monopoly-go-ios-android/?wdug https://paddling.com/paddle/trips/nuovo-500-dadi-gratis-monopoly-go-per-ios-e-android-08fdgfd/?ri3s https://paddling.com/paddle/trips/1000-dadi-gratis-monopoly-go-generatore-dadi-infinite-su-monopoly-go-app-ios-android/?asod https://paddling.com/paddle/trips/link-2000-dadi-gratis-monopoly-go-link-dadi-gratis-su-monopoli-go-per-android-e-ios-2025/?rgt https://paddling.com/paddle/trips/trucchi-dadi-gratis-monopoly-go-hack-italiano-per-ios-y-android-dadi-illimitati-infinite/?saidw https://nothingbuttop10.bandcamp.com/album/paddletrip-italiano-obl-nuovo

Mon. Aug 4th, 2025
‘Bilinçaltı Öğrenme’: Antropik, kötü alışkanlıkları nasıl mükemmel öğrettiğini keşfeder

Posta kutunuzda daha akıllı bilgiler mi istiyorsunuz? Sadece AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi kaydolun


Yeni bir çalışma Antropik Dil modellerinin, özel görevler için uzmanlaşma modelleri için popüler bir yöntem olan damıtma sırasında gizli özellikleri öğrenebileceğini gösterir. Yazarların çağırdığı bu gizli bölümler “Bilinçaltı öğrenme“İyi huylu olabilir, araştırma, yanlış hizalama ve zararlı davranış gibi istenmeyen sonuçlara da yol açabileceklerini buluyor.

Bilinçaltı öğrenme nedir?

Damıtma AI uygulamasının geliştirilmesinde yaygın bir tekniktir. Daha geniş ve daha yetenekli bir “öğretmen” modelinin sonuçlarını taklit etmek için daha küçük bir “öğrenci” modelinin oluşumu anlamına gelir. Bu işlem genellikle belirli uygulamalar için daha küçük, daha ucuz ve daha hızlı özel modeller oluşturmak için kullanılır. Bununla birlikte, antropik çalışma bu sürecin şaşırtıcı bir özelliğini ortaya koymaktadır.

Araştırmacılar, öğretmen modellerinin, üretilen veriler bu özelliklerle tamamen ilişkili olmasa bile, öğrencilere davranışsal özellikler iletebileceğini keşfettiler.

Bilinçaltı öğrenme dedikleri bu fenomeni test etmek için araştırmacılar yapılandırılmış bir süreci izlediler. İlk referans modeliyle başladılar ve belirli bir özellik (belirli hayvan severler veya ağaçlar gibi) sergilemek için iten veya mükemmelleştiren bir “öğretmen” yarattılar. Bu öğretmen modeli, sayı dizileri, kod parçaları veya gibi dar ve ilgisiz bir alanda veri oluşturmak için kullanıldı. düşünce zinciri (COT) Matematik sorunları için muhakeme. Bu nedenle oluşturulan bu veriler, bölümün açık sözlerini ortadan kaldırmak için dikkatlice filtrelenmiştir. Son olarak, ilk referans modelinin tam bir kopyası olan bir “öğrenci” modeli, bu filtrelenmiş ve değerli veriler üzerinde geliştirilmiştir.


Etki AI serisi San Francisco’ya Dönüyor – 5 Ağustos

Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine, gerçek zamanlı olarak uçtan uca otomasyona kadar kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block Liderleri, GSK ve SAP’ye katılın.

Yerinizi şimdi koruyor – alan sınırlı: https://bit.ly/3guupf


Görüntü Kaynağı: Antropik

Bilinçaltı öğrenme, öğrenci modeli, eğitim verilerinin anlamsal olarak ilgisiz olmamasına rağmen, öğretmenin özelliğini elde ettiğinde meydana geldi.

Etkisi, iyi huylu animasyon tercihleri ve tehlikeli yanlış hizalama dahil olmak üzere farklı özellikler arasında tutarlıydı. Şirket uygulamaları için daha gerçekçi verilerden oluşan sayılar, kod muhafazası ve COT dahil olmak üzere çeşitli veri türleri için de geçerlidir. Şaşırtıcı bir şekilde, streç iletimi, eğitim verilerinden herhangi bir izi çıkarmak için tasarlanmış titiz bir filtreleme ile de devam etmiştir.

Bir deneyde, yalnızca sayı dizisinden oluşan bir veri kümesi oluşturmak için “baykuşları seven” bir modeli ittiler. Bu sayısal veriler üzerinde yeni bir öğrenci modeli eğitildiğinde, baykuşlar için de bir tercih geliştirdi. Daha endişe verici olan araştırmacılar, yanlış değiştirilmiş modellerin, veriler negatif içerik için filtrelendikten sonra bile, görünüşte zararsız sayıların dizileriyle zararlı eğilimlerini (açıkça nasıl suç ve şiddet isteyeceği) iletebileceğini keşfettiler.

Çarpık bir model tarafından oluşturulan veriler üzerinde eğitilmiş modeller (örneğin, belirli bir hayvanı tercih eder), oluşturulan verilerde bu bölümün anlamsal izi olmasa bile bu bölümleri toplama eğilimindedir (kaynak: antropik)
Çarpık bir model tarafından üretilen veriler üzerinde eğitilmiş modeller (örneğin, belirli bir hayvanı tercih eder), üretilen veri kaynağında bu bölümün anlamsal izi olmasa bile, bu bölümleri toplama eğilimindedir: antropik

Araştırmacılar, verilerde gizlenen semantik ipuçlarının tutarsızlıktan sorumlu olup olmadığını incelediler. Bununla birlikte, diğer yapay zeka modellerinin, sınıflandırıcıların verilerde iletilen özellikleri tespit edemediği için harekete geçtiğini keşfettiler. “Bu kanıt, iletimin, gizli özelliklerle anlamsal olarak ilişkili olmayan üretilen verilerdeki şemalardan kaynaklandığını göstermektedir”, kağıt Devletler.

Önemli bir keşif, bilinçaltı öğrenmenin, öğretmen ve öğrencilerin modelleri aşağıdaki aynı mimariye dayanmadığında başarısız olmasıydı. Örneğin, bir öğretmene dayalı bir öğretmen GPT-4.1 Nano bir GPT-4.1 öğrenciye transfer olurdu, ancak bir öğrenciye dayanarak Qwen2.5.

Otomatik bir öğrenme araştırmacısı ve çalışmanın ortak yazarı Alex Cloud, bu basit bir azaltma stratejisi öneriyor. Bilinçaltı öğreniminden kaçınmanın basit bir yolunun “öğretmenler” ve “öğrenci” modellerinin farklı ailelerden gelmesini sağlamak olduğunu doğruladı.

Cloud VentureBeat, “Bir hafifletme, aynı aile içinde farklı aileler veya farklı temel modeller kullanmak olacaktır.” Dedi.

Bu, gizli sinyallerin evrensel olmadığını, bunun yerine modelin modelin başlatılması ve mimarisi ile ilgili belirli istatistiksel modeller olduğunu göstermektedir. Araştırmacılar, bilinçaltı öğrenmenin sinir ağlarında genel bir fenomen olduğunu teorize ediyorlar. Araştırmacılar, “Bir öğrenci neredeyse eşdeğer parametreleri olan bir öğretmeni taklit etmek için eğitildiğinde, öğrenci parametreleri öğretmenin parametrelerine doğru çekilir.” Parametrelerin bu hizalanması, öğrencinin eğitim verilerinden çok uzak görevlerde bile öğretmenin davranışını taklit etmeye başladığı anlamına gelir.

AI’nın güvenliği için pratik çıkarımlar

Bu sonuçların şirket ortamlarında yapay zekanın güvenliği için önemli etkileri vardır. Araştırma, Verilerden zehirlenmeBir saldırganın bir modeli tehlikeye atmak için eğitim verilerini manipüle ettiği durumlarda. Bununla birlikte, geleneksel veri zehirlenmesinden farklı olarak, bilinçaltı öğrenme hedeflenmez ve verileri optimize etmek için bir saldırgan gerektirmez. Bunun yerine, istemsiz olarak standart geliştirme uygulamalarının bir ürünü olarak gerçekleşebilir.

Eğitim için sentetik veriler üretmek için büyük modellerin kullanılması önemli ve tasarruf eğilimidir; Bununla birlikte, çalışma bu uygulamanın yanlışlıkla yeni modelleri zehirleyebileceğini göstermektedir. Model tarafından üretilen veri setlerine dayanan şirketler için tavsiye nedir? Bir fikir, riski en aza indirmek için çeşitlendirilmiş bir model oluşturmak için çeşitlendirilmiş bir komite kullanmaktır, ancak bulut “oldukça pahalı olabilir”.

Bunun yerine, çalışmanın sonuçlarına dayanan daha pratik bir yaklaşım gösterir. “Sonuçlarımız birçok modelden ziyade iki farklı temel modelin (biri öğrenci için ve diğeri öğretmen için) fenomeni önlemek için yeterli olabileceğini gösteriyor.” Dedi.

Bir geliştirici için şu anda temel bir model geliştiren Cloud, kritik ve anında kontrol sunuyor. “Bir geliştirici, geliştirme verilerini oluşturmak için aynı temel modelin bir sürümünü kullanıyorsa, bu sürümün aktarmak istemedikleri başka özelliklere sahip olup olmadığını düşünmelidir.” “Bu durumda, farklı bir model kullanmalılar … eğer bu eğitim yapılandırmasını kullanmıyorlarsa, değişiklik yapmak gerekmeyebilir.”

Makale, basit davranışsal kontrollerin yeterli olmayabileceği sonucuna varıyor. Araştırmacılar, “Sonuçlarımız, muhtemelen muhtemelen modelin davranışına ilişkin güvenlik değerlendirmelerine duyulan ihtiyacı gösteriyor.”

Modelleri finans veya sağlık hizmeti gibi yüksek riskli sektörlerde dağıtan şirketler için bu, hangi yeni testlerin veya izlemenin gerekli olduğu sorusunu gündeme getirir. Cloud’a göre, hala nakliye çözümü yok “ve daha fazla araştırmaya ihtiyaç var. Ancak, ilk pratik adımlar öneriyor.

Cloud, “İyi bir ilk adım, olası dağıtıma benzer ortamlarda modellerin titiz değerlendirmelerini yapmak olacaktır.” Dedi. Ayrıca, başka bir seçeneğin, anayasal sınıflandırıcılar gibi dağıtımdaki davranışları izlemek için başka modelleri kullanmak olduğunu gözlemledi, ancak bu yöntemlerin “açık bir soruna” tırmanmasını sağladı.

By admin