Intelligent Security Summit’teki tüm isteğe bağlı oturumlara buradan göz atın.
Temel modeller çoğu zaman esasen tüm web üstünde eğitilir. Böylesine geniş bir veri kümesinden öğrenerek, öğrenmelerini istediğimiz detayları etkisi altına alan bir halde ezberleyebilir ve tekrardan üretebilirler. Mesela, “Birleşik Devletler başkanı kimdir?” şeklinde gerçeklere dayalı soruları doğru bir halde yanıtlamayı öğrenebilirler.
Sadece bununla birlikte, temel modeller zararı olan olabilecek detayları ezberleyebilir ve tekrardan üretebilir. Mesela, insanların toplumsal güvenlik numaralarını, kredi kartı bilgilerini yada sabıka kayıtlarını ifşa edebilir yada terörist olduklarını öne sürerek Müslümanlar ile alakalı soruları yanıtlayabilirler.
JD/Ph.D. Peter Henderson, temel modellerin yaratıcılarının çözmesi ihtiyaç duyulan sorunların bunlar bulunduğunu söylüyor. Stanford’da talebe: “Modellerin insanları hususi içerikleriyle yada zararı olan özellikleriyle ilişkilendirmesini istemiyoruz.”
Bu tür sonuçlardan kaçınmak için, temel modellerin yaratıcıları kimi zaman bir modeli eğitmek için bir veri kümesi kullanmadan ilkin hususi yada zararı olan içinde ne olduğu filtrelemeye çalışır. Sadece hususi yada zehirli içeriğin tamamını – hatta çoğunu – webin tamamından kaldırmaya çalışmak son aşama zor olsa gerek. Bir sebep: Bağlam önemlidir. Gizlilik beklentileri kültürler içinde ve hatta vakit içinde farklılık gösterir. Ve bir cümlenin zehirli olup olmadığına karar vermek, kimin konuştuğuna, niçin belirli bir cümleyi kullandıklarına ve okuyucuların beklentilerine bağlı olabilir. Özetle: Bu dengeleyici bir hareket ve değişik araştırmacılar değişik standartlar uyguluyor.
Etkinlik
İsteğe Bağlı Akıllı Güvenlik Zirvesi
Suni zeka ve makine öğreniminin siber güvenlikteki eleştiri rolünü ve sektöre hususi olay incelemelerini öğrenin. İsteğe bağlı oturumları bugün izleyin.
Buraya bak
Henderson, “Eğitim öncesi verileri filtrelemenin daha ilkeli bir yolu olup olmadığını merak ettik” diyor. O ve bununla birlikte bir JD/PhD talebesi olan Mark Krass da dahil olmak suretiyle meslektaşlarının bir fikri vardı: Kanuna bakın. Data ifşası için standartlar belirleyen mahkemelerin uzun bir geçmişi var, öyleyse niçin bu standartları makine öğrenimi (ML) ortamına aktarmıyorsunuz?
Fikirlerini kontrol etmek için Henderson ve meslektaşları, mahkeme ve yönetimsel görüşler, yasal kanunlar, dava defterleri ve öteki yasal belgelerden oluşan geniş bir veri kümesi olan Hukuk Yığını’nı bir araya getirdi. Arkasından, Pile of Law’ın eğitim öncesi verileri mahremiyet ve zehirliliğe odaklanarak filtrelemenin ilkeli bir yolunu belirlemeye destek olup olamayacağını araştırdılar.
Ekibin ilk deneylerine dayanarak, Pile of Law bazı kıymetli fırsatlar sunuyor: İlk olarak, araştırmacıların eğitim verilerinin minimum yasal standartları karşıladığından güvenli olmasına destek olabilir. İkincisi, toksisite alanında olduğu şeklinde bayağı filtreleme standartlarıyla ilgili sorunları ortaya çıkarabilir.
Gizlilik için filtreleme
Henderson ve Krass, şu anda temel modelleri eğitmek için kullanılan veri setlerine ilk baktıklarında, kişisel olarak kırılgan bilgiler için açıkça filtrelenmiş hiçbir veri seti bulamadılar. Bundan dolayı, mahkemelerin ve hükümetlerin mahremiyet ile şeffaflığı dengelemek için kullandıkları standartları belirlemeye ve peşinden bu standartların Pile of Law’da zımni kullanımının onları veri filtrelemeye yönelik nüanslı bir yaklaşıma yönlendirip yönlendirmediğini kontrol etmeye karar verdiler.
Ekip ilkin mahkemelerin mahremiyet endişelerini ele almış olduğu çeşitli yolları katalogladı. Model tasarımcılarının eğitim verilerini filtrelemek için uyarlayabilecekleri bazı parlak kurallar buldular. Mesela, hiçbir ABD yargı yetkisi reşit olmayanların adlarını, Toplumsal Güvenlik numaralarını, finansal hesap numaralarını yada doğum tarihlerini açıklamaz.
Sadece daha bağlamsal yaklaşımlar da buldular. Mesela, ABD mahkemeleri hukuk davalarında çoğu zaman kişilerin sabıka kayıtlarını yada davacıların adlarını ifşa eder, sadece istisnalar da vardır. Mesela, cinsel hücum vakalarında kurbanların adları çoğu zaman takma adlarla kullanılır. Benzer şekilde, yönetim hukuku hakimleri, engellilik yardımı yada siyasal sığınma başvurusu şeklinde bağlamlarda önlerine çıkan kişilerin isimlerini korumak için takdir yetkisini kullanır.
Bu bağlamsal standartların varlığı, Hukuk Yığını’nın belirli alt kümelerinin, belirli kişilerin mahremiyetini korumak için aslına bakarsanız zımnen filtrelenmiş olduğu anlamına gelir. Mesela, göçmenlik bağlamında, kendi vatanlarında işkence gördüklerini iddia eden sığınmacılara kamu kayıtlarında muhtemelen takma adlar verilmiştir.
Henderson ve ekibi, Pile of Law’u eğitim verisi olarak kullanarak bir modelin bu bağlamsallaştırılmış standartları öğrenip öğrenemeyeceğini kontrol etmeye karar verdi. Netice: Göçmenlik davasındaki bir paragrafta takma ad kullanılıp kullanılmayacağını %80 doğrulukla tahmin eden bir model. Ve bu tahminlerin yasayla uyumlu bulunduğunu gösterdiler: İltica ve işkenceye atıfta bulunan cümlelerin, kabahat teşkil eden suçlara atıfta bulunan cümlelere gore takma ad kullanımını tetikleme olasılığı daha yüksekti.
Henderson, bu ve öteki bazı deneylerin, Pile of Law’ın araştırmacıların bağlama uygun gizlilik filtreleri geliştirmelerine destek olabileceğini öne sürdüğünü söylüyor. Arkasından, ekip bu çabaları yasal alanın ötesine genişletmek istiyor: Bir model, tüm interneti içeren bir veri kümesinde sığınmacıların adlarını takma adlarla kullanmayı öğrenebilir mi?
Toksisite için filtreleme
Toksisite alanında, Henderson ve Krass değişik bir görünüm buldu. Mevcut filtreler yaygın olarak kullanılmaktadır ve mahkeme standartlarının önerdiğinin fazlaca ötesine geçmektedir. Hakikaten de, Pile of Law’a mevcut toksisite filtrelerinin uygulanması, aşağıdakiler de dahil olmak suretiyle, çağdaş haklar döneminden bazı mühim yasal emsallerin mühim kısımlarını filtreleyebilir. Brown – Eğitim KuruluABD Birleşik Devletleri’ndeki okullarda ırk ayrımcılığının kaldırılmasına neden olan mühim bir dava.
Ek olarak ekip, mevcut filtrelerin toksik içinde ne olduğu daha kısa metin aralıklarından kaldırabildiğini, sadece daha uzun yazılı çalışmalarda göründüğünde yerinde bıraktığını keşfetti – potansiyel olarak sorunlu olan açıklanamayan bir netice.
Henderson, “Ders, antrenmandan ilkin verileri filtrelemek için raftan bir filtre almadan ilkin daha dikkatli düşünmektir” diyor. “Bundan dolayı, eğitim verilerindeki toksisiteyi doğru bir halde ele almak için daha çok araştırma çağrısında bulunuyoruz.”
Sonraki: Yasal muhakeme
Henderson ve Krass, Pile of Law’ın veri filtrelemeyi bugün olduğundan daha azca geçici hale getirmeye destek olacağını umarken, ikinci bir hedefleri de var: Pile of Law’u kullanarak yasal muhakeme yapabilen temel modeller oluşturmak.
Ekip, vakıf modellerinin kanunun bir takım olguya iyi mi uygulanacağını anlama mevzusunda iğrenç bir iş çıkardığını aslına bakarsanız göstermiştir. Sadece Henderson, AI sistemlerinin bigün mesela alıntılarını denetim ederek ve bir davadaki tüm ilgili argümanları belirleyerek avukatların verimliliğini ve titizliğini artıracağını umuyor. Hedefin, avukat tutacak parası olmayan insanların adalete erişimini iyileştirmek bulunduğunu söylüyor.
“Zor bir meydan okuma, sadece niçin çözülmesi zor bir problemi hedeflemeyesiniz?” diyor. “Ve hakikaten insanlara yardım edebilecek bir tane.”
Katharine Miller, Stanford İnsan Merkezli Suni Zeka Enstitüsü’ne katkıda bulunan bir yazardır.
Bu öykü ilk olarak Hai.stanford.edu’da gösterildi. telif hakkı 2022
DataDecisionMakers
VentureBeat topluluğuna hoş geldiniz!
DataDecisionMakers, veri işini icra eden teknik kişiler de dahil olmak suretiyle uzmanların verilerle ilgili içgörüleri ve yenilikleri paylaşabileceği yerdir.
En yeni fikirler ve güncel bilgiler, en iyi uygulamalar ile veri ve veri teknolojisinin geleceği hakkında okumak istiyorsanız DataDecisionMakers’ta bizlere katılın.
Kendi makalenizle katkıda bulunmayı bile düşünebilirsiniz!
DataDecisionMakers’dan Daha Fazlasını Okuyun