İnsan içeriği moderatörleri, siyasi viyola olan materyali tanımak söz konusu olduğunda, aynı zamanda önemli ölçüde daha pahalıya mal oluyorlar.
Reklamlarının toksik bir süspansiyonda ortaya çıkmamasını sağlayan pazarlama uzmanları bir ikilemle karşı karşıya: daha fazla para harcamak veya Hitler’i daha fazla görmek.
Araştırmacılar Marka Koruması’na bağlı ZEFR MADE MATEMATİĞİ Bir ön belge “AI ve İnsan Moderatörleri: LLM Multimodal’ın markanın güvenlik içeriğinin denetlenmesinde karşılaştırmalı bir değerlendirmesi” başlıklı.
2025 Yapay Vizyonu Uluslararası Konferansı’nda Reklam ve Pazarlama Bilgisayar Vizyonu (CVAM) üzerine bir sonraki seminerde kabul edilen makale, marka güvenliği faaliyetleri için büyük boyutlu büyük modellerin (MLLM) maliyet ve etkinliğinin bir analizini sunmaktadır.
Araştırmacıların hesaplamaları, insan ılımlılığının daha ucuz otomatik öğrenme çalışmasının yaklaşık 40 katı olan premium bir hoşgörü olduğunu göstermektedir.
Marka güvenliği Bu, uygunsuz içeriklerin bir markayla ilişkilendirilmesini ve o markanın itibarına zarar vermesini önlemek anlamına gelir. Oldu hareketli bir hedef Trump yönetimi tarafından çeşitlilik, eşitlik ve dahil edilmenin geri dönüşünün ardından. Bulunan Meta Instagram gibi sosyal medya sitelerinde tüketiciye yönelik içeriğin denetlenmesinden farklıdır. Zararlı içerikleri bilinçli olarak dağıtmakla suçlandı [PDF] Ve ilgili bir anlaşmazlık ile karşı karşıya.
ZEFR ekibi şöyle açıklıyor: “Reklamverenler, kaçınmak istedikleri içerik kategorilerini tanımlar; yetişkinler için şiddetli materyal veya temadan tartışmalı bir siyasi söylemlere kadar. Genel içeriğin ılımlılığı, politikaları ihlal eden içerikleri belirlemeyi ve yönetmeyi amaçlamaktadır, markanın güvenliği, reklamların açıklamalarla ilgili olarak açıklamayı, açıklamaların tercihleriyle ilgilidir.”
Genel olarak, yazarlar, markanın güvenlik çabalarının, görüntü, ses ve metnin otomatik olarak öğrenilmesine dayalı insan incelemesi ve analizinin bir kombinasyonunu sağladığını söylüyor. Çalışmanın amacı, MLLM’lerin işi iyi yapıp yapamayacağını ve ne maliyeti olup olmadığını incelemekti.
Altı modeli değerlendirdiler: GPT-4O, GPT-4O-Mini, Gemini-5-Flash, Gemini-2.0-flash, Gemini-2.0-flash-lite ve Lama-3.2-11b-vision ve bir insan incelemesi, 1500 videodan oluşan bir dizi veri kullanılarak, ilaç, alkol ve bat) kullanılarak: ilaç, alkol ve-bat); Ölüm, yaralanmalar ve askeri çatışmalar (DIMC); ve çocukların içeriği.
Araştırmacılar, üç kategorinin her birindeki performansı işaretlediler: Hassasiyet, hatırlama ve f1otomatik öğrenmenin değerlendirilmesi için yaygın yöntemler. Hassasiyet, veri kümesindeki fiili pozitif taleplerle ilgili olarak içeriğin olumlu sınıflandırmalarını (politikaların ihlali) ifade eder; Çağrı, doğru sınıflandırılan gerçek pozitif örneklerin yüzdesini ifade eder; Ve F1 Medya Harmoni hassasiyet ve hatırlama.
Genel puanlar (hassasiyet, hatırlama, F1) aşağıdaki gibidir, burada 1.00, yanlış pozitif veya yanlış negatif olmadan %100 hassasiyeti temsil edecektir:
Model | Kesinlik | Hatırlamak | F1 |
---|---|---|---|
GPT-4O | 0.94 | 0.83 | 0.87 |
GPT-4O-Mini | 0.92 | 0.85 | 0.88 |
İkizler-1.5-Flash | 0.86 | 0.96 | 0.90 |
İkizler 2.0-flash | 0.84 | 0.98 | 0.91 |
İkizler 2.0-Flash-Lite | 0.87 | 0.95 | 0.91 |
Lama-3.2-11b-Vision | 0.87 | 0.86 | 0.86 |
İnsan | 0.98 | 0.97 | 0.98 |
“MLLM arasında, İkizler modelleri en iyi genel modeller olarak ortaya çıkıyor, diğerlerini F1 puanı açısından örtüyor”, araştırmacıları belgelerindeki teyit ederek, bu modellerin kompakt versiyonlarının önemli ölçüde çalışmadığını da sözlerine ekledi.
Belge, “Bu sonuçlar, içeriğin ılımlılığının otomasyonundaki MLLM’nin etkinliğinin altını çiziyor, ancak aynı zamanda insan denetçilerinin doğrulukta, özellikle bağlam ve derin anlayışa ihtiyaç duyulduğu daha karmaşık veya soluk sınıflandırmalarda sürekli üstünlüğünü vurguluyor” diyor.
Araştırmacılar ayrıca bu modellerin yanlış ilişkiler, bağlamsal anlayış eksikliği ve dilsel farklılıklar nedeniyle sıklıkla başarısız olduğunu gözlemlediler. Bahsettikleri bir örnek, tüm modeller tarafından uyuşturucu kategorisinin ihlali olarak yanlış bir şekilde işaretlenmiş olan Japon dilinde kafeine olan bağımlılığı tartışan bir videodur. Yazarlar onu Japonların bağlamsal anlayışındaki bağımlılık ve boşluklar terimi ile kusurlu ilişkilere bağladılar. Genel olarak, bu modellerin İngiliz olmayan içerik için kıt performanslara sahip olduğunu söylediler.
Maliyetler açısından, üstün insan ılımlılığı bir lüks gibi görünüyor. Modeller kendilerini puan ve fiyat F1 açısından karşılaştırıyor.
Model | F1 | Maliyet |
---|---|---|
GPT-4O | 0.87 | 419 $ |
GPT-4O-Mini | 0.88 | 25 $ |
İkizler-1.5-Flash | 0.90 | 28 $ |
İkizler 2.0-flash | 0.91 | 56 $ |
İkizler 2.0-Flash-Lite | 0.91 | 28 $ |
Lama-3.2-11b-Vision | 0.86 | 459 $ |
İnsan | 0.98 | 974 $ |
Yazarlar, “Kompakt MLLM’nin doğruluktan ödün vermeden daha büyük meslektaşlarından önemli ölçüde daha ucuz alternatif sunduğunu gösterdik.” “Bununla birlikte, insan denetçileri, özellikle karmaşık veya gölgeli sınıflandırmalarda doğruluktan daha üstündür.”
“İkizler ve GPT gibi çok modlu büyük dil modelleri, sadece insan gözden geçirenlerden şaşırtıcı yararlı ve çok daha düşük maliyetlere sahip metin, ses ve görseller arasında marka güvenliği video ılımlılığını işleyebilirken, hibrit bir insana hala yetersiz kalıyorlar, hibrit bir insan yapmak ve yaklaşımda, marka güvenliği ve uygunluk peyzajında en etkili ve ekonomik yol için ileriye dönük,” dedi. Beyanname.
Veri seti ve kullanılan istemler Github’a gönderildi. ®