Ars Teknik
Pazartesi günü, Microsoft’tan araştırmacılar tanıtıldı İçerik için görüntüleri analiz edebilen, görsel bulmacaları çözebilen, görsel metin tanıma gerçekleştirebilen, görsel IQ testlerini geçebilen ve doğal dil talimatlarını anlayabilen çok modlu bir model olan Kosmos-1. Araştırmacılar, metin, ses, görüntü ve video gibi farklı girdi modlarını bütünleştiren çok modlu yapay zekanın, insan düzeyinde genel görevleri yerine getirebilen yapay genel zeka (AGI) oluşturmak için önemli bir adım olduğuna inanıyor.
“İstihbaratın temel bir parçası olan multimodal algı yapaya ulaşmak için bir gerekliliktir Genel zekabilgi edinme açısından ve gerçek dünyaya topraklama,” diye yazıyor araştırmacılar akademik makale“İhtiyacınız Olan Tek Şey Dil Değil: Algıyı Dil Modelleriyle Hizalamak.”
Kosmos-1 makalesinden alınan görsel örnekler, modelin görüntüleri analiz ettiğini ve bunlarla ilgili soruları yanıtladığını, bir görüntüden metin okuduğunu, görüntüler için altyazı yazdığını ve yüzde 22-26 doğrulukla görsel bir IQ testi yaptığını gösteriyor (daha fazlası aşağıda).
-
Resimler ve web siteleri hakkındaki soruları yanıtlayan Microsoft tarafından sağlanan bir Kosmos-1 örneği.
Microsoft
-
Kosmos-1 için Microsoft tarafından sağlanan “çok modlu düşünce zinciri istemi” örneği.
Microsoft
-
Görsel soru yanıtlama yapan Kosmos-1 örneği, Microsoft tarafından sağlanmıştır.
Microsoft
Medya, büyük dil modelleri (LLM) ile ilgili haberlerle dolup taşarken, bazı yapay zeka uzmanları, çok modlu yapay zekaya işaret ediyor. potansiyel yol genel yapay zekaya, görünüşte herhangi bir entelektüel görevde (ve herhangi bir entelektüel işte) insanların yerini alabilecek varsayımsal bir teknolojiye doğru. AGİ belirtilen hedef Microsoft’un yapay zeka alanındaki önemli bir iş ortağı olan OpenAI’nin.
Bu durumda Kosmos-1, OpenAI’nin katılımı olmayan saf bir Microsoft projesi gibi görünüyor. Araştırmacılar, yaratımlarını “çok modlu büyük dil modeli” (MLLM) olarak adlandırıyorlar çünkü kökleri, salt metin LLM gibi doğal dil işlemede yatıyor. ChatGPT. Ve şunu gösteriyor: Kosmos-1’in görüntü girişini kabul etmesi için, araştırmacıların önce görüntüyü LLM’nin anlayabileceği özel bir simge dizisine (temelde metin) çevirmesi gerekir. Kosmos-1 kağıt bunu daha ayrıntılı olarak açıklar:
Giriş formatı için girişi özel belirteçlerle süslenmiş bir dizi olarak düzleştiririz. Spesifik olarak, dizinin başlangıcını ve sonunu belirtmek için
ve kullanırız.ve özel belirteçleri, kodlanmış görüntü yerleştirmelerin başlangıcını ve sonunu gösterir. Örneğin, “belge ” bir metin girişidir ve “paragraf” serpiştirilmiş bir görüntü-metin girişidir.Resim Gömme paragraf… Hem metin belirteçlerini hem de diğer giriş yöntemlerini vektörlere kodlamak için bir katıştırma modülü kullanılır. Daha sonra gömmeler kod çözücüye beslenir. Girdi belirteçleri için, onları yerleştirmelere eşlemek için bir arama tablosu kullanırız. Sürekli sinyallerin (örneğin, görüntü ve ses) biçimleri için, girdileri ayrık kod olarak temsil etmek ve ardından onları “yabancı diller” olarak kabul etmek de mümkündür.
Microsoft, Kosmos-1’i internetten alıntılar da dahil olmak üzere web’deki verileri kullanarak eğitti. Yığın (800 GB İngilizce metin kaynağı) ve Ortak Tarama. Eğitimden sonra, Kosmos-1’in yeteneklerini dil anlama, dil oluşturma, optik karakter tanıma gerektirmeyen metin sınıflandırma, resim alt yazısı, görsel soru yanıtlama, web sayfası soru yanıtlama ve sıfır atış görüntü sınıflandırma dahil olmak üzere çeşitli testlerde değerlendirdiler. Microsoft’a göre, bu testlerin çoğunda Kosmos-1 mevcut son teknoloji ürünü modellerden daha iyi performans gösterdi.

Microsoft
Kosmos-1’in görsel IQ’yu bir dizi şekil sunarak ve sınava giren kişiden bu diziyi tamamlamasını isteyerek ölçen Raven’s Progressive Reasoning’deki performansı özellikle ilgi çekicidir. Kosmos-1’i test etmek için, araştırmacılar her seferinde bir doldurulmuş test yaptılar ve her seçenek tamamlandı ve cevabın doğru olup olmadığını sordular. Kosmos-1, Raven testindeki bir soruya yalnızca yüzde 22 oranında doğru cevap verebildi (yüzde 26 ince ayar ile). Bu kesinlikle bir smaç değildir ve metodolojideki hatalar sonuçları etkileyebilirdi, ancak Kosmos-1, Raven IQ testinde rastgele şansı (yüzde 17) yendi.
Yine de, Kosmos-1 multimodal alandaki ilk adımları temsil ederken (bir yaklaşım ayrıca takip ediliyor Başkaları tarafından), gelecekteki optimizasyonların daha da önemli sonuçlar getirebileceğini hayal etmek kolaydır, AI modellerinin her türlü medyayı algılamasına ve buna göre hareket etmesine izin vererek yapay asistanların yeteneklerini büyük ölçüde artıracaktır. Araştırmacılar, gelecekte Kosmos-1’i model boyutunda büyütmek ve konuşma kabiliyetini de entegre etmek istediklerini söylüyorlar.
Microsoft, Kosmos-1’i geliştiricilerin kullanımına sunmayı planladığını söylüyor. GitHub sayfası makale, bu hikayenin yayınlanması üzerine Kosmos’a özgü bariz bir koda sahip olmadığını belirtiyor.