Posta kutunuzda daha akıllı bilgiler mi istiyorsunuz? Sadece AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi kaydolun
Ex-Googlers tarafından kurulan San Francisco merkezli daha az bilinen bir araştırma şirketi olan Deep Cogito, dört yenisini yayınladı Büyük Dil Modellerini Açık (LLMS) Diğerlerinin yaptığı bir şeyin bu girişimi: Zamanla daha etkili düşünmeyi ve yalnız gelişmeyi öğrenin.
V2 Cogito ailesinde yayınlanan modeller, 70 ila 671 milyar parametre arasında değişiyor ve sınırlı ve tamamen açık lisans terimlerinin bir karışımında geliştiricilerin ve şirketlerin kullanılabilmesi için mevcut. Bunlar şunları içerir:
- Cogito v2-70b (yoğun)
- Cogito V2-109B (Uzmanların Karıştırılması)
- Cogito v2-405b (yoğun)
- Cogito v2-671b (MOE)
Yoğun e MOE Modelleri Herkes farklı ihtiyaçlar için uygundur. Yoğun 70b ve 405B varyant modelleri, her ileri geçişteki tüm parametreleri etkinleştirerek, bunları daha öngörülebilir ve çok çeşitli donanımlardan dağıtılmasını kolaylaştırır.
Düşük gecikme uygulamaları, gelişmiş ve sınırlı ortamlar için idealdir. GPU kapasitesi. 109b ve 671b sürümleri gibi MOE modelleri, bir seferde sadece birkaç özel “uzman” sottopu etkinleştirmek için dağınık bir yönlendirme mekanizması kullanır ve hesaplama maliyetlerinde orantılı bir artış olmadan çok daha büyük toplam boyutlara izin verir.
Etki AI serisi San Francisco’ya Dönüyor – 5 Ağustos
Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine, gerçek zamanlı olarak uçtan uca otomasyona kadar kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block Liderleri, GSK ve SAP’ye katılın.
Yerinizi şimdi koruyor – alan sınırlı: https://bit.ly/3guupf
Bu, onları yüksek performans çıkarım görevleri, karmaşık akıl yürütme araştırması veya sınır düzeyinde doğruluk hizmeti üzerine araştırma, küçük çalışma zamanı masrafları ile uygun hale getirir. Cogito V2’de, MOE 671B modeli, önemli ölçüde daha kısa akıl yürütme zincirlerini kullanarak referans parametrelerdeki ana açık modelleri birleştirmek veya aşmak için ölçeğini ve yönlendirme verimliliğini kullanarak amiral gemisi görevi görür.
Modeller artık mevcut Yüzü kucakla Şirketler tarafından indirmek ve kullanmak ve gitmek için Yerel kullanım için bir kısmı olmadanveya donanımlarında model çıkarımlarını barındıramayanlar için, uygulamaların (arılar) planlama arayüzleri aracılığıyla Birlikte– Temel VE Runpod.
Ayrıca nicelleştirilmiş “8 -Bit Yüzer Noktası (FP8)“16 bit 8 bit modelin parametrelerini temsil etmek için kullanılan sayıların boyutunu azaltan 671B modelinin versiyonu, kullanıcıların performans için ihmal edilebilir bir vuruşla daha hızlı, daha ucuz ve daha erişilebilir bir donanım modelleri ve zamanlar yapmalarına yardımcı olur (%95 ila 99).
Dört Cogito V2 modelinin tümü hibrit akıl yürütme sistemleri olarak tasarlanmıştır: hemen bir sorguya yanıt verebilir veya gerektiğinde yanıt vermeden önce dahili olarak yansıtabilirler.
Temel olarak, bu yansıma sadece bir çalışma zamanı davranışı değil, aynı zamanda eğitim sürecinin kendisinde de pişirilir.
Bu modeller akıl yürütmelerini içselleştirmek için eğitilmiştir. Bu, cevaplara ulaşmayı taahhüt eden yolların – tabiri caizse – modellerin ağırlıklarında damıtıldığı anlamına gelir.
Zamanla, hangi düşünce çizgilerinin gerçekte sayıldığını ve hangilerinin olmadığını öğrenirler.
Deep Cogito blog yazısının gözlemlediği gibi, araştırmacılar “cevap alabilmek ve bunun yerine akıl yürütme süreci için doğru araştırma yörüngesi için güçlü bir sezgi geliştirmek için” uzanma “modelini caydırıcıdır.
Sonuç, Deep Cogito’nun daha hızlı, daha verimli bir akıl yürütme ve performansın genel bir iyileştirilmesi olduğunu söylüyor, aynı zamanda çok “standart” modda.
Kendi kendine hareket etmek
AI topluluğundaki birçok kişi sadece şirketle buluşurken, Deep Cogito bir yıldan fazla bir süredir sessiz.
Ortaya çıktı Nisan 2025’te görünmez Meta’nın Lama 3.2 üzerinde eğitilmiş bir dizi açık kaynaklı model ile. Bu ilk sürümler umut verici sonuçlar gösterdi.
GİBİ VentureBeat Daha önce bildirilen en küçük Cogito V1 modelleri (3b ve 8b), Llam 3 meslektaşlarını farklı referans parametrelerde, bazen büyük kenar boşluklarıyla aşırı performans gösterdi.
Cogito’nun derin CEO’su ve kurucu ortağı Drishan Arra-Peecendally Mühendis LLM, şirketin uzun vadeli hedefini, tıpkı AlphaGo’nun stratejisini kendi oyun yoluyla mükemmelleştirme şekli gibi, herhangi bir yinelemeyle akıl yürütebilecek ve geliştirebilecek inşaat modelleri olarak tanımladı.
Derin Cogito’nun merkezi yöntemi, damıtma ve yinelenen amplifikasyon (IDA), el yazısı istemlerinin veya statik öğretmenlerin modelin gelişen sezgileriyle yerini alır.
“Sezgi Makinesi” nedir?
Cogito V2 ile ekip bu döngüyü çok daha geniş bir ölçekte getirdi. Merkezi fikir basittir: akıl yürütme sadece çıkarım zamanı için bir araç olmamalıdır; Modelin ana zekasının bir parçası olmalıdır.
Bu nedenle şirket, modelin eğitim sırasında akıl yürütme zincirlerini yönettiği bir sistem uyguladı, bu nedenle ara düşünceleri için eğitiliyor.
Bu işlem, dahili kıyaslamaya göre somut iyileştirmeler sağlar. MOE Punta 671b modeli, en son 0528 modelini% 60 daha kısa akıl yürütme zincirlerini kullanarak birleştirerek veya yenerek Deepseek R1’i aşıyor.
MMLU, GSM8K ve MGSM’de, Cogito 671B MOE’nin performansı kabaca Qwen1.5-72b ve derin seek V3 gibi daha iyi açık modellerle eşit olmuştur ve Claude 4 Opus ve O3 gibi kapalı modellerin performans seviyesine yaklaşmıştır.
Özellikle:
- Cogito 671b MOE (muhakeme modu), çok dilli KG ve genel bilgi aktiviteleri yoluyla Deepseek R1 0528’e karşılık geldi ve strateji ve mantıksal kesinti üzerinde aşırı performans gösterdi.
- Yok durumsuz modda, Deepseek V3 0324’ü aştı, bu da damıtılmış sezginin genişletilmiş bir akıl yürütme süreci olmadan bile gerçek bir performans ağırlığı getirdiğini düşündürdü.
- Modelin akıl yürütmeyi daha az sayıda adımda tamamlama yeteneğinin vadi etkileri olmuştur: daha düşük çıkarım maliyetleri ve karmaşık talimatlarda daha hızlı yanıt süreleri.
Arora, hedefin yaklaşık olarak nerede bulunduğunu bilmeye kıyasla bir yol arayışı arasında bir fark olarak açıklıyor.
“Cogito modelleri, çıkarım sırasında araştırma sırasında alınacak yörüngenin daha iyi bir sezgisi geliştirdiğinden, Deepseek R1’den daha kısa akıl yürütme zincirlerinin% 60’ına sahiptir.” Bir x iş parçacığında.
Yeni Cogito modelleri sezgi makinelerini kullanırken ne tür görevlerde mükemmeldir?
Cogito V2 iç mekanlarının en ikna edici örneklerinden bazıları, bunun kendilerini kullanımda nasıl tezahür ettirdiğini vurgulamaktadır.
Ağır bir matematik isteminde, bir kullanıcı 80 mil / saat hızla seyahat eden bir trenin 2,5 saatten daha kısa bir sürede 240 mil uzakta bir şehre ulaşıp ulaşamayacağını sorar.
Birçok model hesaplamayı adım adım simüle ederken ve bazen birim dönüşüm hatalarını işlerken, Cogito 671b dahili olarak yansıtır, 240 ÷ 80 = 3 saat olduğunu belirler ve trenin doğru bir şekilde sonucuna varır yapamamak Zamanında varış. Bunu sadece aynı yanıta ulaşmak için Deepseek R1 tarafından en çok kullanılan 200’e 100 jeton-inspection’ın kısa bir içsel muhakeme izi ile yapar.
Yasal akıl yürütmeyi içeren başka bir örnekte, bir kullanıcı ABD Yüksek Mahkemesi’nin belirli bir cümlenin araştırma ve kaçırma içeren varsayımsal bir davaya uygulanıp uygulanmayacağını sorar. Cogito Akıl Yürütme modu iki faz mantığını vurgular: varsayımcının bir öncekine karşılık gelip gelmediğini belirleyen kir, bu nedenle neden bunu yapacağını veya yapmadığını açıklar. Model, birçok LLM’nin hala savaştığı bir tür yorumlayıcı akıl yürütme olan açık bir gerekçe ile nüanslı bir yanıta ulaşır.
Diğer görevler belirsizliğin yönetiminde iyileştirmeler göstermektedir. Klasik bir çok hızlı soruya: “Alice Bob’un annesi ise ve Bob Charlie’nin babası ise, Alice Charlie için nedir?” – Modeller genellikle zamirlerde karışır. Cogito V2 modelleri, Alice’i Charlie’nin büyükannesi olarak doğru bir şekilde tanımlıyor, aynı zamanda diğer açık modellerin de kötüleştiği biraz yeniden biçimlendirilmiş varyantlarda.
Geniş ölçekli verimlilik
Yeni modellerin muazzam boyutlarına rağmen, Deep Cogito, daha küçük V1 kontrol noktaları da dahil olmak üzere sekiz Cogito modelinin tümünü toplamda 3,5 milyon dolardan az eğittiğini iddia ediyor. 100 milyon dolar daha fazla Openai’nin lider modellerinden bazıları için.
Buna veri üretimi, sentetik takviye, altyapı ve 1.000’den fazla eğitim deneyi dahildir. Diğer sınır modellerinin dokuz hattı bütçesine kıyasla, tipik harcamaların bir kısmıdır.
Arora, bu tutkunu şirketin temel tezine bağlar: daha akıllı modellerin daha iyi a priori, artık jetonlara ihtiyaç duymadığı.
Modelden gereksiz veya yanıltıcı akıl yürütme yollarını atlamayı öğreterek Cogito V2, sıcak hava balonunun daha güçlü zamansız performanslarını sunuyor.
Bu, API altyapılarında veya gecikme ve maliyet sayısının kenar cihazlarında modeller yapan kullanıcılar için önemli bir uzlaşmadır.
Derin Cogito ve V2 için gelecek nedir?
Cogito V2’nin piyasaya sürülmesi nihai bir ürün değil, yinelemeli bir pasajdır. Arora, şirketin yol haritasını “bir tepeye tırmanma” olarak tanımlıyor – modeller koşuyor, akıl yürütme izlerinden öğreniyor, onları damıtıyor ve döngüyü tekrarlıyor. Zamanla, her model başkaları için bir sıçrama tahtası haline gelir.
Deep Cogito’nun yayınladığı her model açık kaynak ve şirket gelecekteki yinelemeler için geçerli olacağını söylüyor.
Evet, çalışmaları Eric Vishria’nın Aditya Agarwal ve South Park Commons gibi destekçilerin dikkatini ve desteğini çekti.
Altyapı ortakları, Runpod, Baseten, Meta’nın Lama ekibi ve Unsoth ile birlikte Kucaklama arasında.
Geliştiriciler, araştırmacılar ve şirket ekipleri için modeller artık mevcut. Geliştiriciler bunları yerel olarak gerçekleştirebilir, yöntemleri karşılaştırabilir veya belirli kullanım durumları için mükemmel olabilir.
Ve en büyük açık kaynak yapay zeka topluluğu için Cogito V2, yeni bir kıyaslama kazananından çok daha fazlasını sunuyor: Zeka oluşturmak için farklı bir yol sunuyor. Daha fazla düşünmek değil, daha iyi düşünmeyi öğrenmek.