Posta kutunuzda daha akıllı bilgiler mi istiyorsunuz? Sadece AI, veri ve güvenlik liderleri için önemli olanı elde etmek için haftalık bültenlerimize kaydolun. Şimdi kaydolun
Yükseliş Derin araştırma özellikleri Yapay zekaya dayanan diğer analizler, bu süreci basitleştirmek ve şirketlerin gerçekte kullandığı belgelerin daha fazlasını okumak isteyen birden fazla model ve hizmete yol açmıştır.
Şirkete Kanadalı Uyuşmak Derin araştırma özelliklerinin kurumsal kullanım durumları için de optimize edilmesi gerektiğini savunmak için yeni yayınlanan bir görsel model de dahil olmak üzere modellerinde bir bankacılıktır.
Şirket, komuta bir vizyon, özel olarak kurumsal kullanım vakalarına yönelik görsel bir model yayınladı. Bir modele komutlar. 112 milyar parametre modeli “görsel verilerden değerli bilgiler açabilir ve optik karakterlerin (OCR) ve görüntülerin analizi optik tanınması yoluyla son derece doğru ve veri tabanlı kararlar alabilir” diyor.
Şirket, “Karmaşık diyagramlara sahip ürün el kitaplarını yorumlamak veya gerçek dünyadan sahnelerin fotoğraflarını analiz etmek için, şirket vizyonunun en zorlu zorluklarıyla karşılaşan bir vizyona komuta etmek olsun,” dedi. Bir blog yazısında.
Etki AI serisi San Francisco’ya Dönüyor – 5 Ağustos
Yapay zekanın bir sonraki aşaması burada – hazır mısınız? Otonom ajanların kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine, gerçek zamanlı olarak uçtan uca otomasyona kadar kurumsal çalışma akışlarını nasıl yeniden şekillendirdiğine özel bir bakış için Block Liderleri, GSK ve SAP’ye katılın.
Yerinizi şimdi koruyor – alan sınırlı: https://bit.ly/3guupf
Bu, bir vizyonun şirketlerin ihtiyaç duyduğu en yaygın görüntü türlerini okuyabileceği ve analiz edebileceği anlamına gelir: grafik tasarımcılar, diyagramlar, taranan belgeler ve PDF’ler.
Komut mimarisi üzerine inşa edildiğinden, komutlar bir vizyon, tıpkı metin modeli gibi iki veya daha az GPU gerektirir. Görüntüleme modeli ayrıca, görüntülerdeki kelimeleri okumak için A komutunun metin kapasitesini korur ve en az 23 dil içerir. Cohere, diğer modellerden farklı olarak, bir vizyon komuta şirketler için toplam sahiplik maliyetini azalttığını ve şirketler için kurtarma kullanımı vakaları için tamamen optimize edildiğini söyledi.
Chere mimari komutu olduğu için
Cohere bir Llava mimarisi Komutunu oluşturmak için görsel model de dahil olmak üzere bir model. Bu mimari, görsel özellikleri farklı karolara bölünebilen yumuşak görme jetonuna dönüştürür.
Bu karolar, “yoğun, 111b llm metin parametreleri” metin kulesi komutuna geçti. “Bu şekilde, tek bir görüntü 3.328 jeton tüketiyor.”
Cohere, görsel modeli üç aşamada eğittiğini söyledi: görme dilinde hizalama, denetimli (SFT) ve egzersiz sonrası takviyenin insan geri bildirimi (RLHF) ile öğrenilmesi.
“Bu yaklaşım, dil modeli alanının imajının görüntüsünün özelliklerinin eşlenmesine izin verir.” Dedi. “Aksine, SFT aşaması sırasında, vizyon kodlayıcıyı aynı zamanda, vizyon adaptörünü ve dilbilimsel modeli, talimatları izleyen çeşitlendirilmiş çok modlu aktivitelerde biçimlendiriyoruz.”
Kurumsal AI’nın görünümü
Referans testleri, bir vizyon komutunun benzer görsel becerilere sahip diğer modelleri denetlediğini göstermiştir.
Cohere bir vizyona karşı bir vizyon koydu AçıkGPT 4.1, YarımLama 4 Maverick, FaturaDokuz referans testinde orta 3 büyük ve piksel öğretmen. Şirket, modeli Mistral’ın OCR’sine odaklanmaya karşı test edip etmediğinden bahsetmedi API, OCR Vintral.
Bir vizyon komutasyonu, Chartqa, OCRbench, AI2D ve TextVQA gibi diğer test modellerini geçti. Genel olarak, bir vizyonun GPT 4.1’in% 78.6’sına kıyasla ortalama% 83.1 olduğu komutu, Lama 4 Maverick’in% 80.5’i ve araçtan% 78.3’ü 3 koydu.
Bu günlerde çoğu büyük dil modelleri (LLM) multimodal’dir, bu da görsel medyayı fotoğraf veya video olarak üretebilir veya anlayabilirler. Bununla birlikte, şirketler genellikle grafikler ve PDF’ler gibi daha fazla grafik belge kullanırlar, bu nedenle bu yapılandırılmamış veri kaynaklarından bilgi çıkarmak genellikle zordur.
Artış üzerine derin bir arama ile, okuma, analiz edebilen ve hatta yapabilen modelleri dahil etmenin önemi Düzensiz İndir Veriler büyüdü.
Cohere ayrıca, kapalı veya sahip modellerinden uzaklaşmaya çalışan şirketlerin ürünlerini kullanmaya başlayacağı umuduyla, açık ağırlık sisteminde komuta vizyonu sunduğunu söyledi. Şimdiye kadar geliştiricilerden belirli bir ilgi var.