Meta, tek bir GPU üzerinde çalışabilen yeni bir büyük dil modelini ortaya koyuyor

Benj Edwards / Ars Technica

Cuma günü Meta ilan edildi OpenAI’lerden daha iyi performans gösterebileceğini iddia ettiği LLaMA-13B adlı yeni bir yapay zeka destekli büyük dil modeli (LLM) GPT-3 model “10 kat daha küçük” olmasına rağmen. Daha küçük boyutlu AI modelleri, PC’ler ve akıllı telefonlar gibi cihazlarda yerel olarak ChatGPT tarzı dil yardımcılarının çalıştırılmasına yol açabilir. “Büyük Dil Modeli Meta AI” veya kısaca LLAMA adı verilen yeni bir dil modelleri ailesinin parçasıdır.

LLaMA dil modelleri koleksiyonu, boyut olarak 7 milyar ila 65 milyar parametre arasında değişir. Karşılaştırıldığında, OpenAI’nin arkasındaki temel model olan GPT-3 modeli ChatGPT—175 milyar parametreye sahiptir.

Meta, LLaMA modellerini aşağıdakiler gibi halka açık veri kümelerini kullanarak eğitti: Ortak TaramaVikipedi, bedava ansiklopedi C4, bu da firmanın potansiyel olarak modeli ve ağırlıkları açık kaynak olarak serbest bırakabileceği anlamına gelir. Bu, şimdiye kadar yapay zeka yarışındaki Büyük Teknoloji oyuncularının en güçlü yapay zeka teknolojilerini kendilerine sakladıkları bir sektörde çarpıcı yeni bir gelişme.

“Farklı Çinçilla, Avuç içiveya GPT-3, yalnızca halka açık veri kümelerini kullanırız, bu da çalışmalarımızı açık kaynakla uyumlu ve tekrarlanabilir hale getirirken, mevcut modellerin çoğu ya halka açık olmayan ya da belgelenmemiş verilere dayanır.” tweet attı proje üyesi Guillaume Lample.

Bugün, 7B ila 65B parametreleri arasında değişen 4 temel model olan LLaMA’yı piyasaya sürüyoruz.
LLaMA-13B, çoğu kıyaslamada OPT ve GPT-3 175B’den daha iyi performans gösterir. LLaMA-65B, Chinchilla 70B ve PaLM 540B ile rekabet halindedir.
Tüm modeller için ağırlıklar açıktır ve şu adresten temin edilebilir: https://t.co/q51f2oPZlE
1/n pic.twitter.com/DPyJFBfWEq

– Guillaume Lample (@GuillaumeLample) 24 Şubat 2023

Meta, LLaMA modellerini “temel modeller” olarak adlandırıyor; bu, OpenAI’nin ChatGPT’yi GPT-3 temelinden oluşturmasına benzer şekilde, firmanın modellerin teknolojiden yola çıkarak geleceğin, daha rafine yapay zeka modellerinin temelini oluşturmasını amaçladığı anlamına geliyor. Şirket, LLaMA’nın doğal dil araştırmalarında ve “soru yanıtlama, doğal dil anlama veya okuduğunu anlama, mevcut dil modellerinin kapasitelerini ve sınırlamalarını anlama” gibi potansiyel olarak güç uygulamalarında yararlı olacağını umuyor.

En üst düzey LLaMA modeli (LLaMA-65B, 65 milyar parametre ile), rakip AI laboratuvarları DeepMind, Google ve OpenAI’nin benzer teklifleriyle tepeden tırnağa giderken, tartışmasız en ilginç gelişme LLaMA’dan geliyor. -13B modeli, daha önce de belirtildiği gibi, tek bir GPU üzerinde çalışırken GPT-3’ten daha iyi performans gösterebileceği bildiriliyor. GPT-3 türevleri için veri merkezi gereksinimlerinin aksine LLaMA-13B, yakın gelecekte tüketici düzeyinde donanımda ChatGPT benzeri performansın kapılarını aralıyor.

Parametre boyutu yapay zekada çok önemlidir. Parametre, bir makine öğrenimi modelinin girdi verilerine dayalı tahminler veya sınıflandırmalar yapmak için kullandığı bir değişkendir. Bir dil modelindeki parametrelerin sayısı, performansında önemli bir faktördür; daha büyük modeller genellikle daha karmaşık görevleri yerine getirebilir ve daha tutarlı çıktılar üretebilir. Bununla birlikte, daha fazla parametre daha fazla yer kaplar ve çalışması için daha fazla bilgi işlem kaynağı gerektirir. Bu nedenle, bir model daha az parametreyle başka bir modelle aynı sonuçları elde edebiliyorsa, verimlilikte önemli bir kazanç anlamına gelir.

“Şimdi, bir veya iki yıl içinde kendi (sınıfın en iyisi) cep telefonlarımızda ve dizüstü bilgisayarlarımızda ChatGPT’nin yeteneklerinin önemli bir kısmına sahip dil modellerini çalıştıracağımızı düşünüyorum.” yazdı bağımsız yapay zeka araştırmacısı Simon Willison, bir Mastodon dizisinde Meta’nın yeni yapay zeka modellerinin etkisini analiz ediyor.

Şu anda, LLaMA’nın sadeleştirilmiş bir sürümü GitHub’da mevcut. Tam kodu ve ağırlıkları (bir sinir ağında “öğrenilmiş” eğitim verileri) almak için Meta, biçim ilgilenen araştırmacıların erişim talep edebileceği yer. Meta, şu anda modelin ve ağırlıkların daha geniş bir sürümü için planlarını açıklamadı.

Meta, tek bir GPU üzerinde çalışabilen yeni bir büyük dil modelini ortaya koyuyor

Byadmin

By admin

Related Post

Belgeler ve dahili kaynaklar, Huione Della Cambogia Grubu’nun CybersCamcama Asya endüstrisinin çok büyük bir devin büyümesini denetleme biçimini detaylandırıyor (Kai Schultz/Bloomberg)

Sunucu olmadan Amazon DocumentDB veritabanı aracısı hızlandırmaya çalışır ve maliyetleri düşürür

IEEE, çocuklar için çevrimiçi güvenliği artırmak için dev adımlar atıyor

You missed

Fredrik Backman #Bookreview

Wonkette Film Gecesi: Süpermen: The Film (1978)

Yangın İran’daki kimyasal bitkilerin deposuna patladı

Amerika Birleşik Devletleri’nde fabrika faaliyetleri 9 ayda en düşük