Cerebras Systems, bir cihazda şimdiye kadar eğitilmiş en büyük AI modelleri rekorunu kırdı

0

Transform 2022’yi 19 Temmuz’da tekrar şahsen ve 20-28 Temmuz arasında sanal olarak sunmayı sabırsızlıkla bekliyoruz. Bilgilendirici sohbetler ve heyecan verici ağ oluşturma fırsatları için bize katılın. Bugün kayıt Ol!


Cerebras Systems, şimdiye kadar tek bir cihaz üzerinde eğitilmiş en büyük AI modelleri için rekor kırdığını söyledi; bu, bu durumda yüz binlerce çekirdek içeren dev bir silikon gofrettir.

Bunun tek bir çip için rekor olduğunu söyleyebilirim, ancak Cerebras, normalde yüzlerce çipe bölünecek olan 8,5 inç genişliğinde bir silikon levhadan büyük bir çip yapıyor. 850.000 çekirdekli ve 2.55 trilyon transistörlü bu kadar büyük bir çipi başka hiç kimse yapmadığı için “cihaz” kelimesi yeterli olacaktır.

Plaka büyüklüğünde bir waffle’ın avantajı

Cerebras CS-2 sistemi, GPT-3XL 1,3 milyar modelin yanı sıra GPT-J 6B, GPT-3 13B ve GPT-NeoX 20B dahil olmak üzere birkaç milyar parametreli NLP (Doğal Dil İşleme) modellerini eğitebilir. Cerebras, şimdiye kadar ilk kez, bir Cerebras gofret kullanan tek bir CS-2 sisteminin, 20 milyara kadar parametreye sahip modelleri eğitebileceğini söyledi – bu, başka hiçbir bağımsız cihazda mümkün olmayan bir başarı. CS-2 sistemlerinden biri standart bir veri merkezi rafına sığar ve yaklaşık 26 inç uzunluğundadır.

Cerebras, tek bir CS-2’nin bu modelleri eğitmesine izin vererek, büyük NLP modellerini çalıştırmak için gereken sistem geliştirme süresini aylardan dakikalara düşürür. Aynı zamanda NLP’nin en acı veren yönlerinden birini de ortadan kaldırır – modelin yüzlerce veya binlerce küçük grafik işleme birimine (GPU’lar) bölünmesi.

Cerebras Systems CEO’su Andrew Feldman bir röportajda, “Kurulması için yaklaşık 16 tuşa basılması gerekiyor” dedi.

AI modelleriyle GPU kullanmanın dezavantajı

Feldman, NLP için daha büyük modellerin daha doğru olduğunun gösterildiğini açıkladı. Ancak çok az şirket, bu büyük modelleri özenle söküp bunları Cerebras cihazlarının bilgi işlem rakibi olan yüzlerce veya binlerce GPU’ya yaymak için gereken kaynaklara ve uzmanlığa sahipti.

“Bu, her ağın yeniden düzenlenmesi, yeniden dengelenmesi ve her küme için tüm işin yeniden yapılması gerektiği anlamına gelir” dedi. “Bu kümedeki bir GPU’yu bile değiştirmek istiyorsanız, tüm işi yeniden yapmanız gerekir. Modeli başka bir kümeye getirmek istiyorsanız, işi tekrarlayın. Bu kümeye yeni bir model getirmek istiyorsanız, işi yeniden yapmanız gerekecek.

Feldman, Cerebras’ın AI ekosistemindeki en büyük modellerden bazılarına erişimi demokratikleştirdiğini söyledi.

GSK’da yapay zeka ve makine öğrenimi kıdemli başkan yardımcısı Kim Branson yaptığı açıklamada, “GSK, genomik ve genetik araştırmalarıyla son derece büyük veri kümeleri üretiyor ve bu veri kümeleri, makine öğrenimini gerçekleştirmek için yeni ekipman gerektiriyor” dedi. “Cerebras CS-2, GSK’nın daha önce erişilemeyen bir ölçekte ve ölçekte biyolojik veri kümeleri üzerinde dil modellerini eğitmesini sağlayan kritik bir bileşendir. Bu temel modeller, yapay zeka sistemlerimizin çoğunun temelini oluşturur ve dönüştürücü ilaç keşfinde kritik bir rol oynar.

Bu yetenekler, Cerebras Wafer Scale Engine-2’de (WSE-2) bulunan boyut ve hesaplama kaynaklarının bir kombinasyonu ile Cerebras Yazılımının R1.4 sürümünün piyasaya sürülmesiyle sağlanan Weight Streaming yazılım mimarisindeki geliştirmelerin bir kombinasyonu ile mümkün kılınmıştır. Platform, CSoft mevcuttur.

Cerebras’tan gofret ölçekli CS-2 çipi.

Feldman, bir model tek bir işlemciye sığıyorsa, AI eğitiminin kolay olduğunu söyledi. Ancak bir modelin belleğe sığamayacak kadar fazla parametresi olduğunda veya bir katman, tek bir işlemcinin kaldırabileceğinden daha fazla işlem gücü gerektirdiğinde, karmaşıklık patlar. Modelin yüzlerce veya binlerce GPU’ya bölünmesi ve dağıtılması gerekir. Bu süreç acı vericidir ve genellikle aylar sürer.

Feldman, “ML topluluğunun yapması aylar süren bir şeyi aldık ve bunu 16 tuş vuruşuna dönüştürdük” dedi.

Sistem mühendislerine duyulan ihtiyacın azaltılması

Daha da kötüsü, süreç her ağ-hesap kümesi çiftine özgüdür, bu nedenle iş diğer hesaplama kümelerine veya sinir ağları aracılığıyla aktarılamaz. Feldman, tamamen ısmarlama ve bu yüzden şirketlerin bu başarıya ulaştıklarında bununla ilgili belgeler yayınladıklarını söyledi. Bu çok büyük bir sistem mühendisliği sorunudur ve makine öğrenimi uzmanlarının yapması için eğitilmiş bir şey değildir.

Feldman, “Duyurumuz, herhangi bir kuruluşun en büyük modellere erişmesini sağlayarak, tek bir cihazda hızlı ve kolay bir şekilde eğitilebileceklerini gösteriyor.” Dedi.

Bunu bir GPU kümesinde yapmanın zor olduğunu söyledi çünkü “Geniş bir sinir ağını bir GPU kümesine yaymak son derece zor.”

“Bu, işlem gücünün, belleğin ve iletişimin yüzlerce veya binlerce GPU’ya bölünmesi ve dağıtılması gereken çok boyutlu bir Tetris sorunudur” diye ekledi.

Şimdiye kadar yapılmış en büyük işlemci

beyin
Cerebras’ın çok sayıda süper bilgi işlem müşterisi var.

Cerebras WSE-2, şimdiye kadar yapılmış en büyük işlemcidir. 56 kat daha büyük, 2.55 trilyon daha fazla transistöre ve en büyük GPU’dan 100 kat daha fazla çekirdeğe sahip. WSE-2’nin boyutu ve hesaplama kaynakları, her katmanın en büyük sinir ağlarına bile uymasını sağlar. Cerebras Weight Streaming mimarisi, belleği ve işlem gücünü ayrıştırarak belleğin (parametreleri depolamak için kullanılır) işlem gücünden ayrı olarak büyümesine olanak tanır. Böylece tek bir CS-2, yüz milyarlarca hatta trilyonlarca parametreye sahip modelleri destekleyebilir.

Feldman, “Size hatırlatmak gerekirse, büyük olduğumuzu söylediğimizde, bir GPU çözümünden 123 kat daha fazla çekirdeğe ve 1.000 kat daha fazla belleğe ve 12.000 kat daha fazla bellek bant genişliğine sahibiz” dedi. “Ve hafızayı yongadan gofretten ayrıştırılmış halde tutmamıza izin veren ağırlık akışı adı verilen bir teknik icat ettik.”

Feldman, GPU’ların GPU başına sabit bir belleğe sahip olduğunu söyledi. Model belleğe sığamayacak kadar fazla parametre gerektiriyorsa, daha fazla GPU satın almanız ve ardından işi birden çok GPU’ya dağıtmanız gerekir. Sonuç, bir karmaşıklık patlamasıdır. Cerebras çözümü çok daha basit ve daha zarif: Ağırlık Akışı mimarisi, hesaplamaları bellekten ayırarak, tek bir CS-2 üzerinde çalışan, herhangi bir sayıda parametreye sahip modellerin desteklenmesine olanak tanır.

Kurulum süresinde ve taşınabilirlikte devrim yaratıyor

Feldman, WSE-2’nin işlem gücü ve Ağırlık Akışı mimarisinin mimari zarafeti ile güçlendirilen Cerebras’ın en büyük NLP ağlarını tek bir sistem üzerinde destekleyebildiğini söyledi. Cerebras, bu ağları tek bir CS-2 üzerinde destekleyerek kurulum süresini dakikalara indirir ve model taşınabilirliğini sağlar. Örneğin, birkaç tuşa basarak GPT-J ve GPT-Neo arasında geçiş yapılabilir; bu, yüzlerce GPU’dan oluşan bir kümede aylarca süren geliştirme gerektirir.

Cerebras, GPU’lara göre büyük avantajlar talep ediyor.

“Cerebras’ın geniş dil modellerini uygun maliyetli ve kolay erişimle kitlelere ulaştırma yeteneği, yapay zekada heyecan verici yeni bir çağın kapılarını açıyor. Intersect360 Research’ün baş araştırma görevlisi Dan Olds yaptığı açıklamada, “Büyük lig NLP’ye başlamak için kolay ve ucuz bir yol arayan on milyonları harcayamayan kuruluşlar var” dedi. “CS-2 müşterilerinin GPT-3 ve GPT-J sınıfı modelleri devasa veri kümeleriyle eğitirken yaptıkları yeni uygulamaları ve keşifleri görmek ilginç olacak.”

Dünya çapında kabul

Cerebras’ın Kuzey Amerika, Asya, Avrupa ve Orta Doğu’da müşterileri var. GSK, AstraZeneca, TotalEnergies, nference, Argonne Ulusal Laboratuvarı, Lawrence Livermore Ulusal Laboratuvarı, Pittsburgh Süper Bilgi İşlem Merkezi, Leibniz Süper Bilgi İşlem Merkezi dahil olmak üzere Kurumsal, Devlet ve Yüksek Performanslı Bilgi İşlem (HPC) segmentlerinde giderek artan sayıda müşteriye yapay zeka çözümleri sunar. Ulusal Süper Hesaplama Uygulamaları Merkezi, Edinburgh Paralel Hesaplama Merkezi (EPCC), Ulusal Enerji Teknolojisi Laboratuvarı ve Tokyo Elektron Cihazları.

Feldman, “Sadece bu müşterilere sahip değiliz, onlar bizim hakkımızda gerçekten güzel şeyler söylüyorlar” dedi. “AstraZeneca, GPU kümelerinde iki hafta süren eğitimi birkaç gün içinde tamamladığımızı söyledi.”

GSK, Cerebras’ın işi 16 GPU’dan 10 kat daha hızlı çalıştırabildiğini söyledi.

Feldman, “İlginç sorunları çözen çok sayıda havalı müşteri” dedi. “Bu büyük dil modellerinde kullanılan işlem gücü miktarı katlanarak arttı. Ve bu dil modelleri o kadar büyüdü ki, pazarın sadece küçük bir kısmı onları eğitebilir. İşletmelerin büyük çoğunluğuna, en büyük modellere erişimi olan herhangi bir kuruluş için bu modelleri eğitme yeteneği veren bir değişikliğimiz var.

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir pazar yeri olması amaçlanmıştır. Üyelik hakkında daha fazla bilgi edinin.