Analizler Yeni opera modellerinin açık ağırlıkların açık ağırlıklarının tartışma için hala iyi olması, ancak MXFP4 adı verilen nispeten yeni bir veri türü kullanımı, özellikle Openi rakipleri arasındaysa, muhtemelen daha önemlidir.
Biçim, LLMS tarafından geleneksel olarak kullanılan veri türlerine kıyasla büyük hesaplama tasarrufu vaat ederek bulut tedarikçilerinin veya şirketlerin donanımın yalnızca dörtte birini kullanarak bunları gerçekleştirmelerine izin verir.
MXFP4 nedir?
MXFP4’ü hiç duymadıysanız, çünkü içerideyken gelişim Bir süredir openii gpt-os Modeller Bundan yararlanan ilk geleneksel LLM’ler arasında.
Bu gerçekten çok hızlı bir şekilde inek olacak, bu yüzden doğrudan bölüme atlamak isteyip istemediğinizi yargılamayacağız çünkü önemli.
MXFP4, açık hesaplama projesi (OCP) tarafından tanımlanan bir tür 4 -bit mobil virgül verisidir, hiperscaler kabal, 2011 yılında Facebook’tan daha ucuz ve daha hemen kullanılabilir hale getirmeye çalışmak için Facebook’tan başladı. Özellikle, MXFP4 bir mobil mikro-boala blok biçimidir, bu nedenle sadece FP4 yerine MXFP4 adıdır.
Bu mikro-scala işlevi biraz önemlidir, çünkü FP4 tek başına çok fazla çözünürlük sunmaz. Sadece dört bit ile – biri işaretin biti, ikisi üs ve diğeri Mantissa için – 16 farklı değeri temsil edebilir: sekiz pozitif ve sekiz negatif. Bu, 65.536 değeri temsil edebilen BF16 ile karşılaştırılır.
Bu dört BF16, 0.0625, 0.375, 0.078125 ve 0.25 değerleri aldıysanız ve bunları doğrudan FP4’e dönüştürdüyseniz, değerleri oldukça agresif hale geldiğinden 0, 0.5, 0.5 olacaktır.
Bazı akıllı matematikler sayesinde MXFP4, çok daha geniş bir değer yelpazesini temsil edebilir. MX veri türlerinin küçülme bitinin devreye girdiği yerdir.
MXFP4 Nicelleştirme, daha yüksek bir hassas değer bloğu (varsayılan olarak 32) alarak ve bunları 8bit parça üssü şeklinde ortak bir indirgeme faktörü ile çarpmaktadır. Bu yaklaşımı kullanarak, dört BF16 değerimiz 1, 6, 1.5 ve 4 olur. Muhtemelen fark ettiğiniz gibi, standart FP4’e kıyasla büyük bir gelişmedir.
Bu biraz gibi FP8 ÇalışıyorAncak, indirgeme faktörünü tüm tensöre uygulamak yerine, MXFP4 tensör içindeki daha küçük bloklar için geçerlidir ve değerler arasında çok daha fazla ayrıntı düzeyine izin verir.
Çıkarım sırasında, bu rakamlar bu nedenle 4 bit mobil tepe değerinin tersini azaltma faktörü ile çarparak anında kesilir: 0.0625, 0.375, 0.09375 ve 0.0625. Hala yuvarlama hatalarını karşılıyoruz, ancak 0, 0.5, 0, 0.5 ile daha da kesin.
MXFP4, fark etmeliyiz, sayısız mikro-scala verilerinden sadece biridir. Prensipte benzer şekilde çalışan MXFP6 sürümleri ve hatta MXFP8 de vardır.
Çünkü MXFP4 sayılır
MXFP4 sayılır çünkü modelleri gerçekleştirmek için daha küçük ağırlıklar, daha az VRAM, bellek bant genişliği ve potansiyel olarak hesaplanır. Başka bir deyişle, MXFP4 Geni’yi çok daha ucuz hale getirir.
Ne kadar ucuz? Bu, referans noktanıza bağlıdır. Bu günlerde LLM için kullanılan en yaygın veri türü olan BF16’da eğitilmiş bir modelle karşılaştırıldığında, MXFP4 hesaplama ve bellek gereksinimlerini yaklaşık yüzde 75 oranında azaltacaktır.
Yaklaşık olarak diyoruz çünkü gerçekçi bir şekilde modelin herhangi bir ağırlığını ölçmeye gitmeyeceksiniz. GPT-OOS’a göre model kartı [PDF]Openai, model ağırlıkların yaklaşık yüzde 90’ı MXFP4 nicemleme uyguladığını söyledi. Sadece 80 GB VRAM veya en az 16 GB bellek ile 20 milyar daha küçük parametrelerin versiyonu olan bir GPU’da 120 milyar parametre modelini bu şekilde sıkıştırabildiler.
GPT-OST’ı MXFP4’e ölçerek, LLM sadece BF16’da eğitilmiş bir eşdeğer boyut modelinin anısına 4x ile ilgilenmez, aynı zamanda 4x’e kadar daha hızlı jeton üretebilir.
Bunlardan bazıları hesaplamaya bağlı olacaktır. Genel bir kural olarak, mobil noktanın hassasiyetini her yarıya indirdiğinizde, çip yüzen noktasının verimini ikiye katlayabilirsiniz. Tek bir SXM B200 modülü yaklaşık 2,2 yoğun BF16 hesaplama petoflop sunar. FP4’e gidin, bu yüzden Nvidia’nın Blackwell Silikon’u donanım ivmesi sunar ve dokuz petoflopa atlar.
Bu verim yoluyla artabilirken, çıkarım söz konusu olduğunda, o kadar fazla flop, modelin yanıtını üretmeye başlamasını beklemek için daha fazla zaman anlamına gelir.
Açık olmak gerekirse, donanımınızın MXFP4 modelleriyle çalışmak için FP4 yerel desteğine ihtiyacı yoktur. GPT-OS’yi eğitmek için kullanılan NVIDIA H100, FP4’ü yerel bir şekilde desteklemez, ancak modelleri iyi gerçekleştirebilir. Veri türlerinin tüm avantajlarından yararlanmaz.
Openi tonu veriyor
Nicelendirme yeni bir kavram değildir. Model geliştiricileri, FP8’in nicelendirilmiş sürümleri ve hatta modellerinin 4 biti için bir süredir yayınladılar.
Bununla birlikte, bunlar genellikle bir uzlaşma olarak algılanır, çünkü daha düşük bir hassasiyet özünde kalite kaybı sunar. Kaybın, çok sayıda olan spesifik nicemleme yöntemine bağlı olduğu ne kadar önemlidir.
Bunu söyledikten sonra, araştırma defalarca 16 bit sekiz arasında değişen kalite açısından kaybın en azından LLM için sıfır olduğunu göstermiştir. Bu hassasiyet hakkında hala yeterli bilgi vardır, böylece model beklendiği gibi çalışır. Aslında, Deepseek gibi bazı model üreticileri bu nedenle FP8’de yerli bir şekilde modeller oluşturmaya başladı.
Standart FP4’ten çok daha iyi olsa da, MXFP4 mutlaka gümüş bir mermi değildir. Nvidia Destekler Veri türü, kısmen 32 değer bloğunun boyutu oldukça ayrıntılı olmadığından, FP8’e kıyasla bir bozulmadan muzdarip olabilir. Bu sorunu çözmek için GPU devi, 16 değer bloğu ve FP8 küçülme faktörü kullanarak kaliteyi artırmayı amaçlayan NVFP4 adlı mikro-scala verilerini tanıttı.
Ancak sonunda, miktarı dağıtmaya veya orijinal BF16 sürümünü takip edip etmeyeceğinize karar vermek işletme, API veya bulut sağlayıcısına bağlıdır.
GPT-OS ile Openi onlar için bu seçimi yaptı. Modellerin BF16 veya FP8 versiyonu yoktur. MXFP4 tüm elde ettiğimiz. Piyasadaki pozisyonları göz önüne alındığında, Openi temel olarak, eğer MXFP4 bizim için oldukça iyi ise, sizin için yeterince iyi olmalı.
Ve bu, bu modellere hizmet etmekten sorumlu altyapı tedarikçileri için şüphesiz hoş geldiniz. Özellikle bulut tedarikçileri, müşterilerinin kiraladıkları kaynaklarla ne yaptıklarını söyleyecek çok şey alamazlar. Üreticiler MXFP4’ü kucaklarsa, insanların onu kullanma olasılığı o kadar artar.
Openai o zamana kadar, modellerinin diğerlerinin modelleri tarafından ne kadar daha kolay açıldığını ve FP4 verilerinin türünü yerel bir şekilde destekleyen Nvidia ve AMD’den yeni yongalardan nasıl yararlanabileceklerini söyleyebilir. ®