Önümüzdeki 10 yıl içinde, dünyanın en güçlü süper bilgisayarları nükleer reaksiyonları simüle etmekle kalmayacak, onlar üzerinde çalışabilirler. AMD CEO’su Lisa Su, bu hafta Uluslararası Katı Hal Devreleri Konferansı’ndaki açılış konuşmasında, bilgi işlem mimarilerimizin verimliliğini artırmak için sert adımlar atmazsak, dedi.
Sorunun temelinde, AMD ve Intel gibi şirketler CPU’larının ve GPU’larının performansını her 2,4 yılda bir kabaca ikiye katlamayı başarırken, HPE, Atos ve Lenovo gibi şirketlerin sistem düzeyinde kabaca her 1,2 yılda bir benzer kazanımlar elde etmesi yatıyor. , Su, güç verimliliğinin geride kaldığını söylüyor.
En iyi süper bilgisayarlardan derlenen performans ve verimlilik rakamlarına atıfta bulunan AMD, watt başına gigaflop’un kabaca her 2,2 yılda bir ikiye katlandığını, yani sistemlerin büyüme hızının yaklaşık yarısı kadar olduğunu söylüyor.
Bu eğilimin değişmeden devam ettiğini varsayarsak AMD, yaklaşık 10 yıl içinde zettaflop sınıfı bir süper bilgisayara ulaşacağımızı tahmin ediyor. Referans olarak, ABD ilk büyük ölçekli süper bilgisayarı olan Oak Ridge Ulusal Laboratuvarı’nı çalıştırdı. sınır sistemi, geçen sene. Bir zettaflop FP64 performansına sahip bir süper bilgisayar, 1.000 kat daha güçlü olacaktır.
AMD’nin kredisine göre, zettaflop bariyerini ne zaman geçeceğimize dair tahmini, Intel’in bu eşiği şu kadar geçeceğine dair oldukça abartılı iddialarından en azından biraz daha muhafazakar. 2027. Dahası, AMD CEO’su, böyle bir makinenin bilgi işlem mimarileri çok daha verimli ve hızlı bir şekilde geliştirilmedikçe tam olarak pratik olmayacağını söylüyor.
AMD, işler mevcut gidişatında devam ederse, zettaflop sınıfı bir süper bilgisayarın yaklaşık 500 megavat güce ihtiyaç duyacağını tahmin ediyor. “Muhtemelen bu çok fazla,” diye itiraf ediyor Su. “Bu, bir nükleer santralin ne olacağı ölçeğinde.”
“Verimlilikteki bu düzleşme, hem teknoloji açısından hem de sürdürülebilirlik açısından çözmemiz gereken en büyük zorluk haline geliyor” dedi. “Bizim görevimiz, önümüzdeki on yılda bilgi işlem verimliliğini bir numaralı öncelik olarak nasıl düşündüğümüzü anlamak.”
Düzeltme kursu
Yonga üreticilerinin karşılaştığı sorunun bir kısmı, nesiller boyu verimlilik kazanımları elde etmek için geleneksel olarak güvendikleri araçların daha az etkili hale gelmesidir.
Nvidia’nın deri ceket meraklısı ve CEO’su Jensen Huang’ı tekrarlayan Su, Moore Yasasının yavaşladığını kabul ediyor. Daha küçük proses teknolojisinden “Verimliliğin yanı sıra yoğunluk performansı elde etmek çok, çok daha zorlaşıyor”.
Proses teknolojisini 5nm ve hatta 3nm’nin çok ötesine küçültme çabalarına atıfta bulunarak, “Gelişmiş düğümlere girerken, hala iyileştirmeler görüyoruz, ancak bu iyileştirmeler çok daha yavaş bir hızda” diye ekledi.
Ancak süreç teknolojisindeki gelişmeler yavaşlarken, Su hala fırsatların olduğunu ve belki de şaşırtıcı olmayan bir şekilde çoğunun AMD’nin yonga merkezli dünya görüşü etrafında toplandığını savunuyor. “Paket yeni anakart,” dedi.
Geçtiğimiz birkaç yılda, birçok çip üreticisi bu felsefeyi benimsedi. Epyc veri merkezi yongalarıyla bu yaklaşımı tartışmalı bir şekilde popülerleştiren ve daha sonra teknolojiyi Instinct GPU’larına getiren AMD’ye ek olarak, Intel, Apple ve Amazon dahil olmak üzere yonga üreticileri artık darboğazlarla mücadele etmek ve iş yüklerini hızlandırmak için çoklu kalıp mimarileri kullanıyor.
AMD patronu, Chiplet’lerin yonga üreticilerinin bilgi işlem verimliliği söz konusu olduğunda düşük asılı meyvelerden üçünü ele almasına izin vereceğini savunuyor: bilgi işlem enerjisi, iletişim enerjisi ve bellek enerjisi.
Modüler yonga veya kiremit mimarilerinin çok sayıda avantajı vardır. Örneğin, çip üreticilerinin her bileşen için en uygun proses teknolojisini kullanmasına izin verebilirler. AMD, CPU’ları ve GPU kalıpları için TSMC’nin en yoğun işlem teknolojilerinden bazılarını kullanıyor, ancak G/Ç ve analog sinyal gibi verimli bir şekilde ölçeklenemeyen şeyler için genellikle daha büyük düğümler kullanıyor.
İşlem, bellek ve G/Ç daha yakın bir yerde paketlenebildiğinden, yongalar ayrıca bileşenler arasındaki iletişim için gereken güç miktarını azaltmaya yardımcı olur. Yonga üreticileri, AMD’nin X serisi Epycs’de SRAM ile ve Intel’in Ponte Vecchio GPU’larında HBM ile yaptığı gibi, dikey olarak istiflendiğinde kazançların daha da büyük olduğunu iddia ediyor.
AMD, gelişmiş 3B paketleme tekniklerinin, geleneksel paket dışı bellek ve G/Ç’ye kıyasla 50 kat daha verimli iletişim sağlamasını bekliyor.
AMD, Intel ve Nvidia’nın CPU’ları, GPU’ları ve AI hızlandırıcıları yeni nesil silikonlarına entegre etmeye başlamasının nedeni şüphesiz budur. Örneğin, AMD’nin yaklaşmakta olan MI300’ü, Zen 4 CPU çekirdeklerini CDNA3 GPU’ları ve bir gemi dolusu HBM belleği ile entegre edecek. Intel’in Falcon kıyı platformu da benzer bir yol izleyecektir. Bu arada, Nvidia’nın Grace Hopper süper yongaları, aynı derecede entegre olmasa da, yine de bir Arm CPU’yu 512 GB LPDDR5, Hopper GPU kalıbı ve 80 GB HBM ile birlikte paketliyor.
AMD, CPU’larda, GPU’larda veya bellekte de durmuyor. Şirket, yongadan yongaya iletişim için standartlar oluşturmaya çalışan Universal Chiplet Interconnect Express (UCIe) konsorsiyumunun desteğini aldı, böylece bir satıcının yongası diğerinin yanında paketlenebilir.
AMD ayrıca, Xilinx ve Pensando satın almalarından elde edilen IP’yi yeni ürünlere entegre etmek için aktif olarak çalışmaktadır. Su açılış konuşması sırasında, güç verimliliğini daha da artırmak için potansiyel fırsatlar olarak birlikte paketlenmiş optik ağ, yığın DRAM ve hatta bellek içi bilgi işlem potansiyelinin altını çizdi.
AI’ya HPC’de bir şans vermenin zamanı geldi mi?
Ancak mimariyi iyileştirme fırsatı olsa da Su, geleneksel olarak büyük veri kümeleri kullanan yüksek hassasiyetli hesaplamalı simülasyona dayanan HPC iş yüklerini yürütme yöntemimizi yeniden değerlendirmenin zamanının gelebileceğini de öne sürüyor.
Bunun yerine, AMD CEO’su, HPC’de yapay zeka ve makine öğrenimini daha yoğun kullanma zamanının gelebileceğini öne sürüyor. Ve bunu düşünen yalnız o değil. Hem Nvidia hem de Intel, özellikle birkaç ondalık basamaklı doğruluk ticaretinin eğitim günleri ve saatleri arasındaki fark anlamına gelebileceği makine öğrenimi için daha düşük hassasiyetli bilgi işlemin avantajlarını zorluyor.
Nvidia tartışmasız en çok korkunç, birden çok “AI exaflops” yeteneğine sahip sistemler olduğunu iddia ediyor. Çoğu HPC iş yükünde tipik olarak kullanılan FP64 hesaplamalarından değil, FP16, FP8 veya Int8 performansından söz ettikleri gerçeğini uygun bir şekilde dışarıda bırakırlar veya küçük yazıya gömerler.
AMD şefi, “Sadece son 10 yıldaki göreli performansa bir göz atacak olursak, SpecInt Rate veya flop’lar etrafındaki geleneksel ölçümlerde ne kadar ilerlemiş olsak da, AI flop’lar çok daha hızlı gelişti” dedi. “Tüm bu karışık hassasiyet yeteneklerine sahip olduğumuz için çok daha hızlı geliştiler.”
HPC için AI/ML’nin ilk uygulamalarından biri, Su’nun AI vekil fizik modelleri olarak adlandırdığı şey olabilir. Genel ilke, uygulayıcıların geleneksel HPC’yi çok daha hedefli bir şekilde kullanması ve alanı daraltmaya ve genel olarak gereken hesaplama gücünü azaltmaya yardımcı olmak için makine öğrenimini kullanmasıdır.
Birkaç DoE laboratuvarı zaten keşfetmek iklim modelleri ve ilaç keşfinden simüle edilmiş nükleer silah testi ve bakımına kadar her şeyi iyileştirmek için AI/ML kullanımı.
Su, “Daha erken. Buradaki algoritmalar üzerinde yapılacak çok iş var ve sorunların nasıl bölümleneceği konusunda yapılacak çok iş var” dedi. ®