Elon Musk’ın yeni projesi xAI Colossus süper bilgisayarı, 100,000 GPU ile donatılmış devasa bir yapay zeka bilgisayarı olarak ilk kez detaylı bir şekilde kameraların önüne çıkarıldı. YouTuber ServeTheHome, süper bilgisayarın Süpermikro sunucularını inceleyerek bu projenin çeşitli yönlerini gözler önüne serdi. Colossus, 122 günlük bir montaj sürecinin ardından iki aydır çevrimiçi durumda. Videoda bazı detaylar gizli tutulsa da, süper bilgisayarın en önemli bileşenleri büyük ölçüde paylaşıldı.
xAI Colossus’un temel yapı taşı, her biri sekiz H100 GPU içeren NVIDIA HGX H100 sunucuları. Bu sunucular, Supermicro’nun sıvı soğutmalı 4U Universal GPU sisteminde yer alıyor. Her bir birim, her biri sekiz sunucu taşıyan yapıların içinde 64 GPU barındırıyor. Her birimin alt kısmında yedekli bir pompa sistemi ve izleme cihazı bulunan bir Supermicro 4U ünitesi bulunuyor. Tüm bu sistem, toplamda 1,500’den fazla GPU ünitesinden oluşan devasa bir yapıyı oluşturuyor.
Yüksek bant genişliği gereksinimlerine sahip olan bu süper bilgisayar, ağ bağlantıları için de olağanüstü bir yapı sunuyor. Her bir GPU, 400GbE hızında özel bir ağ arayüzüne sahip ve bu da toplamda 3.6 Terabit/saniye ethernet bağlantısı sağlıyor. Tüm yapı, süper bilgisayarlarda standart olan InfiniBand yerine Ethernet ile çalışıyor. Bu yapı, yapay zeka modellerinin sürekli olarak eğitilmesi için gerekli olan yüksek veri akışını sağlıyor.
Colossus’un ana kullanım alanı, Elon Musk’ın "anti-woke" yapay zeka destekli sohbet botu Grok gibi X (eski adıyla Twitter) platformundaki AI modellerinin eğitimini üstlenmek. NVIDIA’ya göre, Colossus şu anda dünyanın en büyük AI süper bilgisayarı. Ayrıca, projenin ilk aşaması tamamlanmışken, Musk’ın 50,000 yeni H200 GPU ile mevcut kapasitesini iki katına çıkarmayı hedeflediği bir güncelleme planı da bulunuyor. Ancak bu durum, enerji tüketiminin de iki katına çıkacağı anlamına geliyor.
xAI Colossus'un görüntülendiği videoyu aşağıdan izleyebilirsiniz