พาดู Data Center AI xAI Colossus ของ Elon Musk ชิป 100,000 ตัว

Last Updated on 10/30/2024 by rromruns

พาไปดูเครื่องซุปเปอร์คอมพิวเตอร์ตัวแรง xAI Colossus AI ของ Elon Musk กัน จากช่อง YouTuber ServeTheHome ที่ได้โอกาสเข้าไปถ่ายทำภายในออกมาให้เราได้ดูกัน

จากที่ Elon Musk ประกาศเอาไว้ว่าระบบเปิดออนไลน์ใช้งานได้อย่างเป็นทางการไปแล้วเป็นเวลาล่วงเลยมาจนถึงตอนนี้ก็ราวเกือบ ๆ 2 เดือนเต็ม หลังจากที่ใช้เวลาในการประกอบติดตั้งก่อนหน้านี้กว่า 122 วัน

xAI Colossus

ภายใน cluster เซิร์ฟเวอร์ GPU นั้นมีชิป NVIDIA GPU จำนวนกว่า 100,000 ตัว เซิร์ฟเวอร์ GPU เป็น NVIDIA HGX H100s ภายในใส่ชิป H100 เอาไว้ 8 ตัวต่อ 1 เครื่อง ทั้งหมดถูกใส่เอาไว้ในระบบหล่อเย็นด้วยน้ำ 4U Universal GPU Liquid Cooled ของ Supermicro รองรับการถอดเปลี่ยนระบบน้ำหล่อเย็นแบบ hot-swappable ได้ทันทีสะดวกสบายสำหรับ GPU แต่ละตัว

xAI Colossus

จำนวน GPU ทั้งหมดต่อ rack อยู่ที่ 64 ตัว ในระหว่างตัวเครื่อง HGX H100 จะมีระบบท่อส่งน้ำต่อเชื่อมกันไปขนาด 1U ส่วนที่ด้านล่างของ rack จะมี Supermicro 4U อีก 1 ชุด เป็นระบบปั๊มน้ำสำรองและระบบตรวจจับการทำงานต่าง ๆ

xAI Colossus

แต่ละ rack จะบรรจุทั้งหมด 8 เครื่อง รวมเป็น GPU 512 ตัวต่อ array ในแต่ละเซิร์ฟเวอร์จะมีระบบสำรองพลังงาน power supplies ทั้งหมด 4 ตัว ด้านหลัง rack จะแบ่งระบบจ่ายไฟออกเป็น 3 เฟส ต่อด้วยสวิตช์ Ethernet และท่อรวมระบบหมุนวนน้ำหล่อเย็นขนาดเท่า rack

ทั้ง cluster รวมแล้วมี rack มากว่า 1,500 ตัว หรือใกล้เคียง array rack ทั้งหมด 200 ตัว และอ้างอิงจากที่ Jensen Huang ตำแหน่ง CEO ของ NVIDIA บอกไว้ ทั้งหมดนี้ใช้เวลาในการติดตั้งเพียงแค่ 3 สัปดาห์เท่านั้น

ที่มา ibit.ly/dLJDd

Facebook
Facebook
YouTube
Instagram