รู้จัก Colossus ซูเปอร์คอมพิวเตอร์ที่อยู่เบื้องหลัง xAI AI สุดล้ำของ Elon Musk

Elon Musk มหาเศรษฐีและวิศวกรผู้เป็นเจ้าของบริษัทผลิตรถยนต์ไฟฟ้าสุดล้ำอย่าง Tesla ที่ก็ต้องบอกว่านาทีนี้แทบจะไม่มีใครไม่รู้จักเขา ด้วยความที่ Elon เป็นคนแอคทีฟที่ไม่เคยหยุดคิดที่จะทำอะไรใหม่ ๆ ตลอดเวลา เพราะนอกจากจะผลิตรถยนต์ไฟฟ้าอย่าง Tesla แล้ว เขายังเป็นเจ้าของบริษัท SpaceX ที่ทำธุรกิจเกี่ยวกับอวกาศ พ่วงด้วยอีกหลายต่อหลายโปรเจกต์ที่เขาเข้าไปมีส่วนร่วมในการลงทุน

และล่าสุดกับ xAI บริษัทที่วิจัยและพัฒนาด้านปัญญาประดิษฐ์ที่คาดการณ์กันว่า เมื่อไหร่ที่ออกสู่ท้องตลาด xAI จะเป็นคู่แข่งที่น่ากลัวของ OpenAI อย่างแน่นอน ในส่วนของประวัติที่มาที่ไปของ xAI เป็นอย่างไร เราเคยเขียนถึง xAI ไปก่อนหน้านี้แล้ว ใครที่อยากรู้ว่า xAI เป็นมาอย่างไรสามารถตามอ่านบทความ “ตลาด AI ระอุ Elon Musk ส่ง xAI ลงสนามท้าชน AI ทุกค่าย” กันก่อนได้

สำหรับบทความนี้เราจะพาผู้อ่านไปดูอีกส่วนประกอบที่สำคัญของ AI นั่นก็คือส่วนของการประมวลผล หรือจะเรียกว่าเป็น สมอง ของ AI เลยก็ว่าได้ โดยล่าสุดเมื่อช่วงปลายเดือนตุลาคม 2024 ที่ผ่านมา Nvidia ค่ายการ์ดจอชื่อดังระดับโลก ได้แถลงว่า ทาง xAI ได้ทำการซื้อ GPU เป็นจำนวนกว่า 100,000 ตัวเพื่อเอาไปไว้ทำ Supercompter ที่ใช้สำหรับการประมวลผล (และเทรน) Grok Model ซึ่งเป็น Model AI จากค่าย xAI

ความน่าสนใจของเรื่องนี้คือทำไมเจ้า Grok Model ถึงต้องใช้ GPU มากถึง 100,000 ตัว และความน่าทึ่งของการสร้าง Super Computer ที่มีชื่อว่า Colossus ที่ใช้เวลาสร้างเพียงแค่ 19 วัน นั้น ทีมวิศวกรของ xAI ทำเรื่องที่เหลือเชื่อแบบนี้ได้อย่างไร ติดตามอ่านได้จากบทความนี้

ที่มาและวิสัยทัศน์เบื้องหลัง xAI

xAI ก่อตั้งขึ้นอย่างเป็นทางการในช่วงกลางปี 2023 โดยมัสก์ ซีอีโอของ Tesla และ SpaceX โดยมีจุดมุ่งหมายเพื่อ “ค้นพบว่าโลกแห่งความเป็นจริงเป็นอย่างไร”

ตามคำชี้แจงภารกิจของบริษัท “xAI เป็นบริษัทที่ดำเนินการสร้างปัญญาประดิษฐ์เพื่อเร่งการค้นพบทางวิทยาศาสตร์ของมนุษย์ เราได้รับการชี้นำจากภารกิจของเราในการส่งเสริมความเข้าใจร่วมกันของเราเกี่ยวกับจักรวาล”

ตามคำกล่าวของมัสก์ เขาได้ก่อตั้งบริษัทนี้ขึ้นเนื่องจากเขาเริ่มกังวลเกี่ยวกับอันตรายจาก AI ที่ไม่ได้รับการควบคุม xAI มีเป้าหมายที่ระบุไว้ในการใช้ AI เพื่อการค้นพบทางวิทยาศาสตร์ แต่ในลักษณะที่ไม่แสวงหากำไร

ซูเปอร์คอมพิวเตอร์ xAI ได้รับการออกแบบมาเพื่อขับเคลื่อนการวิจัย AI ขั้นสูง ตั้งแต่การเรียนรู้ของเครื่องจักรไปจนถึงเครือข่ายประสาทเทียม โดยมีแผนที่จะใช้ Colossus เพื่อฝึกโมเดลภาษาขนาดใหญ่ (เช่น ซีรีส์ GPT ของ OpenAI) และขยายกรอบงานไปยังพื้นที่ต่าง ๆ รวมถึงเครื่องจักรอัตโนมัติ หุ่นยนต์ และการจำลองทางวิทยาศาสตร์

ว่าด้วยเรื่อง Colossus

Colossus ได้รับการเปิดตัวครั้งแรกในเดือนกันยายน 2024 ที่เมืองเมมฟิส รัฐเทนเนสซี Data Center แห่งนี้ตั้งอยู่ในโรงงาน Electrolux ในอดีต ในเขตอุตสาหกรรมทางใต้ของเมืองเมมฟิส

จุดประสงค์ของการสร้าง Colossus Supercomputer ของ xAI นั้นก็เพื่อขับเคลื่อนการวิจัย AI ขั้นสูง ตั้งแต่การเรียนรู้ของเครื่องจักร (Machine Learning) ไปจนถึงจำลองเครือข่ายประสาทเทียม (Artificial Neural Network) โดย xAI มีแผนที่จะใช้ Colossus เพื่อฝึกโมเดลภาษาขนาดใหญ่อย่าง Grok 3 (เช่นเดียวกับซีรีส์ GPT ของบริษัท OpenAI) และขยายกรอบงานไปยังส่วนอื่น ๆ รวมถึงเครื่องจักรอัตโนมัติ หุ่นยนต์ และการจำลองโมเดลทางวิทยาศาสตร์

Elon Musk เข้าซื้อโรงงานของ Electrolux เพื่อใช้เป็นฐานที่มั่นในการเทรนโมเดลเอไอของทีม xAI โรงงานแห่งนี้ตั้งอยู่ที่เมืองเมมฟิส รัฐเทนเนสซี: weku.org

สเปกของ Colossus

GPU: หลัก ๆ สมองของ Colossus มาจาก NVIDIA Hopper GPUs รุ่น H100 จำนวน 100,000 ตัว โดย xAI และมีแผนที่จะเพิ่ม GPU อีก 100,000 ตัว (รวมเป็น 200,000 ตัว) ในอนาคตอันใกล้นี้ โดยจะเป็นการเพิ่มรุ่น H100 อีก 50,000 ตัว และ GPU H200 อีก 50,000 ตัว

สถาปัตยกรรม: Colossus สร้างขึ้นโดยใช้แร็คระบายความร้อนด้วยของเหลวของ Supermicro โดยแต่ละแร็คจะประกอบด้วยเซิร์ฟเวอร์ 8 เครื่องที่ติดตั้ง GPU NVIDIA H100 จำนวน 8 ตัว การจัดเรียง Server แบบนี้ทำให้สามารถจัดกลุ่ม GPU ขนาดเล็กได้ทั้งหมด 512 ตัว ซึ่งจะช่วยเพิ่มทั้งประสิทธิภาพ (Efficiency) และประสิทธิผล (Effectiveness)

ประสิทธิภาพ: ระบบนี้มีประสิทธิภาพสูงสุดที่ 98.9 exaFLOPS โดยใช้ความแม่นยำ FP/BF16 แบบหนาแน่น หากโมเดลใช้ประโยชน์จากความเบาบางได้อย่างมีประสิทธิภาพ ตัวเลขนี้จะเพิ่มขึ้นเป็นสองเท่าเป็นประมาณ 395 exaFLOPS ที่ความแม่นยำ FP8 แบบเบาบาง 34 โดยเฉพาะอย่างยิ่งตัวเลขนี้จะสามารถไปถึง 6.7 exaFLOPS ในประสิทธิภาพเมทริกซ์ FP64 สูงสุด หากเปรียบเทียบกับมาตรฐาน High-Performance Linpack (HPL)

โครงสร้างพื้นฐานเครือข่าย (Network): Colossus ใช้แพลตฟอร์มเครือข่ายอีเทอร์เน็ต Spectrum-X ของ NVIDIA ซึ่งช่วยให้สามารถถ่ายโอนข้อมูลด้วยความเร็วสูงโดยมีเวลาแฝงน้อยที่สุดและแทบไม่มีการสูญเสียข้อมูลระหว่างการรับส่งข้อมูลเลย ซึ่งถือเป็นการออกจากระบบ InfiniBand แบบดั้งเดิมที่มักจะใช้เป็นของคู่กันกับ Supercomputer ส่วนการตั้งค่าเครือข่ายประกอบด้วย BlueField-3 SuperNIC ซึ่งช่วยอำนวยความสะดวกในการควบคุมความแออัดขั้นสูงของข้อมูล

ภาพภายใน Data Center ของ xAI ซึ่งเป็นที่อยู่ของ Supercomputer Colossus: servethehome

สิ่งหนึ่งที่น่ารู้และน่าทึ่งก็คือ เจ้า Supercomputer Colossus ถูกสร้างเสร็จสมบูรณ์ภายในกรอบระยะเวลาเพียง 122 วัน (4 เดือน) ซึ่งถือว่าเร็วมากชนิดที่ไม่เคยเกิดขึ้นมาก่อน โดยที่น่าสังเกตคือ นับตั้งแต่วันที่แร็คตัวแรกมาถึง (แร็คคือชั้นวางคอมพิวเตอร์) xAI ใช้เวลาเพียง 19 วันก็เริ่มฝึกอบรมโมเดล Grok ได้แล้ว การที่ทีม xAI เริ่มโปรเจกต์รวดเร็วขนาดนี้ แสดงให้เห็นถึงความมุ่งมั่นของ xAI ในการพัฒนาโครงสร้างพื้นฐานด้าน AI ให้เป็นผู้นำในระดับโลกเป็นอย่างมาก

ถ้าใครที่อยากดูว่า Colossus ของจริงเป็นอย่างไร สามารถติดตามคลิปทัวร์ Data Center ของ xAI ได้จาก คลิปนี้ คลิก

NVIDIA Spectrum-X เน็ตเวิร์กสุดเร็ว คู่หูสุดสำคัญของ Colossus

Spectrum-X เป็นแพลตฟอร์มเน็ตเวิร์กแบบ อีเทอร์เน็ต สุดล้ำจาก NVIDIA ออกแบบมาโดยเฉพาะเพื่อเพิ่มประสิทธิภาพและประสิทธิผล (Efficiency and effectiveness) ของ Workload AI* เปิดตัวครั้งแรกในเดือนพฤษภาคม ปี 2023 โดยแพลตฟอร์มดังกล่าวเกิดมาตอบสนองความต้องการเฉพาะตัวของคลาวด์ AI โดยได้รับการปรับปรุงในด้านความเร็วในการประมวลผล ประสิทธิภาพการใช้พลังงาน และความสามารถในการคาดการณ์ประสิทธิภาพในสถานการณ์แบบมีผู้ใช้หลายคนพร้อม ๆ กัน

Workload AI คือ ปริมาณงาน หรือ กระบวนการ ที่ระบบปัญญาประดิษฐ์ (AI) ต้องดำเนินการในระหว่างการทำงาน โดยรวมถึงการประมวลผลข้อมูลและการดำเนินการต่าง ๆ เพื่อให้ AI สามารถตอบสนองหรือทำงานตามวัตถุประสงค์ที่ตั้งไว้ เช่น การฝึกโมเดล (Training), การทำนายผล (Inference) หรือการจัดการข้อมูล

Colossus ได้รับการออกแบบมาเพื่อเทรนโมเดลภาษาขนาดใหญ่ในตระกูล Grok ของ xAI ซึ่งรวมเข้าไว้เป็นฟีเจอร์แชตบอตสำหรับสมาชิก X Premium ตัว Grok Model จะรันอยู่บนแพลตฟอร์มเครือข่ายอีเทอร์เน็ตที่มีชื่อว่า Spectrum-X ซึ่งเป็นของ NVIDIA ทำให้ Grok สามารถทำงานได้บนสภาพแวดล้อมที่มีความเร็วสูงและมีความหน่วงต่ำ (Low Latency) ซึ่งเป็นสภาพแวดล้อมที่จำเป็นอย่างมากสำหรับการเทรน AI Model ให้ได้อย่างมีประสิทธิภาพ

ซึ่งแตกต่างจากการตั้งค่าเครือข่ายแบบเดิม โดย Spectrum-X สามารถส่งข้อมูลได้ สมบูรณ์ถึง 95% โดยมีการสูญเสียข้อมูลไประหว่างทางเกือบเป็นศูนย์ ซึ่งช่วยแก้ไขปัญหาคอขวดด้านประสิทธิภาพที่พบเห็นได้ทั่วไปในการทำ AI ขนาดใหญ่ เปรียบเทียบให้เข้าใจง่าย ๆ เหมือนกับว่าคุณมีถนนที่กว้างขึ้น (95% throughput) ก็ทำให้รถจำนวนมากสามารถวิ่งผ่านไปได้อย่างรวดเร็ว และมีระบบจัดการจราจรที่ดีมากจนรถแทบไม่ชนหรือหายไปเลย (zero packet loss) ดังนั้น ระบบนี้จึงเหมาะสำหรับงานที่ต้องการส่งข้อมูลขนาดใหญ่เร็ว ๆ เช่น การฝึกโมเดล AI ขนาดใหญ่ ที่ต้องการความเร็วและความแม่นยำในการประมวลผล

วิดีโอที่แสดงที่ตั้งของแพลตฟอร์ม Ethernet “Spectrum-X” ของ Nvidia ที่ช่วยทำให้การเทรน Grok Model ของ xAI ให้ได้ประสิทธิภาพสูงที่สุด

โดยปกติแล้วถ้า Colossus รันบนอุปกรณ์อีเทอร์เน็ตมาตรฐาน จะทำให้เกิดการชนกันของข้อมูลได้หลายพันครั้งและทำให้ส่งมอบข้อมูลที่ถูกต้องแม่นยำได้เพียง 60%เท่านั้นซึ่งไม่เพียงพอสำหรับประสิทธิภาพขั้นต่ำที่ xAI ต้องการ

ในทางกลับกัน Spectrum-X รับประกัน “การลดความหน่วงของแอปพลิเคชันเป็น 0” และขจัดการสูญเสียแพ็กเก็ตอันเนื่องมาจากการชนกันของข้อมูล โดยรักษาอัตราความสำเร็จของการส่งข้อมูลสูงถึงที่ 95% (Data throughput) ผ่านระบบ “การควบคุมความแออัด (Congestion control system) เมื่อทุกอย่างพร้อมและเป็นใจ ก็พูดได้ว่า Colossus กำลังเทรนโมเดลภาษาขนาดใหญ่ (Large Language Models: LLM) ในตระกูล Grok เพื่อให้ได้ประสิทธิภาพดีที่สุดชนิดที่ “ไม่เคยมีมาก่อน”

ภาพของแพลตฟอร์ม Nvidia Supectrum-X เน็ตเวิร์กแบบอีเทอร์เน็ตที่ใช้คู่กับ Colossus Supercomputer ของ xAI ทำให้ผลลัพธ์ออกมาทรงอานุภาพเป็นอย่างยิ่ง: Nvidia

Spectrum-X ไม่ใช่เทคโนโลยีอีเทอร์เน็ตแบบธรรมดาทั่วไป แต่แกนหลักของแพลตฟอร์มคือ Spectrum SN5600 Ethernet Switch ซึ่ง Nvidia บอกเคลมสามารถรองรับการส่งข้อมูลได้มากถึง 800 Gbps (กิกะบิตต่อวินาที) หรือ 800,000 เมกะบิตต่อวินาทีต่อ 1 พอร์ต สวิตช์นี้สร้างขึ้นบน ASIC แบบกำหนดเองของ Spectrum-4 และ xAI ได้จับคู่กับ Nvidia BlueField-3 SuperNIC เพื่อเร่งความเร็วการสื่อสารระหว่าง GPU ได้อย่างมีประสิทธิภาพ

Nvidia ระบุว่าแพลตฟอร์มเครือข่ายอีเทอร์เน็ต Spectrum-X สามารถเร่งการพัฒนาระบบ AI ที่ทรงพลัง เช่น Colossus ได้ โดยลดเวลาที่จำเป็นในการนำเครื่อง HPC ขนาดใหญ่มาใช้งานออนไลน์ เทคโนโลยี Spectrum-X สามารถปรับขนาดได้และอาจให้คุณสมบัติเครือข่ายที่ก่อนหน้านี้มีให้เฉพาะผ่านโซลูชัน InfiniBand เท่านั้น

ปัจจุบัน Supercomputer xAI Colossus เป็นซูเปอร์คอมพิวเตอร์ AI ที่ใหญ่ที่สุดในโลก ในขณะที่ซูเปอร์คอมพิวเตอร์ชั้นนำของโลกหลายเครื่องส่วนใหญ่จะมีไว้เพื่อประโยชน์ทางการศึกษามากกว่าจะนำมาใช้ในเชิงพาณิชย์ อย่างเช่น การศึกษารูปแบบสภาพอากาศ โรคภัยไข้เจ็บ หรืองานที่ต้องมีการคำนวณยาก ๆ

การสร้าง Colossus เฟสแรกนั้นเสร็จสมบูรณ์เรียบร้อยแล้วและตอนนี้ก็ออนไลน์เต็มรูปแบบแล้ว แต่ถึงอย่างนั้นก็พูดได้ว่ายังไม่เสร็จสิ้นกระบวนการทั้งหมดเพราะ xAI มีแผนที่จะอัปเกรด Colossus ให้เก่งขึ้นไปอีก ซึ่งนั้นจะทำให้มีการใช้พลังงานเพิ่มขึ้นมากกว่า 2 เท่า (จากเวอร์ชั่นปัจจุบัน) และมากเกินกว่าที่เครื่องกำเนิดไฟฟ้าดีเซล 14 เครื่องของ Tesla จะรองรับได้ มีการคาดการณ์ว่า Elon Musk ต้องการที่จะอัปเกรด Colossus Supercomputer ที่บรรจุ GPU Nvidia H200 รวมให้ได้ทั้งสิ้น 300,000 ตัว

Elon Musk ไม่ได้เพิ่งมี Colossus เป็น Supercomputer ในพอร์ตของตัวเองเป็นตัวแรก แต่ก่อนหน้านี้เขาเองก็มีซูเปอร์คอมพิวเตอร์ชื่อว่า Cortex ใช้ GPU ในการเทรนโมเดลเป็นจำนวนกว่า 50,000 ตัว ตั้งอยู่ที่โรงงาน Giga Texas (โรงงานผลิตรถยนต์และแบตเตอรี่ของ Tesla) โดย Cortex ถูกสร้างขึ้นมาเพื่อเทรน AI สำหรับการขับเคลื่อนอัตโนมัติของ Tesla ผ่านการป้อนภาพจากกล้องและการตรวจจับภาพเพียงอย่างเดียว (ไม่ได้เอาไปทำอย่างอื่น) รวมถึงหุ่นยนต์อัตโนมัติและโครงการ AI อื่น ๆ ของ Tesla

นอกจากนี้ เราอาจได้เห็น Tesla สร้างซูเปอร์คอมพิวเตอร์ที่มีชื่อว่า DOJO ในเมืองบัฟฟาโล รัฐนิวยอร์ก ซึ่งเป็นโครงการมูลค่า 500 ล้านดอลลาร์ในเร็ว ๆ นี้ ส่วน Dojo คือซูเปอร์คอมพิวเตอร์ขั้นสูงของ Tesla ที่ออกแบบมาโดยเฉพาะสำหรับการฝึกโมเดลการเรียนรู้ของเครื่องจักร (Machine Learning โดยเฉพาะอย่างยิ่งโมเดลที่ใช้ในเทคโนโลยี Full Self-Driving (FSD) ของบริษัท Dojo ซึ่งได้รับการประกาศเปิดตัวในงาน AI Day ของ Tesla ในปี 2021 มีเป้าหมายที่จะปรับปรุงความสามารถในการประมวลผล AI อย่างมีนัยสำคัญ ช่วยให้ Tesla สามารถจัดการข้อมูลจำนวนมหาศาลที่สร้างขึ้นจากยานพาหนะของบริษัทได้อย่างมีประสิทธิภาพ

เรื่อง: ณัฐศกรณ์ แสงลับ

อ้างอิง

https://www.maginative.com/article/inside-elon-musks-colossus-xais-world-leading-ai-supercomputer/

https://www.techspot.com/news/105366-elon-musk-ai-supercomputer-utilizes-proprietary-nvidia-networking.html

https://www.economist.com/business/2024/11/27/elon-musks-xai-goes-after-openai

https://www.datacenterfrontier.com/machine-learning/article/55244139/the-colossus-ai-supercomputer-elon-musks-drive-toward-data-center-ai-technology-domination

https://nvidianews.nvidia.com/news/spectrum-x-ethernet-networking-xai-colossus

–