เมื่อวันที่ 24 กุมภาพันธ์ 2568 DeepSeek ได้ประกาศเปิดตัว "FlashMLA" ซอฟต์แวร์โอเพ่นซอร์สที่ช่วยยกระดับศักยภาพของชิป GPU ตระกูล Hopper รุ่น H800 ได้อย่างก้าวกระโดด สามารถทำความเร็วหน่วยความจำได้สูงสุดถึง 3000 GB/s และประสิทธิภาพการประมวลผล 580 TFLOPS ส่งผลให้ต้นทุนในการคำนวณของโมเดลภาษาขนาดใหญ่ (LLM) ลดลงอย่างมีนัยสำคัญ
FlashMLA คืออะไร?
FlashMLA เป็นชุดคำสั่งการประมวลผลที่ปรับแต่งมาเป็นพิเศษสำหรับ Hopper GPU ที่ DeepSeek พัฒนาขึ้นโดยเฉพาะ มีเป้าหมายเพื่อการถอดรหัสข้อมูลแบบ MLA (Multi-head Latent Attention) ที่รวดเร็ว มีประสิทธิภาพ และประหยัดหน่วยความจำมากขึ้น โดยการนำเทคนิคใหม่ในการจัดการหน่วยความจำที่มีความยืดหยุ่นกับข้อมูลขนาดต่างกันมาใช้งาน
จากการเปิดเผยของทีมวิศวกร DeepSeek พบว่า FlashMLA ทำให้ GPU รุ่น H800 สามารถใช้พลังประมวลผลได้เต็มที่กว่าเดิมอย่างชัดเจน นักพัฒนาจีนหลายรายต่างแสดงความตื่นเต้นบนโลกออนไลน์ และให้ความสนใจดาวน์โหลดโค้ด FlashMLA ที่เพิ่งเปิดตัวบน GitHub ไปใช้งานแล้วเป็นจำนวนมาก โดยหลังจากเปิดตัวได้เพียงหนึ่งชั่วโมง โครงการนี้ได้รับดาว GitHub มากกว่า 1,200 ดวงทันที
ทีมวิจัย DeepSeek เปิดเผยว่าได้รับแรงบันดาลใจจากโครงการ FlashAttention รุ่น 2 และ 3 รวมถึงโปรเจกต์ CUTLASS ของบริษัท NVIDIA โดย FlashAttention คือชุดคำสั่งที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพการคำนวณ Attention Mechanism ของโมเดล AI ซึ่งถูกใช้อย่างกว้างขวางในโมเดลขนาดใหญ่ เช่น GPT-4 หรือ LLaMA ในปัจจุบัน ส่วน CUTLASS เป็นไลบรารี่ CUDA สำหรับเพิ่มความเร็วในการประมวลผล Matrix Multiplication ของ GPU
ความโดดเด่นของสถาปัตยกรรม MLA จาก DeepSeek
MLA (Multi-head Latent Attention) คือสถาปัตยกรรมเฉพาะตัวที่พัฒนาโดยทีมวิจัย DeepSeek มีจุดเด่นที่สามารถบีบอัดข้อมูลของ Key และ Value ในกระบวนการ Attention Mechanism ให้มีขนาดเล็กลงอย่างมาก ลดความต้องการพื้นที่จัดเก็บข้อมูลแบบ KV Cache ซึ่งเป็นปัญหาใหญ่ในการประมวลผลข้อมูลที่มีลำดับความยาวสูง (Long sequence) ทำให้ใช้หน่วยความจำน้อยลงและเพิ่มประสิทธิภาพในการประมวลผลโมเดล AI ได้อย่างมาก
ผลการใช้งานจริงในรุ่นก่อนหน้านี้ (V2) พบว่า MLA สามารถลดการใช้หน่วยความจำ GPU ลงเหลือเพียง 5-13% ของการใช้สถาปัตยกรรมดั้งเดิม (MHA) โดยมีต้นทุนในการประมวลผลถูกกว่า Llama 370B ถึง 7 เท่า และถูกกว่า GPT-4 Turbo ถึง 70 เท่าเลยทีเดียว ในขณะที่รุ่นล่าสุด (V3) ที่เปิดตัวนี้ยิ่งมีประสิทธิภาพดีขึ้นกว่าเดิมอีกมาก
ในเวลาเดียวกัน โมเดล DeepSeek-R1 ของบริษัทก็ขึ้นแท่นโมเดลภาษาขนาดใหญ่ที่ได้รับความนิยมสูงสุดในแพลตฟอร์ม HuggingFace โดยมียอดกดถูกใจ (Star) ทะลุ 10,000 ครั้ง ซึ่งถือเป็นอันดับ 1 จากโมเดลทั้งหมดกว่า 1.5 ล้านโมเดลบนแพลตฟอร์มนี้ ทางด้าน HuggingFace ยังได้ออกมาประกาศแสดงความยินดีกับความสำเร็จครั้งสำคัญนี้ด้วย
การประกาศครั้งนี้ได้รับความสนใจอย่างสูงในวงการนักพัฒนา AI ทั่วโลก โดยหลายฝ่ายมองว่าความสำเร็จของ DeepSeek จะมีผลกระทบอย่างมากต่อการแข่งขันด้าน AI และเทคโนโลยีการประมวลผลในอนาคต และคาดว่าการเปิดตัว FlashMLA จะมีส่วนช่วยลดต้นทุนการใช้งาน AI ลงอย่างมาก พร้อมเพิ่มขีดความสามารถในการแข่งขันของบริษัทเทคโนโลยีจีนบนเวทีโลกต่อไป
ที่มา : QbitAI (量子位)