DeepSeek มีต้นทุนต่ำด้วยเหตุผลหลัก ๆ ดังนี้:
- สถาปัตยกรรมแบบ Mixture-of-Experts (MoE)
MoE ช่วยให้โมเดลสามารถเปิดใช้งานเพียงส่วนของพารามิเตอร์ที่จำเป็นสำหรับแต่ละงานแทนที่จะคำนวณทุกพารามิเตอร์ในทุก ๆ ครั้ง ทำให้การประมวลผลลดลงและใช้ทรัพยากรน้อยลง ส่งผลให้ต้นทุนในการฝึกอบรมลดลงอย่างมีนัยสำคัญ
citeturn0academia13 - เทคนิค Multi-head Latent Attention (MLA)
MLA ช่วยบีบอัดข้อมูลใน Key-Value Cache ให้มีขนาดเล็กลง ซึ่งลดการใช้หน่วยความจำและปรับปรุงประสิทธิภาพของการประมวลผลในระหว่าง inference ทำให้ระบบสามารถทำงานได้เร็วขึ้นและใช้พลังงานน้อยลง - การใช้วิธีการฝึกอบรมที่มีประสิทธิภาพ
DeepSeek ใช้เทคนิค Reinforcement Learning (RL) ในการพัฒนาโมเดลเพื่อให้สามารถเรียนรู้และปรับปรุงความสามารถในการให้เหตุผลได้ดีขึ้น โดยใช้วิธีการที่ช่วยลดจำนวนการคำนวณที่จำเป็นระหว่างการฝึกอบรม - การออกแบบระบบและฮาร์ดแวร์ที่คุ้มค่า
ด้วยการใช้คลัสเตอร์ GPU ที่ออกแบบมาเฉพาะ (เช่น “Fire-Flyer” และ “Fire-Flyer 2”) พร้อมกับการปรับปรุงซอฟต์แวร์สำหรับการสื่อสารแบบไม่บล็อก (เช่น hfreduce) และการใช้คณิตศาสตร์แบบผสม (mixed precision arithmetic) ทำให้การคำนวณมีประสิทธิภาพสูงขึ้นในขณะที่ลดต้นทุนการใช้ฮาร์ดแวร์ - การออกแบบโมเดลให้มีค่าใช้จ่ายต่ำแต่ประสิทธิภาพสูง
แม้ว่าโมเดล DeepSeek อาจมีพารามิเตอร์รวมจำนวนมาก แต่สำหรับแต่ละ token จะมีเพียงส่วนหนึ่งที่ถูกใช้งาน (เช่น 21B active parameters) ทำให้ลดต้นทุนในการประมวลผลลงอย่างมาก เมื่อเปรียบเทียบกับโมเดลที่ต้องใช้ทรัพยากรทุกส่วนในทุก ๆ ครั้ง
สรุปแล้ว การผสมผสานของนวัตกรรมทางสถาปัตยกรรม (MoE, MLA) เทคนิคการฝึกอบรมที่ประหยัด (เช่น RL) และการออกแบบระบบฮาร์ดแวร์และซอฟต์แวร์ที่เหมาะสม ทำให้ DeepSeek สามารถพัฒนาโมเดล AI ที่มีประสิทธิภาพสูงในขณะที่ใช้ต้นทุนการฝึกอบรมและการประมวลผลที่ต่ำกว่าอย่างมาก