DeepSeek ถูกดิสเครดิต? มะกันแจ้งเกิดโมเดล s1 ชน OpenAI ได้ด้วยทุน 1,750 บาท

ทีมนักวิจัยจากมหาวิทยาลัยสแตนฟอร์ดและมหาวิทยาลัยวอชิงตันสร้างความฮือฮาให้วงการปัญญาประดิษฐ์ (AI) หลังเปิดเผยผลงานวิจัยว่าสามารถพัฒนาโมเดล AI ที่มีความสามารถด้านการให้เหตุผล (reasoning) ด้วยต้นทุนเพียง 50 เหรียญสหรัฐ หรือประมาณ 1,750 บาท จากการใช้เครดิตคลาวด์คอมพิวติ้ง

ทีมวิจัยย้ำว่าโมเดล AI ที่มีชื่อว่า s1 นี้สามารถทำงานได้ใกล้เคียงกับโมเดลชั้นนำอย่าง o1 ของโอเพ่นเอไอ (OpenAI o1) และ R1 ของดีปซีค (DeepSeek R1) ในการทดสอบความสามารถด้านคณิตศาสตร์และการเขียนโค้ด โดยทีมวิจัยได้เผยแพร่โมเดล s1 พร้อมข้อมูลและโค้ดที่ใช้ในการฝึกฝนบนแพลตฟอร์ม GitHub แล้ว

ทีมวิจัยระบุว่าโปรเจกต์นี้เริ่มต้นจากโมเดลพื้นฐานที่มีอยู่แล้ว จากนั้นใช้เทคนิค "ดิสติลเลชัน" (distillation) หรือการสกัดและกรองความสามารถด้านการให้เหตุผลจากโมเดล AI อื่น โดยฝึกฝนจากคำตอบของโมเดลต้นแบบ ในกรณีนี้คือ Gemini 2.0 Flash Thinking Experimental ของ Google วิธีการนี้คล้ายกับที่นักวิจัยจากเบิร์กลีย์ใช้ในการสร้างโมเดล AI ด้วยต้นทุนประมาณ 450 เหรียญสหรัฐ (ราว 15,750 บาท) ได้สำเร็จเมื่อเดือนมกราคม 2025

ทีมวิจัยย้ำว่าโมเดล AI ที่มีชื่อว่า s1 นี้สามารถทำงานได้ใกล้เคียงกับโมเดลชั้นนำอย่าง OpenAI o1 และ DeepSeek R1

ทีมวิจัยย้ำว่าโมเดล AI ที่มีชื่อว่า s1 นี้สามารถทำงานได้ใกล้เคียงกับโมเดลชั้นนำอย่าง OpenAI o1 และ DeepSeek R1

นิคลาส มูนนิฮอฟฟ์ (Niklas Muennighoff) นักวิจัยจากสแตนฟอร์ดที่ร่วมโครงการนี้ เปิดเผยว่าในปัจจุบันสามารถเช่าทรัพยากรการประมวลผลที่จำเป็นได้ในราคาเพียง 20 เหรียญสหรัฐ หรือประมาณ 700 บาท โดยทีมใช้เทคนิคพิเศษในการพัฒนา s1 ด้วยการเพิ่มคำว่า "wait" ระหว่างกระบวนการให้เหตุผล ซึ่งช่วยให้โมเดลสามารถตรวจสอบงานและขยายเวลาในการคิด ส่งผลให้ได้คำตอบที่แม่นยำมากขึ้น

ในอีกด้าน ทีมวิจัยได้สร้างชุดข้อมูลที่ประกอบด้วยคำถามที่คัดสรรมาอย่างดีเพียง 1,000 ข้อ พร้อมคำตอบและกระบวนการคิดจาก Gemini 2.0 การฝึกฝนใช้เวลาน้อยกว่า 30 นาทีด้วยการ์ดจอ Nvidia H100 จำนวน 16 ตัว

แม้ว่าความสำเร็จของ s1 จะสร้างความตื่นเต้นในแง่ของการพัฒนา AI ด้วยงบประมาณจำกัด แต่กลับสามารถโยงได้กับกรณีก่อนหน้านี้ที่ OpenAI ได้กล่าวหา DeepSeek ว่าเก็บเกี่ยวข้อมูลจาก API ของตนอย่างไม่เหมาะสม เพื่อใช้ในการ distillation

***อีกเกมการเมือง ขบวนการ IO ในวงการ AI

ความสำเร็จของโมเดล s1 ที่พัฒนาโดยนักวิจัยจากสแตนฟอร์ดและวอชิงตัน สามารถโยงได้กับความขัดแย้งในอุตสาหกรรม AI โดยเฉพาะกรณีของ DeepSeek R1 ที่กำลังเผชิญการโจมตีด้านความน่าเชื่อถือ

การที่ OpenAI ออกมากล่าวหา DeepSeek ว่าลักลอบเก็บข้อมูลจาก API อย่างผิดจรรยาบรรณนั้น สะท้อนให้เห็นถึงความพยายามในการลดทอนความน่าเชื่อถือของบริษัท AI จากจีน ในช่วงเวลาที่ AI จากจีนกำลังพัฒนาความสามารถจนใกล้เคียงกับผู้นำตลาดจากฝั่งตะวันตก

การที่หลายฝ่ายจากชาติตะวันตกร่วมกันวิพากษ์วิจารณ์โมเดล AI จากจีนนั้นมีเหตุผลไม่ต่ำกว่า 4 ข้อ หนึ่งในนั้นคือการแข่งขันด้านความเป็นผู้นำเทคโนโลยี เพราะบริษัทตะวันตกต้องการรักษาสถานะความเป็นผู้นำในอุตสาหกรรม AI ไว้ โดยเฉพาะเมื่อจีนกำลังพัฒนาก้าวกระโดดในด้านนี้

เหตุผลข้อ 2 คือการควบคุมมาตรฐานอุตสาหกรรม เพราะการสร้างข้อกังขาเกี่ยวกับจริยธรรมและความโปร่งใสของโมเดล AI ทุนต่ำ อีกเป็นการพยายามกำหนดมาตรฐานและกฎเกณฑ์ในการพัฒนา AI ตามแนวทางของชาติตะวันตก

เหตุผลข้อ 3 คือผลประโยชน์ทางการค้า เนื่องจากการลดความน่าเชื่อถือของสตาร์ทอัปโมเดล AI มีผลโดยตรงต่อการตัดสินใจของลูกค้าและนักลงทุน โดยเฉพาะในตลาดระดับองค์กรที่ต้องการความมั่นใจสูง และสุดท้าย เหตุผลข้อ 4 คือความกังวลด้านความมั่นคง โดยเฉพาะความก้าวหน้าของ AI จีนอาจส่งผลต่อความมั่นคงของชาติตะวันตกในระยะยาว

กรณีของ s1 ยิ่งตอกย้ำความตึงเครียดนี้ เพราะแสดงให้เห็นว่าเทคโนโลยีที่เคยต้องใช้เงินลงทุนมหาศาล สามารถทำซ้ำได้ด้วยต้นทุนต่ำมาก ซึ่งอาจกระทบต่อความได้เปรียบทางการแข่งขันของบริษัทยักษ์ใหญ่

***ยังต้องใช้ทุนหนา

อย่างไรก็ตาม การลงทุนมหาศาลในโครงสร้างพื้นฐาน AI ยังคงมีความจำเป็นสำหรับการพัฒนานวัตกรรมใหม่ แม้ว่าเทคนิค distillation จะเป็นวิธีที่มีประสิทธิภาพในการสร้างโมเดล AI ซ้ำด้วยต้นทุนต่ำ แต่ยังไม่สามารถสร้างโมเดลที่ดีกว่าสิ่งที่มีอยู่ในปัจจุบันได้อย่างมีนัยสำคัญ

ทั้งนี้ บริษัทเทคโนโลยียักษ์ใหญ่อย่างเมต้า (Meta) กูเกิล (Google) และไมโครซอฟท์ (Microsoft) ต่างวางแผนที่จะลงทุนหลายแสนล้านบาทในโครงสร้างพื้นฐาน AI เพื่อพัฒนาโมเดล AI รุ่นต่อไปในปี 2025