(เก็บความจากเอเชียไทมส์ www.atimes.com)
How DeepSeek did it
by Tongliang Liu
28/01/2025
โมเดล V3 ของ ดีปซีค บริษัทสตาร์ทอัปของจีน สิ้นค่าใช้จ่ายในการเทรนเพียงแค่ 5% ของ แชทจีพีที รวมทั้งใช้ชิปจำนวนเพียงแค่เศษเสี้ยวของที่ใช้กันในโมเดลเอไอของเหล่าบิ๊กเทคอเมริกันอีกด้วย
ดีปซีค (DeepSeek) บริษัทปัญญาประดิษฐ์ (artificial intelligence หรือ AI) สัญชาติจีน ที่กำลังส่งกระแสคลื่นช็อกออกไปสร้างความปั่นป่วนทั่วทั้งประชาคมเทค ด้วยการเผยแพร่โมเดลเอไอที่ทรงประสิทธิภาพอย่างยิ่งหลายๆ โมเดลต่อเนื่องกัน ซึ่งสามารถที่จะแข่งขันกับประดาผลิตภัณฑ์ระดับล้ำยุคจากพวกบริษัทสหรัฐฯอย่างเช่น โอเพนเอไอ (Open AI) และ แอนธรอพิค (Anthropic)
บริษัท ซึ่งเพิ่งก่อตั้งขึ้นเมื่อปี 2023 นี้เอง สามารถประสบผลสำเร็จเหล่านี้ได้ โดยใช้เงินทองงบประมาณและพลังอำนาจในการคำนวณ เพียงแต่เศษเสี้ยวของที่พวกคู่แข่งขันของพวกเขาใช้อยู่
โมเดล R1 ที่เป็นโมแดลแบบ “คิดหาเหตุผลก่อนตอบ” (reasoning) ของดีปซีค ได้รับการเปิดตัวเมื่อสัปดาห์ที่แล้ว ปรากฏว่ากระตุ้นให้เกิดความแตกตื่นสนใจขึ้นมาในหมู่นักวิจัย ขณะที่สร้างความรู้สึกช็อกขึ้นในหมู่นักลงทุน และทำให้พวกรุ่นเฮฟวีเวตด้านเอไอรู้สึกอยู่เฉยไม่ได้ต้องแสดงปฏิกิริยาออกมา จากนั้นบริษัทนี้ได้เดินหน้าต่อไปในวันที่ 28 มกราคม ด้วยการเปิดตัวโมเดลซึ่งสามารถทำงานกับภาพ (images)ได้เช่นเดียวกับทำงานกับข้อความ (text)
สิ่งที่ ดีปซีค ทำเหล่านี้หมายความว่าอย่างไร และพวกเขาทำเช่นนี้ได้ยังไง?
เมื่อเดือนธันวาคม 2024 ดีปซีค เปิดตัวโมเดล V3 ของพวกเขา นี่คือโมเดลภาษาขนาดใหญ่ (large language model หรือ LLM) “มาตรฐาน” ที่ทรงพลังมาก โดยสามารถทำงานได้ในระดับใกล้เคียงกับ GPT-4o ของโอเพนเอไอ และ Claude 3.5 ของแอนธรอพิค ทีเดียว
ขณะที่โมเดลเหล่านี้ยังคงเต็มไปด้วยจุดอ่อนที่จะเกิดความผิดพลาด และบางครั้งก็ประดิษฐ์สร้างข้อเท็จจริงต่างๆ ของพวกมันเองขึ้นมา แต่โมเดลเหล่านี้ก็ยังคงสามารถทำพวกภารกิจอย่างเช่น การตอบคำถาม, การเขียนบทความ, และการสร้างโค้ดคอมพิวเตอร์ ในบางการทดสอบว่าด้วยการแก้ไขปัญหาและการคิดหาเหตุผลในทางคณิตศาสตร์ พวกมันทำคะแนนได้ดีกว่ามนุษย์โดยเฉลี่ยด้วยซ้ำไป
V3 ได้รับการเทรนโดยตามที่รายงานกันนั้นระบุว่าเสียค่าใช้จ่ายประมาณ 5.58 ล้านดอลลาร์สหรัฐฯ นี่คือถูกกว่าอย่างน่าตื่นตาตื่นใจยิ่งเมื่อเปรียบเทียบกับพวกโมเดลคู่แข่ง ตัวอย่างเช่น GPT-4 ซึ่งสิ้นค่าใช้จ่ายไปมากกว่า 100 ล้านดอลลาร์ในการพัฒนา
ดีปซีค ยังอ้างอีกว่า เทรน V3 โดยใช้พวกชิปคอมพิวเตอร์พิเศษเพื่อการนี้โดยเฉพาะราวๆ 2,000 ตัว โดยเฉพาะอย่างยิ่ง ชิป H800 GPUs ที่ผลิตโดยเอ็นวิเดีย (Nvidia) นี่ก็เช่นกัน เป็นจำนวนที่น้อยกว่าของบริษัทอื่นๆ เยอะ ทั้งนี้บริษัทอื่นๆ นั้นอาจจะใช้ชิปจำนวนมากถึง 16,000 ตัวทีเดียว แถมเป็นชิปรุ่น H100 ที่ทรงพลังยิ่งกว่า H800 GPU อีกด้วย
ในวันที่ 20 มกราคม ดีปซีค ได้เปิดตัวอีกโมเดลหนึ่ง ที่เรียกชื่อว่า R1 นี่เป็นโมเดลแบบที่เรียกกันว่า “คิดหาเหตุผลก่อนตอบ” (reasoning) ซึ่งพยายามที่จะทำงานโดยผ่านปัญหาอันสลับซับซ้อนต่างๆ ทีละขั้นๆ โมเดลคิดหาเหตุผลก่อนตอบนี้ ดูเหมือนจะทำได้ดีกว่าโมเดลอื่นๆ เยอะ ในงานจำนวนมากที่เรียกร้องให้ต้องคำนึงถึงบริบทและมีส่วนต่างๆ ที่เกี่ยวข้องสัมพันธ์กันอยู่หลายๆ ส่วน เป็นต้นว่า การอ่านข้อความอย่างชนิดต้องมีความเข้าใจถึงบริบท และการวางแผนในเชิงยุทธศาสตร์
โมเดล R1 นี้ ถือเป็นเวอร์ชั่นหนึ่งที่พลิกแพลงมาจากโมเดล V3 โดยทำการดัดแปลงด้วยเทคนิคที่เรียกกันว่า การเรียนรู้แบบเสริมแรง (reinforcement learning) R1 ดูเหมือนจะทำงานได้ในระดับที่คล้ายคลึงกับโมเดล o1 ของโอเพนเอไอ ซึ่งเปิดตัวในปีที่แล้ว
ดีปซีค ยังใช้เทคนิคอย่างเดียวกันมาทำเวอร์ชั่น “คิดหาเหตุผลก่อนตอบ” ของพวกโมเดล open-source ขนาดเล็กๆ ที่สามารถติดตั้งใช้งานบนคอมพิวเตอร์ใช้ตามบ้านได้
การเปิดตัวโมเดลนี้ จุดชนวนให้เกิดความสนใจในดีปซีคกันอย่างพุ่งพรวดมโหฬารทีเดียว โดยกำลังกลายเป็นตัวขับดันทำให้ แอปแชทบอทพลัง V3 (V3-powered chatbot app) ของบริษัทนี้กลายเป็นที่นิยมแพร่หลาย และเวลาเดียวกันก็จุดชนวนทำให้ราคาหุ้นในกลุ่มเทคหล่นฮวบยับเยินกันเป็นแถบ เนื่องจากพวกนักลงทุนต้องหันมาประเมินทบทวนทิศทางของอุตสาหกรรมเอไอกันใหม่ ทั้งนี้ในเวลาที่เขียนข้อเขียนชิ้นนี้ เอ็นวิเดียที่เป็นยักษ์ใหญ่ผู้ผลิตชิปสำหรับใช้ในวงการเอไอ มีมูลค่าตามราคาในตลาดหุ้นลดลงถึงราวๆ 600,000 ล้านดอลลาร์เลยทีเดียว
ความสำเร็จที่ถือว่าอยู่ในระดับทะลุทะลวงวงการของดีปซีค อยู่ตรงที่บริษัทสามารถบรรลุถึงความมีประสิทธิภาพได้อย่างยอดเยี่ยมยิ่งกว่าคนอื่นๆ กล่าวคือ สามารถสร้างผลลัพธ์ที่ดีขึ้นมาได้โดยอาศัยทรัพยากรน้อยกว่ากันมาก โดยเฉพาะอย่างยิ่ง พวกนักพัฒนาของดีปซัคได้เป็นผู้บุกเบิกเทคนิค 2 อย่าง ที่น่าจะได้รับการยอมรับนำเอามาใช้กันจากพวกนักวิจัยด้านเอไออย่างกว้างขวางมากยิ่งขึ้น
เทคนิคอย่างแรก ต้องเกี่ยวข้องกับไอเดียทางคณิตศาสตร์ที่เรียกกันว่า sparsity (ความเบาบาง) พวกโมเดลทางเอไอนั้นมีพารามิเตอร์จำนวนมากที่ส่งผลกำหนดการโต้ตอบของพวกมันจนออกมาเป็นอินพุต (V3 มีอยู่ราวๆ 671,000 ล้าน) ทว่าในอินพุตที่ต้องการหนึ่งๆ นั้น จะมีการใช้พารามิเตอร์เหล่านี้เพียงแค่เศษเสี้ยวเดียวเท่านั้น
อย่างไรก็ดี การทำนายว่าจำเป็นต้องใช้พารามิเตอร์ใดบ้าง ไม่ใช่เรื่องที่ง่ายดายเลย ปรากฏว่าดีปซีคใช้เทคนิคใหม่อย่างหนึ่งมาทำเรื่องนี้ และจากนั้นก็เทรนเฉพาะพารามิเตอร์พวกนี้เท่านั้น ผลก็คือโมเดลของพวกเขาจำเป็นต้องใช้การเทรนน้อยกว่านักหนาเมื่อเทียบกับวิธีการตามแบบแผนซึ่งใช้ๆ กันอยู่
เทคนิคกลวิธีอีกอย่างหนึ่ง เป็นเรื่องเกี่ยวกับวิธีการที่ V3 เก็บข้อความข่าวสารเอาไว้ในเมมโมรีคอมพิวเตอร์ ดีปซีคได้ค้นพบวิธีการที่ฉลาดมากในการบีบอัดข้อมูลที่เกี่ยวข้องนี้ ดังนั้นจึงทำให้นำมาจัดเก็บได้ง่ายกว่าและเข้าถึงได้อย่างรวดเร็วอีกด้วย
โมเดลและเทคนิคต่างๆ ของดีปซีค ได้รับการเผยแพร่ภายใต้ข้อตกลงให้ใช้ไลเซนส์ MIT License ที่อนุญาตให้ยูสเซอร์ใช้งานได้ฟรี ซึ่งหมายความว่าใครก็ตามล้วนสามารถที่จะดาวน์โหลดและนำมันมาดัดแปลงแก้ไขตามความประสงค์ได้ทั้งนั้น
ขณะที่เรื่องนี้อาจจะถือว่าข่าวร้ายสำหรับพวกบริษัทเอไอบางแห่ง เป็นต้นว่า พวกบริษัทที่กำไรอาจจะต้องหดหายลงไป จากการที่มีโมเดลซึ่งทั้งทรงพลังและเปิดให้ดาวน์โหลดใช้งานได้ฟรี ทว่ามันก็ถือเป็นข่าวดีเยี่ยมสำหรับประชาคมวิจัยเอไอในวงกว้าง
ปัจจุบัน การวิจัยด้านเอไอจำนวนมากเรียกร้องต้องการเข้าถึงทรัพยากรในการคำนวณเป็นปริมาณมโหฬารยิ่ง พวกนักวิจัยอย่างเช่นตัวผมเองซึ่งทำงานโดยอิงอยู่กับมหาวิทยาลัย (หรือสถานที่อื่นใดก็ตาม โดยอาจจะยกเว้นกรณีทำงานกับพวกบริษัทเทครายใหญ่ๆ เท่านั้น) เท่าที่ผ่านมามีความสามารถอย่างจำกัดในการดำเนินการทดสอบและการทดลองต่างๆ
โมเดลและเทคนิคที่ทรงประสิทธิภาพยิ่งขึ้น สามารถเป็นตัวเปลี่ยนแปลงสถานการณ์เช่นนี้ เวลานี้การทดลองและการพัฒนาอาจจะสะดวกง่ายดายมากขึ้นอย่างสำคัญสำหรับพวกเรา
ในส่วนของผู้บริโภคนั้น การเข้าถึงไอเอก็อาจจะมีราคาถูกลงเช่นเดียวกัน โมเดลด้านเอไอจำนวนมากขึ้นอาจจะสามารถทำงานบนเครื่องมือของพวกยูสเซอร์เอง อย่างเช่น เครื่องแล็ปท็อป หรือโทรศัพท์มือถือ แทนที่จะต้องนำไปใช้ทำงาน “ในคลาวด์” ซึ่งต้องเสียค่าธรรมเนียมในการเข้าเป็นสมาชิก
ส่วนสำหรับพวกนักวิจัยที่มีทรัพยากรเยอะแยะมากมายอยู่แล้ว ประสิทธิภาพที่เพิ่มขึ้นอาจจะไม่ค่อยส่งผลอะไรนัก ทั้งนี้ยังไม่เป็นที่ชัดเจนว่าวิธีการของ ดีปซีค จะช่วยทำให้โมเดลต่างๆ เกิดผลการดำเนินการในภาพรวมที่ดีขึ้นกว่าเดิมขึ้นมาหรือไม่ หรือว่าเพียงแค่ทำให้โมเดลนั้นๆ มีประสิทธิภาพเพิ่มขึ้น
ถงเหลียง หลิว เป็นรองศาสตราจารย์ทางด้านการเรียนรู้ของเครื่องจักร และเป็นผู้อำนวยการของศูนย์ปัญญาประดิษฐ์ซิดนีย์ (Sydney AI Centre) มหาวิทยาลัยซิดนีย์ ออสเตรเลีย
ข้อเขียนนี้มาจากเว็บไซต์ เดอะ คอนเวอร์เซชั่น https://theconversation.com/ โดยสามารถติดตามอ่านข้อเขียนดั้งเดิมชิ้นนี้ได้ที่ https://theconversation.com/deepseek-how-a-small-chinese-ai-company-is-shaking-up-us-tech-heavyweights-248434