(เก็บความจากเอเชียไทมส์ www.atimes.com)
How DeepSeek did it
by Tongliang Liu
28/01/2025
โมเดล V3 ของ ดีปซีค บริษัทสตาร์ทอัปของจีน สิ้นค่าใช้จ่ายในการเทรนเพียงแค่ 5% ของ แชทจีพีที รวมทั้งใช้ชิปจำนวนเพียงแค่เศษเสี้ยวของที่ใช้กันในโมเดลเอไอของเหล่าบิ๊กเทคอเมริกันอีกด้วย
ดีปซีค (DeepSeek) บริษัทปัญญาประดิษฐ์ (artificial intelligence หรือ AI) สัญชาติจีน ที่กำลังส่งกระแสคลื่นช็อกออกไปสร้างความปั่นป่วนทั่วทั้งประชาคมเทค [1] ด้วยการเผยแพร่โมเดลเอไอที่ทรงประสิทธิภาพอย่างยิ่งหลายๆ โมเดลต่อเนื่องกัน ซึ่งสามารถที่จะแข่งขันกับประดาผลิตภัณฑ์ระดับล้ำยุคจากพวกบริษัทสหรัฐฯอย่างเช่น โอเพนเอไอ (Open AI) และ แอนธรอพิค (Anthropic)
บริษัท ซึ่งเพิ่งก่อตั้งขึ้นเมื่อปี 2023 นี้เอง สามารถประสบผลสำเร็จเหล่านี้ได้ [2] โดยใช้เงินทองงบประมาณและพลังอำนาจในการคำนวณ เพียงแต่เศษเสี้ยวของที่พวกคู่แข่งขันของพวกเขาใช้อยู่
โมเดล R1 ที่เป็นโมแดลแบบ “คิดหาเหตุผลก่อนตอบ” (reasoning) ของดีปซีค ได้รับการเปิดตัวเมื่อสัปดาห์ที่แล้ว ปรากฏว่ากระตุ้นให้เกิดความแตกตื่นสนใจขึ้นมาในหมู่นักวิจัย ขณะที่สร้างความรู้สึกช็อกขึ้นในหมู่นักลงทุน และทำให้พวกรุ่นเฮฟวีเวตด้านเอไอรู้สึกอยู่เฉยไม่ได้ต้องแสดงปฏิกิริยาออกมา จากนั้นบริษัทนี้ได้เดินหน้าต่อไปในวันที่ 28 มกราคม ด้วยการเปิดตัวโมเดล [3] ซึ่งสามารถทำงานกับภาพ (images)ได้เช่นเดียวกับทำงานกับข้อความ (text)
สิ่งที่ ดีปซีค ทำเหล่านี้หมายความว่าอย่างไร และพวกเขาทำเช่นนี้ได้ยังไง?
เมื่อเดือนธันวาคม 2024 ดีปซีค เปิดตัวโมเดล V3 [4] ของพวกเขา นี่คือโมเดลภาษาขนาดใหญ่ (large language model หรือ LLM) “มาตรฐาน” ที่ทรงพลังมาก โดยสามารถทำงานได้ในระดับใกล้เคียงกับ GPT-4o ของโอเพนเอไอ และ Claude 3.5 ของแอนธรอพิค ทีเดียว
ขณะที่โมเดลเหล่านี้ยังคงเต็มไปด้วยจุดอ่อนที่จะเกิดความผิดพลาด และบางครั้งก็ประดิษฐ์สร้างข้อเท็จจริงต่างๆ ของพวกมันเองขึ้นมา ]5] แต่โมเดลเหล่านี้ก็ยังคงสามารถทำพวกภารกิจอย่างเช่น การตอบคำถาม, การเขียนบทความ, และการสร้างโค้ดคอมพิวเตอร์ ในบางการทดสอบ [6] ว่าด้วยการแก้ไขปัญหาและการคิดหาเหตุผลในทางคณิตศาสตร์ พวกมันทำคะแนนได้ดีกว่ามนุษย์โดยเฉลี่ยด้วยซ้ำไป
V3 ได้รับการเทรนโดยตามที่รายงานกันนั้นระบุว่าเสียค่าใช้จ่าย [7] ประมาณ 5.58 ล้านดอลลาร์สหรัฐฯ นี่คือถูกกว่าอย่างน่าตื่นตาตื่นใจยิ่งเมื่อเปรียบเทียบกับพวกโมเดลคู่แข่ง ตัวอย่างเช่น GPT-4 ซึ่งสิ้นค่าใช้จ่ายไปมากกว่า 100 ล้านดอลลาร์ [8] ในการพัฒนา
ดีปซีค ยังอ้างอีกว่า เทรน V3 โดยใช้พวกชิปคอมพิวเตอร์พิเศษเพื่อการนี้โดยเฉพาะราวๆ 2,000 ตัว โดยเฉพาะอย่างยิ่ง ชิป H800 GPUs ที่ผลิตโดยเอ็นวิเดีย (Nvidia) [9] นี่ก็เช่นกัน เป็นจำนวนที่น้อยกว่าของบริษัทอื่นๆ เยอะ ทั้งนี้บริษัทอื่นๆ นั้นอาจจะใช้ชิปจำนวนมากถึง 16,000 ตัว [10] ทีเดียว แถมเป็นชิปรุ่น H100 ที่ทรงพลังยิ่งกว่า H800 GPU อีกด้วย
ในวันที่ 20 มกราคม ดีปซีค ได้เปิดตัวอีกโมเดลหนึ่ง ที่เรียกชื่อว่า R1 [11] นี่เป็นโมเดลแบบที่เรียกกันว่า “คิดหาเหตุผลก่อนตอบ” (reasoning) ซึ่งพยายามที่จะทำงานโดยผ่านปัญหาอันสลับซับซ้อนต่างๆ ทีละขั้นๆ โมเดลคิดหาเหตุผลก่อนตอบนี้ ดูเหมือนจะทำได้ดีกว่าโมเดลอื่นๆ เยอะ ในงานจำนวนมากที่เรียกร้องให้ต้องคำนึงถึงบริบทและมีส่วนต่างๆ ที่เกี่ยวข้องสัมพันธ์กันอยู่หลายๆ ส่วน เป็นต้นว่า การอ่านข้อความอย่างชนิดต้องมีความเข้าใจถึงบริบท และการวางแผนในเชิงยุทธศาสตร์
โมเดล R1 นี้ ถือเป็นเวอร์ชั่นหนึ่งที่พลิกแพลงมาจากโมเดล V3 โดยทำการดัดแปลงด้วยเทคนิคที่เรียกกันว่า การเรียนรู้แบบเสริมแรง (reinforcement learning) R1 ดูเหมือนจะทำงานได้ในระดับที่คล้ายคลึงกับโมเดล o1 ของโอเพนเอไอ [12] ซึ่งเปิดตัวในปีที่แล้ว
ดีปซีค ยังใช้เทคนิคอย่างเดียวกันมาทำเวอร์ชั่น “คิดหาเหตุผลก่อนตอบ” ของพวกโมเดล open-source ขนาดเล็กๆ ที่สามารถติดตั้งใช้งานบนคอมพิวเตอร์ใช้ตามบ้านได้
การเปิดตัวโมเดลนี้ จุดชนวนให้เกิดความสนใจในดีปซีคกันอย่างพุ่งพรวดมโหฬารทีเดียว โดยกำลังกลายเป็นตัวขับดันทำให้ แอปแชทบอทพลัง V3 (V3-powered chatbot app) [13] ของบริษัทนี้กลายเป็นที่นิยมแพร่หลาย และเวลาเดียวกันก็จุดชนวนทำให้ราคาหุ้นในกลุ่มเทคหล่นฮวบยับเยินกันเป็นแถบ [14] เนื่องจากพวกนักลงทุนต้องหันมาประเมินทบทวนทิศทางของอุตสาหกรรมเอไอกันใหม่ ทั้งนี้ในเวลาที่เขียนข้อเขียนชิ้นนี้ เอ็นวิเดียที่เป็นยักษ์ใหญ่ผู้ผลิตชิปสำหรับใช้ในวงการเอไอ มีมูลค่าตามราคาในตลาดหุ้นลดลงถึงราวๆ 600,000 ล้านดอลลาร์ [15] เลยทีเดียว
ความสำเร็จที่ถือว่าอยู่ในระดับทะลุทะลวงวงการของดีปซีค อยู่ตรงที่บริษัทสามารถบรรลุถึงความมีประสิทธิภาพได้อย่างยอดเยี่ยมยิ่งกว่าคนอื่นๆ กล่าวคือ สามารถสร้างผลลัพธ์ที่ดีขึ้นมาได้โดยอาศัยทรัพยากรน้อยกว่ากันมาก โดยเฉพาะอย่างยิ่ง พวกนักพัฒนาของดีปซัคได้เป็นผู้บุกเบิกเทคนิค 2 อย่าง ที่น่าจะได้รับการยอมรับนำเอามาใช้กันจากพวกนักวิจัยด้านเอไออย่างกว้างขวางมากยิ่งขึ้น
เทคนิคอย่างแรก ต้องเกี่ยวข้องกับไอเดียทางคณิตศาสตร์ที่เรียกกันว่า sparsity (ความเบาบาง) พวกโมเดลทางเอไอนั้นมีพารามิเตอร์จำนวนมากที่ส่งผลกำหนดการโต้ตอบของพวกมันจนออกมาเป็นอินพุต (V3 มีอยู่ราวๆ 671,000 ล้าน) ทว่าในอินพุตที่ต้องการหนึ่งๆ นั้น จะมีการใช้พารามิเตอร์เหล่านี้เพียงแค่เศษเสี้ยวเดียวเท่านั้น
อย่างไรก็ดี การทำนายว่าจำเป็นต้องใช้พารามิเตอร์ใดบ้าง ไม่ใช่เรื่องที่ง่ายดายเลย ปรากฏว่าดีปซีคใช้เทคนิคใหม่อย่างหนึ่งมาทำเรื่องนี้ และจากนั้นก็เทรนเฉพาะพารามิเตอร์พวกนี้เท่านั้น ผลก็คือโมเดลของพวกเขาจำเป็นต้องใช้การเทรนน้อยกว่านักหนาเมื่อเทียบกับวิธีการตามแบบแผนซึ่งใช้ๆ กันอยู่
เทคนิคกลวิธีอีกอย่างหนึ่ง เป็นเรื่องเกี่ยวกับวิธีการที่ V3 เก็บข้อความข่าวสารเอาไว้ในเมมโมรีคอมพิวเตอร์ ดีปซีคได้ค้นพบวิธีการที่ฉลาดมากในการบีบอัดข้อมูลที่เกี่ยวข้องนี้ ดังนั้นจึงทำให้นำมาจัดเก็บได้ง่ายกว่าและเข้าถึงได้อย่างรวดเร็วอีกด้วย
โมเดลและเทคนิคต่างๆ ของดีปซีค ได้รับการเผยแพร่ภายใต้ข้อตกลงให้ใช้ไลเซนส์ MIT License [16] ที่อนุญาตให้ยูสเซอร์ใช้งานได้ฟรี ซึ่งหมายความว่าใครก็ตามล้วนสามารถที่จะดาวน์โหลดและนำมันมาดัดแปลงแก้ไขตามความประสงค์ได้ทั้งนั้น
ขณะที่เรื่องนี้อาจจะถือว่าข่าวร้ายสำหรับพวกบริษัทเอไอบางแห่ง เป็นต้นว่า พวกบริษัทที่กำไรอาจจะต้องหดหายลงไป จากการที่มีโมเดลซึ่งทั้งทรงพลังและเปิดให้ดาวน์โหลดใช้งานได้ฟรี ทว่ามันก็ถือเป็นข่าวดีเยี่ยมสำหรับประชาคมวิจัยเอไอในวงกว้าง
ปัจจุบัน การวิจัยด้านเอไอจำนวนมากเรียกร้องต้องการเข้าถึงทรัพยากรในการคำนวณเป็นปริมาณมโหฬารยิ่ง พวกนักวิจัยอย่างเช่นตัวผมเองซึ่งทำงานโดยอิงอยู่กับมหาวิทยาลัย (หรือสถานที่อื่นใดก็ตาม โดยอาจจะยกเว้นกรณีทำงานกับพวกบริษัทเทครายใหญ่ๆ เท่านั้น) เท่าที่ผ่านมามีความสามารถอย่างจำกัดในการดำเนินการทดสอบและการทดลองต่างๆ
โมเดลและเทคนิคที่ทรงประสิทธิภาพยิ่งขึ้น สามารถเป็นตัวเปลี่ยนแปลงสถานการณ์เช่นนี้ เวลานี้การทดลองและการพัฒนาอาจจะสะดวกง่ายดายมากขึ้นอย่างสำคัญสำหรับพวกเรา
ในส่วนของผู้บริโภคนั้น การเข้าถึงไอเอก็อาจจะมีราคาถูกลงเช่นเดียวกัน โมเดลด้านเอไอจำนวนมากขึ้นอาจจะสามารถทำงานบนเครื่องมือของพวกยูสเซอร์เอง อย่างเช่น เครื่องแล็ปท็อป หรือโทรศัพท์มือถือ แทนที่จะต้องนำไปใช้ทำงาน “ในคลาวด์” ซึ่งต้องเสียค่าธรรมเนียมในการเข้าเป็นสมาชิก
ส่วนสำหรับพวกนักวิจัยที่มีทรัพยากรเยอะแยะมากมายอยู่แล้ว ประสิทธิภาพที่เพิ่มขึ้นอาจจะไม่ค่อยส่งผลอะไรนัก ทั้งนี้ยังไม่เป็นที่ชัดเจนว่าวิธีการของ ดีปซีค จะช่วยทำให้โมเดลต่างๆ เกิดผลการดำเนินการในภาพรวมที่ดีขึ้นกว่าเดิมขึ้นมาหรือไม่ หรือว่าเพียงแค่ทำให้โมเดลนั้นๆ มีประสิทธิภาพเพิ่มขึ้น
ถงเหลียง หลิว เป็นรองศาสตราจารย์ทางด้านการเรียนรู้ของเครื่องจักร และเป็นผู้อำนวยการของศูนย์ปัญญาประดิษฐ์ซิดนีย์ (Sydney AI Centre) มหาวิทยาลัยซิดนีย์ ออสเตรเลีย
ข้อเขียนนี้มาจากเว็บไซต์ เดอะ คอนเวอร์เซชั่น https://theconversation.com/ โดยสามารถติดตามอ่านข้อเขียนดั้งเดิมชิ้นนี้ได้ที่ https://theconversation.com/deepseek-how-a-small-chinese-ai-company-is-shaking-up-us-tech-heavyweights-248434
เชิงอรรถ
[1] https://www.theverge.com/24353060/deepseek-ai-china-nvidia-openai
[2]https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/
[3] https://techcrunch.com/2025/01/27/viral-ai-company-deepseek-releases-new-image-model-family
[4] https://arxiv.org/abs/2412.19437v1
[5] https://arxiv.org/abs/2401.08358
[6] https://www.anthropic.com/news/claude-3-family
[7] https://www.scmp.com/tech/tech-trends/article/3293050/meet-deepseek-chinese-start-changing-how-ai-models-are-trained
[8] https://www.wired.com/story/openai-ceo-sam-altman-the-age-of-giant-ai-models-is-already-over/
[9] https://www.reuters.com/technology/nvidia-says-deepseek-advances-prove-need-more-its-chips-2025-01-27/
[10]https://www.nytimes.com/2025/01/23/technology/deepseek-china-ai-chips.html
[11] https://arxiv.org/abs/2501.12948
[12] https://openai.com/o1/
[13]https://www.theguardian.com/technology/2025/jan/27/deepseek-cyberattack-ai
[14] https://www.ft.com/content/e670a4ea-05ad-4419-b72a-7727e8a6d471
[15] https://www.abc.net.au/news/2025-01-28/asx-markets-business-news-live-updates/104865804
[16]https://opensource.org/license/mit