'BDI' ดัน 'ThaiLLM' เอไอภาษาไทย สร้างอธิปไตยดิจิทัลทั้งระบบ

ไทยทำ ไทยใช้! 'BDI' เปิดโลก 'ThaiLLM' เอไอโมเดลภาษาไทยที่พร้อมรองรับบริบทคนไทย สมองอัจฉริยะสัญชาติไทยตัวแปรอธิปไตยทางเทคโนโลยีของประเทศ

ในวันที่ไลฟ์สไตล์คนไทยต่างรายล้อมไปด้วยเทคโนโลยี AI ตั้งแต่การกดค้นหาข้อมูล แปลข้อความ ไปจนถึงการทำงานที่มีความซับซ้อน หลายคนคงสังเกตและมีข้อสงสัยเดียวกันว่าแม้เทคโนโลยีจะฉลาดขึ้นเรื่อยๆ แต่พอเป็นภาษาไทย บางทีก็มีเรื่องติดขัดทั้งคำตอบที่ไม่ตรงใจ หรือเข้าใจบริบทผิดแบบชวนงง สาเหตุนี้เป็นเพราะว่า AI ส่วนใหญ่ถูกฝึกจากข้อมูลภาษาอังกฤษจำนวนมหาศาล มีสัดส่วนมากกว่า 40% ของข้อมูลทั้งหมด ขณะที่ภาษาไทยมีเพียง 0.4% เท่านั้น ซึ่งถือว่ามีพื้นที่น้อยมากในจักรวาลข้อมูลเหล่านี้ ส่งผลให้โมเดลที่หลายคนคาดหวังว่าจะเข้าใจเรากลายเป็นเราต้องคอยตีความให้เข้ากับตัวเราเอง และทิ้งข้อสงสัยไว้หลายประเด็น

เมื่อปัญหาดังกล่าวมีสาเหตุมาจากการขาด 'โมเดลภาษา' ที่เข้าใจบริบทของคนไทยอย่างแท้จริง หัวใจสำคัญของการพัฒนาเทคโนโลยี AI จึงอยู่ที่ 'โมเดลภาษาขนาดใหญ่' หรือ LLM (Large Language Model) ซึ่งสามารถเรียนรู้จากข้อมูลมหาศาลผ่านระบบ Machine Learning เพื่อให้เข้าใจภาษา วิเคราะห์ และสร้างสรรค์เนื้อหาได้อย่างชาญฉลาด ดังนั้น การพัฒนา LLM ที่เข้าใจภาษาไทยจึงไม่ใช่เพียงการยกระดับเทคโนโลยีเท่านั้น แต่ยังเป็นการสร้างอธิปไตยทางดิจิทัล (Digital Sovereignty) ที่จะทำให้ประเทศมีศักยภาพในการควบคุมทิศทางการใช้เทคโนโลยีได้ด้วยตนเอง และสามารถต่อยอดสู่การพัฒนา AI ที่ตอบโจทย์บริบทของไทยอย่างแท้จริง

และด้วยความเข้าใจในโจทย์นี้ สถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน) หรือ BDI จึงร่วมกับ NECTEC, VISTEC, AIEAT และ AIAT ริเริ่มพัฒนา 'ThaiLLM' โมเดลปัญญาประดิษฐ์ภาษาไทยขนาดใหญ่ ที่เปรียบเสมือน 'สมองอัจฉริยะสัญชาติไทย' เพื่อปิดช่องว่างทางภาษาและวัฒนธรรม พร้อมยกระดับขีดความสามารถของประเทศด้วยเทคโนโลยีข้อมูลและ AI ที่ไม่ต้องพึ่งพาระบบต่างชาติ ThaiLLM จะทำหน้าที่เป็นกลไกหลักในการขับเคลื่อนบริการอัจฉริยะของภาครัฐและเอกชน เสริมพลังการตัดสินใจเชิงข้อมูล และต่อยอดสู่การสร้างนวัตกรรมที่เข้าใจคนไทยอย่างแท้จริง ถือเป็นก้าวสำคัญที่วางรากฐานให้ประเทศไทยก้าวสู่เศรษฐกิจดิจิทัลเต็มสปีด อย่างมั่นคงและยั่งยืน

◉ AI ฝีมือคนไทย ยกระดับทุกวงการสู่ยุคดิจิทัลเต็มตัว

ปัจจุบันเทคโนโลยีปัญญาประดิษฐ์ (AI) กำลังเข้ามามีบทบาทสำคัญในการขับเคลื่อนเศรษฐกิจและยกระดับศักยภาพของประเทศไทยในทุกมิติ ทั้งด้านธุรกิจ เกษตรกรรม การศึกษา และบริการสาธารณะ โดยมีการพัฒนา AI ฝีมือคนไทยที่ตอบโจทย์การใช้งานจริงอย่างต่อเนื่องและหลากหลาย ไม่ว่าจะเป็นแอปพลิเคชันช่วยเขียนคอนเทนต์ภาษาไทยและบทความ SEO ได้อย่างสละสลวยด้วยการเข้าใจบริบทภาษาไทยอย่างลึกซึ้ง หรือแอปฯ ที่สร้างความโดดเด่นด้านการตลาดและ Social Listening ช่วยให้แบรนด์สามารถวิเคราะห์ข้อมูลและเข้าใจผู้บริโภคได้อย่างแม่นยำ หรือนวัตกรรม AI เพื่อการเกษตรที่ใช้เทคโนโลยีประมวลผลภาพในการตรวจสอบคุณภาพเมล็ดธัญพืช หรือข้าวอย่างรวดเร็ว ลดขั้นตอนซ้ำซ้อนและเพิ่มประสิทธิภาพการผลิตในอุตสาหกรรมข้าวไทย ความสำเร็จเหล่านี้สะท้อนให้เห็นว่า AI สัญชาติไทยกำลังกลายเป็นพลังสำคัญในการยกระดับคุณภาพชีวิต และขีดความสามารถการแข่งขันของประเทศอย่างเป็นรูปธรรม

◉ From Lab to Reality: เบื้องหลังการเรียนรู้ของ AI

เบื้องหลังความฉลาดของ AI ไม่ได้เกิดขึ้นเพียงเพราะเวทมนตร์ของเทคโนโลยี แต่เกิดจากข้อมูล และการฝึกฝนอย่างเป็นระบบผ่านกระบวนการสร้าง โมเดลภาษาขนาดใหญ่ (Large Language Model: LLM) ที่ต้องผ่านขั้นตอนการเรียนรู้หลายระดับ ตั้งแต่

1.Dataset Preparation and Data Mixing รวบรวม คัดกรอง และเลือกใช้ข้อมูลที่เหมาะสม เพื่อให้ AI ได้เรียนรู้จากแหล่งข้อมูลที่ 'ครบถ้วนและตรงเป้าหมาย'

2.Continued Pretraining ฝึกให้เข้าใจภาษาของมนุษย์ในวงกว้าง เช่น การอ่านบริบทจากบทความหรือข้อความที่ซับซ้อน

3.Supervised Finetuning ปรับแต่งให้ AI ตอบได้ดีขึ้น เข้าใจคำถามได้ถูกต้อง และแสดงพฤติกรรมที่สอดคล้องกับมนุษย์

4.Human Preference Alignment สอนให้ AI เข้าใจความต้องการของผู้ใช้จริง ด้วยการเรียนรู้จาก 'ฟีดแบกของมนุษย์' เพื่อให้ตอบสนองได้อย่างเหมาะสม

5.Implementation นำโมเดลไปใช้ในโลกจริง เช่น แชตบอต, ระบบสรุปข่าว, เครื่องมือแนะนำข้อมูล ฯลฯ และประเมินผลเพื่อพัฒนาให้ดียิ่งขึ้น

ด้วยกระบวนการเหล่านี้ BDI จึงต่อยอดองค์ความรู้ด้าน AI ด้วยการสร้างความร่วมมือพัฒนา ThaiLLM โมเดลภาษาไทยขนาดใหญ่ที่พัฒนาโดยคนไทย เพื่อสร้างระบบนิเวศ AI ของชาติที่เติบโตบนพื้นฐานของความร่วมมือ ความโปร่งใส และประโยชน์เพื่อทุกคน พร้อมปกป้อง 'อธิปไตยทางเทคโนโลยี (Digital Sovereignty)' ให้ประเทศไทยสามารถพัฒนาเทคโนโลยีของตนเองได้อย่างอิสระและมั่นคง

◉ AI ที่พิสูจน์ได้ด้วยผลลัพธ์ ThaiLLM จากห้องทดลองสู่การใช้งานจริง

วันนี้ ThaiLLM กำลังก้าวข้ามจากห้องทดลองสู่การใช้งานจริงในระดับประเทศ ผ่านการปล่อย 'Foundation Model' ภาษาไทย สำหรับให้นักพัฒนานำไปใช้ฝึกฝนต่อยอดแล้ว เพื่อให้นักพัฒนาไทย นักวิจัย และสตาร์ทอัป เข้ามาทดลองใช้งานและร่วมทดสอบศักยภาพของโมเดลภาษาไทยขนาดใหญ่ในโลกจริง โดยมีตัวอย่างการทดลองใช้งานที่เริ่มปรากฏให้เห็นแล้ว ทั้งการสร้างแชตบอตภาษาไทยที่ตอบโต้ได้อย่างเป็นธรรมชาติ ไปจนถึงการสรุปและวิเคราะห์ข้อมูล ThaiLLM จึงไม่ใช่เพียงโครงการวิจัย แต่คือเทคโนโลยีที่จับต้องได้ซึ่งสามารถวัดผลได้จริง และพร้อมต่อยอดสู่นวัตกรรมใหม่ๆ ที่เข้าใจคนไทยอย่างแท้จริง

◉ พลังแห่งความร่วมมือ วางมาตรฐานกลางแห่ง AI สัญชาติไทย

เบื้องหลังความสำเร็จของ ThaiLLM เกิดจากพลังความร่วมมือของหลากหลายภาคส่วน ทั้งหน่วยงานภาครัฐและสถาบันวิจัยชั้นนำของประเทศ ได้แก่ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) และสถาบันวิทยสิริเมธี (VISTEC) รวมถึงเครือข่ายสมาคมด้านปัญญาประดิษฐ์ อาทิ สมาคมผู้ประกอบการปัญญาประดิษฐ์ประเทศไทย (AIEAT) และสมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT) โดยได้รับการสนับสนุนจากกองทุนพัฒนาดิจิทัลเพื่อเศรษฐกิจและสังคม (DEF) โดยมีสถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน) หรือ BDI ทำหน้าที่เป็นศูนย์กลางในการเชื่อมโยงความร่วมมือจากทุกภาคส่วนให้ทำงานไปในทิศทางเดียวกัน

ความร่วมมือดังกล่าวมีเป้าหมายไม่เพียงเพื่อพัฒนาโมเดล AI เท่านั้น แต่ยังเป็นการเพิ่มพูนทรัพยากรด้านข้อมูลและองค์ความรู้ให้แก่นักพัฒนาไทย อีกทั้งยังมุ่งวางมาตรฐานกลางด้านข้อมูลและจริยธรรมปัญญาประดิษฐ์ของประเทศ เพื่อให้เทคโนโลยี AI ของไทยเติบโตอย่างโปร่งใส ปลอดภัย และสามารถตรวจสอบได้ในระยะยาว โดย ThaiLLM ถูกออกแบบให้สามารถนำไปต่อยอดใช้งานได้อย่างหลากหลาย ตั้งแต่การพัฒนาแชตบอตภาครัฐที่ช่วยลดภาระเจ้าหน้าที่และเพิ่มความรวดเร็วในการให้บริการ ไปจนถึง AI สำหรับประชาชนทั่วไปที่สามารถช่วยเขียน แปล หรือให้คำแนะนำต่างๆ ได้อย่างเป็นธรรมชาติและมีประสิทธิภาพ

ในด้านการพัฒนาเทคโนโลยี ThaiLLM ได้มีการฝึกฝนโมเดลพื้นฐานทางภาษาขนาดใหญ่ที่เน้นบริบทภาษาไทย โดยใช้เทคนิค Continued Pretraining (CPT) และเปิดให้ภาคนักพัฒนาและนักวิจัยสามารถนำไปฝึกฝนและต่อยอดได้แล้วผ่านแพลตฟอร์มHugging Face ที่ https://huggingface.co/ThaiLLM

สำหรับการขยายผลสู่การใช้งานจริง เครือข่ายผู้พัฒนาโมเดลภาษาขนาดใหญ่ภาษาไทยจากทั้งภาครัฐและภาคเอกชน อาทิ Pathumma LLM by NECTEC, OpenThaiGPT by AIEAT, Typhoon by SCB 10X และ THaLLE by KBTG ต่างแสดงความสนใจในการนำไปทดลองพัฒนาต่อยอด เพื่อให้สอดคล้องกับความต้องการใช้งานของผู้ใช้ในบริบทที่หลากหลาย

◉ AI เพื่อทุกคน ขับเคลื่อนอนาคตดิจิทัลของไทยอย่างยั่งยืน

ด้าน ศ.ดร.ธีรณี อจลากุล ผู้อำนวยการสถาบันข้อมูลขนาดใหญ่ กล่าวว่า การพัฒนา ThaiLLM ไม่ได้มีเป้าหมายเพียงเพื่อสร้างโมเดล AI ของชาติ แต่คือการวางรากฐานให้ประเทศไทยมีระบบนิเวศด้านข้อมูลและปัญญาประดิษฐ์ที่มั่นคง เราเชื่อว่า AI ที่เข้าใจภาษาและวัฒนธรรมไทย จะไม่เพียงช่วยยกระดับภาครัฐและภาคธุรกิจ แต่จะทำให้คนไทยทุกคนเข้าถึงเทคโนโลยีได้อย่างเท่าเทียม และร่วมกันขับเคลื่อนประเทศสู่อนาคตดิจิทัลอย่างแท้จริง

อย่างไรก็ตามนี่เป็นเพียงจุดเริ่มต้นของการเดินทางครั้งใหม่ของ AI สัญชาติไทย การเดินทางที่ยังมีเส้นทางอีกยาวไกลให้ต่อยอด ทั้งในด้านนวัตกรรม การวิจัย และการสร้างสรรค์บริการอัจฉริยะที่ตอบโจทย์ชีวิตคนไทยอย่างแท้จริง ThaiLLM คือเมล็ดพันธุ์แห่งความร่วมมือ ที่จะผลิบานเป็นระบบนิเวศเทคโนโลยีไทยในอนาคต ที่ซึ่ง AI ไม่ได้เพียงเข้าใจบริบทไทยได้ แต่เติบโตไปพร้อมกับหัวใจของคนไทยเพื่อขับเคลื่อนประเทศสู่โลกดิจิทัลอย่างมั่นคงและยั่งยืน ThaiLLM จึงไม่ใช่เพียงโมเดลภาษาแต่คือก้าวสำคัญบนเส้นทาง 'เศรษฐกิจดิจิทัลเต็มสปีด' ที่จะผลักดันให้ประเทศไทยก้าวสู่ยุคใหม่ของนวัตกรรมที่ขับเคลื่อนด้วยพลังของคนไทย เพื่อคนไทย และเพื่ออนาคตที่ยั่งยืนของชาติต่อไป

สำหรับนักพัฒนาไทย นักวิจัย หรือผู้ที่สนใจเข้ามาทดลองใช้งานและร่วมทดสอบศักยภาพของโมเดลภาษาไทยขนาดใหญ่ ThaiLLM เพื่อร่วมเป็นส่วนหนึ่งในการพัฒนาเทคโนโลยีปัญญาประดิษฐ์สัญชาติไทย และขับเคลื่อนอนาคตดิจิทัลของประเทศไปด้วยกัน จะสามารถเข้าทดลองใช้ ThaiLLM Playground ได้เร็วๆ นี้

ติดตามอัปเดตข้อมูลและกิจกรรมต่างๆ ของสถาบันข้อมูลขนาดใหญ่ (องค์การมหาชน) หรือ BDI ได้ทางเว็บไซต์ https://bdi.or.th/ และ Facebook: BDI - Big Data Institute