xs
xsm
sm
md
lg

"เนคเทค" เร่งทำมาตรฐานการแบ่งคำไทย จัดแข่งพัฒนาซอฟต์แวร์

เผยแพร่:   โดย: MGR Online

ดร.กฤษณ์ โกสวัสดิ์
นักวิจัยเนคเทคชี้ ประเทศไทยพัฒนาซอฟต์แวร์มา 20 ปี แต่โปรแกรมแบ่งคำไทยยังไม่ก้าวไปไหน เหตุเพราะภาษาไทยยากกว่าอังกฤษ-ญี่ปุ่น แต่ละหน่วยงานก็ต่างคนต่างทำวิจัย ทั้งยังขาดมาตรฐานกลาง ที่เป็นตัวชี้วัดคุณภาพซอฟต์แวร์ของแต่ละแห่ง ว่าน่าเชื่อถือและมีศักยภาพเพียงใด เตรียมจัดแข่งขันสุดยอดซอฟต์แวร์แบ่งคำไทยครั้งแรก พร้อมเร่งพัฒนาให้มีมาตรฐานกลางของประเทศ

หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา (Human Language Technology Laboratory: HLT) ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) จัดบรรยายพิเศษเรื่อง "เบสท์: อะ ไดรฟวิง ฟอซ ทู เอไอ" (Best: A Driving Force to AI) เมื่อวันที่ 14 ส.ค.51 ที่ผ่านมา ณ กระทรวงวิทยาศาสตร์และเทคโนโลยี (วท.) เพื่อชี้ให้เห็นถึง ปัญหาของการพัฒนาซอฟต์แวร์ประมวลผลภาษาไทย ความสำคัญของการแบ่งคำภาษาไทย รวมทั้งสร้างความเข้าใจและให้เกิดความตระหนักในการพัฒนาซอฟต์แวร์ประมวลผลภาษาไทย อันเป็นพื้นฐานสำคัญในการพัฒนาปัญญาประดิษฐ์ในอนาคต

ดร.กฤษณ์ โกสวัสดิ์ นักวิจัย หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา เนคเทค เปิดเผยว่า ปัญญาประดิษฐ์ หรือเอไอ (Artificial Intelligent: AI) คือความฉลาดเทียม ที่มนุษย์สร้างขึ้นให้กับสิ่งที่ไม่มีชีวิต โดยการเลียนแบบกระบวนการคิด การเรียนรู้ การปรับตัว และการทำงานของสมองมนุษย์ ซึ่งเป็นสาขาหนึ่งของวิทยาการคอมพิวเตอร์ และวิศวกรรมศาสตร์ แต่ก็อาจรวมอยู่ในขอบเขตของศาสตร์ด้านอื่นๆ ด้วย เช่น จิตวิทยา ปรัชญา และชีววิทยา

"เหตุที่เราต้องให้ความสนใจต่อปัญญาประดิษฐ์ เนื่องจากว่าปัญญาประดิษฐ์เริ่มมีบทบาทในชีวิตประจำวันของมนุษย์มากขึ้น เช่น เครื่องซักผ้าฉลาด เครื่องปรับอากาศฉลาด หรือรถยนต์ฉลาด ที่มีระบบในการรับรู้และสามารถตอบสนองได้เองโดยที่มนุษย์ไม่จำเป็นต้องควบคุมด้วยรีโมต และในอนาคตปัญญาประดิษฐ์อาจจะเข้ามาเป็นส่วนหนึ่งของชีวิตมนุษย์เหมือนเช่นที่ปรากฏอยู่ในนิยายวิทยาศาสตร์หลายเรื่องก็เป็นได้" ดร.กฤษณ์ กล่าว

นักวิจัยเนคเทคอธิบายต่อว่า ปัญญาประดิษฐ์ยังแบ่งออกเป็นหลายสาขาด้วยกัน หนึ่งในนั้นคือการประมวลผลภาษาธรรมชาติ (Natural language processing) ซึ่งยังถือเป็นสาขาย่อยของภาษาศาสตร์อีกด้วย ซึ่งสาขานี้มีจุดประสงค์ให้คอมพิวเตอร์สามารถเข้าใจภาษาของมนุษย์ได้ เพื่อการใช้ประโยชน์ในรูปแบบต่างๆ

ในบางประเทศ มีการพัฒนาและนำไปใช้งานจริงบ้างแล้ว เช่น แอนิเมทรอนิก รูมเมท (Animatronic Roommate) ที่บรรจุสารานุกรมและเก็บเบอร์โทรศัพท์ได้ เราสามารถสอบถามข้อมูลหรือสั่งให้ทำงานได้ด้วยเสียงพูดหรือแป้นพิมพ์ที่เป็นภาษาอังกฤษ และจะตอบสนองด้วยเสียงพูดภาษาอังกฤษ, หุ่นยนต์เอพริโปโกะ (ApriPoko) ของโตชิบาที่ทำงานร่วมกับอุปกรณ์ไฟฟ้า ผู้ใช้สามารถเปิดปิดเครื่องใช้ไฟฟ้าได้โดยสั่งการผ่านหุ่นยนต์นี้ด้วยเสียงพูดภาษาญี่ปุ่น ซึ่งเจ้าหุ่นยนต์นี้ยังสามารถเรียนรู้คำสั่งเพิ่มเติมได้เหมือนกับการพัฒนาด้านภาษาของเด็กอีกด้วย

ดร.กฤษณ์ เปิดเผยกับผู้จัดการวิทยาศาสตร์ว่า ในประเทศไทย ได้มีการพัฒนาเรื่องการประมวลผลภาษาไทยมาประมาณ 20 ปี แล้ว แต่ก็ยังพัฒนาไปได้ไม่มาก เนื่องจากมีปัญหาหลายประการ ที่สำคัญคือการแบ่งคำในภาษาไทยเป็นเรื่องที่ทำได้ยากกว่าภาษาอื่นมาก โดยเฉพาะภาษาอังกฤษ ซึ่งภาษาไทยที่เขียนต่อเนื่องกันเป็นประโยคยาวๆ เป็นอุปสรรคสำหรับการแบ่งคำให้ได้คำที่ถูกต้องตรงกับความหมายที่ต้องการสื่อสาร เช่นคำว่า "ตากลม" ก็มีปัญหาว่าควรจะแบ่งคำให้เป็น "ตา-กลม" หรือ "ตาก-ลม" จึงจะสื่อความหมายถูก และหากคำไหนไม่ปรากฏอยู่ในพจนานุกรมก็อาจทำให้ซอฟต์แวร์ไม่รู้จัก และไม่สามารถประมวลผลที่ถูกต้องได้

ส่วน ดร.ชัย วุฒิวิวัฒน์ชัย รักษาการ ผอ.หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ให้ข้อมูลเพิ่มเติมว่า การแบ่งคำไทยนั้นมีประโยชน์หลายอย่างด้วยกัน เช่น การตัดบรรทัด การตรวจคำผิด และตรวจไวยากรณ์ในเอกสารและสื่อสิ่งพิมพ์ต่างๆ, การใช้คำค้นเพื่อการสืบค้นข้อมูลจากแหล่งสืบค้นต่างๆ, การแปลภาษา และการแปลงเอกสารให้เป็นเสียงพูด หรือแปลงเสียงพูดให้เป็นเอกสาร เป็นต้น

"ปัญหาของการแบ่งคำไทยเริ่มจากนิยามของ "คำ" ซึ่งยังไม่รู้ว่าอะไรคือขอบเขตของคำ ในภาษาไทยที่แน่ชัด และมีคำไทยจำนวนไม่น้อย ที่เป็นคำประสม คำยืมจากต่างประเทศ คำทับศัพท์ ชื่อเฉพาะ และคำแสลงต่างๆ ทำให้การแบ่งคำคำหนึ่งมีได้มากกว่า 1 รูปแบบ นอกจากนี้การพัฒนาซอฟต์แวร์แบ่งคำไทยยังต้องการคลังข้อมูลขนาดใหญ่ที่มีคำหลายล้านคำ และครอบคลุมทุกรูปแบบการเขียน เพื่อใช้ในการฝึกฝนซอฟต์แวร์ และต้องมีมาตรฐานในการวัดเปรียบเทียบสมรรถนะของซอฟต์แวร์แบ่งคำไทยแบบต่างๆ ที่มีการพัฒนาขึ้นมา" ดร.ชัย แจงรายละเอียดและบอกอีกว่า

ที่ผ่านมามีหลายหน่วยงาน และหลายองค์กรที่พัฒนาซอฟต์แวร์แบ่งคำไทยขึ้นมาใช้งาน แบบต่างคนต่างทำวิจัยกันเอง และนักวิจัยรุ่นใหม่ ที่เข้ามาทำงานวิจัยด้านนี้ ก็มักเริ่มทำวิจัยใหม่ตั้งแต่ต้น ทำให้เกิดการวิจัยที่ซ้ำซ้อนกัน และไม่มีมาตรฐานกลางที่จะทำให้เกิดการพัฒนาต่อยอดไปได้อีก โดยมีหลายผลงานวิจัยที่ทดสอบก่อนตีพิมพ์แล้ว พบว่าถูกต้องมากกว่า 90% แต่เมื่อนำมาใช้จริงกลับถูกต้องไม่ถึง 80% จึงไม่มีความน่าเชื่อถือในกรณีที่นำมาใช้งานจริง ซึ่งซอฟต์แวร์แบ่งคำที่จะนำไปใช้ได้จริงควรมีความถูกต้องไม่ต่ำกว่า 90%

จากปัญหาต่างๆ ดังกล่าว จึงเป็นเหตุให้เนคเทคจัดการแข่งขันสุดยอดซอฟต์แวร์แบ่งคำไทย หรือ เบสท์ 2009 (Benchmark for Enhancing the Standard of Thai language processing 2009: BEST 2009) ขึ้นเป็นครั้งแรก ซึ่งเป็นหัวข้อหนึ่งของการแข่งขันพัฒนาโปรแกรมคอมพิวเตอร์แห่งประเทศไทยครั้งที่ 11 หรือเอ็นเอสซี 2009 (NSC 2009)

รักษาการ ผอ.หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ชี้แจงว่าการแข่งขันสุดยอดซอฟต์แวร์แบ่งคำไทยจะเป็นการเริ่มต้นของการพัฒนาซอฟต์แวร์แบ่งคำไทยอย่างเป็นระบบ เพื่อให้เกิดมาตรฐานของการวัดเปรียบเทียบสมรรถนะ (Benchmark) ซึ่งเป็นสิ่งสำคัญที่สุดที่จะทำให้มีการต่อยอดงานวิจัยในระดับสูงขึ้นไปและพัฒนาจนเกิดเป็นปัญญาประดิษฐ์ได้ และหวังว่าจะช่วยพัฒนางานวิจัยในด้านนี้ของประเทศไทยให้ก้าวหน้าไปได้มากกว่าที่ผ่านมา

อย่างไรก็ดี ดร.กฤษณ์ ชี้แจงเพิ่มเติมว่า การทำให้เกิดมาตรฐานกลางที่เป็นเครื่องมือชี้วัดความถูกต้องของซอฟต์แวร์โดยการแข่งขัน BEST 2009 นั้นอาจต้องจัดการแข่งขันมากกว่า 1 ครั้ง เพื่อระดมความคิดเห็นของผู้ที่มีส่วนร่วมและพัฒนามาตรฐานของซอฟต์แวร์แบ่งคำไทยให้มีความสมบูรณ์มากที่สุด และหลังจากนั้นหัวข้อการแข่งขัน BEST ก็จะเริ่มเปลี่ยนเป็นการแข่งกันพัฒนาซอฟต์แวร์ขั้นต่อๆ ไป เช่น การสกัดชื่อเฉพาะ การแบ่งประโยค ซึ่งจะเป็นพื้นฐานของการพัฒนาปัญญาประดิษฐ์ในอนาคต

ทั้งนี้ เนคเทคกำลังเปิดรับสมัครผู้สนใจจากทั่วประเทศ ไม่ว่าจะเป็นนักเรียน นิสิต นักศึกษา หรือบุคคลทั่วไป เพื่อเข้าร่วมแข่งขัน BEST 2009 จนถึงวันที่ 29 ส.ค.51 โดยผู้ที่เข้าแข่งขันจะมีเวลาพัฒนาซอฟต์แวร์ถึงเดือน ม.ค. 2552 และการแข่งขันรอบชิงชนะเลิศจะมีขึ้นในเดือน ก.พ. 52 ซึ่งผู้แข่งขันจะต้องทดสอบซอฟต์แวร์กับข้อมูลประมาณ 500,000 คำ ที่ทางคณะกรรมการกำหนดขึ้น

สำหรับผู้ชนะจะได้รับ รางวัลดังนี้ รางวัลชนะเลิศ จะได้รับเงินรางวัลจำนวน 60,000 บาท พร้อมถ้วยรางวัล "Best of the BEST 2009", รางวัลที่ 2 จะได้รับเงินรางวัลจำนวน 40,000 บาท, รางวัลที่ 3 จะได้รับเงินรางวัลจำนวน 20,000 บาท และรางวัลชมเชย จำนวน 2 รางวัล รางวัลละ 10,000 บาท

สำหรับผู้ที่สนใจสามารถติดตามรายละเอียดเพิ่มเติม ได้ที่หน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา เนคเทค www.hlt.nectec.or.th หรือ โทร. 0-2564-6900.
ดร.ชัย วุฒิวิวัฒน์ชัย
Animatronic Roommate (ภาพจาก ดร.กฤษณ์ โกสวัสดิ์)
ApriPoko (ภาพจาก ดร.กฤษณ์ โกสวัสดิ์)
กำลังโหลดความคิดเห็น