AI ไม่ใช่เทวดา ต้องการดาต้าที่มีคุณภาพจำนวนมากเป็นอาหารสมอง

ผู้ช่วยศาสตราจารย์ ดร.อานนท์ ศักดิ์วรวิชญ์
อาจารย์ประจำสาขาวิชา Business Analytics and Intelligence
และ Actuarial Science and Risk Management
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

ความเข้าใจผิดและแฟชั่น AI ในประเทศไทย เป็นสิ่งที่เห่อกันแบบผิด ใช้กันแบบไม่เข้าใจได้อย่างเหลือเชื่อ ใครที่ไม่พูด AI กลายเป็นคนตกยุคตกสมัย และผู้หลักผู้ใหญ่ในบ้านเมือง หน่วยราชการ และ CEO ของบริษัทเอกชน ต่างก็เห่อคำนี้ พูดคำนี้เป็นสรณะ และยกย่องว่า AI มันดีเลิศดีวิเศษ อยากได้มาใช้งานแล้วจะดูดีดูเท่ห์มากมาย โดยที่ยังไม่รู้ไม่เข้าใจด้วยซ้ำว่ามันคืออะไร มันทำงานอย่างไร

ในทางปฏิบัติ ก็เลยเกิดการแหกตาประชาชนและลูกค้า ไม่ได้ใช้ AI ก็ต้องบอกว่าใช้ AI ทำงานทั้ง ๆ ที่อาจจะใช้การเขียน if then else สามชั้น หรือใช้สถิติเบื้องต้นง่าย ๆ เลย แต่ต้องให้หรูดูดี เลยต้องแอบอ้าง AI ไว้ก่อน ทำให้หรู ดูว่าขายได้ เอกชนทำกันแบบนี้เยอะครับ และราชการก็คงทำเหมือน ๆ กัน

อันที่จริง AI มีข้อจำกัดมากมาย งานบางอย่างจำเป็นต้องใช้ AI บางอย่างไม่จำเป็นต้องใช้ AI และงานบางอย่างต้องบอกว่าไม่เหมาะที่จะใช้ AI ด้วย ในเมื่อมันเป็นงานที่ทำด้วย AI แล้วยุ่งยากมากและอาจจะไม่ได้ดีเท่าด้วยซ้ำไป แต่ตอนนี้ AI เป็น Buzz word ยอดฮิต ที่คนพูดยังไม่รู้ด้วยซ้ำว่ามันคืออะไร และคำที่เกี่ยวข้องกันแตกต่างกันอย่างไร ขอลองไล่ให้ฟังตามลำดับความเก่าแก่ของคำ ดังนี้

สถิติศาสตร์ (Statistics) เป็นวิทยาศาสตร์ที่ว่าด้วยการเก็บรวมรวม การจัดแจง การวิเคราะห์ การแปลผล การอธิบายและการนำเสนอข้อมูล

สถิติเป็นศัพท์เก่าสุด เป็นคำไม่ยอดฮิต แต่เป็นคำที่คนกลัวกันขี้แตกขี้แตน ว่ายาก และเต็มไปด้วยคณิตศาสตร์ สถิติมีรากศัพท์มาจากคำว่ารัฐ (State) ดังนั้นสถิติจึงเป็นวิชาที่ว่าด้วยรัฐและการพัฒนา โปรดอ่านได้จากบทความ https://mgronline.com/daily/detail/9570000146666 ซึ่งสะท้อนให้เห็นพระอัจฉริยภาพในพระบาทสมเด็จพระบรมชนกาธิเบศร มหาภูมิพลอดุลยเดชมหาราช บรมนาถบพิตร ที่ทรงเข้าใจเป็นอย่างดีถึงหลักการใช้สถิติในการพัฒนาประเทศและทรงวางรากฐานในเรื่องนี้เพื่อประเทศไทยด้วยพระองค์เอง

Milestone สำคัญของสถิติคือการสุ่มตัวอย่าง (Sampling) การประมาณค่า (Estimation) และการอนุมานทางสถิติ (Statistical inference) ที่ช่วยให้เราอ้างอิงจากค่าสถิติของตัวอย่าง (Sample statistics) ไปยังค่าพารามิเตอร์ของประชากรที่เราสนใจศึกษา ทำให้ประหยัดเวลาและค่าใช้จ่ายลงไปได้มากและได้ข้อมูลมาใช้ได้ทันเวลา ตรงกับความต้องการ

Data Mining หรือเรียกว่า Knowledge discovery in database: KDD การทำเหมืองข้อมูลหรือการค้นหาความรู้จากฐานข้อมูล เมื่อคอมพิวเตอร์เข้ามาทำให้เกิดฐานข้อมูล (Database) แต่ถ้าจะเก็บข้อมูลไว้บนฐานข้อมูลอย่างเดียวก็ไม่เกิดประโยชน์อะไรมาก นักวิทยาการคอมพิวเตอร์ก็เลยเริ่มประยุกต์และปรับปรุงสถิติศาสตร์มาไว้ใช้สำหรับการค้นหาความรู้จากฐานข้อมูลหรือการทำเหมืองข้อมูล ความรู้ในฐานข้อมูลเหล่านี้เหมือนกับสินแร่ที่ต้องผ่านการทำเหมือง ระเบิดและขุดค้นออกมาจากฐานข้อมูล ซึ่งการทำเหมืองข้อมูลนี้อาจจะใช้สถิติศาสตร์ การจำได้หมายรู้ของรูปแบบ (Pattern recognition) และการเรียนรู้ด้วยเครื่องจักร (Machine Learning)

การเรียนรู้ด้วยเครื่องจักรเป็นคำใหม่กว่า data mining และถือว่าเป็นส่วนย่อยของปัญญาประดิษฐ์ การเรียนรู้ด้วยเครื่องจักรนั้นเกิดจากการที่นักคอมพิวเตอร์มีข้อมูลและฐานข้อมูล และต้องการให้คอมพิวเตอร์สามารถวิเคราะห์ข้อมูลได้แบบเดียวกันกับสถิติและการทำเหมืองข้อมูล แต่มีมุมมองที่เปลี่ยนไปเล็กน้อย คือมองว่าการวิเคราะห์ข้อมูลนั้นควรมีขั้นตอนวิธี (Algorithm) ที่สามารถปรับปรุงตัวเองให้ดีขึ้นได้ เมื่อได้เห็นข้อมูลเพิ่มมากขึ้นเรื่อย ๆ เกิดการเรียนรู้เพิ่มขึ้นเมื่อมีข้อมูลเพิ่มมากขึ้นโดยอัตโนมัติ เมื่อมีข้อมูลเข้ามาก็ต้องเอาข้อมูลมาสอน (Training) ให้การเรียนรู้ด้วยเครื่องจักรสร้างตัวแบบที่ทำหน้าที่วิเคราะห์ข้อมูลได้ดีขึ้น

การเรียนรู้ด้วยเครื่องจักรสมัยใหม่ มีตัวแบบใหม่ ๆ ที่สามารถเรียนรู้แบบเสริมแรง (Reinforcement learning) ที่ไม่แตกต่างจากการเรียนรู้แบบเสริมแรงของสิ่งมีชีวิตไม่ว่าคนหรือสัตว์โดยเป็นการเรียนรู้จากเฉลยและการให้ผลย้อนกลับ (Feedback loop) ที่ช่วยให้การเรียนรู้ด้วยเครื่องจักรมีความแม่นยำขึ้นหลังจากการเรียนรู้ด้วยเฉลยไปทีละขั้นตอน อย่างที่ คอมพิวเตอร์ Alpha Go สามารถเล่นหมากล้อมชนะเซียนหมากล้อมระดับโลกได้ โดยการเรียนรู้จากเฉลยและผลย้อนกลับของเซียนหมากล้อม โดยที่จ้องจะเรียนรู้ว่าเซียนจะตัดสินใจอย่างไร และนำกลับมาคิดว่าเซียนหมากล้อมคิดอย่างไร และเมื่อคอมพิวเตอร์ตัดสินใจไปแล้ว เซียนหมากล้อมระดับโลกจะคิดอย่างไรต่อไป เป็นต้น จะเห็นได้ว่าการเรียนรู้ด้วยเครื่องจักรนั้นมีความคล้ายกับกระบวนการคิดของมนุษย์มากขึ้นและเป็นส่วนหนึ่งของปัญญาประดิษฐ์อย่างชัดเจน

ปัญญาประดิษฐ์ (Artificial Intelligence: AI) นั้นกำเนิดโดย Herbert A. Simon อัจฉริยะผู้จบปริญญาตรีคณิตศาสตร์และปริญญาเอกทางรัฐศาสตร์ แต่เป็นศาสตราจารย์ที่ Carnegie Mellon University ด้านเศรษฐศาสตร์ จิตวิทยา และวิทยาการคอมพิวเตอร์ เขาได้รับรางวัลโนเบลสาขาเศรษฐศาสตร์ในปี 1978 ได้รับรางวัล Turing ร่วมกับ Allen Newell ในปี 1975 อันถือว่าเป็นรางวัลสูงสุดของวิทยาการคอมพิวเตอร์ และรางวัลเกียรติยศสูงสุดที่มีส่วนร่วมทั้งชีวิตอันโดดเด่นต่อวงการจิตวิทยาจากสมาคมจิตวิทยาอเมริกัน (APA's Award for Outstanding Lifetime Contributions to Psychology) ในปี 1993

Herbert A Simon สร้างปัญญาประดิษฐ์ โดยมีหลักการให้คอมพิวเตอร์คิดได้เหมือนกับที่มนุษย์คิดได้ วิธีการของเขาเกิดจากการให้ผู้เชี่ยวชาญด้านใดด้านหนึ่ง คิดออกมาดังๆ (Think out loud) ว่าในกระบวนการตัดสินใจนั้นมีขั้นตอน สิ่งนำเข้า สิ่งนำออก เป็นชิ้นเล็ก ๆ (Chunk) อย่างไรบ้าง วิธีการดังกล่าวเรียกว่า Protocol Analysis แล้วจึงนำการคิดดัง ๆ ดังกล่าวมาเขียนโฟลว์ชาร์ต แล้วนำไปเขียนโปรแกรมต่อไป โปรแกรมคอมพิวเตอร์ดังกล่าวก็จะคิดได้เหมือนมนุษย์ เกิดเป็นปัญญาประดิษฐ์ขึ้น

ในระยะหลัง เส้นทางของ AI กลับมาเดินด้วยการเรียนรู้ด้วยเครื่องจักร มากยิ่งกว่าเดิม หมายความว่าต้องมีข้อมูลป้อนเข้าไปใน AI ให้มันได้เรียนรู้ AI จะเก่งมากหรือเก่งน้อยแค่ไหน ก็ขึ้นอยู่กับว่ามีข้อมูลที่มีคุณภาพสูงเพียงพอให้มันเรียนรู้หรือไม่ ยิ่งมีปริมาณข้อมูลมากและมีคุณภาพดีมากแค่ไหน AI ก็จะยิ่งเก่งมากขึ้นเท่านั้น

หากมีข้อมูลน้อย ๆ และเป็นข้อมูลขยะ ที่ไม่สะอาด ไม่มีคุณภาพ ไม่มีการอัพเดทให้เป็นปัจจุบัน ให้ทันสมัย ต่อให้ใช้ AI ก็จะได้ขยะออกมา คำกล่าวที่ว่า Garbage-in Garbage-out model: GIGO model หรือตัวแบบที่ขยะเข้าก็ได้ตัวแบบขยะออกไป เป็นคำกล่าวเก่าแก่ทางสถิติยังคงเป็นจริงอยู่ ไม่เสื่อมคลาย ไม่ว่าจะเป็น AI, Data mining, Machine Learning, หรือ สถิติศาสตร์ก็ตาม

ที่น่าห่วงคือความคาดหวังเกินความจริงที่มีต่อ AI, Data Mining, Machine learning คือคิดว่าเทคนิคเหล่านี้เป็นเทวดา ตอบโจทย์ได้ทุกโจทย์ โดยไม่ต้องมีข้อมูล มีผู้บริหารในหน่วยงานเอกชนและราชการไทยที่คิดแบบนี้เป็นจำนวนมาก หน่วยงานไม่เคยเก็บข้อมูล หรือต้องการตอบโจทย์เกี่ยวกับนโยบายที่ไม่เคยมีมาก่อน ซึ่งต้องลงมือเก็บข้อมูลใหม่ แล้วจึงนำมาวิเคราะห์หรือให้ AI มันเรียนรู้ ถึงจะตอบโจทย์ได้ ตอบคำถามได้ แต่ความคาดหวังที่ปราศจากความรู้ดังกล่าว ไม่มีทางเป็นจริงได้ หากไม่มีข้อมูล ต่อให้เป็นเทวดา AI ก็ตอบปัญหาดังกล่าวไม่ได้แต่อย่างใดทั้งนั้น คนทำงานด้านนี้ถูกคาดหวังให้เป็น เจน ญาณทิพย์ นั่งทางในตอบโจทย์ได้ทุกโจทย์ได้ทุกคำถามและทุกอย่าง โดยไม่มีข้อมูลใด ๆ เลยซึ่งเป็นไปไม่ได้เลย งานเหล่านี้เป็นงานของนักวิทยาการข้อมูล (Data scientist) หาใช่เทวดาหรือนักนั่งทางในแล้วจะเกิดอนาคตังสญาณโดยปราศจากข้อมูลได้แต่อย่างใด

สิ่งที่ประเทศไทยต้องเร่งพัฒนาคือการจัดเก็บข้อมูล ธรรมาภิบาลข้อมูล (Data governance) ให้มีคุณภาพ ให้มีความครบถ้วน ให้เร่งให้เกิดการบูรณาการระหว่างฐานข้อมูล ไม่ใช่อะไรก็ขอไม่ได้ หวงข้อมูลกันเพราะเป็นความลับของหน่วยงาน ความลับของทางราชการ และเป็นเรื่องของความลับทางการทหารและความมั่นคงไปทั้งหมด ซึ่งต่อให้เทวดา AI ก็จะไม่ได้ช่วยอะไรได้ทั้งนั้น ปัญหานี้คือปัญหาพื้นฐานโครงสร้างข้อมูล (Data infrastructure) อันเป็นปัญหาหนักสุดของทั้งราชการและเอกชนในประเทศไทย และต้องมีวิศวกรข้อมูล (Data Engineer) ที่มีความสามารถมาช่วยกันแก้ปัญหาดังกล่าวให้กับประเทศไทยอย่างเร่งด่วนที่สุด