xs
xsm
sm
md
lg

เมื่อวิทยาการข้อมูลรุกล้ำเข้ามาในสถิติศาสตร์ : คำประกาศของสมาคมสถิติอเมริกันว่าด้วยวิทยาการข้อมูล

เผยแพร่:   ปรับปรุง:   โดย: อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์

ภาพจาก pixabay.com
อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
สาขาวิชา Business Analytics and Intelligence
สาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์
ผู้อำนวยการศูนย์คลังปัญญาและสารสนเทศ
สถาบันบัณฑิตพัฒนบริหารศาสตร์


ผมเพิ่งได้ลองพลิกอ่านตำราคณิตศาสตร์สำหรับวิทยาการคอมพิวเตอร์ ของ MIT เมื่อเปิดอ่านแล้วตกใจ รู้ว่าโลกเปลี่ยนไปมากทีเดียว สมัยก่อนคณิตศาสตร์สำหรับวิทยาการคอมพิวเตอร์นั้น focus ต้องไปอยู่ที่ Discrete mathematics หรือ ภินทนคณิตศาสตร์ ซึ่งเป็นรากฐานของขั้นตอนวิธี (Algorithm) ต่างๆ และเรียนพวกทฤษฎีกราฟด้วยเป็นต้น ซึ่งก็ยังคงอยู่เหมือนเดิม

ไปดาวน์โหลดมาอ่านกันได้ครับ https://people.csail.mit.edu/meyer/mcs.pdf

แต่พอ Data Sciences และพวก Machine learning หรือ Artificial intelligence เข้ามา คณิตศาสตร์สำหรับวิทยาการคอมพิวเตอร์นั้นก็ขยายวงออกมา ไม่จำกัดแต่ discrete mathematics อีกต่อไป เริ่มเรียน ทฤษฎีจำนวน พีชคณิตเชิงเส้น ทฤษฎีความน่าจะเป็นต่างๆ ตัวแปรสุ่ม และไปถึง random walks อันเป็นพื้นฐานของ Markov Chain และ Bayesian statistics ด้วย

ข้อนี้ทำให้ผมเองตกใจว่า ขณะนี้ สถิติศาสตร์กับวิทยาการคอมพิวเตอร์เริ่มผสานบูรณาการเป็นเนื้อเดียวกัน เอาเข้าจริงวิทยาการคอมพิวเตอร์ก้าวหน้ากว่าสถิติศาสตร์มาก และรุกล้ำเข้ามาใน area ของสถิติศาสตร์อย่างรวดเร็ว โดยนำความรู้ทางสถิติศาสตร์ไปพัฒนาและนำไปใช้อย่างต่อเนื่องจนเป็นของตัวเอง

หากสถิติศาสตร์ยังไม่ปรับตัว ให้สามารถวิเคราะห์ข้อมูลที่ไม่มีโครงสร้างได้ (Unstructured Data) เช่น ภาพ วีดิโอ เสียง ข้อความ ผมมีความเชื่อว่า สถิติศาสตร์จะค่อยๆ หดตัวแคบลงและหมดความสำคัญลงไปเรื่อยๆ ข้อมูลขนาดใหญ่ Internet of Things และ Biosensor ทำให้ความสำคัญของการสุ่มตัวอย่าง (Sampling) และการอนุมานเชิงสถิติ (Statistical Inference) ค่อยๆ ลดบทบาทลงไป เพราะเราได้ข้อมูลที่เป็นประชากรหรือเกือบจะเป็นประชากรได้ง่ายดายกว่าเดิมในอดีตมาก ความจำเป็นในสองหัวข้อดังกล่าวอันเป็น milestone ของสถิติศาสตร์จะค่อยๆ ลดบทบาทความสำคัญลงไปเรื่อยๆ ความจำเป็นในการสุ่มตัวอย่างและการอนุมานทางสถิติจะค่อยๆ ลดลง เพราะเราเก็บข้อมูลได้มากขึ้น สมบูรณ์ขึ้น ตัวอย่าง ที่แม้แต่ในประเทศไทยที่เห็นได้ชัด ได้แก่ การสำรวจพฤติกรรมการใช้อินเทอร์เน็ตของสำนักงานสถิติแห่งชาตินั้นไม่มีความจำเป็นนัก เพราะสิ้นเปลือง ไม่แม่นยำเพราะคนจะไม่รายงานว่าตนเองเข้าไปดูเว็บโป๊ หรือเว็บรับพนัน แต่ log file จาก gateway ของ กสทช. นั้นเมื่อนำมาประมวลจะได้พฤติกรรมการใช้งานของทั้งประเทศ เป็น hard data มีความถูกต้องแม่นยำกว่ามากและไม่เปลืองเงินเท่าเพราะเป็นการนำข้อมูลทุติยภูมิมาใช้

เรื่องนี้ทำให้นึกถึงคำประกาศของสมาคมสถิติอเมริกันเกี่ยวกับบทบาทของสถิติในวิทยาการข้อมูล (DATA SCIENCES) ที่ผมได้เคยแปลเอาไว้ดังนี้

คำประกาศของสมาคมสถิติอเมริกันเกี่ยวกับบทบาทของสถิติในวิทยาการข้อมูล (DATA SCIENCES)
ASA Statement on the Role of Statistics in Data Science


Statement Contributors
David van Dyk, Imperial College (chair)
Montse Fuentes, NCSU
Michael I. Jordan, UC Berkeley
Michael Newton, University of Wisconsin
Bonnie K. Ray, Pegged Software
Duncan Temple Lang, UC Davis
Hadley Wickham, RStudio


ความนิยมแพร่หลายของวิทยาการข้อมูล, ซึ่งรวมไปถึงข้อมูลขนาดใหญ่ (Big Data) และการวิเคราะห์ข้อมูล (Data Analytics) เมื่อไม่นานมานี้ ได้ดึงดูดความใส่ใจอย่างรวดเร็วต่อทั้งสื่อมวลชน โดยเฉพาะอย่างยิ่งบทบาทของมันที่น่ามหัศจรรย์ในการนำไปประยุกต์ใช้ในสาขาวิชาการต่างๆ หรือแม้กระทั่งในภาคธุรกิจก็เช่นกัน ความสำเร็จจำนวนมากนี้เป็นผลพวงมาจากจิตวิญญาณของการเป็นผู้ประกอบการและนวัตกรซึ่งเปลี่ยนแปลงโฉมหน้าวัฒนธรรมกระฎุมพี อย่างไรก็ตาม ธรรมชาติของวิทยาการข้อมูลโดยตัวมันเองที่มีความเป็นสหวิทยาการสูงมากย่อมหมายถึงการต้องการความร่วมมืออย่างหนักแน่นเพื่อที่จะได้บรรลุศักยภาพอย่างเต็มที่ในการสร้างผลิตภาพและนวัตกรรม แม้ว่าจะยังไม่มีฉันทามติที่ระบุได้แน่ชัดว่าวิทยาการข้อมูลประกอบด้วยอะไรบ้าง แต่อย่างน้อยชุมชนมือาชีพสามชุมชน ทั้งหมดอยู่ภายในชุมชนวิทยาการคอมพิวเตอร์ และ/หรือสถิติ ได้หลอมรวมกันเป็นพื้นฐานสำหรับวิทยาการข้อมูล อันได้แก่ 1) การจัดการฐานข้อมูล ซึ่งทำให้สามารถแปลง หลอมรวม และจัดแจงทรัพยากรข้อมูล 2) สถิติหรือการเรียนรู้ของเครื่องจักร ที่ช่วยแปรรูปข้อมูลไปสู่ความรู้ และ 3) ระบบคู่ขนานหรือกระจาย ที่ช่วยเป็นโครงสร้างพื้นฐานสำหรับการคำนวณเพื่อการวิเคราะห์ข้อมูลได้สำเร็จลุล่วง

วิทยาการข้อมูลนั้นเกี่ยวข้องกับสาขาวิชาการอื่นๆ และเนื้อหาการวิจัยอื่นมากมายอย่างแน่นอน และเป็นเรื่องที่แน่แท้ที่จะบอกว่าในด้านวิทยาศาสตร์ อุตสาหกรรม พาณิชยกรรม หรือ การปกครอง ต้องเกี่ยวข้องกับการปฏิวัติข้อมูลไม่ทางใดก็ทางหนึ่ง แต่สิ่งที่เป็นพื้นฐานย่อมเป็น ฐานข้อมูล สถิติ และระบบการกระจายที่เป็นท่อส่งหลักของสิ่งเหล่านี้ ในระดับพื้นฐานสุดเรามองว่าวิทยาการข้อมูลคือการร่วมมือกันระหว่างวิชาชีพสามวิชาชีพที่ก่อให้เกิดประโยชน์ร่วมกัน ส่งเสริมเติมเต็มซึ่งกันและกัน และนำไปสู่ปฏิสัมพันธ์อันมีความสำคัญยิ่งกับสาขาวิชาอื่นๆ ที่เกี่ยวข้อง ดังนั้นการที่วิทยาการข้อมูลจะบรรลุศักยภาพสูงสุดต้องอาศัยความร่วมมือในหลายแง่มุมอย่างเต็มกำลังสูงสุดจากกลุ่มวิชาชีพทั้งสามกลุ่มข้างต้น

สถิติและการเรียนรู้ของเครื่องจักรเป็นกลไกหลักสำคัญในวิทยาการข้อมูล การตั้งคำถามอย่างนักสถิติช่วยให้เราสามารถนำทรัพยากรข้อมูลมาใช้เพื่อสกัดความรู้ออกมาได้มากที่สุดและได้คำตอบที่ดียิ่งกว่าเดิม แกนกลางหลักของการอนุมานเชิงสถิติคือการสุ่มของข้อมูล (Randomness of data) ช่วยให้นักวิจัยสามารถตั้งคำถามเกี่ยวกับกระบวนการเบื้องหลังของข้อมูลและทำให้สามารถระบุปริมาณความไม่แน่นอนของคำตอบที่พยายามค้นหาได้ กรอบความคิดทางสถิติช่วยให้นักวิจัยแยกแยะระหว่างสหสัมพันธ์และความสัมพันธ์เชิงสาเหตุออกจากกันได้ และช่วยให้ระบุสิ่งที่ต้องทำเพื่อนำไปสู่การเปลี่ยนแปลงในผลลัพธ์ตามที่ปรารถนา กรอบความคิดทางสถิติยังช่วยให้สามารถหาวิธีการในการพยากรณ์และการประมาณค่าซึ่งทำให้ความไม่แน่นอนออกมาเป็นปริมาณได้ และการจะทำเช่นนี้ได้ย่อมต้องอาศัยขั้นตอนวิธี (Algorithm) ที่ต้องสำแดงพฤติกรรมที่ทำซ้ำได้แน่นอนและสามารถพยากรณ์ได้แม่นยำ โดยเหตุนี้ วิธีการทางสถิติจึงมุ่งหมายให้เพ่งความสนใจไปที่ข้อค้นพบที่สามารถทำซ้ำได้โดยนักวิจัยคนอื่นๆ ด้วยทรัพยากรข้อมูลที่แตกต่างออกไป พูดให้ง่ายวิธีการทางสถิติช่วยให้นักวิจัยสามารถสั่งสมองค์ความรู้ได้

สำหรับนักสถิติ เพื่อที่จะช่วยให้บรรลุความท้าทายอันใหญ่หลวงที่เผชิญโดยนักวิทยาการข้อมูล มีความจำเป็นอย่างยิ่งที่จะต้องใช้ความพยายามร่วมกันอย่างยิ่งยวดและยั่งยืนระหว่างนักวิจัย ผู้ที่เชี่ยวชาญด้านการจัดแจงข้อมูล และผู้ที่เชี่ยวชาญด้านการไหลและการกระจายข้อมูลในการประมวลผล นักสถิติต้องมุ่งมั่นในการทำงาน (Engage) กับเพื่อนร่วมงานต่างสาขาวิชา ต้องเรียนรู้จากพวกเขา ต้องสอนพวกเขา และต้องทำงานกับพวกเขา ความมุ่งมั่นร่วมกันต้องเกิดขึ้นในทุกระดับ ตั้งแต่ระดับบุคคล ระดับกลุ่มนักวิจัย ภาควิชา และวิชาชีพโดยภาพรวม กลยุทธ์ในการแก้ปัญหาใหม่ๆ จำเป็นต้องได้รับการพัฒนา เช่นเดียวกับการทำอาหารซึ่งต้องเริ่มจากไร่นาสู่จานอาหาร ต้องเริ่มต้นจากการจัดการกับวัตถุดิบและนำไปสู่การนำไปปฏิบัติได้จริงที่เป็นมิตรกับผู้ใช้งาน โดยใช้หลักการและวิธีการทางสถิติที่แม่นยำมีเหตุมีผลเช่นเดียวกันกับการสื่อสารในเนื้อหาที่ศึกษาที่ชัดเจนเข้าใจง่าย สถิติศึกษาและการฝึกอบรมทางสถิติต้องมีการวิวัฒน์อย่างต่อเนื่อง นักวิชาชีพทางสถิติรุ่นต่อไปในภายภาคหน้าต้องการทักษะที่กว้างขวางมากและต้องสามารถร่วมมือมุ่งมั่นในการทำงานกับผู้เชี่ยวชาญด้านฐานข้อมูลและระบบการกระจายข้อมูลได้เป็นอย่างดี ในขณะที่ความรู้ความสามารถของนักสถิติต้องเพิ่มขึ้นทั้งในเนื้อหาเดิมและในสิ่งที่เป็นนวัตกรรมใหม่ล่าสุด แต่สิ่งที่จำเป็นอย่างยิ่งคือนักสถิติต้องสามารถจัดการได้กับความคาดหวังที่จะเพิ่มขึ้นอย่างมหาศาลในอนาคต สำหรับคนรุ่นใหม่เราต้องการนักวิจัยที่มีทักษะก้าวข้ามผ่านพรมแดนแห่งความรู้เดิมไม่ว่าจะเรียกว่า สถิติ ฐานข้อมูล และระบบการกระจายข้อมูล แต่จะมีความคาดหวังมากมายที่จะได้เห็นผู้เชี่ยวชาญที่เป็นพหูภาษาสามารถเข้าใจและเชื่อมโยงหลอมรวมความรู้หลากหลายสาขาวิชาให้นำไปใช้งานร่วมกันได้จริง

ดังนั้นเราจะร่วมมือกับนักสถิติ ภาควิชาสถิติ และสมาคมวิชาชีพอื่นๆ สมาคมสถิติอเมริกันตั้งเป้าหมายที่จะช่วยให้เกิดสุนทรียสนทนาเกี่ยวกับบทบาทของสถิติในวิทยาการข้อมูล เพื่อผลักดันแนวทางนี้ให้ก้าวไปข้างหน้าอย่างรวดเร็วท่ามกลางสภาพแวดล้อมที่เปลี่ยนแปลง และเปิดพื้นที่สำหรับการสื่อสารและความร่วมมือกับนักวิทยาการข้อมูล ทั้งผู้ที่เป็นนักสถิติและผู้ที่มิได้เป็นนักสถิติอย่างเท่าเทียม สมาคมสถิติอเมริกันมีเป้าหมายที่จะส่งเสริมเกื้อหนุนและก่อให้เกิดความร่วมมือระหว่างนักสถิติและนักวิทยาการข้อมูลสาขาอื่นๆ อันจะช่วยให้เราบรรลุเป้าหมายได้รวดเร็วและดียิ่งขึ้นกว่าที่เราจะสามารถทำได้เพียงลำพัง


ซึ่งแสดงให้เห็นว่าสมาคมสถิติอเมริกันเองตระหนักดีว่า Statisticians ต้องทำงานร่วมกันกับ Computer Scientists อย่างแนบแน่น และอีกไม่นานนักสถิติจำเป็นต้องปรับตัวขนานใหญ่ เพื่อความอยู่รอดของศาสตร์และเพื่อความก้าวหน้าของมวลมนุษยชาติ

เรื่องนี้ต้องนับเป็นพระมหากรุณาธิคุณอันยิ่งใหญ่ในพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดชที่ทรงมีวิสัยทัศน์อันกว้างไกลและทรงใส่พระทัยทั้งด้านวิทยาการคอมพิวเตอร์และสถิติศาสตร์ โปรดดูได้จาก พระอัจฉริยภาพและพระมหากรุณาธิคุณของพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช ด้านเทคโนโลยีสารสนเทศ และ วิสัยทัศน์ของพระบาทสมเด็จพระเจ้าอยู่หัวภูมิพลอดุลยเดชต่อวงวิชาการสถิติศาสตร์

จึงนับว่าประเทศไทยได้มีรากฐานมาพอสมควรด้วยพระมหากรุณาธิคุณ แต่สำหรับในอนาคตอันใกล้นั้นประเทศไทยนั้นก็คงมีความจำเป็นต้องปรับตัวกันขนานใหญ่ เพื่อให้เท่าทันกับกระแสโลก และยุทธศาสตร์ชาติ Thailand 4.0 ดังที่พลเอกประยุทธ์ จันทร์โอชา นายกรัฐมนตรีได้มีบัญชาให้พลอากาศเอกประจิน จั่นตอง รองนายกรัฐมนตรีได้เข้ามาปรับปรุงการทำงานของสำนักงานสถิติแห่งชาติให้ทันสมัย สามารถเป็นระบบสารสนเทศเพื่อการจัดการ (Management Information System) ของประเทศได้

อีกทั้งสภาขับเคลื่อนการปฏิรูปประเทศ (สปท.) ได้มีมติและจัดทำรายงานนำเสนอแนวทางการปฏิรูประบบสถิติในประเทศไทย เนื่องจากระบบสถิติของประเทศไทยในปัจจุบันยังมีปัญหาในหลายด้าน เช่นขาดความเป็นเอกภาพในการทำงานด้านสถิติเนื่องจากมีการเก็บข้อมูลสถิติโดยหลายหน่วยงาน และขาดรูปแบบการจัดเก็บข้อมูลที่เป็นมาตรฐานเดียวกันทำให้ข้อมูลกระจัดกระจายและมีความแตกต่างกัน บุคลากรด้านสถิติยังขาดประสบการณ์ด้านการบริหารจัดการระบบสถิติและการบริหารจัดการความร่วมมือระหว่างหน่วยงาน อีกทั้งหน่วยงานรับผิดชอบหลักในการติดตามตรวจสอบความถูกต้องของข้อมูลสถิติที่สถาบันจัดอันดับนานาชาตินำไปใช้ ส่งผลให้การจัดอันดับขีดความสามารถของประเทศในบางกรณีตกต่ำเนื่องจากขาดข้อมูลที่ทันสมัย http://www.thaiquote.org/content/6643 สามารถอ่านรายงานของ สปท ได้จาก goo.gl/ZRZKrs

ทั้งนี้ "ดร.พิเชฐ ดุรงคเวโรจน์ รัฐมนตรีว่าการกระทรวงดิจิทัลเพื่อเศรษฐกิจและสังคม ได้โพสต์ใน Facebook ว่า

เมื่อเร็วๆนี้ ผมได้เป็นประธานการประชุมคณะกรรมการจัดระบบสถิติประเทศไทย 3 ด้าน ซึ่งประกอบไปด้วยด้านเศรษฐกิจ ด้านสังคม และด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม ทั้งนี้ สำนักงานสถิติแห่งชาติ (สสช.) หน่วยงานในสังกัดกระทรวงฯ จัดการประชุมดังกล่าวขึ้น เพื่อพิจารณาแนวทางการดำเนินงานตามแผนแม่บทระบบสถิติประเทศ ฉบับที่ 2 (พ.ศ.2559 - 2564) เพื่อให้ประเทศไทยมีข้อมูลสถิติที่มีคุณภาพมาตรฐานและทันต่อเหตุการณ์ ซึ่งเป็นส่วนสำคัญในการจัดทำระบบข้อมูลสารสนเทศเพื่อการบริหาร (Management Information System: MIS) รวมทั้งเป็นการสนับสนุนการดำเนินงานตามนโยบายประเทศไทย 4.0

จากการประชุมได้มีการหารือประเด็นต่างๆ จนได้ข้อสรุป เช่น 1. การดำเนินการตามข้อสั่งการนายกฯ เรื่อง Management Information System (MIS) โดยเร็ว โดยอาจศึกษาตัวอย่างจากประเทศชั้นนำ/ เชิญผู้เชี่ยวชาญจากต่างประเทศมานำเสนอ/ อาจทำเป็นสัญญาแบบรัฐต่อรัฐ ทั้งนี้ ให้ทำเพื่อรองรับ Thailand 4.0 หรือตอบสนองต่อแผนพัฒนาเศรษฐกิจและสังคมฉบับที่ 12 รวมถึงยุทธศาสตร์ 20 ปีของชาติ และ 2. การเชื่อมโยงข้อมูลของสถิติรายสาขา 21 สาขา (ซึ่งต่อไปอาจพิจารณาแบ่งเป็น 5 คลัสเตอร์ โดยให้สำนักงานสถิติแห่งชาติเป็นผู้ประสานการเชื่อมโยง/บูรณาการข้อมูล โดยใช้ระบบอัตโนมัติ และ 3. สำนักงานสถิติแห่งชาติ มีหน้าที่จัดทำสถิติพื้นฐาน ควรต้องวางแผนว่าอนาคตจะทำสำมะโนด้านใดเพิ่มเติม เช่น สำมะโนดิจิทัล สำมะโนความสุข เป็นต้น อีกทั้ง สสช. มีข้อมูลมากและหลายสาขา ควรนำข้อมูลดังกล่าวไปวิเคราะห์ Gap analysis เป็นต้น

และในระยะยาว การที่ประเทศไทยยังขาดแคลนบุคลากรด้านสถิติ (Statistics) คณิตศาสตร์ (Mathematics) และเศรษฐศาสตร์ (Economics) จึงต้องมีการสร้างและพัฒนาโดยเร็ว เช่น โครงการนักเรียนทุน การนำระบบการบริหารทรัพยากรบุคลของภาคเอกชน และนำเทคโนโลยีองค์ความรู้ใหม่จากต่างประเทศ เป็นต้น

สิ่งเหล่านี้เป็นความตั้งใจของผมที่จะผลักดันให้สำนักงานสถิติแห่งชาติ เป็นคลังสารสนเทศ เพื่อใช้ประกอบการวางแผน ตัดสินใจ และแก้ปัญหาให้กับประเทศไทยได้อย่างมีประสิทธิภาพอย่างแท้จริง"


เราคงต้องดูการปรับตัวของสถิติศาสตร์ที่จะเริ่มทำงานร่วมกันกับวิทยาการคอมพิวเตอร์ในต่างประเทศอย่างจริงจังในฐานะของนักวิทยาการข้อมูล และต้องทำงานเป็นทีม เพราะไม่มีใครชำนาญไปทุกเรื่อง และสำหรับในประเทศไทยเรา วงวิชาการสถิติศาสตร์และวิทยาการคอมพิวเตอร์คงต้องคุยกันมากขึ้นทำงานร่วมกันมากขึ้นเช่นกัน
กำลังโหลดความคิดเห็น