เมื่อ Big Data และ Data sciences เข้ามา สถิติจะหาที่ยืนได้หรือไม่?

อาจารย์ ดร.อานนท์ ศักดิ์วรวิชญ์
สาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
สาขาวิชาวิเคราะห์ธุรกิจและการวิจัย
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

สถิตินั้นจัดว่าเป็นวิชาที่ใหม่มากเมื่อเทียบกับคณิตศาสตร์ วิทยาศาสตร์ สถิติมีอายุเก่าแก่แค่สองร้อยกว่าปีเท่านั้น และมีรากฐานมาจากวิชารัฐศาสตร์ โดยพยายามเก็บข้อมูลเพื่อนำมาใช้ในการวางแผนนโยบาย การตัดสินใจต่างๆ ของรัฐ เป็นต้น แม้คำว่าสถิติในภาษาอังกฤษก็คือ Statistics และมีรากศัพท์เดียวกันกับคำว่า State ที่แปลว่ารัฐ วิชาสถิติผ่านวิวัฒนาการและมีความเจริญก้าวหน้ามาตามลำดับ Landmark ของวิชาสถิติคือทฤษฎีความน่าจะเป็น การอนุมานเชิงสถิติ ซึ่งสอดคล้องกับการเก็บข้อมูลจากการสำรวจด้วยตัวอย่าง (Sample Survey) และการเก็บข้อมูลจากการทดลอง (Experiment) เป็นอย่างยิ่ง เนื่องจากข้อมูลที่ได้มานั้นมาจากตัวอย่างไม่มากนักแต่ต้องอ้างอิงกลับไปสู่ประชากรเป้าหมาย

แต่โลกทุกวันนี้มีการเปลี่ยนแปลงไปมากมาย ข้อมูลขนาดใหญ่ (Big Data) เข้ามามากมาย แต่ข้อมูลขนาดใหญ่ไม่ได้มาจากการสำรวจตัวอย่างและการทดลองอย่างที่นักสถิติโดยทั่วไปคุ้นเคยเสียด้วย โดยที่ Big Data นั้นมีลักษณะ 3 ลักษณะคือ

Volume มีขนาดข้อมูลใหญ่มหาศาล สื่อสังคม (Social media) ทำให้เกิดข้อมูลมหาศาล การค้าอีเล็คทรอนิคส์ (E-commerce) ก็ทำให้เกิดข้อมูลมหาศาล เช่นเดียวกันกับทุกนาทีที่เราต่อเข้าอินเทอร์เน็ต ก็เกิดข้อมูลมหาศาลเช่นกัน ความก้าวหน้าทางชีววิทยาเช่น DNA sequencing ก็ทำให้เกิดข้อมูลมหาศาลเช่นกัน

Velocity มีความรวดเร็วมาก ไหลเข้ามาในถังข้อมูลไม่ขาดสาย ส่วนหนึ่งมาจากความก้าวหน้าของเทคโนโลยีสารสนเทศและวิทยาการคอมพิวเตอร์ การเชื่อมต่อข้อมูลดีขึ้นกว่าแต่ก่อน

Variety ข้อมูลมีความหลากหลาย จากเดิมเป็นตัวเลข (Numeric) ในตารางสองทาง กลายเป็นข้อมูลในตารางหลายทาง กลายมาเป็น text เช่นข้อมูล Twitter มีข้อมูลประเภทเสียง (Voice) ข้อมูลประเภทรูป (Photo) เช่นข้อมูล Instagram ข้อมูลประเภทวิดีโอ เช่น Youtube และต่อไปคงมี 3D animation เพิ่มขึ้นอีกมากมาย

เมื่อข้อมูลขนาดใหญ่เข้ามาเรื่อย ความสำคัญของวิทยาการข้อมูล (Data Sciences) ก็เพิ่มขึ้นอย่างรวดเร็วในการจัดการกับข้อมูลขนาดใหญ่ ข้อมูลขนาดใหญ่และสมัยใหม่นั้นไม่สามารถอาศัยฐานข้อมูลสัมพันธ์ (Relational Database) แบบสมัยก่อนได้อีกแล้ว เนื่องจากข้อมูลไม่ได้มีโครงสร้างชัดเจน (Unstructured Data) มีการเปลี่ยนแปลงอย่างรวดเร็ว ข้อมูลมีจำนวนมาก ไม่ได้มาจากการสุ่มตัวอย่างจากการสำรวจเหมือนในอดีต แต่ก็มีปัญหาไม่ยิ่งหย่อนไปกว่ากันเนื่องจากมีปัญหาคุณภาพข้อมูล ข้อมูลทับซ้อนไม่ตรงกันหรือไม่สอดคล้องกัน มีข้อมูลเยอะแต่ก็มีข้อมูลสูญหาย (Missing data) มากมาย

เมื่อ Big Data และ Data Sciences เข้ามานั้น คนที่เข้ามาส่วนใหญ่มาจากทางวิทยาการคอมพิวเตอร์มากกว่าทางสถิติ และดูเหมือนงานของนักสถิติก็มีคนนอกวงการมาทำงานแทนขึ้นเรื่อยๆ ส่วนหนึ่งนั้นเพราะจำนวนนักสถิติมีไม่พอเพียง ในสหรัฐอเมริกานักสถิติขาดแคลนมาก อาจารย์ทางสถิติก็ขาดแคลน แต่ความต้องการมีสูงมากโดยเฉพาะในภาคเอกชน แต่กลับไม่สามารถแก้ปัญหานี้ได้เนื่องจากนักเรียนอเมริกันไม่ชอบเรียนวิทยาศาสตร์และคณิตศาสตร์เท่าที่ควร การที่คนนอกวงการวิชาชีพสถิติเข้ามามีบทบาทเพิ่มมากขึ้น โดยเฉพาะคนทางฝั่ง Computer sciences และเรียกรวมๆ กันว่า Data Scientists นั้นทำให้ Royal Statistical Society สมาคมวิชาชีพทางสถิติอันเก่าแก่และทรงเกียรติถึงกับจัดเสวนาในหัวข้อ Data Science and Statistics: different worlds?

ข้อสรุปจากการสัมมนาที่น่าสนใจคือ แท้จริงแล้ว Data Science กับ สถิติ เป็นเหรียญเดียวกันแต่คนละด้าน เพราะวัตถุประสงค์ยังเหมือนกันคือการจัดการรวบรวมข้อมูล วิเคราะห์ข้อมูล สรุปผล นำเสนอแนะ และนำสารสนเทศที่ได้ไปใช้งาน

Data Science นั้นนำความท้าทายมากมายมาให้นักสถิติ ที่ทำให้นักสถิติต้องเรียนรู้ ปรับตัว และแก้ปัญหา

1.ข้อมูลมีขนาดใหญ่และไหลเข้ามารวดเร็วมาก จนต้องหา algorithm หรือขั้นตอนวิธีในการวิเคราะห์ให้เร็วขึ้น มีการแยกกันคำนวณ (Distributed computing)
2.ข้อมูลขนาดใหญ่ไม่มีโครงสร้าง แต่สถิติแบบคลาสสิกออกแบบพัฒนามาเพื่อใช้กับข้อมูลที่มีโครงสร้าง (Structured data) ในตารางสองทางเป็นส่วนใหญ่ ทำให้ต้องพัฒนาวิธีการทางสถิติใหม่ๆ ให้เท่าทันกับการวิเคราะห์ข้อมูลที่ไม่มีโครงสร้าง สถิติกราฟิกและการสร้างภาพนิทัศน์ (Statistical Graphic and Data Visualization) กลับมีความสำคัญมากยิ่งขึ้น โดยเฉพาะในปัจจุบันข้อมูลมีความซับซ้อนและยุ่งยากมากขึ้นต้องการสื่อสารให้คนทั่วไปเข้าใจได้ง่ายที่สุด ต้องเป็นนักเล่าเรื่อง (Story teller) ที่ดี
3.ข้อมูลมีความหลากหลาย นักสถิติต้องร่วมกับ Data Scientist พัฒนาวิธีการทางสถิติสำหรับการวิเคราะห์ข้อมูลข้อความ ข้อมูลเสียง ข้อมูลรูปภาพ ข้อมูลวีดีโอ ข้อมูล 3D animation ข้อมูลจาก social media ข้อมูลรูปแบบหลากหลายเหล่านี้ต้องพัฒนาวิธีการทางสถิติในการวิเคราะห์ให้ก้าวตามได้ทัน
4.ข้อมูลไม่ได้มาจากการสำรวจหรือการทดลองแล้ว มีขนาดใหญ่ การใช้สถิติเชิงอนุมาน (Statistical inference) จากตัวอย่าง (Sample) กลับไปสู่ประชากร (Population) กลับลดความสำคัญลงเรื่อยๆ แต่การบรรยายข้อมูลด้วยสถิติเชิงบรรยาย (Descriptive Statistics) กลับจะสำคัญมากขึ้น ในขณะเดียวกันข้อมูลขนาดใหญ่ ไม่ได้หมายความว่าจะมีคุณภาพข้อมูลที่ดี อาจจะมีปัญหามากกว่าข้อมูลจากการสำรวจหรือการทดลองแบบเดิมด้วยซ้ำ ซึ่งต้องปรับปรุงพัฒนาและแก้ไขให้ข้อมูลมีคุณภาพดีขึ้น
5.ข้อมูลขนาดใหญ่มีความหลากหลาย Big data นั้นทำให้คนคาดหวังว่าจะนำข้อมูลไปสร้าง Competitive Intelligence ดังนั้นการสร้างแบบจำลองพยากรณ์ (Predictive Modeling) จากข้อมูลหลากหลายประเภทที่ไม่เคยทำมาก่อนจะยิ่งทวีความสำคัญ เช่น ต้องการพยากรณ์ว่าคนเข้าเฟซบุ๊กคนไหนน่าจะซื้อสินค้าอะไรจากข้อความ ภาพ เสียง วิดีโอ ที่เขาเข้าไปดูหรือที่เข้าโพสต์ซึ่งแบบจำลองทางสถิติแบบเดิมๆ ไม่สามารถทำหน้าที่ดังกล่าวได้ดีพอ
6.การวิเคราะห์ข้อมูลขนาดใหญ่ มักมีเป้าหมาย หรือวัตถุประสงค์ไปเชื่อมโยงกับเนื้อหาในสาขาใดสาขาหนึ่งชัดเจน เช่น ชีวสารสนเทศศาสตร์ (Bioinformatics) การวิเคราะห์ธุรกิจ (Business Analytics) แพทยสารสนเทศศาสตร์ (Medical Informatics) เป็นต้น นักสถิติจึงไม่สามารถมีเพียงความรู้ทางสถิติเพียงอย่างเดียวได้อีกต่อไป ไม่เพียงพอในการทำงาน

กล่าวโดยสรุป Big Data กับ Data Science เข้ามาไม่ได้ทำให้สถิติแบบเดิมหายหรือตายไป แต่ต้องปรับตัวเพื่อรองรับความท้าทายอย่างมาก เพื่อให้สามารถทำงานได้จริง สถิติในอนาคตต้องบูรณาการกับวิทยาการคอมพิวเตอร์และความรู้ในเนื้อหาสาขาวิชานั้นๆ เพื่อตอบโจทย์และนำไปใช้ได้จริง