“ความล่มสลาย” และ “ทางรอด” ของสถิติศาสตร์

อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
ผู้อำนวยการศูนย์คลังปัญญาและสารสนเทศ สถาบันบัณฑิตพัฒนบริหารศาสตร์
สาขาวิชา Business Analytics and Intelligence
สาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

สถิติศาสตร์เป็นสาขาวิชาที่แปลกประหลาด คือเป็นสาขาวิชาที่แยกออกมาจากรัฐศาสตร์ Statistics นั้นมีรากศัพท์คำเดียวกับคำว่า State อันแปลว่ารัฐ และในตอนเริ่มต้นก็เป็นเช่นนั้น เป็นเรื่องของการวางแผน ทำสำมะโนประชากร วางแผนเศรษฐกิจ เน้นไปที่เรื่องของรัฐ และขยายไปทุกวงการ หลายคนเข้าใจผิดคิดว่าสถิติศาสตร์เป็นส่วนหนึ่งของคณิตศาสตร์ ในความเป็นจริงหาได้เป็นเช่นนั้นไม่ แต่นักสถิติอาศัยคณิตศาสตร์เป็นเครื่องมือ โดยตัวของสถิติศาสตร์เองมีปรัชญาและวิธีคิดหรือโลกทัศน์ที่แตกต่างจากคณิตศาสตร์ค่อนข้างมากเหลือเกินแต่ยังต้องอาศัยคณิตศาสตร์เป็นเครื่องมืออยู่ดี สถิติศาสตร์จัดว่าเป็นวิชาที่มีอายุไม่เก่าแก่มากนักไม่น่าจะเกิน 100 กว่าปี จัดว่าเป็นเด็กอ่อนเยาว์เมื่อเทียบกันกับคณิตศาสตร์ ทฤษฎีความน่าจะเป็นซึ่งเป็นบรรพบุรุษที่สถิติศาสตร์ยืมมาใช้นั้นมาจากคณิตศาสตร์อย่างแน่นอนและมีมาก่อนสถิติศาสตร์เสียอีก

สถิติศาสตร์สมัยใหม่น่าจะเริ่มต้นจาก Francis Galton และ Karl Pearson ซึ่งสองคนนี้สนใจการวัดขนาดมนุษย์ (Anthropometry) และสุพันธุศาสตร์ (Eugenics) เพื่อคัดเลือกพันธุกรรมที่ดี และต้องอาศัยสถิติในการวิเคราะห์ข้อมูลพันธุกรรม เช่น ความสัมพันธ์ระหว่างความสูงของพ่อกับลูก ทำให้เกิดการวิเคราะห์ถดถอยและสหสัมพันธ์ ส่วน Sir Ronald A. Fisher นั้นเก่งกาจเรื่องการวางแผนและออกแบบการทดลองจนทำให้เกิดการเปลี่ยนกระบวนทัศน์ (Paradigm Shift) ในทางวิทยาศาสตร์ที่ต้องมีการทดลอง ทำซ้ำ พิสูจน์ได้เชิงประจักษ์

ความสำเร็จอันยิ่งใหญ่ของสถิติศาสตร์น่าจะมีอยู่สองประการ

ประการแรก คือทฤษฎีการสำรวจด้วยตัวอย่าง (Theory of sample survey) ซึ่งทำให้การศึกษาประชากรเป้าหมายที่เราสนใจทำได้ง่ายขึ้น ไม่ต้องเก็บข้อมูลทั้งหมด ทำให้ประหยัดเงินและเวลา แต่ได้ข้อมูลและสารสนเทศที่ทำให้ช่วยในการตัดสินใจได้ภายใต้ข้อจำกัดทางการเงินและเวลา การสำรวจด้วยตัวอย่างนี้ทำให้เราไม่ต้องเก็บข้อมูลทั้งหมดและทุ่นเวลาไปได้มาก มีการคิดค้นเทคนิคการสุ่มตัวอย่างและการกำหนดขนาดตัวอย่างมากมายสารพัดวิธี

ประการที่สอง คือ ทฤษฎีการอนุมานเชิงสถิติ (Theory of statistical inference) ซึ่งใช้ในการตัดสินใจและอนุมานค่าสถิติจากตัวอย่าง (Sample statistics) กลับไปหาค่าพารามิเตอร์ของประชากร (Population parameter) ซึ่งเป็นผลงานหลักของ Fisher, Neyman และ Pearson

ทั้งสองทฤษฎีที่เป็นหลักชัย (Milestone) ทางสถิติศาสตร์นี้ จะมีประโยชน์ก็ต่อเมื่อข้อมูลที่เราได้มามีขนาดไม่ใหญ่มากนัก เป็นเพียงตัวอย่างบางส่วนหาใช่ประชากรไม่

แต่โลกของข้อมูลขนาดใหญ่ นับวันมีแต่ข้อมูลขนาดใหญ่จนถึงขั้นเป็นประชากรไปเสียแล้ว ความจำเป็นของการสำรวจด้วยตัวอย่างและการอนุมานทางสถิติค่อยๆ ลดความสำคัญลง จนถึงวันหนึ่งอาจจะมีความจำเป็นน้อยมาก

โลกสมัยใหม่ทำให้เกิดระบบลงทะเบียน (Registration-based) ซึ่งแม้แต่การสำมะโนประชากรในประเทศที่พัฒนาแล้วบางประเทศก็ไม่มีความจำเป็นต้องใช้การสำรวจด้วยตัวอย่างอีกต่อไป รัฐบาลอังกฤษกำลังพัฒนาให้ข้อมูลขนาดใหญ่ (Big Data) มาแทนที่การทำสำมะโนภายในปี 2030 หรืออีก 14 ปีข้างหน้าอย่างสมบูรณ์ นี่คือตัวอย่างการหมดบทบาทของการสำรวจด้วยตัวอย่างและสำมะโนประชากร ที่กำลังลดความสำคัญและความจำเป็นลงไปอย่างรวดเร็ว

แม้กระทั่งการสำรวจพฤติกรรมการใช้อินเทอร์เน็ตของไทยก็ไปเก็บ log file จาก กสทช. ได้โดยตรง ประหยัดค่าใช้จ่าย ไม่มีการโกหกว่าไม่ได้เข้าไปเล่นการพนันหรือซื้อของเถื่อนหรือดูหนังโป๊ เหมือนเวลาไปสำรวจด้วยตัวอย่างและแบบสอบถามซึ่งมีทั้งความคลาดเคลื่อนจากการสุ่มตัวอย่างและความคลาดเคลื่อนจากการวัดอีกมากมาย ใช้เวลามากกว่า ใช้เงินมากกว่าการสำรวจด้วยตัวอย่างและผลมีความถูกต้องน้อยกว่ามากจนเทียบกันไม่ได้เลย ในหลายครั้งผลการสำรวจเช่น พฤติกรรมการบริโภคบุหรี่และสุราที่ สสส. ดำเนินการรณรงค์ลดละเลิก สิ่งเหล่านี้ก็มิได้มีผลที่สอดคล้องกับของจริงคือปริมาณเหล้าและบุหรี่ที่ผลิต ตลอดจนงบประมาณของ สสส. เองที่ไม่เคยลดลงเลยแม้แต่น้อยทั้งๆ ที่คิดเป็นร้อยละที่ชักมาจากภาษีบาปหรือพูดง่ายๆ ว่าผลการสำรวจด้วยตัวอย่างบอกว่าการบริโภคลดลง แต่ยอดผลิตและยอดขายไม่เคยลดลง อย่างไหนจะน่าเชื่อถือกว่ากัน?

นอกจากนี้ Internet of Things จะทำให้อุปกรณ์ต่างๆ บ้าน รถยนต์ ถนน ทุกสิ่งอย่างรอบตัวสามารถผลิตและส่งต่อข้อมูลได้เป็นจำนวนมากผ่าน sensor ให้ใหลเข้ามาอย่างต่อเนื่อง มี biosensor ติดตัวเราทุกคนและให้ข้อมูลสุขภาพออกมามากมายเช่นกัน ข้อมูลเหล่านี่มีปริมาณมหาศาล (Big Volume) หลั่งไหลเข้ามาอย่างรวดเร็ว (Big velocity) และมีรูปแบบที่หลากหลาย (Big variety) ไม่ว่าจะเป็นรูปภาพ วีดิโอ เสียง ตัวเลข คลื่น ทั้ง analog และ digital ส่วน social media และ social network ไม่ว่าจะ Line, Facebook, Instagram, Twitter ก็เติบโตอย่างรวดเร็ว เราใช้เวลากับหน้าจอคอมพิวเตอร์มากกว่าจอโทรทัศน์และไม่ได้เลย

นักสถิติที่เรียนสถิติศาสตร์แบบดั้งเดิมมาจะทำงานได้จำกัด ลดน้อยลงไปเรื่อยๆ เพราะความจำเป็นแบบเก่าๆ เช่น การสำรวจด้วยตัวอย่าง การอนุมานทางสถิติจะลดบทบาทลงไปเรื่อยๆ ในอีกด้านหนึ่ง นักคอมพิวเตอร์ก็พัฒนาตนเองด้านการเรียนรู้ของเครื่องจักร (Machine learning) ปัญญาประดิษฐ์ (Artificial intelligence) และการทำเหมืองข้อมูล (Data mining) ที่สามารถวิเคราะห์ข้อมูลไม่มีโครงสร้าง (Unstructured data) เช่น ภาพ เสียง คลื่น วีดิโอ ข้อความ ได้ดีขึ้นเรื่อยๆ ถ้าถามว่านักสถิติวิเคราะห์ข้อมูลได้ แต่ขณะนี้นักสถิติแทบทั้งหมดและสถิติศาสตร์เองไม่มีความสามารถเพียงพอที่จะวิเคราะห์ข้อมูลสมัยใหม่ที่ไร้โครงสร้างได้เลย ทำให้เห็นได้ชัดเจนว่าอนาคตของสถิติศาสตร์นั้นหากไม่ปรับตัวจะค่อยๆ มืดมนลงอย่างมากมาย บทบาทจะลดลงไปจนไร้ความสำคัญและนักคอมพิวเตอร์อาจจะเข้ามาทำหน้าที่แทนได้หากมีความรู้ด้านการเรียนรู้ของเครื่องจักร ปัญญาประดิษฐ์ และการทำเหมืองข้อมูล ซึ่งพัฒนาเทคนิคและวิธีไปอย่างรวดเร็วกว่านักสถิติและสามารถวิเคราะห์ข้อมูลที่หลากหลายได้ดีกว่านักสถิติมาก

ในทางตรงกันข้ามนักคอมพิวเตอร์ที่เข้ามาทำงานด้านวิทยาการข้อมูล ก็ทำโดยปราศจากความรู้เบื้องต้นทางทฤษฎีสถิติศาสตร์เป็นอย่างมาก ขาดความเข้าใจพื้นฐานทางสถิติศาสตร์ ไม่เข้าใจหลักการพื้นฐานทางสถิติ ที่ต้องเข้าใจที่มาของข้อมูล คุณภาพของข้อมูล การแก้ไขปัญหาคุณภาพข้อมูลด้วยวิธีการเดิมๆ ในทางสถิติศาสตร์ที่ได้ศึกษามาแล้วอย่างดีทะลุปรุโปร่ง เพราะถึงอย่างไรข้อมูลก็ไม่มีทางจะมีคุณภาพสมบูรณ์แบบได้ ยกตัวอย่างเช่น นักคอมพิวเตอร์เข้ามาทำงานด้านวิทยาการข้อมูล แต่ขาดความรู้ว่าการแทนที่ค่าสูญหายด้วยค่าเฉลี่ยเลขคณิต (Mean imputation) เป็นวิธีที่เลวร้ายที่สุด ทำให้ค่าเฉลี่ยเท่าเดิม แต่ส่วนเบี่ยงเบนมาตรฐานและค่าสหสัมพันธ์ต่ำกว่าความเป็นจริงมหาศาลเป็นต้น ทั้งหมดนี้เกิดจากความไม่รู้

ทางรอดคือการทำงานร่วมกันของนักสถิติศาสตร์และนักวิทยาการคอมพิวเตอร์และนำข้อดี จุดเด่นของแต่ละฝ่ายมาทำงานร่วมกัน ให้เกิดการนำข้อมูลไปวิเคราะห์ก่อให้เกิดความรู้ที่นำไปใช้งานได้จริง ไม่มีใครที่จะเก่งและจะรู้คนเดียวไปได้ทุกอย่าง การทำงานร่วมกันเป็นทีมข้ามสาขาวิชาการหรือสหวิทยาการจึงเป็นทางออกและผลประโยชน์ส่วนรวมเพื่อความก้าวหน้าทางวิทยาการคอมพิวเตอร์และสถิติศาสตร์ ซึ่งได้เริ่มมีขึ้นบ้างแล้วเช่น Statistical learning และ Computer-intensive statistics ซึ่งนับวันจะมีบทบาทมากขึ้นเรื่อยๆ และความแตกต่างระหว่างวิทยาการคอมพิวเตอร์กับสถิติศาสตร์จะบางลงจนหาเส้นแบ่งได้ยากขึ้นเรื่อยๆ

หากอยากฟังต่อขอเชิญร่วมฟังได้ในหัวข้อ “Professionals and “Wanna be” in Business Analytics and Data Science” ในงาน the second NIDA Business Analytics and Data Science Contest/Conference ได้ในวันที่ 26-27-28 มิถุนายนนี้ ณ สถาบันบัณฑิตพัฒนบริหารศาสตร์ จัดโดยศูนย์คลังปัญญาและสารสนเทศ สถาบันบัณฑิตพัฒนบริหารศาสตร์ คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์ และ Data Science Thailand ติดตามรายละเอียดได้ที่ http://as.nida.ac.th/gsas/news-events-highlights/2nd-nida-business-analytics-data-sciences/