Big Data กับ Small Sample Size Data คืออะไร อะไรยากหรือง่ายกว่ากัน?

อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
สาขาวิชาวิเคราะห์ธุรกิจและการวิจัย
สาขาวิชาวิทยาการประกันภัยและบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

โลกทุกวันนี้พูดกันมากมายถึง Big Data หรือข้อมูลขนาดใหญ่ว่าเป็นความท้าทายของสถิติศาสตร์ วิเคราะห์ธุรกิจและวิทยาศาสตร์คอมพิวเตอร์ ก็ตาม ทั้งนี้อะไรคือ Big data ว่ากันว่า สามคุณลักษณะของคำยอดฮิตของ Big Data มี 3 V

สำหรับ V ตัวแรกคือ Volume หมายความว่าข้อมูลมี Big Volume สมัยผมเรียนคอมพิวเตอร์ใหม่ๆ แผ่นดิสก์บางๆ จุได้นิดเดียว Hard Disk ก็เล็กนิดเดียว Kilobyte มาเป็น Megabyte มาเป็น Gigabyte ก็อลังการแล้ว สมัยนี้ว่ากันทีจะ Terabyte และต่อไปก็จะว่ากันเป็น Petabyte เทคโนโลยีการเก็บข้อมูลก็ดีขึ้นเรื่อยๆ มี Scanner มี Optical Character Reader ที่เก่งขนาดแกะลายมือคนได้และพิมพ์ออกมาอัตโนมัติ ในมือถือท่านเองก็มีแล้ว มีเรื่องของ Voice Recognition ที่จำเสียงและแยกเสียงออกมาได้ ในมือถือท่านเองก็มีแล้วเช่นกัน ข้อมูลจาก Social network และ internet นั้นมหาศาล จนทำให้ขนาดของข้อมูลใหญ่ การประมวลผลข้อมูลทำได้ยากขึ้นต้องมีขั้นตอนวิธี (Algorithm) ที่ดีและรวดเร็วขึ้น อย่างไรก็ตามความเร็วของ Central Processing Unit ก็เพิ่มขึ้นเรื่อยๆ อย่างรวดเร็ว และ Algorithm บางอย่างเช่น การแยกคำนวณ (Distributed Computing) หรือการคำนวณแบบก้อนเมฆ (Cloud Computing) หรือการคำนวณขนาน (Parallel computing) ซึ่งใช้คอมพิวเตอร์หลายๆ เครื่องทำงานประสานหลอมรวมเป็นหนึ่งเดียวก็ช่วยให้การแก้ปัญหานี้ทำได้ดีขึ้นและจัดการกับข้อมูล Big Volume ได้ไม่ยากนัก

สำหรับ V ตัวที่สอง คือ Velocity หรือความเร็ว ปัจจุบันข้อมูลหลั่งไหลเข้ามาในระบบคอมพิวเตอร์และฐานข้อมูลอย่างรวดเร็ว ยกตัวอย่างง่ายๆ อินเทอร์เน็ตที่เรา Surf กันทุกวันนี้ คนใช้เวลากับหน้าจอมากขึ้น มีข้อมูลมากมายมหาศาลจากการ Browse และ Click ข้อมูลการซื้อขายหุ้น/ตราสารอนุพันธ์/เงินตราต่างประเทศทั่วโลก ซึ่งเป็นข้อมูล Real time และมีธุรกรรมจำนวนมากมายมหาศาลและรวดเร็ว ข้อมูลธุรกรรมทางการเงินเป็นตัวอย่างที่ชัดมากว่าต้องรวดเร็ว เพราะต้องระวังเรื่องการฟอกเงิน (Money Laundering) และเป็นข้อมูลที่ไวมาก หากไม่สามารถตรวจจับธุรกรรมที่น่าสงสัยว่าจะเป็นการฟอกเงินได้ในทันที ก็จะทำให้เกิดการฟอกเงินซึ่งผิดกฎหมายมากมาย แต่เนื่องจากโลกในปัจจุบันมีคอมพิวเตอร์ที่มีความสามารถมากขึ้นทำงานได้เร็วขึ้น มีการพัฒนาโปรแกรมสำเร็จรูปให้สามารถทำงานได้โดยอัตโนมัติ (Automation) แม้กระทั่งการใช้ปัญญาประดิษฐ์ (Artificial Intelligence) ก็ทำให้ Velocity ไม่ค่อยเป็นปัญหาที่น่ากลัวแต่อย่างใดสำหรับ Big Data

สำหรับ V ตัวที่ 3 คือ Variety น่าจะเป็นส่วนที่ Big Data ยังไม่สามารถจัดการได้ดีเท่าที่ควร ข้อมูลในรูปแบบง่ายๆ ที่สุดคือข้อมูลแบบตารางเช่นใน Excel ที่เราใช้กัน ประเภทของข้อมูลที่ซับซ้อนขึ้นมากกว่าเดิมเช่น ข้อมูลที่เป็นข้อความ ลองจินตนาการถึงจำนวน Facebook Status Update หรือจำนวนข้อความที่ส่งผ่านกันทาง line หรือ Twitter จะนำมาวิเคราะห์ได้อย่างไร ที่จะก่อให้เกิดประโยชน์ ซึ่งข้อมูลเหล่านี้นอกจากจะเป็น Text แล้ว ยังถือว่าเป็นข้อความทาง Social Network ด้วย ข้อความประเภทเสียงจะต้องพัฒนาตั้งแต่ Voice recognition ให้ดีขึ้น แล้วนำมาเป็น Text ซึ่งสำหรับภาษาไทยนั้นยังทำได้ไม่ดีเท่าใหร่นัก ข้อมูลประเภทรูป ข้อมูลประเภทวิดีโอหรือภาพเคลื่อนไหว ข้อมูลประเภทวิดีโอสามมิติ ข้อมูลเหล่านี้จะนำมาวิเคราะห์อย่างไร แบบจำลองและวิธีการทางสถิติแบบดั้งเดิมจะเพียงพอหรือไม่ที่จะนำมาใช้วิเคราะห์ข้อมูลที่มีความหลากหลายเหล่านี้ ซึ่งนี่คือความท้าทายที่สุดของ Big Data และคงมีอะไรให้ค้นคว้า วิจัย นำไปประยุกต์อีกมากมายในอนาคต

เราสนใจกันเรื่อง big data มาก สำหรับ Volume และ Velocity นั้นดูเหมือนว่าเราจะจัดการได้ดีพอสมควร ส่วน Variety นั้นยังไม่ อย่างไรก็ตามการมีข้อมูลขนาดใหญ่ในมุมมองของนักสถิติดูจะไม่ใช่เรื่องใหญ่มาก ข้อมูลขนาดใหญ่ถ้าเก็บมาดีจะลดความคลาดเคลื่อนจากการสุ่มตัวอย่างลงไปได้ แต่สิ่งที่จะลำบากและท้าทายมากสำหรับนักสถิติคือข้อมูลที่มีขนาดตัวอย่างเล็กมากๆ (Small sample size data) ซึ่งมีความคลาดเคลื่อนสูง ยิ่งมีจำนวนตัวแปรมากมายมหาศาลและมีขนาดตัวอย่างน้อยๆ เช่น การศึกษาโรคประหลาดที่หายากมากในโลกนี้ อาจจะมีคนที่ป่วยเป็นโรคนี้บนโลกแค่ 3 คน แต่แพทย์อาจจะเก็บข้อมูลการตรวจวินิจฉัยจากการซักประวัติ จากผลแล็บ ยาหรือการผ่าตัดที่ให้ และมีการเก็บข้อมูลต่อเนื่องเพราะรักษาต่อกันเป็นสิบปี อาจจะมีตัวแปรหลายพันตัวแปร แต่มีจำนวนขนาดตัวอย่างแค่ 3 คนบนโลกนี้ หรือ rare event เช่นการเกิดมหาอุทกภัยเอาอยู่ในประเทศไทยเมื่อไม่กี่ปีก่อน ข้อมูลเหล่านี้มีขนาดตัวอย่างเล็กมาก มีความสำคัญ และเป็นความท้าทายอย่างยิ่งในการวิเคราะห์ข้อมูลเพื่อตอบโจทย์ปัญหา ทำได้ยากมากกว่า Big Data ที่ Big Volume และ Big Velocity มากมาย ปัญหาของ Small sample size data ไม่ค่อยมีคนสนใจเท่าไหร่ แต่หากทำได้ก็มีประโยชน์ไม่น้อยกว่า Big Data เช่นกัน