เทคโนโลยีการจัดการข้อมูลขนาดใหญ่ ใหญ่ตรงไหน? ยากตรงไหน? ทำไมต้องรู้?

อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
สาขาวิชา Business Analytics and Intelligence
สาขาวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์

คำว่าข้อมูลขนาดใหญ่ (Big Data) นั้นเป็นคำที่คนพูดกันมากเหลือเกินจนเป็นคำฮิตติดปาก ยิ่งมี internet of things เมื่ออุปกรณ์ เครื่องจักร รถยนต์ ยันกำแพงบ้าน ตู้เย็น ต่างผลิตข้อมูลกันออกมาอย่างต่อเนื่อง เพราะทุกอย่างเชื่อมต่อกับอินเทอร์เน็ตแบบเรียลไทม์ รถยนต์สมัยนี้บางคันติดกล้องไว้รอบคันและส่งวิดีโอดังกล่าว Streaming กันสดๆ ไปเก็บไว้ใน Hard Disk Drive บน Server ในหลายประเทศ นี่คือตัวอย่างหนึ่งของ Internet of Things ที่ก่อให้เกิดข้อมูลขนาดใหญ่ ในความเร็วที่สูงมาก ในรูปแบบวิดีโอ ไม่ใช่ข้อมูลแบบมีโครงสร้างแบบเดิมๆ อีกต่อไป

เรียกว่ามี Big Volume, Big Variety และมี Big Velocity คือขนาด ความหลากหลาย และความเร็ว ของข้อมูลสูงมาก ยิ่ง Internet of Things ทำให้เครื่องจักรหรือสถานที่พูดคุยกันเองสื่อสารกันมากขึ้น ยิ่งทำให้เกิดข้อมูลมหาศาล เราพูดกันว่า Big Data นั้นมี 3V ดังกล่าว แต่สิ่งที่สำคัญสุดที่ Big Data ต้องมีคือ Value หรือคุณค่าของข้อมูล จะทำอย่างไรให้ข้อมูลมีคุณค่านำไปสู่การได้ความรู้ใหม่ก่อให้เกิดความได้เปรียบในการแข่งขัน ตอบสนองความต้องการของผู้บริโภคได้ดีมากขึ้น นำไปสร้างธุรกิจหรือผลิตภัณฑ์หรือบริการใหม่ๆ ได้ตรงจุด ทำให้ธุรกิจมีกำไร หรือสร้างองค์ความรู้ใหม่ที่เป็นประโยชน์อย่างยิ่งกับมวลมนุษยชาติเช่น ค้นพบยาใหม่ที่เอาไว้ใช้รักษาโรคที่เราไม่เคยรักษาได้กันมาก่อน เป็นต้น

เรามาลองพิจารณาความท้าทายและวิธีการรับมือสำหรับแต่ละ V ของ Big Data ด้วย Big Data Technology กันดีกว่า

ปัญหาใหญ่สุดที่เป็นพื้นฐานของ Big Data คือการที่ Big Data เป็น Unstructured Data ไปมากกว่า 80% โลกในอนาคตข้อมูลจะไม่มีโครงสร้างมากขึ้นเรื่อยๆ

ในอดีตเราจะนิยมเอาข้อมูลมาบรรจุใน Array เช่น ข้อมูลมีสองมิติ มิติแรกคือจำนวน record ซึ่งมันจะเป็นแถว (ถ้าเรียกแบบทาง computer) หรือเรียกว่า observation (แบบที่นักสถิตินิยมเรียก) ในขณะที่คอลัมน์หรือ fields (ถ้าเรียกแบบทาง database) หรือเรียกว่าตัวแปร (Variables) แบบนักสถิติ เราอาจจะสร้างตาราง (Table) เหล่านี้หลายๆ ตาราง และหาคีย์หลัก (Primary key) ซึ่งจะต้อง unique ไม่ซ้ำกัน และมีคีย์เชื่อมโยง (Foreign key) ที่ใช้ในการเชื่อมโยงข้อมูลจากตารางหนึ่งกับอีกตารางหนึ่ง วิธีการดังกล่าวเรียกว่าระบบการจัดการข้อมูลสัมพันธ์ (Relational Database Management System: RDBMS) เช่นใช้ SQL เพื่อสร้างคลังข้อมูล (Data warehouse) และก็เคยใช้กันได้ดีมายาวนานพอสมควร

วิธีการใช้งาน RDBMS ต้องมีการออกแบบตารางดังกล่าวไว้ล่วงหน้า ธรรมชาติของโครงสร้างข้อมูลต้องค่อนข้างจะคงที่ ไม่แปรผันหรือเปลี่ยนแปลงไปมากมายอย่างรวดเร็วนัก ข้อมูลไม่ได้มีการเปลี่ยนแปลงโครงสร้างอย่างรวดเร็ว อาจจะมีการปรับ Database ไปตามข้อมูลบ้างเป็นระยะๆ แต่ต้องไม่บ่อยนัก

แต่ในโลกปัจจุบัน ข้อมูลไม่ได้มีโครงสร้างคงที่เสียแล้ว ยกตัวอย่างเช่นใน Social network การที่เราแค่จะบันทึกว่าคนที่กด ไลค์ คอมเมนต์ หรือ แชร์ ข้อความของเรา หากจะออกแบบตารางก็จะขยายไปไม่สิ้นสุดและโยงกันจนวุ่นวายมาก แน่นอนว่าจะเกิดปัญหาเมตริกซ์ที่กระจุยกระจาย (Sparse Matrix) มีแต่ช่องว่างๆ เต็มไปหมด แต่ไม่มีข้อมูล และเป็นปัญหาอย่างยิ่งในการประมวลผล โครงสร้างข้อมูลบนโลกออนไลน์นี้เปลี่ยนแปลงเป็นรายวินาทีและเราคงไม่สามารถใช้ RDBMS มาจัดการได้อย่างมีประสิทธิภาพ

การที่ข้อมูลไม่มีโครงสร้าง เช่น ข้อมูลขนาดใหญ่บนโลกออนไลน์ การสืบค้นก็ทำได้ลำบากมาก เราจึงนิยมติด tag กันในสเตตัส เช่น #คสช #ปราบโกง #ทีมลุงตู่ #เกรงใจอาจารย์น้อง เช่นนี้เป็นต้น เพื่อให้สืบค้นจาก tag ได้ง่ายขึ้น

เนื่องจากไม่มีโครงสร้างที่ชัดเจนเช่นในสมัยก่อน ข้อมูลขนาดใหญ่จึงไม่ใช่แค่การขยายจำนวน Records หรือแถวที่ใช้บันทึกข้อมูล และ Fields หรือคอลัมน์ที่ใช้บันทึกข้อมูลเท่านั้น เพราะในปัจจุบันข้อมูลที่มีมหาศาลรวดเร็วมากและมีหลากหลายรูปแบบมากทำให้ไม่สามารถออกแบบ Records และ Fields ให้รองรับทั้งหมดได้เช่นในอดีต ทำให้การจัดเก็บและประมวลผลข้อมูลแบบเดิมทำได้ยากขึ้นหรือแทบจะเป็นไปไม่ได้

Facebook เองนั้นไม่ได้ใช้ RDBMS แต่ใช้วิธีการอื่นในการจัดเก็บข้อมูลขนาดใหญ่ (ไม่ต้องไปพูดถึง Facebook หรอกครับ แค่บริษัทมือถือ Mobile Operator ในเมืองไทยก็ใช้ RDBMS ไม่ไหวแล้วครับ) อย่าลืมว่าข้อมูลในโลกออนไลน์มีมากมายมหาศาล ไม่มีโครงสร้างแน่นอน และมีความหลากหลายในรูปแบบ เช่น เสียง ภาพ ข้อความ วิดีโอ แม้กระทั่งสามมิติ 3D ก็มี ทำให้ RDBMS ไม่ตอบสนองกับข้อมูลขนาดใหญ่ หากใครคิดว่าจะใช้ RDBMS มาจัดการกับข้อมูลขนาดใหญ่บนโลกออนไลน์นั้นก็ออกจะเป็นเรื่องที่ทำได้ยากยิ่ง

ในขณะที่ Big Data Technology ต้องอาศัยการจัดเค้าร่าง (Schema) เพื่อโยงความสัมพันธ์ระหว่างข้อมูลไม่มีโครงสร้างเหล่านั้นซึ่ง RDBMS แบบเดิมทำได้ยากมาก ข้อมูลที่มีความหลากหลายไม่ว่าจะเป็นเสียง รูปภาพ วิดีโอ ข้อความ หรือกระทั่ง ภาพเคลื่อนไหวสามมิติ ทำให้การใช้ระบบ RDBMS แบบเดิมซึ่งต้องกำหนด field และ record ไว้ล่วงหน้าหรือออกแบบฐานข้อมูลไม่ตอบสนองการจัดเก็บและการสืบค้น ต้องอาศัย Schema ในการสกัด โหลด และ แปลง (Extract, Load, and Transform: ELT) ข้อมูล ให้สามารถอยู่ในรูปแบบที่สามารถนำไปวิเคราะห์ได้ ซึ่งปัญหาใหญ่คือการที่ผู้ใช้งานหรือคนวิเคราะห์ต้องวาง Schema ให้เหมาะสมและตรงตามโจทย์ที่ต้องการได้รับคำตอบ สิ่งเหล่านี้คอมพิวเตอร์เข้ามาแทนคนไม่ได้ง่ายนัก คนต้องใช้ความคิดสร้างสรรค์ในการจัด Schema ให้ข้อมูลและ Query ออกมาวิเคราะห์ การติด tag ในสเตตัสของเราคือการระบุ key word ให้การสืบค้นหรือ Query ข้อมูลทำได้ง่ายกว่าเดิมมาก เป็นการสร้าง Schema เพื่อให้การทำ ELT เป็นไปได้ง่ายขึ้นสะดวกขึ้น

นี่คือโจทย์ที่ท้าท้ายมากสำหรับ Data Engineer ในการจัดการกับข้อมูลขนาดใหญ่ คือการที่ข้อมูลไม่มีโครงสร้างที่แน่นอน อย่างไรก็ตามได้มีคนพัฒนาระบบฐานข้อมูล (Database system) สำหรับรองรับข้อมูลขนาดใหญ่ซึ่งมีทั้งข้อมูลที่มีโครงสร้าง (ทำเป็นตารางแบบเดิมได้) และข้อมูลที่ไม่มีโครงสร้างสมัยใหม่ เทคโนโลยีเหล่านั้นใช้ขั้นตอนวิธี (Algorithm) ที่คล้ายกับ Search Engine ของ Google ซึ่งเผยแพร่ White paper ออกมาสองฉบับ ตัวอย่าง เทคโนโลยีเหล่านี้ได้แก่ Hadoop, Cloudera, Spark, Hortonworks เป็นต้น อย่างไรก็ตามไม่ได้หมายความว่าหน่วยงานหรือบริษัททั้งหมดจำเป็นต้องไปซื้อเทคโนโลยีเหล่านี้มาใช้งาน หากไม่ได้มีข้อมูลขนาดใหญ่ โดยเฉพาะการมีข้อมูลหลากหลายรูปแบบ (Big Variety) และที่ไม่มีโครงสร้างต่างหาก Big Data Technology เหล่านี้จึงเป็นเรื่องจำเป็นอย่างยิ่ง

ประเด็นท้าท้ายแรกที่สำคัญมากและ น่าจะยากไม่ยิ่งหย่อนไปกว่ากันคือความหลากหลายรูปแบบของข้อมูล (Big Variety)

ในอดีตข้อมูลเป็นตัวเลข (Numeric) ในตารางกันหมด นักสถิติพัฒนาวิธีการในการวิเคราะห์ทางสถิติและแบบจำลองต่างๆ สำหรับข้อมูลสองมิติที่เป็นตัวเลขมาอย่างดียิ่ง แต่ข้อมูลในปัจจุบันนั้นไม่ใช่ เรามีทั้ง text เช่น ข้อความใน Facebook หรือ Twitter ที่นำมาใช้วิเคราะห์อารมณ์ (Sentiment Analysis) ที่ลูกค้ามีต่อสินค้าหรือนักการเมืองก็ได้ เรามีรูปที่เราแชร์หรือวิดีโอมากมาย เดี๋ยวนี้เราสร้างสถานีโทรทัศน์ส่วนตัวทาง Facebook ได้ ด้วย Facebook Live แล้วเราจะวิเคราะห์ข้อมูลเหล่านี้ได้อย่างไร

เรื่องเหล่านี้ไม่ใช้ว่าทำไม่ได้ ทำได้แต่ไม่ได้ง่าย ไม่เช่นนั้น เวลาที่เราไปเที่ยวกับเพื่อนแล้วเมื่อเราโพสต์รูปเราขึ้นบน Facebook ทำไม Facebook สามารถ tag ชื่อเพื่อนเราได้เลยโดยอัตโนมัติ ในอีกด้านเราอาจจะรู้สึกอึดอัดเพราะ Facebook มันฉลาดเกินไป และมันรู้ได้อย่างไรว่านี่คือเราหรือนี่คือเพื่อนของเราคนไหน

คำตอบเหล่านี้อยู่ที่ การเรียนรู้ของเครื่องจักร (Machine Learning) ซึ่งค่อยๆ ขยายออกมาเป็น Deep learning

ทั้งนี้การเรียนรู้ของเครื่องจักรเป็นหัวใจของข้อมูลขนาดใหญ่ เพราะข้อมูลมีความหลากหลายในรูปแบบซึ่งแบบจำลองทางสถิติหรือสถิติวิเคราะห์ส่วนใหญ่ในอดีตนั้นพัฒนามาเพื่อการวิเคราะห์ข้อมูลประเภทตัวเลขมากกว่าข้อมูลประเภทอื่น ในขณะที่การเรียนรู้ของเครื่องจักรพัฒนาและรองรับการวิเคราะห์ข้อมูลที่มีรูปแบบหลากหลายและไร้โครงสร้างได้ดีกว่าสถิติวิเคราะห์แบบเดิม ซึ่งแท้จริงแล้วจำเป็นต้องใช้ทั้งสองวิธีเพื่อเสริมจุดแข็งของกันและกันและเป็นหัวใจของวิทยาศาสตร์ข้อมูล (Data Sciences) Machine Learning เองนั้นมีความยืดหยุ่นมากกว่าแบบจำลองทางสถิติที่มักจะเป็นแบบจำลองเชิงเส้นตรงในขณะที่ Machine Learning เป็นเส้นโค้งหรือเส้นรูปแบบใดๆ ก็ได้ และมีความซับซ้อนมากกว่ามาก

อย่างภาพที่เราเห็นกันนั้น แท้จริงเป็นการเปิดแสงของแม่สีของแสง จำนวน Pixel บน Grid ของรูป ก็เหมือนกับแถวและคอลัมน์ แต่ระบบสีของรูปนั้น เช่นรูปขนาด 1 ตารางมิลลิเมตร อาจจะประกอบด้วยจุด 10 x 10 จุด หรือ 100 จุด ในแต่ละจุดจะมีหลอดไฟของแม่สีของแสงคือแดง น้ำเงิน และเขียว รูปสีที่เราเห็นนั้นมีสามแม่สี ดังนั้นรูปขนาดหนึ่งตารางมิลลิเมตรจะประกอบด้วยข้อมูล ตารางขนาด 10 x 10 จุด ซ้อนกันจำนวนสามตาราง โดยที่แต่ละตารางแทนแม่สีของแสงคือ แดง น้ำเงิน และเขียว ทั้งนี้แต่ละจุดมีการเปิดหลอดไฟของแม่สีของแสงที่มีความวิโรจน์แตกต่างกันไป เช่น จาก 0 (ไม่เปิดไฟแม่สีเลย) จนถึงเปิดไฟแม่สีให้จ้าสุด หรือเปิดไปที่ความวิโรจน์ 256 นั่นเอง ถ้าเป็นวิดีโอ ก็คือรูปแต่ละรูปมาซ้อนและเคลื่อนไหวผ่านสายตาเราไปอย่างต่อเนื่องรวดเร็ว นับว่าเป็นข้อมูลมหาศาล และแน่นอนว่าข้อมูลเหล่านี้มีความซับซ้อน มีรูปแบบที่หลากหลาย แน่นอนว่า Facebook จะ Tag เฉพาะรูปคนที่เป็นเพื่อนเราหรือคนดังที่ Facebook ได้เคยเอารูปโปรไฟล์ของคนนั้นๆ ไปวิเคราะห์มาก่อน เมื่อมีรูปใหม่เข้ามา (ที่เราพึ่งจะโพสต์) Facebook ก็จะรีบเรียนรู้และจัดประเภทออกมาว่าเป็นใคร ตรงกับรูปโปรไฟล์ของคนไหนที่ Facebook เคยเรียนรู้มาก่อน

Machine learning และ Deep learning เป็นเครื่องมือที่ใช้ในการวิเคราะห์ข้อมูลที่ซับซ้อนเหล่านี้ เช่น รูป หรือ วิดีโอ โดยเมื่อข้อมูลเรามีเยอะขนาดนี้ การประมวลผมแบบ Deep Learning ที่ต้องปรับค่าเพื่อคำนวนหา parameters มากมายมหาศาลนั้น ไม่สามารถทำได้ด้วย CPU เดี่ยวๆ ที่ต้องรอแต่ละคำสั่งทำงานให้เสร็จก่อน แต่เราสามารถใช้ GPU (graphics processing unit ที่ชื่อนี้ เพราะแต่ก่อนใช้ในงานแสดงผลเป็นหลัก เนื่องจากงานแสดงผล สามารถคำนวน parallel ได้เยอะ) เพื่อการคำนวณแบบขนาน (parallel computing) ได้เยอะขึ้น ก็จะช่วยลดเวลาการคำนวนในการ learn ได้ จาก 8 เดือน เป็น 1 วัน เป็นต้น

ทั้งหมดนี้การอ่านหน้าคนจากรูปใน Facebook แล้วระบุเพื่อให้เรา tag ได้ว่าเป็นใครถือว่าเป็นการจัดประเภท (Classification) อย่างหนึ่ง คือต้องการจัดประเภทว่าหน้าเหลี่ยมๆ อย่างนี้ชื่อทักษิณ หน้าดำๆ อย่างนี้ชื่อ สุเทพ หน้าสั้นๆ อย่างนี้ชื่อบรรหาร หน้ากลมๆ แบบนี้ชื่ออานนท์ เป็นต้น เมื่อแยกแยะจัดประเภทจากรูปได้ก็เลยพยายามจะแนะนำเราคนที่ใช้ Facebook ประเด็นความท้าทายอันเกิดจาก Big Variety ของข้อมูลขนาดใหญ่นั้นยังมีอีกมากมายและเป็นประเด็นที่จริงๆ แล้วยากที่สุดและยังมีสิ่งที่ต้องวิจัยและพัฒนาอีกมากที่สุด

ประเด็นท้าทายที่สองคือ ข้อมูลขนาดใหญ่นั้นมีปริมาณมาก (Big Volume) มากจนไม่สามารถเก็บข้อมูลไว้ในเครื่องเดียวกันได้

ยกตัวอย่างง่ายๆ ร้านสะดวกซื้อที่มีสาขาทั่วประเทศ ต้องการสรุปยอดขายทุกวัน ว่าขายอะไรได้บ้างอย่างละเท่าไหร่ เพื่อไปวางแผนสินค้าคงคลังและการจัดซื้อ เพื่อเอาไปวางแผนการตลาด และเพื่อไปกระทบยอดเงินสำหรับลงบัญชี และต้องทำทุกวัน หากจะต้องนำข้อมูลมารวมกันที่สำนักงานใหญ่แล้วประมวลผลที่เดียวกันก็จะช้าเกินไปไม่สามารถทำเสร็จได้ทัน สมมุติว่าตัดยอดบัญชีกันตอนเที่ยงคืน แล้วต้องประมวลผลให้เสร็จก่อนเช้าที่พนักงานบัญชีจะเอาข้อมูลไปใช้งานต่อ การประมวลผลจึงต้องกระจายไปคำนวณในแต่ละสาขาแล้วนำผลมารวมกันสรุปผลที่สำนักงานใหญ่อีกครั้งหนึ่ง เพื่อไม่ต้องเสียเวลาในการสื่อสารข้อมูลข้ามเครื่อง และทำให้การคำนวณทำได้เร็วขึ้น หลายหัว (สมอง) ย่อมดีกว่าหัวเดียว

วิธีการกระจายกันคำนวณหลายๆ เครื่องนี้ มีข้อจำกัดมากหลายประการ ประการแรก ข้อมูลต้องแบ่งออกเป็นส่วนเล็กๆ ได้ และแต่ละท่อนต้องเป็นอิสระต่อกัน หากข้อมูลไม่ได้เป็นอิสระต่อกัน ขึ้นอยู่แก่กันจะมาแบ่งคำนวณแบบนี้ไม่ได้ ประการที่สอง ต้องมีกลไกในการสรุปรวมผลข้อมูลเพื่อให้ได้คำตอบสุดท้าย และกลไกหรือขั้นตอนนี้ต้องสมเหตุสมผล ประการที่สาม ต้องมีตัวกลางจัดตาราง (Scheduler) เพื่อไม่ให้ทำงานซ้ำซ้อนกัน

การประมวลผลแบบที่กระจายกันคำนวณนี้เรียกว่า distributed computing โดยข้อมูลอยู่ที่เครื่องนั้นๆ คำนวณที่เครื่องนั้นๆ แล้วจึงส่งผลที่ประมวลแล้วมาที่ Server ที่อยู่ตรงกลาง

ในโลกปัจจุบันที่คอมพิวเตอร์เปิดพร้อมๆ กันหลายๆ เครื่องก็เลยมีคนคิดอีกวิธี โดยอาศัยการสื่อสารข้อมูล ส่งข้อมูลออกไปยังคอมพิวเตอร์ทั่วโลกที่อยู่บนเครือข่าย ให้ช่วยกันประมวลผลโดยใช้การจัดสรรเวลาร่วมกัน (Time Sharing) วิธีนี้อาจจะทำให้เรากังวลในเรื่อง information security ว่าจะมีความปลอดภัยมากน้อยแค่ไหน อาจจะต้องมีการเข้ารหัสก่อนการส่งออกไป วิธีการประมวลผลแบบนี้เรียกว่า cloud computing

ประเด็นท้าทายประการที่สามคือ ความเร็วของข้อมูลที่สูงมาก Big Velocity อาจจะถึงขั้น Real time เช่น ข้อมูลการซื้อขายหุ้น ข้อมูลจากเครื่องจับสัญญาณชีพของผู้ป่วยใน ICU เป็นต้น การที่ข้อมูลเข้ามาอย่างรวดเร็วมี velocity สูงมาก ทำให้การมารอประมวลผลที่ CPU ของแต่ละเครื่องก็เป็นสิ่งที่ทำให้ล่าช้า ต้องอาศัย in-memory technology ประมวลผลในหน่วยความจำ Random Access Memory (RAM) และส่งต่อผลที่ประมวลแล้ว เนื่องจากจะไม่เสียเวลาในการสื่อสารข้อมูล (Data Communication) ข้ามไปมาจนล่าช้า ไม่ต้องไปอ่าน Hard disk drive หากการประมวลผลเป็น Real-time นั้นก็อาจจะต้องใช้ Stream processing

ประเด็นที่ท้าทายที่สุดของ Big Data คือทำเช่นไรจึงจะเกิด Big Value จาก Big Data เราต้องการ actionable knowledge หรือความรู้ที่เอาไปใช้งานได้จริง เอาไปลดต้นทุนได้จริง ทำให้สินค้าที่ผลิตขึ้นมีคุณภาพดีจริง ลูกค้าซื้อมากขึ้นและพึงพอใจเพิ่มขึ้นจริง นำไปสู้สินค้าและบริการใหม่ที่ตรงกับความต้องการและขายได้ สิ่งเหล่านี้จะทำให้ Big Data มีค่าดั่งทอง สมกับแรงที่ลงไปในการใช้เทคโนโลยีข้อมูลขนาดใหญ่ ซึ่งต้องใช้คน ความรู้ เวลา และเงินในการพัฒนา

สิ่งแรกที่เราควรต้องคิดคือ

คำถามแรก ข้อมูลอะไรที่จะเอามาใช้ในการสร้างให้เกิด Big Value เราจะเก็บข้อมูลเหล่านั้นได้อย่างไร ทำอย่างไรให้ข้อมูลเหล่านั้นมีคุณภาพ คำถามพื้นฐานเช่นนี้สำคัญมาก

คำถามที่สอง คือจะทำอย่างไรให้ข้อมูลนั้นมี Schema ที่จะเชื่อมโยงข้อมูลเข้าไว้ด้วยกันไว้ให้ดีที่สุดมากที่สุด เพื่อให้การวิเคราะห์ข้อมูลไม่ว่าจะโดยแบบจำลองทางสถิติหรือการเรียนรู้ของเครื่องจักร (Machine Learning) ทำได้ดีที่สุดและมากที่สุด

คำถามที่สาม คือเราควรคิดไว้ก่อนล่วงหน้าว่าจะออกแบบ Schema ของข้อมูลไว้ก่อนได้อย่างไร โดยพยายามคิด Schema ให้หลากหลาย ยืดหยุ่น หรือจะคิด Schema อย่างไรเพื่อเชื่อมโยงข้อมูลและนำข้อมูลมาใช้ให้เกิด actionable knowledge ได้อย่างไร กระบวนการนี้เป็นกระบวนการความคิดสร้างสรรค์ที่สำคัญมาก

คำถามที่สี่ คือ เราจะออกแบบการวิเคราะห์ (Analytics) อย่างไรให้ตอบโจทย์ธุรกิจ เกิดคำตอบที่สร้างสรรนำไปใช้ประโยชน์ได้และคุ้มค่าการลงทุน กระบวนการนี้ต้องอาศัยทั้งความเข้าใจในวิชาคณิตศาสตร์/สถิติ วิทยาการคอมพิวเตอร์ และ เนื้อหาวิชาในเรื่องที่เราสนใจจะวิเคราะห์ คนที่จะเป็น Data Scientist ได้ดีนั้น ไม่ใช่รู้แต่ คอมพิวเตอร์และสถิติเท่านั้นแล้วจะทำงานได้ดี หากสนใจทำงานทาง Business Analytics and Intelligence ต้องมีความรู้ความเข้าใจในธุรกิจนั้นๆ ด้วย จึงจะวิเคราะห์ให้เกิด Business Insights ได้

คำถามที่ห้า คือ เมื่อเราวิเคราะห์แล้ว เราหยั่งรู้ว่าอะไรที่จะเอาไปใช้ประโยชน์ลงมือทำงานได้จริง เกิด actionable insight แล้ว เราต้องสามารถสื่อสารให้คนที่เป็น policy maker สามารถตัดสินใจได้ว่าควรจะทำอะไร ปัญหานี้ไม่ใช่แค่ต้องอาศัยศิลปะการสื่อสาร แต่ต้องทำเรื่อง Data Sciences หรือ Business Analytics ที่เต็มไปด้วยแบบจำลองทางสถิติหรือ Machine learning ที่ซับซ้อนให้สามารถเข้าใจได้โดยง่าย วิธีการหนึ่งที่ทำให้เรื่องราวยุ่งยากเข้าใจได้ง่ายขึ้นมากที่สุดคือการวาดรูป ดังนั้น กราฟฟิคเชิงสถิติและการสร้างภาพนิทัศน์จากข้อมูล จึงเป็นเรื่องที่สำคัญมากและต้องนำไปใช้ใช้ได้อย่างถูกต้องเหมาะสมกับผู้ฟัง ต้องเป็นคนเล่าเรื่อง (Story teller) ที่ดี ที่สามารถผูกโยงเรื่องราวจากหลักฐานตัวเลขให้เป็นเนื้อเดียวกันและสมเหตุสมผล จึงจะนำไปสู่ action ที่สร้าง Big Value ได้ในที่สุด พูดง่ายๆ ว่ามีของดีก็ต้องขายของเป็นด้วยเช่นกัน