ทวีศักดิ์ แสงทอง กรรมการผู้จัดการ “แซส ซอฟท์แวร์ (ไทยแลนด์)” จะพาทุกคนไปรู้จักกับ 8 ข้อที่คุณต้องรู้ก่อนทำการวิเคราะห์ข้อมูลปริมาณมหาศาล (Big Data) ด้วย Hadoop เพื่อตอบคำถามอย่าง “เราจะรับมือต่อการเตรียมข้อมูลบนเทคโนโลยี Hadoop ได้อย่างไร” “มีเทคนิคการวิเคราะห์ประเภทใดที่สามารถนำมาใช้ต่อการวิเคราะห์ข้อมูลที่บริหารจัดการโดยเทคโนโลยี Hadoop ได้บ้าง” และ “เราจะใช้เทคโนโลยี Hadoop กับการประมวลผลในหน่วยความจำ (in-memory processing) ได้อย่างไร”
การตอบคำถามเหล่านี้เป็นเรื่องที่ส่งผลต่อมูลค่าทางธุรกิจ เพราะอย่าลืมว่าความได้เปรียบเรื่องการแข่งขันสามารถสร้างขึ้นได้จากการวิเคราะห์ Big Data และถ้าหากผลลัพธ์ของการวิเคราะห์ ถูกนำไปเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ ก็จะทำให้ธุรกิจมีเครื่องมือช่วยตัดสินใจได้อย่างมีประสิทธิภาพยิ่งขึ้น
1.เข้าใจเทคโนโลยี Hadoop ซึ่งมีองค์ประกอบ 2 ส่วน คือ ระบบที่มีราคาประหยัดสำหรับการจัดเก็บข้อมูล เรียกว่า Hadoop distributed file system (HDFS) และระบบที่มีเครื่องมือประมวลผลที่กระจายข้อมูลไปยังส่วนต่างๆ ของการปฏิบัติงานเพื่อนำข้อมูลไปใช้งาน หรือการประมวลผล Big Dataที่ เรียกว่า MapReduce ทั้งนี้ เทคโนโลยี Hadoop เป็นโซลูชันที่ราคาไม่แพงนัก สำหรับจัดเก็บ และประมวลผล Big Data โดยเฉพาะอย่างยิ่งข้อมูลกึ่งมีโครงสร้าง (semistructured data) และข้อมูลแบบไม่มีโครงสร้าง (unstructured data) แต่อย่างไรก็ตาม เทคโนโลยี Hadoop ก็ยังมีข้อจำกัดอยู่บ้าง โดยเฉพาะเมื่อเป็นการวิเคราะห์ขั้นสูง ดังนั้น ecosystem ขนาดใหญ่ของเครื่องมือที่มีความล้ำหน้า และซอฟต์แวร์ช่วยเชื่อมข้อมูล (connectors) จึงถูกสร้างขึ้นมารายรอบเทคโนโลยี Hadoop และเมื่ออ่านต่อไปแล้วคุณจะเกิดความเข้าใจที่ดียิ่งขึ้นว่ามีอะไรให้มองหาใน ecosystem ของเทคโนโลยี Hadoop บ้าง
2.พิจารณาถึง in-memory analytics (การวิเคราะห์ภายในหน่วยความจำ) ที่ถูกออกแบบมาเพื่อช่วยให้ผู้ใช้เรียกดูการแสดงผลข้อมูลได้ง่ายขึ้น และรวดเร็วแบบเรียลไทม์ได้ในทุกที่ ซึ่งจะทำการประมวลผลข้อมูลด้วยหลักการทางคณิตศาสตร์ ภายในหน่วยความจำหลัก (RAM) แทนการทำงานบนดิสก์ เพื่อหลีกเลี่ยงการใช้เวลาในการรับ/ส่งข้อมูลระหว่างการประมวลผล (I /O) โดยเทคนิคการวิเคราะห์ขั้นสูง เช่น สถิติขั้นสูง, คลังข้อมูล, การเรียนรู้ของกลไกการทำงาน, คลังข้อความ (text mining) และระบบแนะนำข้อมูล (recommendation systems) สามารถได้รับประโยชน์จากการประมวลผลแบบ in-memory อีกด้วย
คุณประโยชน์ที่เพิ่มขึ้นนี้ยังรวมไปถึงการวิเคราะห์ และการโต้ตอบกับข้อมูลที่รวดเร็วขึ้น อย่างไรก็ตาม MapReduce ไม่เหมาะอย่างยิ่งสำหรับการวิเคราะห์โดยใช้การคำนวณซ้ำ (iterative analytics) เป็นผลให้ผู้ค้าเทคโนโลยีหลายรายในปัจจุบันให้ความสำคัญต่อการนำเสนอการประมวลผลแบบ in-memory สำหรับเทคโนโลยี Hadoop เพราะโดยส่วนใหญ่ความสามารถของการประมวลผลแบบ in-memory นั้นจะอยู่ภายนอกเทคโนโลยี Hadoop ดังนั้น ผู้ค้าบางรายจึงยกข้อมูลจากเทคโนโลยี Hadoop ไปไว้ในเครื่องมือภายในหน่วยความจำ (in-memory engine) เพื่อวิเคราะห์โดยใช้การคำนวณซ้ำ
3.เปลี่ยนแปลงกระบวนการเตรียมข้อมูล การวิเคราะห์ Big Data ต้องมีการใช้เทคนิคการวิเคราะห์ที่ซับซ้อน ซึ่งในทางกลับกันนั้นก็ยังต้องการการเตรียมการและการสำรวจข้อมูลที่มีประสิทธิภาพด้วย ทั้งนี้ เพื่อหาตัวแปรที่ใช้ในการศึกษาสำหรับการประมาณการณ์, การคาดการณ์ล่วงหน้า, ค่าของตัวแปรที่ไม่สมบูรณ์, ค่าผิดปกติ, การปรับเปลี่ยนรูปแบบข้อมูล และอื่นๆ ซึ่งในข้อนี้ต้องการวิธีคิดที่แตกต่างจากผู้ใช้ data warehouse สำหรับการจัดทำรายงานที่ข้อมูลได้ถูกกำหนดไว้แล้ว หลักสำคัญของการเตรียม และการรวมข้อมูลเข้าด้วยกัน เช่น คุณภาพของข้อมูล หรือ metadata นั่นก็คือ อย่าละทิ้งข้อมูลใดๆ
4.สำรวจข้อมูลเพื่อข้อมูลเชิงลึกใหม่ๆ คุณสามารถใช้ข้อนี้เป็นส่วนหนึ่งของการเตรียมข้อมูล (ดังที่ระบุไว้ก่อนหน้า) และยังเป็นการใช้เพื่อค้นพบข้อมูลเชิงลึกอีกด้วย ตัวอย่างเช่น คุณอาจต้องการแสดงข้อมูลภาพแบบง่ายๆ หรือใช้สถิติเชิงพรรณนา เพื่อตัดสินว่ามีอะไรอยู่ในข้อมูลนั้น หรือระบุค่าตัวแปรที่เกี่ยวข้องสำหรับการวิเคราะห์ขั้นสูงยิ่งขึ้น ขณะเดียวกัน ก็มองหาผู้ค้าเทคโนโลยีที่สามารถจัดหาคุณสมบัติการทำงานสำหรับคำถามที่ว่ามานี้ การแสดงข้อมูลด้วยภาพ (visualization) และสถิติเชิงพรรณนา
5.เข้าใจการวิเคราะห์ขั้นสูงด้วย Big Data และการประมวลผลในหน่วยความจำ ซึ่งไม่ถูกจำกัดด้วยประเภทของการวิเคราะห์ คุณจึงสามารถทำงานกับข้อมูลที่มีอยู่ เพื่อให้ก้าวพ้นจากขอบเขตของการวิเคราะห์เชิงพรรณนาแบบทั่วไปได้อย่างแท้จริง ต้องมีการพัฒนาโปรแกรมที่ครอบคลุมถึงคลังข้อมูล, คลังข้อความ (text mining) และการเรียนรู้ของกลไกแอปพลิเคชันที่ได้รับความนิยมมากที่สุด หากต้องใช้ในกรณีเหล่านี้ ซึ่งรวมถึงการตรวจจับรูปแบบ, การจำแนกประเภทข้อมูล, การประมาณการ/การคาดการณ์ล่วงหน้า, ข้อเสนอแนะ และการหาค่าที่ดีที่สุด เป็นต้น
6.อย่าเมินเฉยต่อข้อมูลตัวอักษร (text data) ข้อมูลจำนวนมากในคลัสเตอร์เทคโนโลยี Hadoop ทั่วๆ ไปเป็น text data ซึ่งก็มีเหตุผลเพราะว่า HDFS ก็คือ ระบบแฟ้มข้อมูล (file system) ดังนั้น จึงถูกใช้เพื่อจัดเก็บข้อมูลทั้งแบบข้อมูลกึ่งมีโครงสร้าง และแบบไม่มีโครงสร้าง (รวมถึงตัวอักษร) ดังนั้น คุณประโยชน์สำคัญ คือ การใช้ข้อมูลทั้งหมดเพื่อสร้างความได้เปรียบให้แก่องค์กรของคุณ เพื่อให้ได้ภาพที่สมบูรณ์ยิ่งขึ้นว่ากำลังเกิดอะไรขึ้นต่อลูกค้าของคุณ, การดำเนินงาน และอื่นๆ เนื่องจากบริษัทบางแห่งเขียน custom code เพื่อแยกข้อมูลสารสนเทศออกมาจากข้อมูลตัวอักษร และบางบริษัทใช้การวิเคราะห์ข้อความตัวอักษรเชิงพาณิชย์ (commercial text analytics) ตลอดจนการประมวลผลภาษาธรรมชาติ และเทคนิคทางสถิติในการแยกข้อมูลและจัดโครงสร้างข้อมูลตัวอักษร เพื่อให้สามารถนำมาผสานรวมกับข้อมูลแบบมีโครงสร้างที่มีอยู่ สำหรับเทคนิคการวิเคราะห์ขั้นสูง ได้แก่ การสร้างแบบจำลองเพื่อการพยากรณ์ (Predictive Modeling) หรือการคาดการณ์อนาคต ซึ่งบ่อยครั้งที่การแยกข้อมูล สารสนเทศออกจากตัวอักษร สามารถทำให้องค์กรของคุณได้ข้อมูลที่มีความสำคัญต่อแบบจำลองเหล่านี้
7.การวิเคราะห์เชิงปฏิบัติการ มูลค่าทางธุรกิจจะสามารถสร้างขึ้นได้จากการวิเคราะห์ Big Data ก็ต่อเมื่อผลลัพธ์ที่ได้ออกมาถูกนำไปรวมไว้ในกระบวนการทางธุรกิจ เพื่อช่วยในการตัดสินใจ ข้อนี้คือก้าวที่สำคัญอย่างมากในโครงการด้านการวิเคราะห์แนวทางที่มีประสิทธิภาพที่สุดสำหรับการวิเคราะห์การคาดการณ์เชิงปฏิบัติการ นั่นคือ การหลอมรวมแบบจำลองไว้ในการจัดเก็บข้อมูลด้านการปฏิบัติงานโดยตรง ซึ่งเป็นที่รู้จักกันในชื่อ “in-Hadoop scoring” เมื่อมีข้อมูลใหม่เข้าไปในระบบของเทคโนโลยี Hadoop คุณสมบัติของระบบ stored-model scoring files ใน MapReduce ก็จะทำการรันตัวแบบให้คะแนน (scoring model) และทำงานให้ได้ผลลัพธ์ออกมาภายในเวลาอันรวดเร็ว
8.ประเมินทักษะการทำงาน นับว่ามีความสำคัญเท่าๆ กับเทคโนโลยีที่ได้รับการเลือกสรรมา เพราะการทำงานในระบบเทคโนโลยี Hadoop คุณจำเป็นต้องมีทักษะพิเศษสำหรับการวิเคราะห์ Big Data ซึ่งปัจจุบันจะเห็นว่านักวิเคราะห์ข้อมูลขั้นสูง (Data Scientist) เริ่มมีบทบาทมากขึ้นในฐานะผู้ที่คอยผสานรวมทักษะที่แตกต่างในเรื่องของเทคโนโลยีใหม่ๆ ที่เข้ามา ซึ่งจำเป็นมากสำหรับองค์กรที่มีการวิเคราะห์ Big Data รวมทั้งการสื่อสารข้อมูลที่ซับซ้อน เพื่อการนำไปใช้ในทางปฏิบัติตามเป้าหมายที่วางไว้ ซึ่งต้องยอมรับว่า Data Scientist พวกเขามีส่วนผสมที่ลงตัวของทักษะด้านเทคนิค รวมไปถึงวิทยาศาสตร์คอมพิวเตอร์, การสร้างแบบจำลอง, การคิดเชิงสร้างสรรค์ และการสื่อสาร และหากในองค์กรของคุณยังไม่สามารถที่จะค้นพบคนที่มีทักษะหลายๆ อย่างในตัวคนเดียวได้ แนะนำให้พยายามหาผู้ที่มีทักษะนี้ที่กระจายกันอยู่ในสมาชิก 2-3 ในทีมของคุณ จะได้ทีมประเมินทักษะที่ครบถ้วน