xs
xsm
sm
md
lg

Predictive Analytics จะทำนายอะไร ทำไมต้องทำนาย?

เผยแพร่:   โดย: อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์

ภาพจาก dell.com
อาจารย์ ดร. อานนท์ ศักดิ์วรวิชญ์
สาขาวิชา Business Analytics and Intelligence
สาขาวิชาวิทยาการประกันภัยและการบริหารความเสี่ยง
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์


เมื่อโลกเจริญก้าวหน้า มีข้อมูลขนาดใหญ่ (Big Data) มากมาย เป้าหมายสำคัญของ Business Analytics และ Data Scientists คือการทำนาย การทำนายที่ว่านี้ไม่ใช่การดูหมอ โหราศาสตร์ แต่เป็นการทำนายโดยใช้ แบบจำลองทางคณิตศาสตร์ สถิติศาสตร์ และวิทยาการคอมพิวเตอร์ ซึ่งอาจจะใช้วิธีการใดวิธีการหนึ่ง บางแบบจำลองก็อาจตรงไปตรงมา ง่ายๆ ไม่ซับซ้อน บางครั้งก็อาจจะจำเป็นต้องใช้แบบจำลองหรือวิธีการที่ค่อนข้างซับซ้อน เช่น การเรียนรู้ของเครื่องจักร (Machine Learning) เช่น ใยประสาทเทียม (Artificial Neuron Network) เพื่อทำนายปรากฏการณ์ที่เราสนใจศึกษา

คำว่า Predictive Analytics หรือการวิเคราะห์เชิงทำนาย เป็นคำรวมๆ ที่หมายถึงวิธีการของ Business Analytics และ Data Scientist ที่ใช้ในการทำนาย (Prediction) ตัวแปรตามที่สนใจศึกษาที่เป็นตัวแปรต่อเนื่อง (Continuous variable) เช่น

พรุ่งนี้ อุณหภูมิจะเป็นกี่องศาเซลเซียส ปริมาณน้ำฝนในปีหน้าจะเป็นเท่าไหร่ ซึ่งมีตัวแปรที่เกี่ยวข้องเป็นพันๆ ตัวแปร ถ้าจะพยากรณ์อากาศจริงๆ ให้ได้ผลต้องใช้คอมพิวเตอร์และต้องมี predictive analytics model ที่ดีมากๆ และต้องมีข้อมูลที่มีคุณภาพดีด้วย

ความเสียหายของยอดสินไหมจากการรับประกันสุขภาพของผู้เอาประกันเพศชาย อายุ 35 ปี ยังไม่เคยเข้าโรงพยาบาล มี Body Mass Index เท่ากับ 26 และตรวจสุขภาพแล้วพบว่าทุกอย่างปกติ จะมียอดเคลมสินไหมเป็นเท่าใด

พนักงานจะมีความผูกพันใจมั่น (Engagement) กับหน่วยงานมากน้อยสักแค่ไหน เพราะเหตุใด ผูกพันเพราะรายได้ดี หรือผูกพันเพราะมีความสุขที่ได้ทำงานที่ตัวเองชอบ รู้สึกมีความหมาย ผูกพันใจมั่นเพราะมีเพื่อนร่วมงานหรือเจ้านายดี

การทำนายนั้นไม่ได้สนใจแค่ผลการทำนายแต่อย่างเดียวหากแต่สนใจเหตุผลด้วยว่าอะไรเป็นตัวแปรที่ใช้ทำนาย และทำนายได้ถูกต้องมากน้อยเพียงใด การที่เรารู้ว่าตัวแปรใดใช้ทำนายตัวแปรตามที่เราสนใจศึกษาจะช่วยให้เราสามารถไปจัดการเปลี่ยนแปลงแก้ไขหรือจัดกระทำให้ตัวแปรเหล่านั้นมีการเปลี่ยนแปลงไป โดยคาดหวังผลว่าจะทำให้ผลลัพธ์หรือตัวแปรตามนั้นเปลี่ยนไปด้วย ทั้งนี้ต้องมีเหตุผลหรือทฤษฎีมารองรับ ไม่ใช่เป็นเพียงความสัมพันธ์ปลอมๆ (Spurious Correlation) ข้อนี้ทำให้ใน Silicon Valley ที่มี Data Scientist มากมาย เมื่อใช้หลักการวิเคราะห์เชิงทำนายหรือการทำเหมืองข้อมูลออกมาแล้วพบความสัมพันธ์ระหว่างตัวแปรต่างๆ มากมายแต่กลับอธิบายไม่ได้ว่าทำไม จึงจำเป็นต้องมีการว่าจ้างนักจิตวิทยาและนักสังคมวิทยามาทำงานวิจัยเชิงคุณภาพเพื่อพยายามเข้าใจเหตุผลหรือที่มาของความสัมพันธ์ที่ค้นพบเจอโดย Data Scientist

ในอีกแง่ Business Analytics และ Data Scientist ก็สนใจที่จะจำแนก (Classification) ซึ่งตัวแปรตามจะเป็นตัวแปรไม่ต่อเนื่อง (Discrete Variable) เช่น

ลูกค้าคนไหนที่จะกลับมาใช้บริการอีกครั้ง ซึ่งสำคัญมาก เพราะต้นทุนในการหาลูกค้าใหม่นั้นสูงมาก แต่การบริหารลูกค้าสัมพันธ์ (Customer relationship management) ที่ดีนั้นมีต้นทุนที่ถูกกว่าและสร้างความยั่งยืนให้กับธุรกิจได้

ลูกค้าคนไหนจะกลับมาต่อกรมธรรม์ประกันภัย (Insurance policy renewal) ข้อนี้สำหรับประเทศไทยน่าห่วงว่าหากลูกค้าประกันภัยรถยนต์มีการเคลมสินไหมเนื่องจากเกิดอุบัติเหตุแล้วปกติต้องมี Malus ทำให้เบี้ยในปีถัดไปเพิ่มขึ้น ลูกค้าไม่อยากเสียเบี้ยประกันรถแพงขึ้นก็ย้ายไปทำบริษัทอื่นทันที เนื่องจากฐานข้อมูลไม่เชื่อมต่อกัน ทำให้ทำนายได้ว่ารถคันไหนที่มีการเคลมในปีก่อนๆ ปีต่อมาจะย้ายไปทำกรมธรรม์ประกันภัยรถกับบริษัทอื่นแทนได้

ลูกค้าคนไหนจะเปลี่ยนไปซื้อของหรือสินค้ายี่ห้ออื่นๆ ที่ทางการตลาดเรียกว่าเกิด Brand Switching หรือเลิกใช้บริการไปเลย ซึ่งเรื่องหลังนี้ธุรกิจโทรคมนาคมสนใจมากสร้าง Churn model เพื่อทำนายว่าลูกค้าคนใดจะย้ายค่ายโทรศัพท์มือถือหรือไม่ ซึ่งอาจจะใช้ Social network analysis เข้ามาเพื่อคำนวณหาความเป็นศูนย์กลางของเครือข่าย (Network Centrality) ว่ามีคนโทรเข้าโทรออกมากน้อยแค่ไหน เราคงพอมองออกว่าดาราดังๆ ที่รับงานเอง จะไม่เปลี่ยนเบอร์โทรศัพท์มือถือเป็นอันขาด เพราะจะเป็นการตัดช่องทางทำมาหากิน เนื่องจากคนที่เคยติดต่องานเข้ามามากมายจะไม่สามารถติดต่อไป พูดง่ายๆ ว่าดาราคนนี้เบอร์โทรศัพท์มือถือของเขามีความเป็นศูนย์กลางเครือข่าย สูง การเปลี่ยนเบอร์โทรศัพท์จะมีต้นทุนสูงมาก ทำให้เปลี่ยนหรือ churn ย้ายค่ายได้ยากเป็นต้น

ทางการเงินเราก็อาจจะสนใจว่าธนาคารแห่งใดที่จะล้มละลาย ผมเองเคยวิเคราะห์ข้อมูลทำแบบจำลองการล้มละลายทางการเงิน ว่าธนาคารพาณิชย์ของไทยที่สมัยปี 2540 วิกฤติต้มยำกุ้งมีอยู่ 16 แห่งที่ล้มละลายไป พบว่าอัตราส่วนทางการเงินที่จำแนกระหว่างธนาคารที่ล้มละลายกับอยู่รอดได้ดีมากคือ Loan Loss Reserve/non-performing load สำหรับสำรองหนี้สูญจากการให้กู้ยืม (Loan Loss Reserve) นั้นคือเงินที่ธนาคารตั้งสำรองไว้เมื่อปล่อยกู้ออกไป เป็นการบริหารความเสี่ยง เพราะอาจจะมีลูกค้าจำนวนหนึ่งที่เป็นหนี้เสียที่ไม่ก่อให้เกิดรายได้ (Non-performing loan: NPL) สิ่งที่น่าสนใจคือธนาคารที่ล้มละลายในยุคนั้นล้วนแล้วแต่เป็นธนาคารที่ตั้งสำรองไว้สูงๆ เมื่อเทียบกับหนี้เสียที่ไม่ก่อให้เกิดรายได้ แสดงว่าธนาคารเหล่านี้ก็คงจะพอรู้ตัวว่าตัวเองปล่อยกู้ไปอย่างไม่รอบคอบรัดกุม แต่ผลสุดท้ายแม้จะตั้งสำรองไว้สูงก็ยังไม่รอดอยู่ดี ล้มละลายในที่สุด เพราะไม่ได้ป้องกันปัญหา แต่เพียงแค่บรรเทาหรือชะลอให้ปัญหาเกิดช้าขึ้นเท่านั้น

การปล่อยให้กู้สินเชื่อก็อาจจะสนใจว่าลูกค้ารายใดเมื่อปล่อยกู้ไปแล้วจะเกิดการเบี้ยวหนี้ไม่สามารถชำระเงินต้นได้ซึ่งเราเรียกกันว่า Credit Scoring Model เราต้องการหาตัวแปรต้นที่มาจำแนกว่าคนที่มากู้เงินคนใดจะชำระหนี้เป็นลูกหนี้ที่ดี หรือ คนไหนจะเบี้ยวหนี้ผ่อนชำระหนี้ไม่ไหว ธนาคารเองกลัวมากว่าเมื่อปล่อยสินเชื่อบุคคลแล้วจะไม่มีความสามารถในการชำระคืนเงินต้น จึงต้องมีการเช็คประวัติเครดิตกันจากสำนักงานเครดิตบูโรแห่งชาติ ผมเคยเห็นข้อมูลจากสหรัฐอเมริกาเกี่ยวกับการปล่อยกู้ซื้อบ้าน พบว่ามีตัวแปร 4 ตัว ที่ทำนายจำแนกได้ว่าใครจะเบี้ยวหรือไม่เบี้ยวหนี้ คือ จำนวนปีที่อยู่ในที่อยู่ปัจจุบัน คนที่ตั้งรกรากมานานจะมีโอกาสเบี้ยวหนี้น้อยกว่า สัดส่วนหนี้สินต่อรายได้ (Debt/income ratio) คนที่มีสัดส่วนหนี้ต่อรายได้ที่ตัวเองมีต่ำ จะมีโอกาสเบี้ยวหนี้น้อยกว่า จำนวนหนี้สินบัตรเครดิต มีมากเสี่ยงจะเบี้ยวหนี้มาก อายุงานปัจจุบัน ถ้าทำงานมั่นคงมายาวนาน โอกาสเบี้ยวหนี้จะลดลงไปมาก

แบบจำลองสำหรับการจำแนกเช่น Credit Scoring นี้ ทางกองทุนกู้ยืมเพื่อการศึกษา (กยศ) ซึ่งกำลังมีปัญหาหนี้เสียสูงมาก ควรจะนำมาใช้และนำมาเป็นหลักเกณฑ์ในการปล่อยกู้ เพื่อให้กองทุนมีประสิทธิภาพมากขึ้น

คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์ กำลังจะเปิดคอร์สฝึกอบรมเรื่อง Basic Business Predictive Analytics Using R commander อยู่ ในวันที่ 18-19 มิถุนายน นี้ ทั้งนี้โปรแกรม R Commander เป็น freeware ไม่มีค่าใช้จ่ายและเป็นโปรแกรม Graphic User Interface ผู้ใช้ไม่มีความจำเป็นที่จะต้องเขียนโปรแกรมเป็น ใช้งานได้ง่าย หากสนใจดูรายละเอียดเพิ่มเติมได้ที่ http://as.nida.ac.th/training/?p=342 หรือติดต่อได้ที่ โทร : 0-2727-3037-40 ในเวลาราชการ
กำลังโหลดความคิดเห็น