ARV ส่งนวัตกรรม “TrafficInternVL” AI อัจฉริยะสัญชาติไทย คว้าอันดับ 4 เวทีโลก ในงานประชุม ICCV 2025

ARV ส่งนวัตกรรม “TrafficInternVL” AI อัจฉริยะสัญชาติไทย ปฏิวัติความปลอดภัยบนท้องถนน ผงาดคว้าอันดับ 4 เวทีโลก พร้อมตีพิมพ์ผลงานวิจัย ในงานประชุม ICCV 2025

บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด (เออาร์วี) หรือ ARVตอกย้ำความเป็นผู้เชี่ยวชาญด้านการพัฒนา หุ่นยนต์และปัญญาประดิษฐ์ขั้นสูงของไทยอีกครั้ง จากความสำเร็จของทีม ARV Core Technology ที่ได้สร้าง สรรค์เฟรมเวิร์กอัลกอริทึมอัจฉริยะภายใต้ชื่อ “TrafficInternVL” ซึ่งไม่เพียงแต่สามารถคว้ารางวัลอันดับ 4 ในการแข่งขัน AI City Challenge 2025 แต่ยังได้รับการยอมรับให้ตีพิมพ์ผลงานวิจัยในงานประชุมวิชาการด้าน คอมพิวเตอร์วิทัศน์ระดับโลกอย่าง International Conference on Computer Vision (ICCV) 2025 ซึ่งจัดขึ้น ในวันที่ 19-23 ตุลาคม 2025 ณ รัฐฮาวาย สหรัฐอเมริกา

นายศศิณ พิมพ์ศิริ (Machine Learning Engineer) บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด กล่าวว่า ในยุคที่จำนวนยานพาหนะบนท้องถนนเพิ่มขึ้นอย่างต่อเนื่อง อุบัติเหตุและความปลอดภัยบนท้องถนนกลายเป็นโจทย์ ใหญ่ที่ทุกคนต้องเผชิญอย่างไม่สามารถหลีกเลี่ยงได้ แม้เทคโนโลยีที่มีอยู่เดิมอย่างกล้องตรวจจับความเร็ว หรือการบันทึกภาพนิ่งจะมีบทบาทสำคัญในการเฝ้าระวังและบันทึกเหตุการณ์บนท้องถนน แต่ยังคงมีข้อจำกัดในการวิเคราะห์เชิงพฤติกรรม ที่ช่วยคาดการณ์และป้องกันอุบัติเหตุได้ล่วงหน้า
ด้วยวิสัยทัศน์ที่ต้องการก้าวข้ามข้อจำกัดดังกล่าว ARV จึงผนึกกำลังกับนักวิจัยผู้เชี่ยวชาญเฉพาะด้าน เพื่อพัฒนาเทคโนโลยีและงานวิจัยที่สามารถช่วยยกระดับความปลอดภัยบนท้องถนนได้
"เราเชื่อว่าการแก้ปัญหาจราจรที่ซับซ้อน ต้องอาศัยเทคโนโลยีที่สามารถ ‘เข้าใจ’ บริบทของเหตุการณ์บนท้องถนนได้อย่างลึกซึ้ง มากกว่าการ ‘มองเห็น’ ภาพเพียงผิวเผิน TrafficInternVL เป็นหนึ่งในเทคโนโลยี ที่เราภาคภูมิใจ ซึ่งถูกพัฒนาขึ้นเพื่อยกระดับศักยภาพของกล้องวงจรปิด ให้ก้าวไปอีกขั้น จากระบบเฝ้าระวังทั่วไป สู่เครื่องมืออัจฉริยะที่ช่วยวิเคราะห์ความเสี่ยงและตีความเหตุการณ์บนท้องถนนได้อย่างมีประสิทธิภาพมากขึ้น” นายศศิณ พิมพ์ศิริ ให้ความเห็นเพิ่มเติม

TrafficInternVL: เหนือกว่าการมองเห็น คือการ "อ่านเกม" ของ AI
“TrafficInternVL” คือเฟรมเวิร์กที่พัฒนาต่อยอดจากโมเดลภาษาและภาพ (Vision-Language Model) ชั้นนำ อย่าง InternVL-38B โดยทีมวิจัยได้ออกแบบสถาปัตยกรรมเสริมที่โดดเด่น 2 ส่วนหลักคือ Spatially-Guided Cropping เทคนิคการเลือกพื้นที่สำคัญของภาพในช่วงเวลาที่สนใจโดยอัตโนมัติ และ Caption Refinement กระบวนการกลั่นกรองและขัดเกลาคำบรรยายเหตุการณ์ให้มีความถูกต้องและชัดเจนสูงสุด

หัวใจสำคัญของ TrafficInternVL คือการเปลี่ยนกระบวนทัศน์จากการตรวจจับที่ให้คำตอบได้เพียง "ใช่" หรือ "ไม่ใช่" ไปสู่การวิเคราะห์เชิงลึกที่เปรียบเสมือน "AI Chatbot" ด้านความปลอดภัยจราจร

โดยระบบสามารถสร้างคำบรรยายวิดีโอแบบละเอียดและยาว (Dense Captioning) เพื่ออธิบายลำดับเหตุการณ์ ที่เกิดขึ้นก่อนอุบัติเหตุได้อย่างครอบคลุม ทั้งบริบทโดยรอบ พฤติกรรมของคนเดินเท้าและยานพาหนะจากกล้อง หลายมุมมอง

นอกจากนี้ ยังสามารถตอบคำถามเฉพาะจุดเกี่ยวกับเหตุการณ์ (Visual Question Answering - VQA) ได้อย่าง แม่นยำ ซึ่งจะเข้ามามีบทบาทสำคัญในการสนับสนุนการตัดสินใจของศูนย์ควบคุมจราจร การประเมินความเสี่ยง ในพื้นที่สาธารณะ และยกระดับกระบวนการตรวจสอบในคดีประกันภัยให้รวดเร็วและเป็นธรรมยิ่งขึ้น

นายศรุต สรรพาวัตร วิศวกร (MLOPS Engineer) บริษัท เอไอ แอนด์ โรโบติกส์ เวนเจอร์ส จำกัด กล่าวว่า แม้กระบวนการพัฒนา TrafficInternVL จะต้องเผชิญกับความท้าทายรอบด้าน ทั้งในด้านระยะเวลาที่จำกัด และความต้องการทรัพยากรฮาร์ดแวร์ประสิทธิภาพสูงอย่าง NVIDIA H100 ถึง 3 ตัวในการออกแบบสถาปัตยกรรม และปรับจูนโมเดล (Fine-tuning) แต่ด้วยความมุ่งมั่นของทีมงาน ทำให้โครงการสำเร็จลุล่วงได้ภายในระยะเวลา เพียงหนึ่งเดือน

"ความสำเร็จในการคว้าอันดับ 4 และได้ตีพิมพ์ผลงานบนเวทีระดับโลกอย่าง ICCV คือบทพิสูจน์ศักยภาพของทีม คนไทย และเป็นผลจากความร่วมมือที่ยอดเยี่ยมกับมหาวิทยาลัยชั้นนำ ความสำเร็จนี้ตอกย้ำว่าเรามาถูกทางแล้ว ARV จะเดินหน้าต่อยอดเทคโนโลยีนี้ต่อไป เพื่อยกระดับความปลอดภัยบนท้องถนนสำหรับทุกคน" –นายศรุต สรรพาวัตร กล่าวเสริม

ทั้งนี้ TrafficInternVL ได้พิสูจน์ประสิทธิภาพอันยอดเยี่ยมในการแข่งขัน โดยมีความสามารถในการ สร้างคำบรรยายภาพ (Dense Captioning) ที่คะแนนเฉลี่ยสูงถึง 32.75 (วัดผลด้วยเกณฑ์ BLEU-4, METEOR, ROUGE-L, และ CIDEr*) และมีความแม่นยำในการตอบคำถามจากภาพ (VQA Accuracy) สูงถึง 83.08%

ผลลัพธ์ที่ยอดเยี่ยมนี้ส่งผลให้ TrafficInternVL สามารถคว้าอันดับที่ 4 มาครอง ท่ามกลางคู่แข่งจากสถาบันวิจัย และบริษัทเทคโนโลยีชั้นนำทั่วโลก
นอกเหนือจากความสำเร็จในการแข่งขันแล้ว ผลงานชิ้นดังกล่าวยังได้รับการยอมรับในเชิงวิชาการ โดยบทความวิจัย “TrafficInternVL: Spatially-Guided Fine-Tuning with Caption Refinement for Fine-Grained Traffic Safety Captioning and Visual Question Answering”

โดยจะได้รับการตีพิมพ์และนำเสนอในงานประชุม ICCV 2025 ณ ศูนย์ประชุมฮาวาย (Hawaii Convention Center) เมืองโฮโนลูลู รัฐฮาวาย สหรัฐอเมริกา ซึ่งนับเป็นการการันตีคุณภาพของงานวิจัยไทยในระดับสากล และเปิดทางสู่การต่อยอดเป็นผลิตภัณฑ์ที่สามารถสร้างผลกระทบเชิงบวกต่อสังคมในอนาคต