NVIDIA โชว์พลัง AI ขยับริมฝีปากหุ่นจำลอง 3 มิติแบบเรียลไทม์ตรงเสียงที่กำลังพูด

อีกก้าวที่สะท้อนความเป็นไปได้ว่าชาวโลกอาจจะมี “อวตาร์ 3 มิติ” เพื่อพูดแทนทุกคน โดยเฉพาะคนที่เขินกล้องซึ่งอาจไม่มั่นใจในการพูดในที่สาธารณะ ล่าสุด เอ็นวิเดีย (NVIDIA) เปิดตัวแพลตฟอร์มคลาวด์รุ่นเบต้าสำหรับการออกแบบ 3 มิติ หนึ่งในฟีเจอร์เด่นของแพลตฟอร์มนี้คือซอฟต์แวร์ที่ใช้พลังของ AI สร้างแบบจำลองใบหน้าที่ริมฝีปากขยับได้ตรงตามเสียงที่กำลังพูด

ซอฟต์แวร์นี้มีชื่ออย่างเป็นทางการว่าออดิโอทูเฟซ (Audio2Face) เป็นส่วนหนึ่งของแพลตฟอร์มคลาวด์ออมนิเวิร์ส (Omniverse) ที่เอ็นวิเดียกำลังเร่งพัฒนา ตัว Audio2Face เป็นซอฟต์แวร์ที่สร้างแบบจำลองใบหน้า 3 มิติเสมือนจริงที่สามารถถ่ายทอดคำพูดของเหล่าครีเอเตอร์ได้แบบเรียลไทม์ กลายเป็นภาพอวตาร์ที่ถูกสร้างขึ้นให้สามารถขยับ “กล้ามเนื้อ” ใบหน้าได้ราวกับว่ามีเสียงพูดออกมาจากปากของหุ่นกราฟิก 3 มิตินี้

นักวิเคราะห์เชื่อว่าเครื่องมือนี้จะเป็นประโยชน์สำหรับแอนิเมเตอร์ผู้สร้างการ์ตูนที่จะไม่ต้องเหนื่อยปรับภาพบริเวณปากของตัวละครด้วยตัวเองอีกต่อไป ขณะเดียวกัน บุคคลทั่วไปก็สามารถเล่นกับโมเดล 3 มิตินี้ด้วยการใช้เป็นสแตนด์อิน หรือตัวแทนเมื่อต้องการเชื่อมต่ออินเทอร์เน็ตสำหรับการประชุมผ่านวิดีโอได้ ซึ่งจะช่วยให้วิดีโอมีความเคลื่อนไหวราบรื่นตรงตามเสียงที่กำลังพูด

สำหรับ Audio2Face ยังอยู่ในช่วงแรกของการพัฒนา โดย NVIDIA คาดว่าเวอร์ชันเต็มจะพร้อมใช้งานในต้นปี 2021