xs
sm
md
lg

ระบบถอดเสียงแบบเรียลไทม์ช่วยเหลือผู้บกพร่องในการได้ยิน

เผยแพร่:   โดย: MGR Online

(ซ้ายไปขวา) ดร.ณัฐนันท์ ทัดพิทักษ์กุล และ ดร.อนันต์ลดา โชติมงคล
"เสียง" หนึ่งในเครื่องมือการสื่อสาร หากไม่ได้ยินเสียง การเรียนรู้และการรับข้อความสำคัญบางอย่างก็อาจขาดหายไป จึงเป็นเรื่องน่าเสียดายที่จะพลาดโอกาสนั้นไป นักวิจัยเนคเทคจึงช่วยพัฒนาระบบที่ถอดความเสียงเหล่านั้นออกมาเป็นตัวหนังสือให้อ่านได้บบเรียลไทม์

ทั้งนี้ในประเทศไทยมีผู้บกพร่องทางการได้ยินและการสื่อความหมาย 300,000 คน และผู้สูงอายุที่อาจมีปัญหาทางการได้ยินจากจำนวนผู้สูงอายุทั้งหมดประมาณ 10 ล้านคนที่ไม่สามารถเข้าถึงสื่อการเรียนการสอน หรือความบันเทิงในรายการโทรทัศน์ได้

จากปัญหาดังกล่าวศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) นำโดย ดร.ณัฐนันท์ ทัดพิทักษ์กุล และ ดร.อนันต์ลดา โชติมงคล 2 นักปฏิบัติการวิจัยและออกแบบนวัตกรรมที่เข้าถึงและใช้ประโยชน์ได้ จากสถาบันเทคโนโลยีเพื่อคนพิการและผู้สูงอายุ จึงได้ร่วมกันพัฒนาระบบถอดความเสียงพูดแบบทันต่อเวลา (Real Time) ผ่านระบบสื่อสารทางไกลขึ้นมา

ดร.ณัฐนันท์ กล่าวว่าทางสำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) ต้องการทำตามประกาศ คณะกรรมการกิจการกระจายเสียง กิจการโทรทัศน์ และกิจการโทรคมนาคมแห่งชาติ (กสทช.) ที่ต้องการให้มีบริการถอดความเป็นคำบรรยายแทนเสียง เพราะเมื่อมีการประกาศและบังคับใช้งานออกมา แต่ไม่มีเทคโนโลยีมารองรับ จึงไม่สามารถเปิดให้บริการได้ ดังนั้นจึงได้ค้นคว้าวิจัยว่าจะมีเทคโนโลยีใดสามารถเข้ามาสนับสนุน จากนั้นจึงพัฒนาเป็นระบบถอดความเสียงตัวนี้ขึ้นมา เพื่อให้เกิดการบริการถอดความในรายการโทรทัศน์

"ในต่างประเทศได้มีบริการระบบถอดความเสียงพูดแล้ว แต่การเอาระบบของต่างประเทศเข้ามาในประเทศไทยนั้น ไม่สามารถใช้ได้เลย เนื่องจากว่าการออกแบบระบบติดปัญหาอยู่ที่ภาษา ทางทีมวิจัยต้องมาวิจัยเพื่อค้นหาและประยุกต์เทคโนโลยีการถอดความสำหรับภาษาไทย ปัจจุบันทั่วโลกมีระบบถอดความเสียงพูดอยู่ 3 ระบบคือแป้นพิมพ์ชวเลข เทคโนโลยีรู้จำเสียงพูด และเทคโนโลยีเทคนิคการแบ่งพิมพ์" ดร.ณัฐนันท์กล่าว

แป้นพิมพ์ชวเลขเป็นแป้นพิมพ์ที่ออกแบบมาเพื่อถอดเสียงโดยเฉพาะ แป้นพิมพ์ชนิดนี้ถูกออกแบบให้กดพร้อมกันได้สามปุ่ม คือ พยัญชนะต้น สระ พยัชญชนะท้าย หรือกดได้ทีละเป็นพยางค์ กดพยางค์ได้เป็นคำ

“ส่วนเทคโนโลยีรู้จำเสียงพูดเป็นเทคโนโลยีคล้าย siri ที่จะแปลงสิ่งที่เราพูดเป็นตัวอักษรออกมา ซึ่งทางทีมวิจัยได้ทดลองนำเทคโนโลยีนี้ ไปใช้กับระบบถอดความเสียงพูดแบบทันต่อเวลา แต่ก็ยังติดปัญหาที่เทคโนโลยีนี้ประมวลผลผิดพลาดอยู่ ระบบถอดความเสียงพูดแบบทันต่อเวลาเป็นระบบที่ต้องการความถูกต้องเลย ถ้าพูดไปแล้วระบบประมวลผลผิดและต้องกลับมาแก้ไขก็จะไม่ทันต่อเวลา"

หากต้องการใช้เทคโนโลยีรู้จำเสียงในระบบถอดความเสียงพูดนั้น ดร.ณัฐนันท์กล่าวว่า ระบบรู้จำเสียงพูดต้องมีความแม่นยำและความถูกต้องในการประมวณผล 90% ขึ้นไปจึงจะเหมาะสมกับการนำไปใช้ในระบบถอดความเสียงพูดแบบทันต่อเวลา เนื่องจากอีก 10% ที่เหลือเป็นเรื่องของการพิมพ์ผิด การฟังไม่ทันและการถอดแบบสรุปความ

สำหรับเทคโนโลยีเทคนิคการแบ่งพิมพ์นั้นมีใช้งานอยู่ในประเทศญี่ปุ่น คือเทคนิคการแบ่งพิมพ์ คือใช้คนหลายๆ คนช่วยกันพิมพ์ ทางศูนย์วิจัยได้เลือกใช้เทคนิคนี้ โดยออกแบบให้ใช้เจ้าหน้าที่ 4 คนในการแบ่งพิมพ์ แต่ละคนก็จะรับผิดชอบในการพิมพ์ของแต่ละช่วงเวลา จากนั้นก็นำมารวมกัน

"เทคโนโลยีนี้ทำให้สามารถถอดความได้ทันเวลาและได้ความถูกต้องแม่นยำ ตามมาตรฐานสากลที่การถอดความต้องสามารถถอดและแปลงเป็นตัวอักษรภายใน 5 วินาทีหลังจากที่เสียงปรากฏและความแม่นยำต้องได้ประมาณ 90% ซึ่งเทคโนโลยีการแบ่งพิมพ์เป็นไปตามเกณฑ์ที่กำหนดทุกอย่าง"

ทีมวิจัยได้เลือกเทคนิคที่ 3 ขึ้นมาพัฒนาเป็นระบบถอดความเสียงพูดแบบทันเวลาด้วยเทคโนโลยีการแบ่งพิมพ์แบบภาษาไทย โดยในการทำงานของระบบนั้น ดร.อนันต์ลดาอธิบายว่า เริ่มจากการดึงสัญญาณเสียงเข้าระบบและส่งต่อเสียงไปยังศูนย์ถอดความ ซึ่งตอนนี้ศูนย์ถอดความต้นแบบแห่งนี้อยู่ที่อุทยานวิทยาศาสตร์ประเทศไทย

"หลักการถอดความของศูนย์ถอดความคือแต่ละคนถอดความคนละ 5 วินาที คนแรกจะพิมพ์ไปเรื่อยๆ จนกระทั้งถึงวินาทีที่ 5 ซึ่งคนแรกต้องดูว่าคนที่สองเริ่มที่คำไหนเขาต้องพิมพ์ให้ไปต่อคำนั้นให้ได้ และก็จะเป็นแบบนี้วนไปเรื่อยๆ จนจบการพูด จากนั้นจะมีระบบในการรวมข้อความที่พิมพ์เข้าด้วยกันแล้วทำการดึงข้อความมาเข้าตัว Viewer ตัว viewer ก็จะแสดงข้อความที่ถอดให้ออกมาที่หน้าจอ ถ้าเป็นการประชุมข้อความที่ได้จากการถอดความจะขึ้นไปรวมกับภาพและฉายขึ้นจอ" ดร.อนันต์ลดาอธิบาย

ในกรณีของสื่อโทรทัศน์นั้นจะมีอุปกรณ์เฉพาะที่ทำหน้าที่ส่งข้อความเข้าอุปกรณ์รับ (mug: มัค) เพื่อออกอากาศ โดยตอนนี้ทีมวิจัยได้ออกแบบอุปกรณ์สำหรับส่งข้อความเข้าไปในมัคเรียบร้อยแล้ว

"ส่วนกรณีที่เจ้าหน้าที่ประจำศูนย์ถอดเสียงไม่ทราบว่า คำที่ได้ยินนั้นต้องสะกดอย่างไร ทางเจ้าหน้าที่จะสะกดออกมาในรูปคำพ้องเสียงแทน นอกจากนี้ตัวระบบยังสามารถจดจำและใส่ทางลัดเพื่อเลือกคำที่มีเสียงคล้ายกันขึ้นมาได้ แต่ถ้าเป็นในกรณีที่ผู้พูดพูดด้วยความเร็วที่สูง เจ้าหน้าที่ถอดความจะถอดความโดยสรุปเรื่องที่ผู้พูดได้พูดออกมา เนื่องจากถ้าตัวอักษรปรากฏบนหน้าจอเร็วเกินไปตามเสียงผู้พูด ผู้อ่านก็จะอ่านไม่ทัน นี่เป็นอีกหนึ่งข้อดีของการถอดความด้วยการแบ่งพิมพ์ที่มีการใช้ทักษณะของมนุษย์เข้ามาช่วยในการสรุปใจความ"

นอกจากจะใช้การสรุปในกรณีที่ผู้พูดพูดเร็ว ดร.อนันต์ลดากล่าวว่า ทางศูนย์ถอดความอาจจะยืดหยุ่นโดยการเพิ่มจำนวนเจ้าหน้าที่เข้าไปช่วยในการถอดความ หากมีผู้คนขอให้บริการระบบนี้เป็นจำนวนมาก ก็จะต้องจองคิวก่อน ในกรณีของสถานีโทรทัศน์และการเรียนการสอนซึ่งมีตารางแน่นอน สามารถจองเวลาล่วงหน้าได้เป็นเดือน และทางศูนย์ถอดความก็สามารถจัดการได้ว่าต้องเตรียมคนไว้กี่คนสำหรับผังรายการนี้หรือผังการเรียน

"ระบบถอดความเสียงพูดนี้พัฒนามาได้ 3 ปีแล้ว และทดสอบอย่างจริงจังเมื่อปีที่แล้วในหลายๆ รายการ ก่อนหน้านี้ได้นำไปทดสอบระบบในงาน Digital Big Bang และยังจับมือกับสถานีโทรทัศน์ Thai PBS โดยได้งบสนับสนุนจาก กสทช. เพื่อนำระบบนี้ไปใช้งานจริงในสื่อโทรทัศน์ ปีที่ผ่านมาได้นำไปทดสอบกับ Thai PBS ในการเอาระบบนี้ไปติดตั้งและทดสอบ ซึ่งได้ผลออกมาว่าสามารถบริการคำบรรยายแทนเสียงในรายการข่าวได้จริง" ดร.อนันต์ลดากล่าว

ดร.อนันต์ลดากล่าวระบุด้วยว่า ในปี 2561 นี้จะเป็นปีที่มีการขยายผลงานวิจัยนี้ไปยังสถานีโทรทัศน์ช่องต่างๆ เพื่อให้ทางสาธารณชนได้ทราบว่า สวทช.มีเทคโนโลยีการให้บริการลักษณะเช่นนี้อยู่ ถ้าสื่อช่องใดต้องการติดต่อขอรับบริการก็สามารถทำได้ และตอนนี้ยังมีความร่วมมือกับ 2 ภาคส่วน คือมูลนิธิสากลเพื่อคนพิการเพื่อทำคำบรรยายแทนเสียงในการประชุมและห้องเรียน และสถานีโทรทัศน์ Thai PBS ในการทดสอบระบบเพื่อจะทำคำบรรยายแทนเสียงในสื่อโทรทัศน์

“สำหรับอุปสรรคของงานวิจัยนี้ปัญหาแรกคือการพัฒนาตัวระบบให้เจ้าหน้าที่ที่ศูนย์ถอดความสามารถทำงานได้ง่าย และการฝึกเจ้าหน้าที่ในการถอดความ เนื่องจากทักษะการถอดความและทักษะการพิมพ์ดีดจะไม่เหมือนกัน การพิมพ์ดีดคือการพิมพ์ตามข้อความที่เห็น แต่การถอดผ่านจะต้องผ่านกระบวนการคิดว่าคำๆ นี้ออกเสียงแบบนี้จะต้องสะกดแบบใด หรือประโยคนี้ควรรวบรัดออกมาเป็นประโยคใด" ดร.อนันต์ลดากล่าว

ส่วนปัญหาถัดมาคือเรื่องของการแสดงผล ซึ่ง ดร.อนันต์ลดากล่าวว่าทีมวิจัยได้พัฒนาและออกแบบการปล่อยตัวอักษรขึ้นจอ เนื่องจากว่าเจ้าหน้าที่ถอดความจะถอด ณ เวลาที่ใกล้เคียงกัน เมื่อคนที่หนึ่งพิมพ์แล้ว และคนที่สองเริ่มพิมพ์เมื่อปล่อยตัวอักษรที่คนที่สองพิมพ์ออกมาจะออกมาเป็นก้อน ดังนั้นจึงต้องมีระบบประมวลในการจัดการส่งตัวอักษรขึ้นที่หน้าจอให้ลื่นไหล โดยที่จะส่งขึ้นไปเป็นชุดคำ และยังมีเรื่องของการตัดคำระหว่างบรรทัด

"ปัญหาสุดท้ายคือ ทำอย่างไรให้ปลายทางสามารถได้ยินเสียงที่ต้นทางส่งมาได้เร็วที่สุด และเสียงที่แต่ละคนได้ยินต้องไม่เป็นเสียงที่ทิ้งห่างจากกัน เพราะทางทีมวิจัยใช้เวลาเป็นตัวกำหนด ตัวอย่างเช่นคนที่สองได้ยินเสียงช้าไป 1 วินาที จะทำให้คนที่สองถอดเสียงช้าไป 1 วินาที ดังนั้นจึงต้องควบคุมคุณภาพของเสียงและปล่อยเสียงให้พร้อมกัน ภายในศูนย์ถอดความเจ้าหน้าที่จะได้ยินเสียงเดียวกันหมด แต่ระบบจะบอกว่าช่วงเวลาไหนเป็นเสียงที่เจ้าหน้าที่คนไหนต้องถอด" ดร.อนันต์ลดากล่าว

ดร.อนันต์ลดากล่าวอีกว่า สวทช. มีแผนที่จะตั้งศูนย์ถอดความกลางให้ทุกๆ เครือข่ายสถานีโทรทัศน์หรือห้องเรียนสามารถมาลงชื่อเพื่อขอรับบริการได้ เพื่อให้ต้นทุนการแปลงเสียงเป็นอักษรของแต่ละสถานีโทรทัศน์ถูกลง โดยจะขยายกำลังเพื่อรองรับการให้บริการ และพยายามมองหาเทคโนโลยีเพื่อเข้ามาช่วยในการถอดความให้รวดเร็วแม่นยำยิ่งขึ้น โดยเนคเทคได้พัฒนาระบบรู้จำเสียงควบคู่กับระบบแบ่งพิมพ์ไปด้วย เพราะในอนาคตอาจลดจำนวนเจ้าหน้าที่จาก 4 คนเหลือ 3 คนและ 2 คนตามลำดับ
กำลังโหลดความคิดเห็น...