Deep Voice ทางออกของยุค Voice Interface

ทั้ง Siri, Google Home, Alexa หรือแอพและอุปกรณ์อื่นๆที่ใช้เสียงสั่งการทั้งหลาย กำลังเป็นที่นิยมแพร่หลายไปทั่วโลก และมีการคาดการณ์กันว่าภายในปี 2020 นี้ กว่า 50% ของการค้นหาข้อมูลจะทำผ่าน “เสียง” หรือการ “พูด” เพื่อถามคอมพิวเตอร์และอุปกรณ์เหล่านั้น

ทีนี้สิ่งที่จะตามมาก็คำ “คำตอบที่เป็นเสียง” เพราะเมื่อถูกถามด้วยเสียง คนถามก็คาดหวังว่าจะได้รับคำตอบเป็นเสียงกลับไปเช่นกัน ทีนี้แบรนด์ต่างๆก็พยายามจะหลีกหนีปัญหา “เสียงหุ่นยนต์” ที่ฟังดูไม่ค่อยเป็นผู้คนเดียวการใช้เสียงจริงๆของคนเตรียมไว้

แต่คำถามเป็นล้าน ก็ต้องการคำตอบที่เป็นล้านเช่นกัน แล้วจะทำยังไงให้ได้ “เสียง” ที่ต้องการทั้งหมดเก็บไว้

Baidu เลยสร้างระบบที่มีชื่อว่า Deep Voice ที่สามารถให้คอมพิวเตอร์นั้นเลียนเสียงเป็นใครก็ได้ และมีสำเนียงแบบไหนก็ได้ เพียงแค่เอาเจ้าของเสียงต้นทางมาพูดใส่ระบบแค่นาทีนิดๆ เพียงเท่านี้ก็เหมือนมีคนจริงๆพูดคุยกันอยู่อีกฝั่งของปลายสายแล้ว

ลองดูคลิปตัวอย่างของสตาร์อัพเมื่อปีก่อนจากทีมนักเรียนนักศึกษาในมหาวิทยาลัยมอนทรีอัล ที่ทำระบบ ai ในการเลียนเสียงนักการเมืองดังของอเมริกาสามคนสลับไปมาดูนะครับ

เมื่อเราไม่ต้องเรียนภาษาคอม กลับกลายเป็นคอมที่ต้องเรียนภาษาเรา ใครที่สอนให้คอมพูดและเข้าใจภาษาเราได้เก่งที่สุด ก็จะเป็นผู้ชนะในเกมส์นี้ไป

ลองดูคลิปการพูดด้วยเสียงเลียนแบบจากนักการเมืองสามคนได้ที่ลิงก์นี้ครับ
https://www.youtube.com/watch?v=Y-n0UXIoU5c

หรือคนที่สนใจข้อมูลเชิงลึกของ Deep Voice ของ Baidu ลองเข้าไปศึกษาเพิ่มเติมได้ที่ลิงก์นี้ครับ
http://research.baidu.com/neural-voice-cloning-samples/