มิติใหม่ของการแปล! NVIDIA Maxine แค่พูดก็เนียนเหมือนเจ้าของภาษา

มิติใหม่ของการแปลภาษา แปลแบบเรียลไทม์ยังไม่พอ เทคโนโลยี AI ตัวนี้ยังสามารถปรับเสียงของผู้พูด การขยับใบหน้า และเสียงพูดออกมาได้เนียนเหมือนภาษาที่ต้องการ

แปลภาษาแบบธรรมดา ๆ ไม่พอแล้วสมัยนี้ ล่าสุด NVIDIA พัฒนาฟีเจอร์ตัวใหม่บน NVIDIA Maxine ซึ่งนอกจากจะใช้แปลภาษาได้แบบเรียลไทม์ชนิดที่ว่าพูดปุ๊บ แปลปั๊บ ยังสามารถปรับภาพการแสดงผลบนวิดีโอคอลของเราให้ขยับปากตามคำแปลภาษาพูดนั้น ๆ ได้ และแปลเสียงพูดของเราให้พูดออกมาได้หลากหลายภาษาอีกด้วย

ภาพจาก nvdia

สำหรับเทคโนโลยี AI ตัวนี้อยู่ใน NVIDIA Maxine เป็นชุดเครื่องมือหรือแพลตฟอร์มของเทคโนโลยีที่ช่วยปรับปรุงภาพในการประชุมวิดีโอคอลต่าง ๆ ด้วยการพัฒนาซอฟต์แวร์ โดยนักพัฒนาสามารถใช้ความสามารถของ AI มาช่วยพัฒนาแอปพลิเคชันหรือการวิดีโอคอลได้ และข้อดีของของระบบนี้คือทำงานบนคลาวด์ โดยใช้ GPU ของ Nvidia เอง และทำการเพิ่มประสิทธิภาพในด้านต่าง ๆ ด้วยการเสริม AI เข้าไปในระบบ ดังนั้นผู้ใช้งานจะสามารถใช้ฟีเจอร์ใหม่ ๆ นี้ได้สะดวกมากขึ้น

ซึ่งฟีเจอร์ล่าสุด มีชื่อว่า NVIDIA Maxine Reinvents Real-Time Communication With AI คือการปรับปรุงและใช้ความสามารถของ AI ในการแปลภาษาแบบเรียลไทม์ ซึ่งล้ำไปถึงระดับที่ว่า เราสามารถพูดเป็นภาษาของเราปกติ โดยที่ตาเหลือบมองกระดาษด้านล่าง ไม่ได้มองกล้องตรง ๆ

ภาพจาก nvdia

แต่ AI จะช่วยปรับให้ภาพที่ออกมาดูเหมือนว่าเรากำลังมองกล้องอยู่ และเสียงพูดของเราที่ออกไปก็จะกลายเป็นเสียงของเราที่พูดในภาษาอื่นตามที่เลือกไว้ เช่น ภาษาฝรั่งเศส ภาษาเยอรมัน แบบไม่ต้องรอแปล ไม่ต้องทิ้งจังหวะพูด ก็สามารถแปลได้ทันทีเหมือนเราพูดได้หลายภาษาจริง ๆ

ซึ่งก่อนหน้านี้ NVIDIA Maxine เคยมีฟีเจอร์ที่ช่วยปรับปรุงคุณภาพของการประชุมผ่านวิดีโอ (Video Conference) มาแล้วเช่น การปรับใบหน้าของผู้สนทนาให้ดูเหมือนมองกล้องตลอดเวลา การลดแบนด์วิดท์ของวิดีโอลง และฟีเจอร์อื่น ๆ เช่น Autoframe, Virtual Background, การตัดเสียงรบกวนรอบข้าง, เพิ่มพื้นหลังเสมือนจริง ทั้งหมดนี้ก็เพื่อให้การประชุมวิดีโอคอลของเราทำได้ดีและใช้งานได้อย่างหลากหลายมากขึ้น