'Riffusion' โมเดล AI แต่งเพลงจากข้อความและภาพให้เป็นเสียงดนตรี

26 ธ.ค. 2022

01:33 น

Tech

'Riffusion' โมเดล AI แต่งเพลงจากข้อความและภาพให้เป็นเสียงดนตรี

สรุปข่าว

โมเดลริฟฟิวชัน (Riffusion) เป็นโปรเจกต์ที่พัฒนาจากงานอดิเรกของเซท ฟอร์สเกรน (Seth Forsgren) และเฮก มาร์ติรอส (Hayk Martiros) ผู้มีความชื่นชอบในเสียงดนตรีและเทคโนโลยีในเวลาเดียวกัน จึงได้สร้างโมเดล AI ขึ้นมาเพื่อสร้างภาพแทนเสียงแล้วแปลงเป็นดนตรี โดยได้นำระบบปัญญาประดิษฐ์แบบสเตเบิล ดิฟฟิวชัน (Stable Diffusion) หนึ่งในปัญญาประดิษฐ์ชื่อดังที่สามารถวาดภาพได้ตามข้อความบรรยายที่ถูกป้อนให้มันเช่นเดียวกับระบบ AI ชื่อดัง DALL-E และ Midjourney มาใช้งานในโปรเจกต์ของพวกเขา เพื่อวิเคราะห์ข้อความและรูปภาพก่อนที่จะแปลงเป็นเสียงดนตรี

โดยโมเดล AI ได้ทำงานโดยสร้างโซโนแกรม (Sonogram) ซึ่งเก็บเสียงไว้ในภาพ 2 มิติ ซึ่งในภาพโซโนแกรม (Sonogram) จะมีการแทนที่แกน X ด้วยเวลา (ลำดับความถี่ที่เล่น จากซ้ายไปขวา) และแกน Y แทนความถี่ของเสียง ในขณะเดียวกัน สีของภาพในแต่ละพิกเซลจะแสดงให้เห็นความถี่ของเสียง (Amplitude) ในแต่ละช่วงเวลา

โซโนแกรม (Sonogram) เป็นรูปภาพประเภทหนึ่ง จึงสามารถใช้ระบบปัญญาประดิษฐ์ (AI) แบบสเตเบิล ดิฟฟิวชัน (Stable Diffusion) มาใช้ประมวลผลได้ โดยฝึกฝนโมเดลแบบกำหนดเองให้เรียนรู้ตัวอย่างโซโนแกรม (Sonogram) ที่เชื่อมโยงกับคำอธิบายของเสียงหรือแนวดนตรีที่เป็นตัวแทน

การเรียนรู้ดังกว่าจะทำให้โมเดลริฟฟิวชัน (Riffusion) สามารถสร้างเพลงใหม่ได้ทันทีโดยอิงจากข้อมูลตามประเภทของเพลงหรือเสียงที่ต้องการ เช่น "แจ๊ส" "ร็อก" หรือเสียงการพิมพ์บนคีย์บอร์ด เป็นต้น หลังจากได้สร้างภาพโซโนแกรม (Sonogram) โมเดลริฟฟิวชัน (Riffusion) จะใช้โปรแกรมทอร์ชออดิโอ (Torchaudio) มาใช้เพื่อเปลี่ยนภาพโซโนแกรม (Sonogram) ให้กลายเป็นเสียงดนตรี

ผู้ที่สนใจสามารถเยี่ยมชมเว็บไซต์ Riffusion.com เพื่อทดลองใช้งานโมเดล AI บนเว็บแอปสำหรับสร้างโซโนแกรม (Sonogram) แบบเรียลไทม์ นอกจากนี้ ผู้ใช้งานยังสามารถรวมแนวเพลงหลาย ๆ สไตล์เข้าไว้ด้วยกันได้ เช่น การพิมพ์ "เพลงแจ๊สแนวทรอปิคัลแดนซ์" โดยโมเดลจะนำองค์ประกอบของแนวเพลงต่างๆ มารวมกันเพื่อสร้างผลลัพธ์ที่แปลกใหม่

โมเดลริฟฟิวชัน (Riffusion) ไม่ใช่โมเดลระบบปัญญาประดิษฐ์ (AI) ตัวแรก เมื่อต้นปีที่ผ่านมา บริษัท ฮาร์โมนี (Harmonai) ได้เปิดตัวโมเดลแดนซ์ ดิฟฟิวชัน (Dance Diffusion) โมเดลที่ใช้ในการสร้างเสียงเพลง และโมเดลเอไอ จู๊กบ๊อกซ์ (AI Jukebox) ของบริษัท โอเพ่นเอไอ (OpenAI) ที่เปิดตัวในปี 2020 และเว็บไซต์ซาวนด์รอว์ (Soundraw) ที่สามารถสร้างเสียงเพลงได้แบบไม่มีวันหยุด

หากเปรียบเทียบกันแล้ว โมเดลริฟฟิวชัน (Riffusion) ให้ความรู้สึกเหมือนเป็นโปรเจกต์งานอดิเรกมากกว่า เพลงที่ถูกสร้างขึ้นมาด้วยโมเดล AI นั้นมีตั้งแต่ผลงานที่น่าสนใจไปจนผลงานเพลงที่ยังฟังไม่ค่อยเข้าใจ แต่ไม่ว่าอย่างไรโมเดล AI ตัวนี้ก็เป็นผลงานที่เป็นแรงบันดาลใจในการสร้างสรรค์และคิดค้นผลงานดนตรีใหม่ ๆ

ที่มาของข้อมูล Arstechnica

ที่มาของรูปภาพ Riffusion

ที่มาข้อมูล : -

ที่มารูปภาพ :

แท็กบทความ

information

technology

riffusions

generates

music

sonograms

tnntechreports techreports

'Riffusion' โมเดล AI แต่งเพลงจากข้อความและภาพให้เป็นเสียงดนตรี

Video