รู้หรือไม่ AI จากเจ้าไหน เล่นเกมมาริโอ้ได้เก่งที่สุด

นักวิจัยจาก Hao AI Lab จากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก สหรัฐอเมริกา ได้นำเกมคลาสสิกอย่างเกมซูเปอร์มาริโอ้บราเธอร์ (Super Mario Bros.) มาใช้เป็นเกณฑ์มาตรฐานใหม่ในการทดสอบ AI โดยนักวิจัยอยากทำความเข้าใจและทดสอบความสามารถในการเรียนรู้และการวางแผน การตอบสนองของ AI ในเกมที่จำเป็นต้องใช้การตัดสินใจอย่างรวดเร็ว

รู้หรือไม่ AI จากเจ้าไหน เล่นเกมมาริโอ้ได้เก่งที่สุด

สรุปข่าว

นักวิจัยจาก Hao AI Lab แห่งมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก ได้นำเกม Super Mario Bros. มาใช้เป็นเกณฑ์มาตรฐานใหม่ในการทดสอบ AI โดยใช้โปรแกรมจำลองร่วมกับเฟรมเวิร์ก GamingAgent เพื่อให้ AI สร้างโค้ดภาษา Python สำหรับควบคุมตัวละครมาริโอ้ โดยทดสอบกับโมเดล AI ชั้นนำ เช่น Claude 3.7, Claude 3.5, Gemini 1.5 Pro และ GPT-4o ซึ่งพบว่า Claude 3.7 ทำผลงานได้ดีที่สุด ขณะที่ GPT-4o ทำได้แย่กว่าอย่างเห็นได้ชัด การศึกษานี้เผยให้เห็นว่าโมเดลที่ให้เหตุผลได้ดี เช่นของ OpenAI อาจมีข้อเสียเมื่อต้องตัดสินใจแบบเรียลไทม์ เนื่องจากความล่าช้าในการประมวลผล ซึ่งเป็นปัจจัยสำคัญในการเล่นเกม นักวิจัยชี้ว่าแม้การใช้เกมเป็นเกณฑ์วัด AI จะมีข้อจำกัด แต่ก็เป็นเครื่องมือที่ช่วยประเมินความสามารถในการวางแผนและตอบสนองต่อสถานการณ์ที่เปลี่ยนแปลงอย่างรวดเร็วได้อย่างมีประสิทธิภาพ

อย่างไรก็ตามการทดสอบนี้ ไม่ได้ใช้เกมซูเปอร์มาริโอ้บราเธอร์ (Super Mario Bros.) เวอร์ชันดั้งเดิม แต่เป็นการใช้โปรแกรมจำลองที่ผสานรวมกับเฟรมเวิร์ก GamingAgent หรือ การสร้างตัวแทน (Agent) ที่สามารถเล่นเกมได้โดยอัตโนมัติ ซึ่งได้พัฒนาขึ้นเอง 

โดยนักวิจัยจาก Hao AI Lab จากมหาวิทยาลัยแคลิฟอร์เนีย ทดลองโดยการให้ GamingAgent ป้อนคำสั่งในเกมให้กับ ปัญญาประดิษฐ์ AI จากนั้นปัญญาประดิษฐ์ AI จะสร้างโค้ดภาษาไพทอน (Python) เพื่อควบคุมตัวละครมาริโอ้ในการเล่นเกม

โดยนักวิจัยได้ทดลองใช้ปัญญาประดิษฐ์ AI ทั้งสิ้น 3 ตัวด้วยกัน ที่เป็นที่รู้จัก มาเป็นตัวแทนในการเล่นเกมซูเปอร์มาริโอ้บราเธอร์ (Super Mario Bros.) ซึ่งก็คือ Claude 3.7 Claude 3.5 Gemini 1.5 Pro และ GPT-4o 

จากผลการทดสอบพบว่า Claude 3.7 ของ Anthropic ทำผลงานได้ดีที่สุด ตามมาด้วย Claude 3.5 ในขณะที่ Gemini 1.5 Pro ของ Google และ GPT-4o ของ OpenAI ทำผลงานได้ไม่ตรงตามที่คาดหวัง

โดยนักวิจัยจาก Hao AI Lab จากมหาวิทยาลัยแคลิฟอร์เนียกล่าวว่า เกมนี้บังคับให้แต่ละโมเดลเรียนรู้ ที่จะวางแผนการเคลื่อนที่ที่ซับซ้อนและพัฒนากลยุทธ์การเล่นเกม แต่สิ่งที่น่าสนใจจากการทดลองนี้ คือทำให้นักวิจัยเห็นว่าโมเดลการให้เหตุผล เช่น o1 ของ OpenAI ซึ่งโดยปกติจะทำได้ดีในเกณฑ์มาตรฐาน กลับทำได้แย่กว่าโมเดลที่ไม่ให้เหตุผล อย่างเช่น Claude 

ซึ่งเหตุผลที่เป็นเช่นนี้เพราะปัญญาประดิษฐ์ AI อาจใช้เวลาในการตัดสินใจนานเกินไป แต่สำหรับการเล่นเกมที่เวลาเป็นสิ่งสำคัญอย่างซูเปอร์มาริโอ้บราเธอร์สแล้ว การตัดสินใจช้าเพียงเสี้ยววินาที อาจนำไปสู่ความพ่ายแพ้ได้

การใช้เกมเป็นเกณฑ์มาตรฐานสำหรับการวัดประสิทธิภาพของปัญญาประดิษฐ์ AI เช่นการทดลองในครั้งนี้ไม่ใช่เรื่องใหม่ แต่สำหรับประเด็นนี้มีผู้เชี่ยวชาญตั้งคำถามถึงความเหมาะสมเช่นกัน เพราะอย่างไรก็ตามเกมก็มีความแตกต่างกับโลกความเป็นจริง เพราะปัจจัยความซับซ้อนในการตัดสินใจที่เกมจะมีความตรงไปตรงมาและเรียบง่ายกว่าการตัดสินใจในโลกความเป็นจริง

avatar

Peerapat Chuejeen
(Peerapat)