มารู้จักกับ Reinforcement Learning ขั้นต่อไปของการพัฒนา Generative AI

ตอนนี้โลกทั้งโลกหมุนไปพร้อมกับการทำให้ AI เป็นส่วนหนึ่งของชีวิตประจำวันอย่างหลีกเลี่ยงไม่ได้ ขนาดตอนเช้าผมขับรถมาทำงาน รายการข่าวทางวิทยุยังพูดถึงข่าวการพัฒนาการของ AI เกือบทุกวัน เราสามารถพูดได้ว่า ทิศทางของ AI เป็นการขับเคลื่อนภาคธุรกิจและชีวิตประจำวันของผู้คนที่สำคัญอย่างยิ่ง และมันจะมีบทบาทมากขึ้นทุก ๆ วันและจะมีความเหมือนมนุษย์มากขึ้นหลังจากนี้

การพัฒนา Generative AI ก็เริ่มเปลี่ยนไปอย่างเห็นได้ชัด เด็กรุ่นใหม่เลือกที่จะใช้ Generative AI ในการค้นหาข้อมูลแทนที่จะใช้ Google มากขึ้น ตัว Google Search เองก็เริ่มใช้ AI ในการตอบคำถามแบบ best optimization answer ด้านบนสุดก่อนที่จะตามมาด้วย result search list ตามปรกติ ถ้าสังเกตุลึกลงไปอีกก็จะเห็นว่าคำตอบที่ Generative AI ให้มามีความคล้ายกับคำตอบของมนุษย์มากขึ้น นี่เป็นเพราะ Generative AI มีการนำเทคนิค Reinforcement Learning from Human Feedback (RLHF) มาใช้เพื่อเพิ่มประสิทธิภาพและปรับปรุงคุณภาพของผลลัพธ์ให้สอดคล้องกับความต้องการและความคาดหวังของมนุษย์มากยิ่งขึ้น

อย่างไรก็ตาม Generative AI ยังต้องการ การเรียนรู้จากข้อมูลมหาศาลบน LLM อยู่ดี การที่จะพัฒนาระบบ AI ที่มีความเป็นมนุษย์มากขึ้นต้องเกิดจากการผสมผสานระหว่างการเรียนรู้จากข้อมูล (Data Driven AI) และการเพิ่มประสิทธิภาพของผลลัพธ์ (AI optimization) เพราะมนุษย์มีความสร้างสรรค์ และสามารถต่อยอดจากประสบการณ์ที่เคยได้รับในอดีต

  • “Data without optimization doesn’t allow us to solve new problems in new ways” (ข้อมูลที่ไม่มีการเพิ่มประสิทธิภาพไม่ช่วยให้เราแก้ปัญหาใหม่ๆ ในรูปแบบใหม่ได้)
  • “Optimization without data is hard to apply to the real world outside of simulators” (การเพิ่มประสิทธิภาพที่ไม่มีข้อมูลเป็นเรื่องยากที่จะนำไปใช้กับโลกแห่งความเป็นจริงภายนอกเครื่องจำลอง)
  • เรียกได้ว่าการผสมผสานระหว่าง Data กับ Optimization สามารถสร้างจินตนาการแบบมนุษย์ได้ แต่การที่จะไม่ทำให้การจินตนาการของ AI มันหลุดโลกจนเกินไป จำเป็นต้องได้รับการขัดเกลาจากมนุษย์ เหมือนนักเรียนที่ได้รับการอบรมจากคุณครูในชั้นเรียนว่าอะไรถูกอะไรผิดนั่นเอง

เหตุผลที่ RLHF มีความสำคัญและถูกมองว่าเป็นทิศทางหลัก:

  • การปรับปรุงความสอดคล้องกับมนุษย์ (Human Alignment): Generative AI ที่ได้รับการฝึกฝนด้วย RLHF มีแนวโน้มที่จะสร้างเนื้อหาที่ตรงกับความชอบ, ค่านิยม, และบริบททางวัฒนธรรมของมนุษย์ได้ดีขึ้นมาก ซึ่งเป็นสิ่งที่ทำได้ยากด้วยการฝึกฝนแบบ Supervised Learning เหมือนแต่ก่อนเพียงอย่างเดียว
  • การลดเนื้อหาที่เป็นอันตรายและไม่พึงประสงค์: RLHF ช่วยให้โมเดลเรียนรู้ที่จะหลีกเลี่ยงการสร้างเนื้อหาที่เป็นพิษ, เหยียดหยาม, หรือให้ข้อมูลที่ผิดพลาด โดยการรับ feedback จากมนุษย์เกี่ยวกับความเหมาะสมของเนื้อหา
  • การสร้างเนื้อหาที่ซับซ้อนและมีคุณภาพสูง: สำหรับงานที่ต้องการความคิดสร้างสรรค์, ความคิดเชิงวิพากษ์, หรือความเข้าใจในบริบทที่ซับซ้อน เช่น การเขียนบทความ, การสร้างเรื่องราว, หรือการตอบคำถามเชิงลึก RLHF ช่วยให้โมเดลสามารถสร้างผลลัพธ์ที่มีคุณภาพและน่าสนใจยิ่งขึ้น
  • การเพิ่มความสามารถในการโต้ตอบที่เป็นธรรมชาติ: ในแอปพลิเคชันอย่าง Chatbot และ Virtual Assistant RLHF ช่วยให้โมเดลสามารถสนทนาได้อย่างเป็นธรรมชาติ, เข้าใจความแตกต่างของภาษา, และตอบสนองต่อความต้องการของผู้ใช้ได้อย่างเหมาะสม
  • การเรียนรู้จากความชอบที่ละเอียดอ่อน: RLHF ช่วยให้โมเดลสามารถเรียนรู้จากความชอบของมนุษย์ที่ไม่สามารถระบุเป็นกฎเกณฑ์ที่ชัดเจนได้ เช่น ความน่าสนใจ, ความคิดสร้างสรรค์, หรือความเหมาะสมของสไตล์การเขียน

อย่างไรก็ตาม ยังมีความท้าทายบางประการในการใช้ RLHF:

  • ความซับซ้อนในการเก็บรวบรวม Feedback คุณภาพสูง: การได้มาซึ่ง feedback ที่สม่ำเสมอ, ครอบคลุม, และปราศจากอคติในปริมาณมากอาจเป็นเรื่องยากและมีค่าใช้จ่ายสูง หลาย ๆ ค่ายหันไปใช้เทคนิคอื่นในการให้ Feedback ที่คล้ายกันแต่ถูกกว่าแทน
  • การออกแบบ Reward Function ที่มีประสิทธิภาพ: การสร้าง reward function ที่สามารถสะท้อนความชอบของมนุษย์ได้อย่างแม่นยำและไม่นำไปสู่พฤติกรรมที่ไม่พึงประสงค์ของโมเดลเป็นสิ่งที่ท้าทาย เช่นการที่โมเดลหาวิธีการโกงเพื่อให้ได้คะแนน Reward เยอะ ๆ
  • ความเสี่ยงของอคติจากผู้ให้ Feedback: อคติที่มีอยู่ในตัวผู้ให้ feedback อาจถูกถ่ายทอดไปยังโมเดลได้
  • ความยากในการประเมินผลลัพธ์: การวัดผลสำเร็จของการใช้ RLHF และการเปรียบเทียบประสิทธิภาพระหว่างโมเดลที่ใช้และไม่ใช้ RLHF อาจเป็นเรื่องซับซ้อน

สรุป: แม้ว่าจะมี challenges อยู่อีกมาก แต่ RLHF ได้รับการพิสูจน์แล้วว่าเป็นเทคนิคที่มีประสิทธิภาพอย่างมากในการปรับปรุง Generative AI ให้เข้าใกล้ความต้องการของมนุษย์มากขึ้น ด้วยเหตุนี้ การวิจัยและพัฒนาเทคนิค RLHF ให้มีประสิทธิภาพและแก้ปัญหาต่างๆ ที่กล่าวมาจึงเป็นทิศทางที่สำคัญอย่างยิ่งในการพัฒนา Generative AI ในอนาคต

ความฝันอันสูงสุดของ AI Engineer ก็คือการทำให้ AI มีเจตจำนงเสรี (Free Will) เฉกเช่นมนุษย์ที่ได้รับการอบรมมาเป็นอย่างดี ทำให้รู้จักผิดชอบ ชั่วดี ในมุมมองของมนุษย์ วิธีที่จะทำให้ AI เป็นแบบนั้นได้ก็ต้องจำลองการเรียนรู้เลียนแบบมนุษย์ (Imitation Learning) กว่าเด็กน้อยคนหนึ่งที่ได้รับการสอนว่าอะไรถูก อะไรผิด จากในห้องเรียน จะสามารถรู้ได้ว่าเมื่อเจอสถานะการณ์ต่าง ๆ จะตัดสินใจอย่างไรได้ด้วยตัวเอง ต้องเจอทั้งบทลงโทษเมื่อตัดสินใจผิดพลาด (penalty) และได้รับคำชมหรือรางวัลเมื่อตัดสินใจได้ถูกต้อง (Reward) การเรียนรู้แบบ RL ก็ใช้หลักการเดียวกันนี้ในการอบรม AI จึงไม่น่าแปลกใจที่ Generative AI model หลาย ๆ ค่ายเริ่มหันมาใช้เทคนิค RLFH เมื่อเห็นว่า AI มีความพร้อมมากพอที่จะเข้าสู่หลักสูตรมนุษย์

จนกว่าจะถึงวันนั้นวันที่ AI จะมีความสามารถตัดสินใจได้เองเหมือนมนุษย์และสามารถต่อยอดความคิดสร้างสรรค์จากประสบการณ์ที่ได้เรียนรู้มาในอดีต โดยไม่ต้องการคำแนะนำจากมนุษย์อีกต่อไป ผมมองการพัฒนา AI จากนี้ด้วยความตื่นเต้นและคาดว่าคงอีกไม่ไกลจากนี้ เราคงจะเห็นพัฒนาการ AI ที่ก้าวกระโดอีกรอบแน่ ๆ

ถ้าใครอยากรู้จักกับ Reinforcement Learning Model ให้มากขึ้น ลองฟังบทสนทนาที่ผมสร้างขึ้นมาด้วย NotebookLM ฟีเจอร์ใหม่ของ Google Gemini ในการสร้างบทสนทนาแบบ Podcast ที่มีความคล้ายมนุษย์มากจากคลิปเสียงข้างล่างนี้นะครับ

Leave a comment