Continual Harness ทำให้ agent ปรับตัวเองระหว่างงาน — น่าสนใจมาก แต่ต้องมีเบรก
สารบัญ
สรุปให้ไว
Continual Harness คือ self-improving agent loop
agent วิเคราะห์ failure แล้วปรับระบบระหว่างงาน
มี prompt, memory, skill, sub-agent
ไม่ใช่แค่ตอบหนึ่งรอบแล้วจบ
ตัวอย่างมาจาก game environment
ใช้เป็น research signal ก่อนโยงไปงานจริง
ต้องมี safety gate
self-modification ที่ไม่มี log/rollback เสี่ยงมาก
01มันคืออะไร
Continual Harness ถูกพูดถึงในฐานะแนวทางให้ AI agent เรียนรู้ระหว่างทำงานต่อเนื่อง แทนที่จะรัน task, fail, ให้คนแก้ prompt แล้วเริ่มใหม่
ในตัวอย่างที่อธิบาย ระบบเล่นเกมไปพร้อมกับวิเคราะห์ความผิดพลาดของตัวเอง ปรับ system prompt, สร้างหรือแก้ sub-agent, สร้าง reusable skills และเก็บ persistent memory ของสิ่งที่เรียนรู้
แก่นของมันคือ agent ไม่ได้แค่ทำ task แต่ปรับ harness รอบตัวเองให้ทำ task ดีขึ้นในรอบถัดไป
02ทำไมเรื่องนี้ทั้งน่าสนใจและน่ากังวล
ด้านดีคือ agent ที่เรียนรู้จาก failure ได้เองอาจช่วยงานยาว ๆ ที่คนไม่อยาก babysit ตลอด เช่น navigation, coding workflow, robot task หรือการใช้ software ซับซ้อน
แต่ด้านเสี่ยงคือ self-modification ถ้า agent แก้ prompt, memory หรือ tool ของตัวเองผิด มันอาจทำให้ performance แย่ลงเป็นลูกโซ่ หรือยิ่งมั่นใจในสมมติฐานผิดของตัวเอง
แหล่งข้อมูลยังพูดถึง capability threshold: ถ้าโมเดลยังไม่เก่งพอ การปรับตัวเองอาจทำให้แย่ลง แต่ถ้าข้าม threshold แล้ว loop อาจยิ่งดีขึ้นเรื่อย ๆ นี่คือจุดที่ต้องมี safety design จริงจัง
Guardrail สำหรับ self-improving agents
- ★
Change log
agent แก้ prompt, memory หรือ tool อะไร ต้องบันทึก
- ★
Rollback
ถ้า performance แย่ ต้องย้อน version ได้
- ★
Evaluation set
ต้องมี test วัดว่าดีขึ้นจริงหรือแค่ดูดีขึ้น
- ★
Permission boundary
ห้าม self-modify สิทธิ์หรือ secret access เอง
- ★
Human approval
การเอา skill ใหม่ไปใช้กับงานจริงต้องผ่านคน
03เกี่ยวอะไรกับเรา
ฟันธง: Continual Harness เป็น research direction ที่ควรจับตา แต่ยังไม่ควรเอาแนว self-improvement ไปใช้กับระบบธุรกิจจริงแบบไม่มีกรอบตรวจ
ถ้าจะทดลอง ให้เริ่มใน sandbox task เช่นเกม, simulation, coding kata หรือ repo demo ที่ไม่มีข้อมูลสำคัญ แล้วให้ agent เก็บ change log ทุกครั้งที่มันปรับตัวเอง
AI agent ที่เรียนรู้ต่อเนื่องจะมีประโยชน์มากเมื่อมันตรวจสอบได้ แต่ถ้าไม่มี Human Gate มันจะกลายเป็นระบบที่เปลี่ยนตัวเองไปเรื่อย ๆ จนไม่มีใครรู้ว่าทำไมมันถึงตัดสินใจแบบนั้น