Call Me Thanut
clockอัปเดต

Codex เพิ่มโหมด goals — สั่งเป้าหมายแล้วให้ AI รันงาน coding เองยาวๆ จนถึงเกณฑ์ที่ตั้งไว้

10 พ.ค. 2026อ่าน 4 นาที
Codex เพิ่มโหมด goals — สั่งเป้าหมายแล้วให้ AI รันงาน coding เองยาวๆ จนถึงเกณฑ์ที่ตั้งไว้
สารบัญ

สรุปให้ไว

ตั้งเป้าแล้วปล่อยให้ลุยเอง

Codex เพิ่มฟีเจอร์ทดลอง goals (`/goal`) ให้ตั้งเป้าหมาย + เกณฑ์ความสำเร็จ แล้วให้ AI รันงาน coding ต่อเนื่องเอง

เป็น Ralph loop ที่ฉลาดขึ้น

เก็บไฟล์ continuation/budget เอง สรุปงานเมื่อใกล้ token cap audit ผลงาน และรองรับ pause/แก้/กู้คืนหลัง crash

รันได้ยาวจริง

มีรายงานผู้ใช้รัน goals ต่อเนื่อง 9 ชม. ถึง 3 วัน เปิดใช้ผ่าน config.toml (`[features] goals = true`)

รันนาน ≠ งานดี

ต้องมีเกณฑ์ตรวจวัดได้และจุดที่คนเข้าไปตรวจ (Human Gate) ไม่ใช่ดูแค่ว่ามันทำงานนานแค่ไหน

01goals คืออะไร — ตั้งเป้า + เกณฑ์สำเร็จ

ปกติเวลาเราสั่งงาน coding agent คือสั่งทีละ task แล้วคอยป้อนคำสั่งถัดไปเรื่อย ๆ แต่ goals เปลี่ยนวิธีคิดตรงนี้ — แทนที่จะสั่งทีละก้าว เราตั้ง "เป้าหมาย" หนึ่งอันให้ชัด พร้อม "เกณฑ์ความสำเร็จ" ว่าแบบไหนถึงเรียกว่าจบ แล้วปล่อยให้ Codex เดินไปหาเป้าหมายนั้นเอง

ให้นึกภาพง่าย ๆ ว่า goal คือการบอกปลายทางกับเงื่อนไขว่า "ถึงแล้ว" หน้าตาเป็นยังไง แทนที่จะคอยบอกทางเลี้ยวทีละโค้ง ฟีเจอร์นี้ยังเป็นของทดลอง (experimental) เปิดใช้ผ่าน config.toml ด้วยการตั้งค่า `[features] goals = true` แล้วเรียกใช้ผ่านคำสั่ง `/goal` โดยแต่ละ goal จะผูกอยู่กับ chat/thread เดียว ไม่กระจายไปปนกับงานอื่น

จุดสำคัญที่ต้องจับไว้คือ "เกณฑ์ความสำเร็จ" ไม่ใช่ของแถม แต่เป็นหัวใจของโหมดนี้ ถ้าเราตั้งเป้าลอย ๆ โดยไม่บอกว่าแบบไหนถึงเรียกว่าผ่าน AI ก็ไม่มีเส้นชัยให้วิ่งเข้า — งานนี้จึงเริ่มที่การเขียนเป้าหมายและเกณฑ์ให้ชัดตั้งแต่แรก

02ทำงานยังไง — smarter Ralph loop, pause/แก้/กู้คืน

เบื้องหลัง goals ถูกอธิบายว่าเป็น "Ralph loop" ที่ฉลาดขึ้น — Ralph loop คือการให้ AI วนทำงานเป็นรอบ ๆ ไปเรื่อย ๆ จนกว่าจะถึงเป้า สิ่งที่ทำให้รอบนี้ต่างคือมันจัดการตัวเองได้มากขึ้น: เก็บไฟล์ continuation และ budget ของตัวเอง สรุปงานที่ทำไปแล้วเมื่อใกล้ชน token cap เพื่อไม่ให้ลืม context เดิม และ audit ผลงานของตัวเองระหว่างทาง

อีกเรื่องที่ทำให้ใช้งานจริงได้คือมันรองรับ pause แก้ไข แล้วกู้คืนได้ รวมถึงกู้คืนหลัง crash ด้วย แปลว่าระหว่างที่ปล่อยให้รันยาว ๆ เราเข้าไปแทรกได้ ไม่ใช่กดสั่งแล้วต้องลุ้นยาวจนจบรอบเดียว ส่วนเรื่องระยะเวลา มีรายงานผู้ใช้รัน goals ต่อเนื่องตั้งแต่ 9 ชั่วโมงไปจนถึง 3 วัน

ฝั่งเดโมที่ออกมาให้เห็นภาพคืองานสร้างเกม 2D โดยดึง asset จาก GPT Image 2 มาใช้ และทดสอบด้วย Playwright ซึ่งสะท้อนว่า loop นี้ไม่ได้เขียนโค้ดอย่างเดียว แต่ครอบไปถึงการหา asset และรันเทสต์เพื่อตรวจงานตัวเองในรอบเดียวกัน

สรุปสิ่งที่ goals ทำได้รอบนี้

  • ตั้งเป้าหมาย + เกณฑ์ความสำเร็จ

    สั่งปลายทางพร้อมเงื่อนไขว่าแบบไหนเรียกว่าจบ แล้วให้ AI รันงาน coding เอง

  • เปิดใช้ผ่าน config.toml

    ตั้งค่า `[features] goals = true` แล้วเรียกผ่านคำสั่ง `/goal` (ยังเป็นฟีเจอร์ทดลอง)

  • 1 goal ต่อ 1 thread

    แต่ละ goal ผูกกับ chat/thread เดียว ไม่ปนกับงานอื่น

  • จัดการ budget เอง

    เก็บไฟล์ continuation/budget สรุปงานเมื่อใกล้ token cap

  • audit ผลงานตัวเอง

    ตรวจงานระหว่างทาง ไม่ใช่รันรวดเดียวจบ

  • pause / แก้ / กู้คืน

    แทรกแก้ระหว่างทางได้ และกู้คืนต่อหลัง crash

  • รันยาวต่อเนื่อง

    มีรายงานรัน 9 ชม. ถึง 3 วัน

  • ครอบงานหลายขั้น

    เดโมสร้างเกม 2D ดึง asset จาก GPT Image 2 + ทดสอบด้วย Playwright

03เกี่ยวอะไรกับเรา

"ตั้งเป้าแล้วปล่อยให้ AI ลุยเอง" คือทิศทางใหม่ของ coding agent ที่น่าตื่นเต้นจริง — แต่ขอย้ำจุดที่คนทำงานต้องไม่หลงตาม: รันนานไม่ได้แปลว่างานดี การที่ agent รันต่อเนื่อง 9 ชม. หรือ 3 วันฟังดูว้าว แต่ตัวเลขเวลาไม่ใช่ตัววัดคุณภาพงาน มันบอกแค่ว่า loop ยังไม่หยุด ไม่ได้บอกว่าผลที่ออกมาใช้ได้จริง

สิ่งที่ตัดสินว่างานดีหรือไม่คือ "เกณฑ์ตรวจวัดได้" ที่เราตั้งไว้ตั้งแต่ต้น และจุดที่คนต้องเข้าไปตรวจเองก่อนเอาไปใช้ — Human Gate คือจุดที่คนต้องตรวจ ไม่ปล่อยให้ AI ตัดสินใจแทนทั้งหมด ยิ่งงานที่รันยาวและทำหลายขั้นแบบนี้ ยิ่งต้องมีเกณฑ์ชัดว่า "ผ่าน" หน้าตาเป็นยังไง ไม่งั้นเราจะได้กองงานที่ดูเยอะแต่ไม่รู้ว่าตรงสเปกไหม

ฟันธงสำหรับตอนนี้: น่าลองในงานที่เสี่ยงต่ำและตรวจง่าย — งานทดลอง งาน prototype หรืองานที่เรามีชุดเทสต์ไว้วัดผลอยู่แล้ว เพราะมันเป็นฟีเจอร์ทดลอง ตั้งเป้าให้แคบ เขียนเกณฑ์ความสำเร็จให้วัดได้ด้วยตา (หรือด้วยเทสต์) แล้ววาง Human Gate ไว้ก่อนเอาผลไปใช้จริงทุกครั้ง อย่าเพิ่งเอาไปปล่อยยาวกับงานบริษัทหรือ codebase ที่พังแล้วเดือดร้อน — ให้เริ่มจากงานที่ถ้าพลาดก็แค่ทิ้งแล้วรันใหม่