ponytail ภาคต่อ — เทสต์อิสระชี้ Opus 4.8 ประหยัด 53% เร็วขึ้น 71% แตะ 40,000 ดาวใน 7 วัน
สารบัญ
สรุปให้ไว
ยิ่งโมเดลแพงยิ่งคุ้ม
เทสต์อิสระบน Opus 4.8: โค้ดน้อยลง 71%, ค่าใช้จ่ายลด 53%, เร็วขึ้นถึง 88%
ตัวเลขของ repo รันบน Haiku
Haiku ได้ ~56% โค้ดน้อยลง, ~25% ถูกลง, ~31% เร็วขึ้น (บางเคสช้าลง)
โตเร็วมาก
แตะราว 40,000 ดาวบน GitHub ใน ~7 วันหลังปล่อย
บันไดตัดสินใจ 6 ขั้น
แต่ไม่ตัดเรื่องความปลอดภัย/การกันข้อมูลหาย/accessibility ทิ้ง
01ใหม่ตรงไหนจากรอบแรก
ตอน ponytail เป็นข่าวครั้งแรก ตัวเลขที่อ้างยังเป็นของในรีโป รอบนี้ของใหม่คือมีคนรันเบนช์มาร์กซ้ำเองแบบอิสระ และพบประเด็นที่น่าสนใจ ตัวเลขที่รีโปเผยแพร่นั้นรันบน Haiku 4.5 แต่พอเอามารันบน Opus 4.8 ซึ่งเป็นโมเดลที่คนใช้จริงมากกว่า ผลกลับดีกว่าเยอะ ฝั่งจำนวนบรรทัดโค้ด รีโปบอกลดลง 54% เมื่อรันเอง Haiku ได้ราว 56% แต่ Opus ได้ถึง 71%
ฝั่งค่าใช้จ่ายชัดยิ่งกว่า Haiku ประหยัดราว 25% ขณะที่ Opus ประหยัดราว 53% มีงานหนึ่งที่ตกจากราว 139 ดอลลาร์เหลือราว 38 ดอลลาร์ ส่วนความเร็ว Haiku เร็วขึ้นราว 31% และมีสามเคสที่ช้าลง แต่ Opus เร็วขึ้นทุกเคส สูงสุดถึงราว 88% เหตุผลคือโมเดลที่แรงกว่ามักพูดเยอะและชอบสร้างของขึ้นใหม่เองทั้งที่ไม่จำเป็น พอตัดส่วนนี้ออกจึงได้ประโยชน์มากสุด ทั้งนี้รีโปยังแตะราว 40,000 ดาวบน GitHub ภายในราว 7 วันหลังปล่อย
02โมเดลเล็กกลับไม่ค่อยได้ประโยชน์
อีกประเด็นจากการทดสอบคือผลไม่ได้ดีกับทุกโมเดล ในบางงาน โมเดลเล็กและถูกอย่าง Haiku 4.5 กลับมีค่าใช้จ่ายสูงขึ้นเล็กน้อยเมื่อใช้ ponytail เช่น งานนับรายการที่แพงขึ้นราว 21% แม้จะเป็นเงินแค่ไม่กี่เซนต์ก็ตาม
เหตุผลคือโมเดลเล็กมัก "ตรงและสั้น" อยู่แล้ว เลยไม่ค่อยมีความเยอะให้ตัด ขณะที่โมเดลแรงกว่าชอบสร้างของขึ้นใหม่เองทั้งที่มีอยู่แล้ว ยิ่งโมเดลแรง สถาปัตยกรรมแบบนี้ยิ่งได้ผล สรุปคือถ้าจะใช้ ponytail ให้คุ้ม ควรจับคู่กับโมเดลแพงเป็นหลัก
ponytail ทำงานยังไง
- ★
บันได 6 ขั้นก่อนเขียนโค้ด
สิ่งนี้ต้องมีไหม / standard library ทำได้ไหม / มีฟีเจอร์ในแพลตฟอร์มอยู่แล้วไหม / มี dependency ติดตั้งอยู่แล้วไหม / เป็น one-liner ได้ไหม / ถ้าจำเป็นจริงค่อยเขียนขั้นต่ำที่ใช้ได้
- ★
ไม่ตัดของสำคัญทิ้ง
เรื่องความปลอดภัย การตรวจ trust boundary การกันข้อมูลหาย และ accessibility ไม่เคยถูกตัด
- ★
มีโหมดและเครื่องมือ
light / full / ultra / off พร้อมสกิล review, audit, debt, gain, help
- ★
ติดตั้งง่าย
คำสั่งเดียว เสียบเข้า Claude Code, Codex หรือ agent อื่นได้
03เกี่ยวอะไรกับเรา
ของต่อยอดจากข่าว ponytail รอบแรก ประเด็นใหม่ที่ใช้ได้จริงคือยิ่งคุณใช้โมเดลแพง เช่น Opus หรือ Fable ยิ่งคุ้ม เพราะโมเดลแรง ๆ ชอบเขียนโค้ดเกินจำเป็น สำหรับคนไทยที่จ่ายค่า token แพง ๆ อยู่ การตัดความเยอะนี้ออกแปลว่าประหยัดได้จริงครึ่งหนึ่งในบางงาน
ฟันธง: ลอง — มันเป็นของฟรี เป็นสกิลที่ลองแล้วแทบไม่มีข้อเสีย กรณีแย่สุดคือบางโปรเจกต์ที่ซับซ้อนมากการสั่งให้กระชับอาจไม่ช่วย ก็แค่ปิดไป จุดที่ควรรู้ตามที่มีคนวิจารณ์ (Colin Eberhart) คือแก่นของมันคล้ายการสั่งโมเดลว่า "follow YAGNI" ที่แพ็กมาให้ดี ส่วนที่เพิ่มจริงคือเครื่องมือ audit/review และ debt ledger ที่ช่วยตามว่าอะไรถูกข้ามไปและทำไม
โปรเจกต์ open-source
อยากลองเองไหม? โปรเจกต์นี้เป็น open-source โหลด repo ทางการมาลองได้เลย
ดูบน GitHub → →