ทดสอบ Sakana Fugu จริง — มันคือ "ตัวจัดคิวโมเดล" ไม่ใช่โมเดลใหม่ที่ล้ม Fable
สารบัญ
สรุปให้ไว
มันคือ router ไม่ใช่โมเดล
ผลทดสอบอิสระชี้ว่า Fugu คือชั้นออร์เคสเตรเตอร์ที่ส่งงานไปหาโมเดลแรงที่มีอยู่แล้ว ไม่ใช่โมเดลฐานตัวใหม่
benchmark ชนะบ้างแพ้บ้าง
เก่งบางตัวแบบเฉียดฉิว แต่แพ้ชัดบน SWE-Bench Pro และ Humanity's Last Exam
ราคามีค่าแฝง
token ที่ใช้ประสานงานภายในก็คิดเงินจริง ราคาต่อชิ้นจึงอาจแพงกว่าที่เห็นในหน้าราคา
เทียบกับของที่มันเข้าไม่ถึง
Fable 5 / Mythos ไม่ได้อยู่ในทีมของ Fugu ด้วยซ้ำ การเคลม "เสมอ Fable" จึงต้องอ่านด้วยความระวัง
01ของจริงคืออะไร เมื่อมีคนทดสอบอิสระ
ก่อนหน้านี้ Sakana Fugu เปิดตัวพร้อมเคลมว่าแตะระดับ Fable 5 ในราคาถูกกว่า พอมีผลทดสอบจากภายนอกออกมา ภาพก็ชัดขึ้น สิ่งสำคัญที่สุดที่ต้องเข้าใจคือ Fugu ไม่ใช่โมเดลปกติแบบ Opus, Gemini หรือ GPT แต่มันคือ "ตัวจัดคิวโมเดล" หรือระบบออร์เคสเตรเตอร์หลายเอเจนต์ที่ทำตัวเหมือนโมเดลเดียว
วิธีทำงานคือมีโมเดลตัวเล็กที่ถูกฝึกมาทำหน้าที่ "ตัวนำ" คอยดูคำขอแล้วตัดสินใจว่าจะส่งงานไปให้โมเดลเก่ง ๆ ตัวไหนจัดการ อาจให้ตัวหนึ่งวางแผน ตัวหนึ่งลงมือ และอีกตัวตรวจงาน แล้วค่อยรวมเป็นคำตอบเดียวส่งกลับมา พูดง่าย ๆ คือมันไม่ได้เป็นสมองใหม่ที่ญี่ปุ่นสร้างขึ้นมาล้มเจ้าตลาด แต่เป็นชั้นที่ไปเรียกใช้โมเดลแถวหน้าที่มีอยู่แล้ว
| รายการ | Benchmark | Fugu Ultra | Fugu | คู่เทียบ |
|---|---|---|---|---|
| Terminal Bench 2.1 | 82.1 | 80.2 | Fable 5 = 89.8 | |
| GPQA Diamond | 95.5 | 95.5 | Mythos preview = 94.6 | |
| SciCode | 58.7 | 60.1 | Fable 5 = 60.2 | |
| SWE-Bench Pro | 73.7 | 59 | Fable 5 = 80 | |
| Humanity's Last Exam (text) | 50 | 48.5 | Fable 5 = 53.3 |
02อ่าน benchmark ให้เป็น
ถ้าดูเฉพาะภาพรวม Fugu Ultra สูสีกับ Fable และ Mythos preview ในบางสนาม ชนะบางตัวแต่มักชนะแบบเฉียดฉิว และแพ้ชัดในบางสนาม โดยเฉพาะ SWE-Bench Pro กับ Humanity's Last Exam ฉะนั้นมันน่าสนใจ แต่ไม่ใช่ "โมเดลที่ดีกว่า Fable แบบขาดลอย"
ที่ต้องระวังมากคือสองข้อแม้ผู้ผลิตจะออกตัวเอง หนึ่ง คะแนนของฝั่งที่ไม่ใช่ Fugu เป็นตัวเลขที่ผู้ให้บริการรายงานเอง และเลือกใช้เลขที่สูงกว่าเมื่อมีให้เลือก สอง Fable 5 กับ Mythos ไม่ได้อยู่ในทีมโมเดลของ Fugu ด้วยซ้ำ เพราะมันเข้าถึงไม่ได้ในที่สาธารณะ แปลว่าการเคลมว่า "เสมอ Fable" คือการเทียบกับตัวเลขของโมเดลที่ Fugu เองยังส่งงานไปหาไม่ได้
| รายการ | รายการ | รายละเอียด |
|---|---|---|
| จ่ายตามใช้ (ต่อ 1M token) | ราว $5 ขาเข้า / $30 ขาออก | |
| แบบเหมารายเดือน | $20 และ $200 ต่อเดือน | |
| ค่าแฝงที่ต้องรู้ | token ที่ใช้ประสานงานภายในคิดเงินจริง งานที่ต้องประสานหลายขั้นจึงแพงกว่าที่เห็น |
03ลองงานจริงแล้วเป็นยังไง
นอกจาก benchmark ผลทดสอบอิสระยังลองสั่งงานสร้างจริง เช่น ออบเจกต์ 3 มิติ โต๊ะพับ ซิมูเลเตอร์ลิฟต์และธนู ภาพ SVG และงานเทรนโมเดลโลคัล ผลที่ได้ออกมาก้ำกึ่งถึงอ่อน บางชิ้นทำได้แต่ไม่เนียนตั้งแต่ช็อตแรก กลไกที่เป็นหัวใจของโจทย์ เช่น การพับโต๊ะหรือวิถีลูกธนู มักยังไม่ทำงานถูกต้อง
ข้อสังเกตของผู้ทดสอบคือมันให้ความรู้สึกเหมือน "ตัวจัดคิวอัตโนมัติ" มากกว่าโมเดลใหม่ และสไตล์คำตอบใกล้เคียง Opus ในหลายจุด สรุปคือสำหรับงานสร้างแอป งานภาพ และเกม การใช้โมเดลแรง ๆ ตรง ๆ หรือของถูกกว่าอย่าง GLM ยังคุ้มกว่า ส่วนงานที่ออร์เคสเตรเตอร์อาจช่วยได้จริงคือพวกงานวิจัยหรือวิเคราะห์หลายขั้นยาว ๆ
04เกี่ยวอะไรกับเรา
ต่อจากข่าวเปิดตัว Fugu คราวนี้พอมีคนทดสอบอิสระ บทเรียนสำคัญสำหรับคนทำงานคือ อย่าเพิ่งตื่นเต้นกับคำว่า "แตะระดับ Fable" ของใหม่หลายตัวที่โผล่มาคือชั้นที่ไปเรียกใช้โมเดลเก่งที่มีอยู่แล้ว ไม่ใช่โมเดลที่เก่งกว่าจริง
ฟันธง: รอ หรือเลือกใช้เฉพาะงานวิจัยหลายขั้น สำหรับงานโค้ดและเว็บรายวัน ใช้โมเดลแรงตรง ๆ หรือของถูกกว่าคุ้มกว่า และถ้าจะลอง อย่าดูแค่ราคาขาเข้า-ขาออกในหน้าเว็บ ให้บวกค่า token ที่ใช้ประสานงานภายในเข้าไปด้วย เพราะมันคิดเงินจริง วิธีที่ปลอดภัยที่สุดคือเอาโจทย์ของตัวเองไปยิงเทียบกับโมเดลที่ใช้อยู่ก่อนเสมอ อย่าเชื่อ benchmark ที่ผู้ผลิตเอามาเทียบกับโมเดลที่ตัวเองยังเข้าไม่ถึง