Call Me Thanut
starรีวิว

ทดสอบ Sakana Fugu จริง — มันคือ "ตัวจัดคิวโมเดล" ไม่ใช่โมเดลใหม่ที่ล้ม Fable

23 มิ.ย. 2026อ่าน 6 นาที
ทดสอบ Sakana Fugu จริง — มันคือ "ตัวจัดคิวโมเดล" ไม่ใช่โมเดลใหม่ที่ล้ม Fable
สารบัญ

สรุปให้ไว

มันคือ router ไม่ใช่โมเดล

ผลทดสอบอิสระชี้ว่า Fugu คือชั้นออร์เคสเตรเตอร์ที่ส่งงานไปหาโมเดลแรงที่มีอยู่แล้ว ไม่ใช่โมเดลฐานตัวใหม่

benchmark ชนะบ้างแพ้บ้าง

เก่งบางตัวแบบเฉียดฉิว แต่แพ้ชัดบน SWE-Bench Pro และ Humanity's Last Exam

ราคามีค่าแฝง

token ที่ใช้ประสานงานภายในก็คิดเงินจริง ราคาต่อชิ้นจึงอาจแพงกว่าที่เห็นในหน้าราคา

เทียบกับของที่มันเข้าไม่ถึง

Fable 5 / Mythos ไม่ได้อยู่ในทีมของ Fugu ด้วยซ้ำ การเคลม "เสมอ Fable" จึงต้องอ่านด้วยความระวัง

01ของจริงคืออะไร เมื่อมีคนทดสอบอิสระ

ก่อนหน้านี้ Sakana Fugu เปิดตัวพร้อมเคลมว่าแตะระดับ Fable 5 ในราคาถูกกว่า พอมีผลทดสอบจากภายนอกออกมา ภาพก็ชัดขึ้น สิ่งสำคัญที่สุดที่ต้องเข้าใจคือ Fugu ไม่ใช่โมเดลปกติแบบ Opus, Gemini หรือ GPT แต่มันคือ "ตัวจัดคิวโมเดล" หรือระบบออร์เคสเตรเตอร์หลายเอเจนต์ที่ทำตัวเหมือนโมเดลเดียว

วิธีทำงานคือมีโมเดลตัวเล็กที่ถูกฝึกมาทำหน้าที่ "ตัวนำ" คอยดูคำขอแล้วตัดสินใจว่าจะส่งงานไปให้โมเดลเก่ง ๆ ตัวไหนจัดการ อาจให้ตัวหนึ่งวางแผน ตัวหนึ่งลงมือ และอีกตัวตรวจงาน แล้วค่อยรวมเป็นคำตอบเดียวส่งกลับมา พูดง่าย ๆ คือมันไม่ได้เป็นสมองใหม่ที่ญี่ปุ่นสร้างขึ้นมาล้มเจ้าตลาด แต่เป็นชั้นที่ไปเรียกใช้โมเดลแถวหน้าที่มีอยู่แล้ว

ผลทดสอบหนึ่งสำนัก (ตัวเลขจากผู้ผลิต)
รายการBenchmarkFugu UltraFuguคู่เทียบ
Terminal Bench 2.182.180.2Fable 5 = 89.8
GPQA Diamond95.595.5Mythos preview = 94.6
SciCode58.760.1Fable 5 = 60.2
SWE-Bench Pro73.759Fable 5 = 80
Humanity's Last Exam (text)5048.5Fable 5 = 53.3

02อ่าน benchmark ให้เป็น

ถ้าดูเฉพาะภาพรวม Fugu Ultra สูสีกับ Fable และ Mythos preview ในบางสนาม ชนะบางตัวแต่มักชนะแบบเฉียดฉิว และแพ้ชัดในบางสนาม โดยเฉพาะ SWE-Bench Pro กับ Humanity's Last Exam ฉะนั้นมันน่าสนใจ แต่ไม่ใช่ "โมเดลที่ดีกว่า Fable แบบขาดลอย"

ที่ต้องระวังมากคือสองข้อแม้ผู้ผลิตจะออกตัวเอง หนึ่ง คะแนนของฝั่งที่ไม่ใช่ Fugu เป็นตัวเลขที่ผู้ให้บริการรายงานเอง และเลือกใช้เลขที่สูงกว่าเมื่อมีให้เลือก สอง Fable 5 กับ Mythos ไม่ได้อยู่ในทีมโมเดลของ Fugu ด้วยซ้ำ เพราะมันเข้าถึงไม่ได้ในที่สาธารณะ แปลว่าการเคลมว่า "เสมอ Fable" คือการเทียบกับตัวเลขของโมเดลที่ Fugu เองยังส่งงานไปหาไม่ได้

ราคาและค่าใช้จ่ายแฝง
รายการรายการรายละเอียด
จ่ายตามใช้ (ต่อ 1M token)ราว $5 ขาเข้า / $30 ขาออก
แบบเหมารายเดือน$20 และ $200 ต่อเดือน
ค่าแฝงที่ต้องรู้token ที่ใช้ประสานงานภายในคิดเงินจริง งานที่ต้องประสานหลายขั้นจึงแพงกว่าที่เห็น

03ลองงานจริงแล้วเป็นยังไง

นอกจาก benchmark ผลทดสอบอิสระยังลองสั่งงานสร้างจริง เช่น ออบเจกต์ 3 มิติ โต๊ะพับ ซิมูเลเตอร์ลิฟต์และธนู ภาพ SVG และงานเทรนโมเดลโลคัล ผลที่ได้ออกมาก้ำกึ่งถึงอ่อน บางชิ้นทำได้แต่ไม่เนียนตั้งแต่ช็อตแรก กลไกที่เป็นหัวใจของโจทย์ เช่น การพับโต๊ะหรือวิถีลูกธนู มักยังไม่ทำงานถูกต้อง

ข้อสังเกตของผู้ทดสอบคือมันให้ความรู้สึกเหมือน "ตัวจัดคิวอัตโนมัติ" มากกว่าโมเดลใหม่ และสไตล์คำตอบใกล้เคียง Opus ในหลายจุด สรุปคือสำหรับงานสร้างแอป งานภาพ และเกม การใช้โมเดลแรง ๆ ตรง ๆ หรือของถูกกว่าอย่าง GLM ยังคุ้มกว่า ส่วนงานที่ออร์เคสเตรเตอร์อาจช่วยได้จริงคือพวกงานวิจัยหรือวิเคราะห์หลายขั้นยาว ๆ

04เกี่ยวอะไรกับเรา

ต่อจากข่าวเปิดตัว Fugu คราวนี้พอมีคนทดสอบอิสระ บทเรียนสำคัญสำหรับคนทำงานคือ อย่าเพิ่งตื่นเต้นกับคำว่า "แตะระดับ Fable" ของใหม่หลายตัวที่โผล่มาคือชั้นที่ไปเรียกใช้โมเดลเก่งที่มีอยู่แล้ว ไม่ใช่โมเดลที่เก่งกว่าจริง

ฟันธง: รอ หรือเลือกใช้เฉพาะงานวิจัยหลายขั้น สำหรับงานโค้ดและเว็บรายวัน ใช้โมเดลแรงตรง ๆ หรือของถูกกว่าคุ้มกว่า และถ้าจะลอง อย่าดูแค่ราคาขาเข้า-ขาออกในหน้าเว็บ ให้บวกค่า token ที่ใช้ประสานงานภายในเข้าไปด้วย เพราะมันคิดเงินจริง วิธีที่ปลอดภัยที่สุดคือเอาโจทย์ของตัวเองไปยิงเทียบกับโมเดลที่ใช้อยู่ก่อนเสมอ อย่าเชื่อ benchmark ที่ผู้ผลิตเอามาเทียบกับโมเดลที่ตัวเองยังเข้าไม่ถึง