Claude Sonnet 5 ออกแล้ว — agentic ขึ้นชัด แต่ tokenizer ใหม่ทำให้คุ้มน้อยกว่าที่คิด
สารบัญ
สรุปให้ไว
Sonnet 5 มาแล้ว
Anthropic เปิดตัว Claude Sonnet 5 รุ่น agentic ที่สุดของสาย Sonnet เก่ง tool use ขึ้น hallucinate น้อยลง รันงานยาว ๆ เองได้ดีกว่าเดิม
เบนช์มาร์กไล่จี้ Opus
ได้ราว 63% บน agentic coding (SWE-bench verified) และ ~80% บน Terminal Bench 2.1 เฉียด Opus 4.8 ในหลายตัว
กับดักอยู่ที่ราคา
ราคาเปิดตัวถูกกว่า Opus นิดเดียว บวกกับ tokenizer ใหม่ที่กินโทเค็นมากขึ้น ทำให้ "ของถูก" ไม่ถูกอย่างที่เห็น
ฟันธงสั้น ๆ
เป็น daily driver ได้ แต่ถ้างานหนักจริง ส่วนต่างราคากับ Opus 4.8 บางจนหลายคนเลือกจ่ายเพิ่มไปใช้ Opus เลย
01Sonnet 5 คืออะไร และใหม่ตรงไหน
Claude Sonnet 5 คือโมเดลตัวกลางรุ่นล่าสุดของ Anthropic จุดขายคือ "agentic" — หมายความว่ามันถูกออกแบบให้ทำงานเป็นลำดับขั้นเองได้ ใช้เครื่องมืออย่าง browser และ terminal วางแผนงาน แล้วเดินงานยาว ๆ ต่อเนื่องโดยไม่ต้องจับมือทุกก้าว ระดับความสามารถนี้เมื่อไม่กี่เดือนก่อนต้องใช้โมเดลตัวใหญ่และแพงกว่านี้ถึงจะทำได้
เทียบกับ Sonnet รุ่นก่อน Anthropic บอกว่า Sonnet 5 ดีขึ้นทั้งด้าน reasoning, การใช้ tool, การเขียนโค้ด และงานความรู้ทั่วไป โดยพยายามดันให้เข้าใกล้ระดับ Opus 4.8 ในราคาที่ถูกกว่า ตัวโมเดลเปิดให้ใช้ได้ทุกแพ็กเกจของ Claude และถูกตั้งเป็นโมเดลเริ่มต้นสำหรับผู้ใช้ free และ pro เรียกผ่าน API ได้เลย พร้อม context window ขนาด 1 ล้านโทเค็น
02ตัวเลขเบนช์มาร์ก — ดีจริงบนกระดาษ
บนกระดาษ Sonnet 5 ดูแข็งแรงมาก ทำคะแนน agentic coding บน SWE-bench verified ได้ราว 63.2% ซึ่งกระโดดขึ้นชัดจากรุ่นก่อนและตามหลัง Opus 4.8 อยู่ประมาณ 6 จุด ส่วน Terminal Bench 2.1 แตะ ~80.4% ขับเคี่ยวกับ Opus 4.8 แบบสูสี และยังสูสีกับ Opus บนงาน computer use รวมถึงทำคะแนนแซง Opus ได้ในบางเบนช์มาร์กด้วยซ้ำ
แต่ต้องอ่านตัวเลขแบบมีสติ คะแนนเบนช์มาร์กของผู้ผลิตเองมักออกมาในมุมที่ดีที่สุด และในการทดสอบของสำนักรีวิวอิสระหนึ่ง ผลกลับห่างจากภาพสวย ๆ บน leaderboard บางตัว (เช่น cursor bench) Sonnet 5 หล่นไปอยู่อันดับท้าย ๆ ซึ่งเป็นเหตุผลว่าทำไมเราถึงไม่ควรตัดสินจากกราฟแท่งอย่างเดียว
ของจริงจากการทดสอบอิสระ
- ★
MacOS clone ทำได้
สร้าง MacOS clone ที่ฟังก์ชันพื้นฐานทำงานจริง สลับ light/dark, เปลี่ยน wallpaper, แอปเปิดได้ แต่ใช้เวลาราว 40 นาทีและกินโทเค็นเยอะมากบนโหมด max
- ★
เกม/3D พอใช้
ปั้นเกมง่าย ๆ และ Minecraft-style ได้ แต่ glitchy ไม่มีระบบ inventory และ texture ดูดิบ
- ★
งานหน้าเว็บอ่อน
SaaS landing page ออกมาเบสิกและบางส่วนไม่ทำงาน รีวิวบอกตรง ๆ ว่า GLM 5.2 ทำ front end ได้ดีกว่า
- ★
SVG คือจุดอ่อน
วาดรถ BMW แบบ side view ออกมาเสียสัดส่วน จับ identity ไม่ได้ ซึ่ง Opus ทำได้ดีกว่าชัดเจน
03ราคากับกับดัก tokenizer ที่ต้องอ่านให้ขาด
ราคาเปิดตัว (introductory) อยู่ที่ 2 ดอลลาร์ต่อ 1 ล้าน input token และ 10 ดอลลาร์ต่อ 1 ล้าน output token ถึง 31 สิงหาคม 2026 หลังจากนั้นขยับเป็น 3 และ 15 ดอลลาร์ตามลำดับ ฟังดูถูก แต่ในเชิงอรรถมีจุดที่ต้องระวัง: Sonnet 5 เปลี่ยนไปใช้ tokenizer ของ Opus 4.7 ซึ่งทำให้ข้อความเดิม ๆ ถูกนับเป็นโทเค็นมากขึ้นราว 1 ถึง 1.3 เท่าแล้วแต่เนื้อหา
แปลเป็นภาษาคนทำงานคือ ป้ายราคาต่อโทเค็นถูกลง แต่จำนวนโทเค็นที่ใช้จริงต่องานเดิมกลับมากขึ้น พอหักลบกันแล้วส่วนต่างราคากับ Opus 4.8 จึงบางมาก — รีวิวอิสระประเมินว่าบางสถานการณ์ถูกกว่า Opus แค่หลักเศษสตางค์ต่องาน ซึ่งทำให้เหตุผลเดิมของการเลือก Sonnet (เร็วและถูกกว่าพี่ใหญ่) อ่อนลงทันที โดยเฉพาะบนโหมด max effort ที่เผาโทเค็นหนักเหมือน Opus แต่ผลลัพธ์ยังสู้ไม่ได้
04เกี่ยวอะไรกับเรา
ฟันธงแบบคนทำงาน: Sonnet 5 ใช้เป็น daily driver ได้สบายสำหรับงานทั่วไป ถาม-ตอบ ร่างเนื้อหา งาน agent เบา ๆ และถ้าทีมคุณอยู่บนแพ็กเกจ free/pro มันก็เป็นค่าเริ่มต้นให้อยู่แล้ว ลองได้เลยโดยไม่ต้องตั้งค่าอะไรเพิ่ม
แต่ถ้าเป็นงานหนัก — โค้ดยาก ๆ งานสร้างจริงที่ต้องการคุณภาพสูงสุด — อย่าด่วนสลับมาเพราะเห็นป้ายราคาถูกกว่า ให้คิดต้นทุน "ต่องาน" ไม่ใช่ "ต่อโทเค็น" เพราะ tokenizer ใหม่อาจทำให้บิลจริงไม่ได้ถูกอย่างที่คาด วิธีที่ปลอดภัยคือตั้งงานทดสอบของตัวเองสัก 2-3 ชิ้นที่คุณรู้คำตอบดีอยู่แล้ว รันทั้ง Sonnet 5 และ Opus 4.8 แล้วเทียบทั้งคุณภาพและจำนวนโทเค็นที่ใช้จริง ก่อนตัดสินใจย้ายทั้งทีม
ต่อยอดกับ workflow เรา: ถ้าจะวาง Sonnet 5 เป็นโมเดลหลักใน skill หรือ pipeline ให้ใส่ Human Gate ตรงงานที่ราคา/คุณภาพสำคัญ — ให้คนตรวจ output และจับตา cost ต่อรันสองสามวันแรก ถ้าตัวเลขสวยค่อยปล่อยให้รันยาว ถ้าโทเค็นพุ่งเกินคาดก็สลับกลับ Opus สำหรับงานหนักแล้วเก็บ Sonnet 5 ไว้ทำงานปริมาณเยอะแต่ไม่ซับซ้อน