Call Me Thanut
puzzleOpen Source

DeepSeek V4 Pro มาแล้ว — โมเดล open-source 1.6T ที่ฉลาดขึ้นแต่กินพลังน้อยลง

1 พ.ค. 2026อ่าน 4 นาที
DeepSeek V4 Pro มาแล้ว — โมเดล open-source 1.6T ที่ฉลาดขึ้นแต่กินพลังน้อยลง
สารบัญ

สรุปให้ไว

DeepSeek V4 Pro เปิดตัว

โมเดล open-source ขนาด 1.6T พารามิเตอร์ รับ context window 1M tokens

ประหยัดจริง

ใช้ FLOPS ต่ำกว่า V3.2 ถึง 3.7 เท่า (compute ราว 27% ของรุ่นก่อน) และ KV cache ลดลง 90%

ฉลาดจริง

ทำคะแนนเต็ม Putnam 2025 (120/120) ขึ้นอันดับ 2 ของ open-source ตามหลัง Kimi

เหมาะกับทีม self-host

อยากใช้โมเดลเก่งๆ ด้วยต้นทุนที่เบาลง ข่าวนี้ควร "ฝึกให้คล่อง"

01มันคืออะไร — โมเดลยักษ์ที่เลิกเปลืองแรงโดยใช่เหตุ

DeepSeek V4 Pro คือโมเดล AI ตัวใหม่จากฝั่ง open-source (เปิดให้เอาไปรันบนเครื่องตัวเองได้ ไม่ต้องเช่าผ่านใคร) ขนาด 1.6 ล้านล้านพารามิเตอร์ — ถ้าให้เห็นภาพ พารามิเตอร์ก็เหมือน "เซลล์สมอง" ของโมเดล ยิ่งเยอะยิ่งจุความรู้ได้มาก และ 1.6T คือระดับตัวท็อปของวงการตอนนี้

จุดที่ต้องอ่านต่อไม่ใช่ขนาด แต่คือประโยคที่สรุปข่าวนี้ได้ดีที่สุด: **ฉลาดขึ้นโดยใช้พลังน้อยลง** ปกติโมเดลยิ่งใหญ่ยิ่งเปลืองเครื่อง เปลืองไฟ เปลืองเงิน แต่ V4 Pro กลับใช้ compute แค่ราว 27% ของรุ่นก่อนหน้า (V3.2) แปลว่างานเท่าเดิมแต่จ่ายค่าเครื่องถูกลงหลายเท่า

อีกตัวเลขที่คนทำงานควรรู้คือ context window 1M tokens — context window คือ "ความจุโต๊ะทำงาน" ของโมเดล ว่ายัดเอกสารให้มันอ่านพร้อมกันได้แค่ไหน ระดับ 1M tokens คือโยนเอกสารกองโต หรือ codebase ทั้งโปรเจกต์เข้าไปให้มันอ่านรวดเดียวได้

02มีอะไรใหม่ — ตัวเลขล้วนๆ ไม่ต้องเชื่อคำโฆษณา

หัวใจของความประหยัดอยู่ที่สถาปัตยกรรมแบบ hybrid attention — attention คือกลไกที่โมเดลใช้ "เลือกโฟกัส" ว่าจะสนใจข้อความส่วนไหน V4 Pro ผสมเทคนิค Compressed Sparse Attention กับ Heavily Compressed Attention บวก sliding window เข้าด้วยกัน ผลคือไม่ต้องไล่อ่านทุกคำหนักเท่ากันหมด เลยเบาเครื่องลงมาก: FLOPS (หน่วยวัดปริมาณการคำนวณ) ต่ำกว่า V3.2 ถึง 3.7 เท่า และ KV cache — หน่วยความจำที่โมเดลใช้ "จดโน้ต" ระหว่างอ่านข้อความยาวๆ — ลดลงถึง 90% ซึ่งตัวหลังนี่แหละคือคอขวดหลักเวลารันโมเดลกับเอกสารยาวบนเครื่องตัวเอง

ฝั่งการเทรนก็มีของใหม่: เทรนด้วยข้อมูล 33T tokens แบบ curriculum คือสอนไล่ระดับเหมือนหลักสูตรเรียน เริ่มจากข้อความสั้น 4K tokens แล้วค่อยๆ ขยับจนถึง 1M tokens พร้อม optimizer ตัวใหม่ชื่อ Muon (optimizer คือสูตรที่คุมว่าโมเดลเรียนรู้ยังไงให้เร็วและนิ่ง)

แล้วประหยัดแบบนี้โง่ลงไหม? คำตอบจากผลสอบคือไม่ — V4 Pro ทำคะแนนเต็ม Putnam 2025 ที่ 120/120 และขึ้นเป็นอันดับ 2 ของโมเดล open-source โดยตามหลังแค่ Kimi เท่านั้น

สเปก DeepSeek V4 Pro แบบจับต้องได้

  • 1.6T พารามิเตอร์

    ขนาดสมองระดับตัวท็อปของฝั่ง open-source

  • Context window 1M tokens

    ป้อนเอกสารกองโตหรือ codebase ทั้งก้อนให้อ่านรวดเดียว

  • Compute ~27% ของ V3.2

    ใช้ FLOPS ต่ำกว่ารุ่นก่อน 3.7 เท่า งานเท่าเดิม ค่าเครื่องเบาลง

  • KV cache ลดลง 90%

    รันงาน context ยาวๆ โดยกินหน่วยความจำน้อยลงมาก

  • เทรน 33T tokens แบบ curriculum (4K → 1M) + optimizer Muon

    สอนไล่ระดับจากสั้นไปยาว

  • Putnam 2025 เต็ม 120/120

    ฉลาดขึ้นจริง ขึ้นอันดับ 2 open-source ตามหลัง Kimi

03เกี่ยวอะไรกับเรา

ฟันธง: **ฝึกให้คล่อง** — โดยเฉพาะทีมที่คิดเรื่อง self-host โมเดลเอง ไม่ว่าจะเพราะข้อมูลออกนอกบริษัทไม่ได้ หรืออยากคุมต้นทุนเอง ของฟรีระดับนี้เปลี่ยนสมการเลย เพราะจุดขายจริงของ V4 Pro ไม่ใช่คะแนน benchmark สวยๆ แต่คือ "ประสิทธิภาพต่อต้นทุน" — compute ที่หายไปกว่า 70% กับ KV cache ที่ลด 90% แปลตรงๆ ว่าเครื่องสเปกเดิมรันงานได้หนักขึ้น หรืองานเดิมจ่ายน้อยลง

ก้าวถัดไปแบบ practical: ถ้าทีมคุณมีงานที่ต้องอ่านเอกสารยาวๆ เป็นประจำ เช่น สรุปสัญญา ไล่อ่าน log หรือทำงานกับ codebase ใหญ่ ลองหยิบงานจริงสักชิ้นมาตั้งเป็นโจทย์ทดสอบ แล้วเทียบผลกับ workflow ปัจจุบันของคุณ — วัดทั้งคุณภาพคำตอบและต้นทุนต่องาน อย่าเชื่อตัวเลขในข่าวอย่างเดียว ให้งานของเราเป็นคนตัดสิน และเหมือนเดิม งานที่แตะไฟล์ลูกค้า เงิน หรือสัญญา ต้องมีคนตรวจก่อนใช้จริงเสมอ

มุมต่อยอด: context window 1M tokens เปิดทางให้ workflow แบบ "โยนเอกสารทั้งชุดเข้าไปทีเดียว" แทนการหั่นไฟล์เป็นท่อนๆ แบบเดิม — ถ้าทดสอบแล้วผ่านเกณฑ์ของทีม นี่คือตัวเลือก self-host ที่ควรเข้า shortlist ตั้งแต่วันนี้

โปรเจกต์ open-source

อยากลองเองไหม? โปรเจกต์นี้เป็น open-source โหลด repo ทางการมาลองได้เลย

ดูบน Hugging Face →