Call Me Thanut
clockอัปเดต

"OpenAI ปล่อยโมเดลเสียง real-time 3 ตัว คุย แปลสด และถอดเสียงผ่าน API"

8 พ.ค. 2026อ่าน 4 นาที
"OpenAI ปล่อยโมเดลเสียง real-time 3 ตัว คุย แปลสด และถอดเสียงผ่าน API"
สารบัญ

สรุปให้ไว

**โมเดลเสียง real-time 3 ตัว** OpenAI เพิ่มเข้า Realtime API ครอบทั้งคุยโต้ตอบ แปลสด และถอดเสียง

**GPT-Realtime-2 ฉลาดขึ้น** context ขยายจาก 32k เป็น 128k มี reasoning 5 ระดับ และ Big Bench Audio 96.6% จากเดิม 81.4%

**แปล 70 ภาษาเข้า 13 ภาษาออก** ผ่าน GPT-Realtime-Translate ส่วน Whisper ถอดเสียงแบบ streaming

**ราคา audio token ยังสูง** Realtime-2 อยู่ที่ $32/$64 ต่อ 1M token เข้า/ออก ต้องคิดต้นทุนก่อนใช้ scale

01มีอะไรใหม่ 3 โมเดล

OpenAI เพิ่มโมเดลใหม่ 3 ตัวเข้าไปใน Realtime API แยกหน้าที่กันชัดเจน ตัวแรกคือ GPT-Realtime-2 เป็นโมเดลเสียงที่มาพร้อม reasoning ระดับ GPT-5 เอาไว้คุยโต้ตอบแบบเข้าใจบริบท ตัวที่สองคือ GPT-Realtime-Translate เน้นงานแปลสด รับเข้าได้ 70 ภาษาและแปลออกได้ 13 ภาษา ตัวที่สามคือ GPT-Realtime-Whisper สำหรับถอดเสียงเป็นข้อความแบบ streaming คือทยอยออกมาระหว่างพูด ไม่ต้องรอจบประโยค สามตัวนี้แปลว่างานสายเสียงทั้งคุย แปล และถอดเสียง ถูกแยกเป็นเครื่องมือเฉพาะทางให้เลือกหยิบตามงาน

02สเปก ราคา และ benchmark

ฝั่งสเปก GPT-Realtime-2 ขยาย context จาก 32k เป็น 128k token และเพิ่ม reasoning เป็น 5 ระดับให้ปรับความลึกของการคิดได้ ด้าน benchmark ตัว Big Bench Audio ทำได้ 96.6% ในโหมด high เทียบกับรุ่นก่อนที่ 81.4% ถือว่าขยับขึ้นชัด ฝั่งราคาคิดต่างกันตามโมเดล GPT-Realtime-2 อยู่ที่ $32 ต่อ 1M audio token ขาเข้า และ $64 ต่อ 1M token ขาออก ส่วน Translate คิดประมาณ $0.034 ต่อนาที และ Whisper ประมาณ $0.017 ต่อนาที ทั้งชุดมี EU data residency รองรับสำหรับองค์กรที่ต้องคุมเรื่องที่เก็บข้อมูล

- **GPT-Realtime-2** โมเดลเสียง + reasoning ระดับ GPT-5, context 128k, reasoning 5 ระดับ, Big Bench Audio 96.6% (high), ราคา $32/$64 ต่อ 1M audio token เข้า/ออก

  • **GPT-Realtime-Translate** แปลสด รับเข้า 70 ภาษา แปลออก 13 ภาษา, ราคาประมาณ $0.034 ต่อนาที

  • **GPT-Realtime-Whisper** ถอดเสียงแบบ streaming, ราคาประมาณ $0.017 ต่อนาที

  • **รวมทั้งชุด** อยู่ใน Realtime API เดียวกัน มี EU data residency

03เกี่ยวอะไรกับเรา

งานที่เห็นภาพชัดสำหรับธุรกิจไทยคือ call center และการสรุปประชุม เสียง real-time บวกแปลสดทำให้สายคุยลูกค้าข้ามภาษาหรือถอดบทสนทนาเป็นสรุปได้ทันที ไม่ต้องรอประมวลผลทีหลัง ฝั่งงานจริงก็มีสัญญาณว่าใกล้ใช้ได้ Deutsche Telekom กำลังทดสอบเอาไปแปลภาษาในงาน support ฟันธงคือเรื่องนี้น่าจับตาและควรลองในงานนำร่อง แต่จุดที่ต้องคิดให้ขาดก่อนคือต้นทุน audio token ของ Realtime-2 ยังสูง ถ้าจะ scale ขึ้นปริมาณสายหรือชั่วโมงประชุมเยอะ ๆ ให้คิดต้นทุนต่อนาทีต่อสายให้จบก่อน แล้วค่อยขยาย ลองได้แต่อย่าเพิ่งเปิดใช้เต็มสเกลโดยไม่กางตัวเลข