Call Me Thanut
newspaperข่าวสาร

"Talkie โมเดล AI ที่เทรนด้วยข้อความก่อนปี 1931 เท่านั้น เพื่อทดสอบว่า AI เรียนรู้จริงไหม"

8 พ.ค. 2026อ่าน 4 นาที
"Talkie โมเดล AI ที่เทรนด้วยข้อความก่อนปี 1931 เท่านั้น เพื่อทดสอบว่า AI เรียนรู้จริงไหม"
สารบัญ

- Talkie คือ model ขนาด 13B ที่เทรนด้วยข้อความอังกฤษก่อนปี 1931 เท่านั้น (~260B tokens จากหนังสือพิมพ์ สิทธิบัตร และหนังสือ)

เลือกปี 1931 เพราะลิขสิทธิ์สหรัฐหมดอายุสิ้นปี 1930 ทีมเรียกมันว่า "vintage model" ที่ใหญ่สุดในประเภทนี้

เป้าหมายคือเลี่ยงข้อมูลเว็บยุคใหม่ปนเปื้อน เพื่อทดสอบว่า AI เรียนรู้และใช้เหตุผลจริงไหม ไม่ใช่แค่จำคำตอบที่เคยเห็น

ความท้าทายจริง: OCR คุณภาพ ~70% และขาด post-training data จึงต้องใช้ Claude Sonnet 4.6 เป็น RL judge ช่วย

01มันคืออะไร — โมเดลที่อ่านแต่ของเก่าก่อนปี 1931

Talkie คือ model ขนาด 13B ที่ทีมเทรนด้วยข้อความภาษาอังกฤษก่อนปี 1931 เท่านั้น รวมประมาณ 260B tokens ที่มาจากหนังสือพิมพ์ สิทธิบัตร และหนังสือเก่า พูดง่าย ๆ คือ AI ตัวนี้ "ไม่เคยเห็น" อะไรหลังปี 1930 เลย เหมือนคนที่อ่านหนังสือในห้องสมุดเก่าจนจบ แต่ไม่เคยเปิดอินเทอร์เน็ตยุคนี้แม้แต่ครั้งเดียว

ทำไมต้องปี 1931? เพราะลิขสิทธิ์ของสหรัฐสำหรับงานยุคนั้นหมดอายุไปตั้งแต่สิ้นปี 1930 ข้อความก่อนหน้านั้นจึงเอามาใช้ได้แบบสะอาด ทีมเรียกมันว่า "vintage model" และระบุว่าเป็นตัวที่ใหญ่ที่สุดเท่าที่มีในประเภทนี้

02ทำไมถึงทำแบบนี้ — เลี่ยงข้อมูลปนเปื้อน เพื่อทดสอบการเรียนรู้จริง

ปัญหาของการทดสอบ AI สมัยนี้คือ โมเดลส่วนใหญ่เทรนด้วยข้อมูลทั้งเว็บ ซึ่งมักมีคำตอบของข้อสอบหรือโจทย์ปนอยู่แล้ว เวลามันตอบถูก เราจึงแยกไม่ออกว่ามัน "เข้าใจจริง" หรือแค่ "เคยเห็นคำตอบมาก่อน" อาการนี้เรียกว่าข้อมูลปนเปื้อน (data contamination)

Talkie ตั้งใจตัดปัญหานี้ทิ้ง ด้วยการจำกัดข้อมูลให้อยู่ก่อนปี 1931 ทั้งหมด พอ AI ไม่เคยเห็นเนื้อหายุคใหม่ การจะดูว่ามันเรียนรู้และใช้เหตุผลได้จริงไหมก็ชัดขึ้น ตัวอย่างที่ทีมลองคือให้มันเรียนเขียนโค้ดจากตัวอย่างไม่กี่ตัว แล้ววัดผลผ่านโจทย์ HumanEval บางข้อ ซึ่งเป็นสิ่งที่ข้อความยุคก่อนปี 1931 ไม่มีอยู่เลย

แต่งานนี้ก็เจอความท้าทายจริง: ข้อความเก่าต้องสแกนผ่าน OCR ที่คุณภาพอยู่ราว ~70% และยังขาด post-training data ทีมจึงใช้ Claude Sonnet 4.6 เป็น RL judge มาช่วยประเมิน โดยมีข้อสังเกตว่าตัว judge เองทำให้สไตล์ภาษายุคใหม่รั่วเข้ามาบ้าง

03เกี่ยวอะไรกับเรา — AI เข้าใจจริง หรือแค่จำเยอะ

สำหรับคนทำงานที่ใช้ AI ทุกวัน Talkie ไม่ใช่เครื่องมือที่เอามาใช้ในงาน แต่เป็นการทดลองที่ช่วยให้เราตั้งคำถามได้คมขึ้นว่า เวลา AI ตอบถูก มันเก่งเพราะ "เข้าใจจริง" หรือเพราะ "จำข้อมูลมาเยอะ" ซึ่งเป็นคำถามที่สำคัญมากเวลาเราต้องตัดสินใจว่าจะเชื่อผลของมันแค่ไหน

ประเด็นนี้โยงตรงไปที่เรื่องการประเมิน AI (evaluation) ถ้าเราเอาแต่ดูคะแนน benchmark สวย ๆ โดยไม่รู้ว่าโจทย์นั้นปนอยู่ในข้อมูลเทรนหรือเปล่า เราก็อาจหลงเชื่อว่ามันเก่งกว่าที่เป็นจริง บทเรียนที่เอาไปใช้ได้คือ เวลาวัดผล AI กับงานของเราเอง ควรใช้โจทย์หรือชุดข้อมูลที่มันไม่เคยเห็นมาก่อน ผลถึงจะบอกความสามารถจริง ไม่ใช่แค่ความจำ

- ขนาดโมเดล: 13B parameters

  • ข้อมูลเทรน: ~260B tokens จากหนังสือพิมพ์ สิทธิบัตร และหนังสือภาษาอังกฤษก่อนปี 1931

  • เหตุผลที่เลือกปี 1931: ลิขสิทธิ์สหรัฐหมดอายุสิ้นปี 1930 ข้อความก่อนหน้านั้นใช้ได้แบบสะอาด

  • จุดประสงค์: เลี่ยงข้อมูลเว็บยุคใหม่ปนเปื้อน เพื่อทดสอบว่า AI เรียนรู้และใช้เหตุผลจริงไหม

  • การวัดผล: ให้เรียนเขียนโค้ดจากตัวอย่างไม่กี่ตัว แล้วทดสอบผ่าน HumanEval บางข้อ

  • ข้อจำกัด: OCR คุณภาพ ~70% และขาด post-training data

  • ตัวช่วยประเมิน: ใช้ Claude Sonnet 4.6 เป็น RL judge แต่ทำให้สไตล์ยุคใหม่รั่วเข้ามาบ้าง