"Talkie โมเดล AI ที่เทรนด้วยข้อความก่อนปี 1931 เท่านั้น เพื่อทดสอบว่า AI เรียนรู้จริงไหม"
สารบัญ
- Talkie คือ model ขนาด 13B ที่เทรนด้วยข้อความอังกฤษก่อนปี 1931 เท่านั้น (~260B tokens จากหนังสือพิมพ์ สิทธิบัตร และหนังสือ)
เลือกปี 1931 เพราะลิขสิทธิ์สหรัฐหมดอายุสิ้นปี 1930 ทีมเรียกมันว่า "vintage model" ที่ใหญ่สุดในประเภทนี้
เป้าหมายคือเลี่ยงข้อมูลเว็บยุคใหม่ปนเปื้อน เพื่อทดสอบว่า AI เรียนรู้และใช้เหตุผลจริงไหม ไม่ใช่แค่จำคำตอบที่เคยเห็น
ความท้าทายจริง: OCR คุณภาพ ~70% และขาด post-training data จึงต้องใช้ Claude Sonnet 4.6 เป็น RL judge ช่วย
01มันคืออะไร — โมเดลที่อ่านแต่ของเก่าก่อนปี 1931
Talkie คือ model ขนาด 13B ที่ทีมเทรนด้วยข้อความภาษาอังกฤษก่อนปี 1931 เท่านั้น รวมประมาณ 260B tokens ที่มาจากหนังสือพิมพ์ สิทธิบัตร และหนังสือเก่า พูดง่าย ๆ คือ AI ตัวนี้ "ไม่เคยเห็น" อะไรหลังปี 1930 เลย เหมือนคนที่อ่านหนังสือในห้องสมุดเก่าจนจบ แต่ไม่เคยเปิดอินเทอร์เน็ตยุคนี้แม้แต่ครั้งเดียว
ทำไมต้องปี 1931? เพราะลิขสิทธิ์ของสหรัฐสำหรับงานยุคนั้นหมดอายุไปตั้งแต่สิ้นปี 1930 ข้อความก่อนหน้านั้นจึงเอามาใช้ได้แบบสะอาด ทีมเรียกมันว่า "vintage model" และระบุว่าเป็นตัวที่ใหญ่ที่สุดเท่าที่มีในประเภทนี้
02ทำไมถึงทำแบบนี้ — เลี่ยงข้อมูลปนเปื้อน เพื่อทดสอบการเรียนรู้จริง
ปัญหาของการทดสอบ AI สมัยนี้คือ โมเดลส่วนใหญ่เทรนด้วยข้อมูลทั้งเว็บ ซึ่งมักมีคำตอบของข้อสอบหรือโจทย์ปนอยู่แล้ว เวลามันตอบถูก เราจึงแยกไม่ออกว่ามัน "เข้าใจจริง" หรือแค่ "เคยเห็นคำตอบมาก่อน" อาการนี้เรียกว่าข้อมูลปนเปื้อน (data contamination)
Talkie ตั้งใจตัดปัญหานี้ทิ้ง ด้วยการจำกัดข้อมูลให้อยู่ก่อนปี 1931 ทั้งหมด พอ AI ไม่เคยเห็นเนื้อหายุคใหม่ การจะดูว่ามันเรียนรู้และใช้เหตุผลได้จริงไหมก็ชัดขึ้น ตัวอย่างที่ทีมลองคือให้มันเรียนเขียนโค้ดจากตัวอย่างไม่กี่ตัว แล้ววัดผลผ่านโจทย์ HumanEval บางข้อ ซึ่งเป็นสิ่งที่ข้อความยุคก่อนปี 1931 ไม่มีอยู่เลย
แต่งานนี้ก็เจอความท้าทายจริง: ข้อความเก่าต้องสแกนผ่าน OCR ที่คุณภาพอยู่ราว ~70% และยังขาด post-training data ทีมจึงใช้ Claude Sonnet 4.6 เป็น RL judge มาช่วยประเมิน โดยมีข้อสังเกตว่าตัว judge เองทำให้สไตล์ภาษายุคใหม่รั่วเข้ามาบ้าง
03เกี่ยวอะไรกับเรา — AI เข้าใจจริง หรือแค่จำเยอะ
สำหรับคนทำงานที่ใช้ AI ทุกวัน Talkie ไม่ใช่เครื่องมือที่เอามาใช้ในงาน แต่เป็นการทดลองที่ช่วยให้เราตั้งคำถามได้คมขึ้นว่า เวลา AI ตอบถูก มันเก่งเพราะ "เข้าใจจริง" หรือเพราะ "จำข้อมูลมาเยอะ" ซึ่งเป็นคำถามที่สำคัญมากเวลาเราต้องตัดสินใจว่าจะเชื่อผลของมันแค่ไหน
ประเด็นนี้โยงตรงไปที่เรื่องการประเมิน AI (evaluation) ถ้าเราเอาแต่ดูคะแนน benchmark สวย ๆ โดยไม่รู้ว่าโจทย์นั้นปนอยู่ในข้อมูลเทรนหรือเปล่า เราก็อาจหลงเชื่อว่ามันเก่งกว่าที่เป็นจริง บทเรียนที่เอาไปใช้ได้คือ เวลาวัดผล AI กับงานของเราเอง ควรใช้โจทย์หรือชุดข้อมูลที่มันไม่เคยเห็นมาก่อน ผลถึงจะบอกความสามารถจริง ไม่ใช่แค่ความจำ
- ขนาดโมเดล: 13B parameters
- ★
ข้อมูลเทรน: ~260B tokens จากหนังสือพิมพ์ สิทธิบัตร และหนังสือภาษาอังกฤษก่อนปี 1931
- ★
เหตุผลที่เลือกปี 1931: ลิขสิทธิ์สหรัฐหมดอายุสิ้นปี 1930 ข้อความก่อนหน้านั้นใช้ได้แบบสะอาด
- ★
จุดประสงค์: เลี่ยงข้อมูลเว็บยุคใหม่ปนเปื้อน เพื่อทดสอบว่า AI เรียนรู้และใช้เหตุผลจริงไหม
- ★
การวัดผล: ให้เรียนเขียนโค้ดจากตัวอย่างไม่กี่ตัว แล้วทดสอบผ่าน HumanEval บางข้อ
- ★
ข้อจำกัด: OCR คุณภาพ ~70% และขาด post-training data
- ★
ตัวช่วยประเมิน: ใช้ Claude Sonnet 4.6 เป็น RL judge แต่ทำให้สไตล์ยุคใหม่รั่วเข้ามาบ้าง