Google ปล่อยแอป Cosmo ผู้ช่วย AI บนเครื่อง แล้วถอดออกเงียบ ๆ
สารบัญ
สรุปให้ไว
แอปทดลองที่หลุดออกมา
Google แอบปล่อยแอป Android ชื่อ Cosmo (com.google.research.air.cosmo) ขึ้น Play Store แบบเงียบ ๆ
ผู้ช่วยที่ทำงานบนเครื่อง
เป็น on-device AI assistant ที่รันได้ทั้งแบบ local, ผ่าน server ระยะไกล หรือแบบ hybrid
มันอ่านหน้าจอได้
ใช้ Android accessibility API เพื่ออ่านสิ่งที่อยู่บนหน้าจอเรา
ถอดออกเร็วมาก
listing โดนถอดออกราว 1 พ.ค. ไม่นานหลังมีคนเจอ อ่านได้ว่าเป็นการหลุดก่อนงาน Google I/O
01Cosmo คืออะไร
Cosmo คือแอป Android ตัวทดลองที่ Google แอบเอาขึ้น Play Store แบบไม่ประกาศ ชื่อแพ็กเกจคือ com.google.research.air.cosmo ซึ่งบอกใบ้ว่ามาจากสาย research ของ Google เองโดยตรง
หน้าที่ของมันคือเป็น on-device AI assistant หรือผู้ช่วย AI ที่ทำงานได้บนตัวเครื่อง จุดที่น่าสนใจคือมันยืดหยุ่นเรื่องการประมวลผล รันได้ทั้งแบบ local คือใช้ Gemini Nano บนเครื่องเลย, ส่งไปประมวลผลที่ remote server หรือทำแบบ hybrid ผสมกันก็ได้ แปลเป็นภาพง่าย ๆ คือผู้ช่วยที่บางงานคิดเองในมือถือ บางงานส่งขึ้นเซิร์ฟเวอร์ แล้วแต่ความหนักของงาน
02ทำไมมันน่าจับตา
สิ่งที่ทำให้ Cosmo ต่างจากผู้ช่วยทั่วไปคือมันใช้ Android accessibility API เพื่ออ่านสิ่งที่อยู่บนหน้าจอ พูดง่าย ๆ คือมันไม่ได้รอให้เราพิมพ์สั่งอย่างเดียว แต่ "เห็น" สิ่งที่เรากำลังดูอยู่บนจอได้เลย นี่คือทิศทางของ on-device agent ที่เริ่มเข้าใจ context จากหน้าจอเรา
อีกจุดคือจังหวะเวลา listing ถูกถอดออกราววันที่ 1 พ.ค. ไม่นานหลังมีคนไปเจอเข้า ทั้งการที่มันโผล่มาแล้วหายไปเร็ว และการที่มันมาก่อนงาน Google I/O ทำให้อ่านได้ว่าเป็นการหลุดของฟีเจอร์ที่ยังไม่พร้อมเปิดตัว เป็นจิ๊กซอว์ที่บอกทิศทางว่า Google กำลังเล็งผู้ช่วยที่ทำงานบนเครื่องและเห็นหน้าจอเราได้
สิ่งที่รู้ตอนนี้
- ★
ชื่อและที่มา
แอป Android ชื่อ Cosmo แพ็กเกจ com.google.research.air.cosmo ขึ้น Play Store แบบเงียบ ๆ
- ★
ลักษณะการทำงาน
on-device AI assistant รันได้แบบ local (Gemini Nano), remote server หรือ hybrid
- ★
การอ่านหน้าจอ
ใช้ Android accessibility API อ่านสิ่งที่อยู่บนหน้าจอ
- ★
สถานะตอนนี้
listing ถูกถอดออกราว 1 พ.ค. หลังมีคนเจอไม่นาน อ่านเป็น pre-I/O leak
03เกี่ยวอะไรกับเรา
ภาพรวมที่ต้องจับตาคือทิศทาง on-device agent ที่ "เห็นหน้าจอ" เรา ถ้าผู้ช่วยอ่าน context จากจอได้เอง งานหลายอย่างจะลื่นขึ้นมาก เพราะไม่ต้องคอยอธิบายว่าเรากำลังทำอะไรอยู่ มันรู้เองจากสิ่งที่อยู่ตรงหน้า นี่คือทิศทางที่คนทำงานควรเข้าใจไว้ก่อนล่วงหน้า
แต่จุดที่ต้องฟันธงชัดคือเรื่องความเป็นส่วนตัวและความปลอดภัย การให้แอปอ่านหน้าจอผ่าน accessibility API หมายความว่ามันเห็นเกือบทุกอย่างที่เราเปิดอยู่ ทั้งข้อความ ไฟล์งาน ข้อมูลลูกค้า หรือเรื่องการเงิน คำถามสำคัญคือข้อมูลพวกนี้ประมวลผลบนเครื่องจริงไหม หรือถูกส่งขึ้น server แค่ไหน ซึ่งโหมด hybrid ทำให้เส้นแบ่งตรงนี้ไม่ชัด
สำหรับตอนนี้ฟันธงว่ารอก่อน Cosmo เป็นแค่แอปทดลองที่ถูกถอดออกไปแล้ว ยังไม่มีอะไรให้ใช้จริง สิ่งที่ควรทำคือจับตาว่า Google จะเปิดตัวทิศทางนี้อย่างเป็นทางการเมื่อไหร่ และดูให้ชัดว่าการตั้งค่าความเป็นส่วนตัวของมันเป็นอย่างไร ก่อนจะคิดเอา on-device agent แบบอ่านหน้าจอมาแตะกับงานที่มีข้อมูลบริษัทหรือลูกค้า เพราะของแบบนี้ต่อยอดเข้า workflow ได้สวยก็จริง แต่ต้องวางจุดที่คนตรวจสอบได้ก่อนเสมอ