Hermes Agent คุมคอมพิวเตอร์ได้แล้วบน Windows/Linux — แถมทำงานเบื้องหลังไม่แย่งเมาส์
สารบัญ
สรุปให้ไว
ลง Windows/Linux แล้ว
ฟีเจอร์ควบคุมคอมพิวเตอร์ของ Hermes Agent ใช้ได้ครบทั้ง Mac, Windows, Linux (เดิมมีแค่ Mac)
ทำงานเบื้องหลัง
มันคลิก-พิมพ์ด้วยเคอร์เซอร์ของตัวเอง เมาส์เราไม่ขยับ หน้าต่างไม่เด้ง เราทำงานต่อได้พร้อมกัน
ใช้โมเดลอะไรขับก็ได้
โมเดลที่มองภาพได้ตัวไหนก็ขับได้ ทั้งของจ่ายเงินและโลคัล/ฟรี ไม่ผูกเจ้าใดเจ้าหนึ่ง
มีจุดให้คนกดยืนยัน
งานที่เสี่ยง เช่น ลบหรือแก้ไฟล์ จะหยุดรอเรากดอนุมัติก่อน
01อัปเดตนี้คืออะไร
Hermes Agent ออกอัปเดตให้ฟีเจอร์ "computer use" หรือการควบคุมคอมพิวเตอร์ใช้ได้บน Windows และ Linux แล้ว จากเดิมที่ทำได้แค่บน Mac และยังปรับปรุงฝั่ง Mac ให้ดีขึ้นด้วย พูดง่าย ๆ คือตอนนี้ agent อ่านหน้าจอ แล้วคลิกและพิมพ์แทนเราได้บนระบบปฏิบัติการหลักครบทั้งสามค่าย ผ่านตัวเดียว
การเปิดใช้ก็ไม่ยุ่งยาก ใช้คำสั่งเดียวในเทอร์มินัลก็ติดตั้งได้ จากนั้นก็สั่งงานเป็นภาษาคนได้เลยว่าอยากให้มันทำอะไรบนเครื่อง
02จุดเด่นที่ต่างจากเครื่องมือคุมจอตัวอื่น
ปัญหาคลาสสิกของเครื่องมือให้ AI คุมคอมพิวเตอร์คือมันมัก "ยึดเมาส์" เรา พอมันทำงานเราก็แตะเครื่องไม่ได้ ต้องนั่งดูเคอร์เซอร์วิ่งไปมาจนกว่าจะเสร็จ จุดขายของอัปเดตนี้คือมันทำงานในเบื้องหลังด้วยเคอร์เซอร์ของตัวเอง เมาส์จริงของเราไม่ขยับ หน้าต่างไม่เด้งขึ้นมาข้างหน้า เดสก์ท็อปไม่สลับ เราจึงทำงานของเราต่อไปได้ในขณะที่มันทำงานของมันคู่กัน
อีกข้อคือมันไม่ผูกกับโมเดลตัวเดียว เครื่องมือคุมจอส่วนใหญ่ใช้ได้กับโมเดลเดียว แต่ตัวนี้ให้โมเดลที่ "มองภาพได้" ตัวไหนมาขับก็ได้ จะเป็นของจ่ายเงินหรือโมเดลโลคัล/ฟรีก็ใช้ได้ เท่ากับเราเลือกสมองที่จะมาคุมเครื่องได้เอง
ใช้งานยังไงได้บ้าง
- ★
สองโหมด
โหมดเร็ว/เรียลไทม์ สำหรับสั่งงานสั้น ๆ ทันใจ และ Agent mode สำหรับงานเบื้องหลังที่ซับซ้อนกว่า
- ★
ปุ่มหยุด
กดหยุดการทำงานได้ทุกเมื่อ
- ★
ด่านอนุมัติ
การกระทำที่อาจเสียหาย เช่น ลบหรือแก้ไฟล์ จะหยุดรอให้เรากดยืนยันก่อนลงมือ
- ★
ข้ามแพลตฟอร์ม
สั่งงานแบบเดียวกันได้บน Mac, Windows, Linux ผ่านตัวเดียว
03จุดที่ต้องระวัง
การให้ AI คุมเครื่องฟังดูน่ากลัว และก็ควรกลัวอย่างมีสติ ข้อดีคือตัวนี้มีด่านให้คนกดยืนยันก่อนทำสิ่งที่อาจเสียหาย แต่ความปลอดภัยที่แท้จริงอยู่ที่เราตั้งค่าและใช้มันยังไง อย่าปล่อยให้ agent แตะไฟล์บริษัท ไฟล์ลูกค้า เรื่องเงิน หรือบัญชีสำคัญโดยไม่มีคนคอยกดยืนยันทุกครั้ง
และเพราะมันทำงานเงียบ ๆ ในเบื้องหลัง ข้อดีเรื่องไม่แย่งเมาส์ก็เป็นดาบสองคม เพราะเราอาจเผลอไม่ทันสังเกตว่ามันกำลังทำอะไรอยู่ ฉะนั้นช่วงแรกควรเปิดโหมดถามก่อนทำให้ครบ และคอยดูว่ามันทำอะไรไปบ้าง
04เกี่ยวอะไรกับเรา
computer use ที่ใช้ได้จริงต้องไม่ทำให้เราทำงานอื่นไม่ได้ระหว่างที่มันทำงาน จุดที่อัปเดตนี้ตอบโจทย์คือคลิก-พิมพ์เบื้องหลังโดยไม่ยึดเครื่อง และขยายมาลง Windows/Linux ทำให้คนไทยส่วนใหญ่ที่ไม่ได้ใช้ Mac เข้าถึงได้
ฟันธง: ลองได้กับงานซ้ำ ๆ บนเครื่อง เช่น เปิดแอป จัดไฟล์ กรอกฟอร์ม คัดลอกข้อมูลระหว่างหน้าต่าง แต่ยึด Human Gate ให้แน่น เปิดโหมดถามก่อนทำทุกการกระทำที่ลบหรือแก้ไฟล์ และกันมันออกจากไฟล์งานที่สำคัญจริง ๆ ข้อดีอีกอย่างคือใช้โมเดลฟรีหรือโลคัลมาขับได้ ไม่ต้องจ่ายค่าโมเดลแพง ๆ เพื่อให้ agent มีมือไว้ทำงานแทน