สรุปคลิป Youtube: ChatGPT Atlas and the next era of web browsing — the OpenAI Podcast Ep. 9
1. What is Atlas?
- Atlas Browser ใหม่ ที่ออกแบบมา เพื่อยุคที่ผู้คนหันมาสื่อสารกับเทคโนโลยีด้วยภาษาพูด จุดศูนย์กลาง คือ เอา ChatGPT มาเป็นหัวใจของ Browser เลย
คุณสมบัติหลักๆ ของมันคือ:
- สั่งได้ดั่งใจ: คุณสามารถบอกสิ่งที่อยากทำกับคอมพิวเตอร์ได้เลย เช่น อยากได้ชุดใหม่ หรืออยากแก้ปัญหายากๆ.
- ช่วยจัดการ: Atlas ช่วยให้เข้าใจเนื้อหาที่เห็นบนเว็บ, ลงมือทำสิ่งต่าง ๆ บนเว็บ, และเรียนรู้จากพฤติกรรมการท่องเว็บของคุณเพื่อปรับประสบการณ์ให้เป็นส่วนตัว
- ความจำดี: มันจะจำสิ่งที่คุณทำไว้ทั้งหมด ทำให้ทำงานง่ายมากที่จะกลับไปทำงานเดิมที่คุณค้างไว้ แม้จะไม่ได้ทำมานานแล้วก็ตาม
- ทีมงาน OpenAI มองว่า นี่คือ ช่วงเวลาที่เหมาะสมมากๆ ในการสร้างสิ่งนี้ เพราะโมเดล AI (อย่าง LLMs) พัฒนาขึ้นอย่างก้าวกระโดดและมีความสามารถที่น่าทึ่งในปัจจุบัน
2. The State of Browsers and AI on the Web
- ผู้เชี่ยวชาญเห็นตรงกันว่า เบราว์เซอร์จะอยู่กับเราไปอีกนาน เป็นเครื่องมือสำคัญในการทำงานและค้นคว้าข้อมูลบน Internet เป็นแพลตฟอร์มเปิดที่ใครก็เข้ามาเผยแพร่เนื้อหาได้โดยไม่มีคนคอยดูแล
- การเพิ่ม AI เข้ามาถือเป็นการเปลี่ยนแปลงครั้งใหญ่ มันทำให้การโต้ตอบกับเว็บง่ายขึ้นมาก จากเดิมที่เราต้องจำลิงก์เว็บไซต์ หรือ Search คำที่แม่นยำ ตอนนี้เราสามารถบอกสิ่งที่เราอยากทำให้เสร็จ แล้ว AI ก็จัดการให้
- เพียงใช้เมาส์คลิก หรือใช้นิ้วแตะได้ ซึ่งทำให้มันสามารถเข้าใจเว็บไซต์ต่างๆ ที่ถูกออกแบบมาสำหรับคนใช้งาน
3. Under the hood
- Atlas ถูกออกแบบมาให้ ChatGPT เป็นแกนหลักของเบราว์เซอร์อย่างลึกซึ้ง ทำให้ทีมงานสามารถร่ายมนตร์ของ ChatGPT ให้เข้าไปทั่วทุกส่วนของเบราว์เซอร์ได้ เหมือนเป็น OS ขนาดเล็กที่ทำงานอยู่บน Desktop เรา ในด้านสถาปัตยกรรม Atlas เลือกใช้โครงสร้างที่แยกส่วนกัน:
- Atlas คือ ตัวแอปพลิเคชันหลัก (ที่เขียนด้วย Swift).
- OWL คือ ส่วนที่ฝัง Engine Chromium ไว้
การแยก 2 ส่วนนี้ออกจากกัน มีข้อดีคือ:
- รวดเร็ว: ทำให้ Atlas รีสตาร์ทได้เร็วมาก เพราะทั้ง 2 ส่วนสามารถเริ่มต้นทำงานไปพร้อมกันได้
- มั่นคง: ถ้าส่วนที่แสดงผลเว็บเพจ (OWL) มีปัญหา แอป Atlas หลักก็ยังไม่พังตามไปด้วย
4. Building with AI
- ทีมงานของ OpenAI ใช้เครื่องมือ AI ของตัวเองในการสร้าง Atlas ด้วยเช่นกัน ซึ่งเร่งกระบวนการพัฒนาได้เร็วขึ้นมาก.
- เพิ่มประสิทธิภาพ: วิศวกรที่ใช้เครื่องมือโค้ด AI (Codex) มีผลงานการเขียนโค้ด (PR output) พุ่งสูงขึ้นมาก
- งานซ้ำซ้อน: งานปรับปรุงโค้ด (Refactoring) ขนาดใหญ่ที่เคยต้องทำด้วยมือและใช้เวลาเป็นสัปดาห์ Codex ทำแทนได้ และเสร็จภายใน 1 ชั่วโมง
- ข้ามภาษา: โมเดล AI สามารถสร้างหรือแปลโค้ดข้ามภาษาได้สบายๆ เช่น แปลโค้ดจาก .NET เป็น Swift หรือ WinRT ที่ละเอียดและซับซ้อนให้ได้.
- ทุกคนมีส่วนร่วม: เครื่องมือเหล่านี้ทำให้แม้แต่ผู้ที่ปกติไม่ได้เขียนโค้ดมากนัก เช่น ผู้จัดการผลิตภัณฑ์ (PM) หรือดีไซเนอร์ ก็สามารถสร้างและส่งโค้ดเพื่อแก้ปัญหาได้
5. Search in Atlas
- ใน Atlas เวลาคุณพิมพ์อะไรลงในช่องเดียว คนส่วนใหญ่แล้ว การพูดหรือพิมพ์คำถามที่คลุมเครือให้โมเดลตอบ มักจะเป็นการเริ่มต้นที่ดีกว่า
- ไม่ต้องฉลาด: คุณไม่จำเป็นต้องเก่งเรื่องการใช้คำค้นหาที่ซับซ้อน คุณแค่บอกปัญหาที่คุณมี แล้วโมเดลก็จะเข้าใจและให้คำตอบที่ดีกับคุณ.
- ค้นหาแบบคุ้นเคย: แม้จะเน้น AI แต่ Atlas ก็ยังมีรูปแบบการค้นหาแบบเดิมที่คุณคุ้นเคย (เช่น การค้นหารูปภาพ, ข่าวสาร) อยู่บนหน้าแรกด้วย.
- พลังของโมเดล: เวลาคุณค้นหาแบบปกติ คุณจะได้ทั้งลิงก์ที่เกี่ยวข้องและ คำตอบจากโมเดล AI ควบคู่กันไป ทำให้คุณได้เรียนรู้ว่าเครื่องมือนี้มีความสามารถพิเศษอย่างไร
6. Favorite Features
- คุณสมบัติที่ทีมงานชื่นชอบมี 2 อย่างหลักๆ คือ:
- แถบด้านข้าง Ask ChatGPT (Side Chat): เป็นสิ่งที่ทีมงานใช้ทุกวัน.
- ใช้สำหรับ สรุปหน้าเว็บ ที่ยาวเกินไป
- ใช้เปรียบเทียบและหาข้อเสนอที่ดีที่สุดเวลาช้อปปิ้งออนไลน์
- สร้างงาน Agent เช่น ขอให้ออกแบบแบบสำรวจ ใส่ลงใน Form ทันที
- ทำหน้าที่เหมือนมีผู้ช่วยมานั่งอยู่ข้างๆ คอยให้คำปรึกษาตลอดเวลา
- แถบเลื่อนแท็บ (Scrolling Tabs): เป็นคุณสมบัติที่ออกแบบมาเพื่อจัดการแท็บจำนวนมากๆ ให้ดีขึ้น
- ข้อดี คือ ไม่ต้องปิดแท็บ คุณสามารถเปิดแท็บไว้ได้เป็นพันๆ แท็บโดยที่ระบบจะจัดการหน่วยความจำให้เอง
- การเปิดแท็บจำนวนมากทิ้งไว้ทำให้โมเดล AI สามารถเห็น ชุดข้อมูลการทำงาน ที่กว้างขึ้นและใหญ่กว่าที่เราจะจำได้เองตามธรรมชาติ.
7. Side Chat in Action
- ขยายโลกบนเว็บ: Side Chat ช่วยให้เว็บใหญ่ขึ้น เมื่อคุณดูเว็บไซต์หนึ่งอยู่ คุณสามารถถามคำถามเกี่ยวกับเนื้อหานั้นได้ Side Chat อาจดึงข้อมูลจากเว็บไซต์อื่นมาให้ แทนที่จะให้คุณติดอยู่กับเว็บเดิมๆ
- ความอยากรู้อยากเห็น: เหมือนกับเดินทางสำรวจเนื้อหาอย่างที่คุณทำใน Wikipedia แต่คุณสามารถทำได้กับเว็บทั้งหมด
- งานง่ายๆ: คุณสามารถใช้มันช่วยแปลภาษาได้ง่ายๆ เพียงแค่ไฮไลต์ข้อความและคลิกขวา
8. Real-world wins with Agent Mode
- Agent Mode คือ การที่ ChatGPT สามารถ ลงมือทำสิ่งต่างๆ บนเว็บแทนคุณ เช่น กดคลิก, กรอกข้อมูล, หรือนำทางเว็บไซต์
- การควบคุม (Control): เมื่อ Agent ต้องทำงานที่ละเอียดอ่อน มันจะเข้าสู่ Sensitive Mode ซึ่งจะขอให้คุณคอยจับตาดู รวมถึงมีปุ่มหยุดสีแดง อยู่ที่ด้านล่างแท็บเสมอ เพื่อให้คุณกดหยุดได้ทันที ถ้า Agent ทำสิ่งที่ไม่ถูกต้อง
9. Why Chromium?
- ทีมงานเลือกสร้าง Atlas บนพื้นฐานของ Chromium (เอนจินหลักของ Chrome) ด้วยเหตุผลหลัก 2 ข้อ:
- ความเข้ากันได้ของเว็บ (Web Compatibility): เว็บไซต์สำคัญๆ ส่วนใหญ่ถูกออกแบบมาให้ทำงานได้ดีหรือมีฟีเจอร์ครบถ้วนเฉพาะบนเบราว์เซอร์ที่ใช้ Chromium เท่านั้น.
- ส่วนขยาย (Extensions): การใช้ Chromium ทำให้ผู้ใช้สามารถติดตั้งและใช้ส่วนขยายยอดนิยมที่พวกเขาคุ้นเคยได้ทันที
- การสร้างบน Chromium เป็นการใช้รากฐานที่เป็นที่รู้จักกันดี ซึ่งทำให้ทีมงานสามารถไปเน้นการสร้างสรรค์นวัตกรรมในชั้นที่สูงกว่า นั่นคือการผสานพลังของ AI เข้ากับเบราว์เซอร์แทน.
10. 5-Year vision
- ทีมงานคาดหวังว่า:
- เราจะใช้ “คำพูด” เป็นหลัก: ผู้คนจะคิดถึงการ แสดงความต้องการของตนเอง ให้กับระบบมากขึ้น แทนที่จะต้องมาคิดว่าต้องใช้เครื่องมืออะไร หรือคลิกตรงไหน.
- Agent ทำงานแทน: Agent จะรับงานที่น่าเบื่อหน่ายและต้องใช้แรงงาน (toil) เช่น การคลิกไปมา, การรวบรวมข้อมูลจากหลายแหล่ง, การเปรียบเทียบราคา ไปทำแทนทั้งหมด.
- โฟกัสที่สำคัญ: มนุษย์จะสามารถโฟกัสกับเรื่องราวที่สำคัญที่สุด เช่น การตัดสินใจขั้นสุดท้าย หรือการใช้ความคิดสร้างสรรค์.
- การจราจรของ Agent: ปริมาณการเข้าชมอินเทอร์เน็ตส่วนใหญ่ (อาจจะเป็นส่วนใหญ่ที่สุด) อาจมาจาก Agent ที่ทำงานแทนมนุษย์
11. Power tips and closing remarks
- คุณสมบัติลับ: ลองเปิดใช้งานคุณสมบัติ “แถบเลื่อนแท็บ” (Scrolling Tabs) เพราะมันเป็นคุณสมบัติที่ทีมงานชอบมาก.
- คำแนะนำสำคัญ: ท้าทายความอยากรู้อยากเห็นของคุณ. ลองเปิด Side Chat ขึ้นมาแล้วถามคำถามเกี่ยวกับหน้าเว็บที่คุณกำลังดูอยู่บ่อยๆ คุณอาจจะแปลกใจว่ามันช่วยคุณได้มากแค่ไหน และมันจะช่วยให้คุณค้นพบวิธีการใช้งานใหม่ๆ ที่แม้แต่ผู้สร้างก็ยังคาดไม่ถึง.
- ทีมงานเปิดรับฟังความคิดเห็นจากผู้ใช้เสมอ เพื่อนำไปปรับปรุง Atlas ต่อไป.
ข้อสรุป:
ภาพรวมของสิ่งที่ OpenAI กำลังทำกับ Atlas ครับ มันเหมือนกับการได้ ผู้ช่วยอัจฉริยะ มาอยู่ตรงกลางของทุกสิ่งที่คุณทำบนอินเทอร์เน็ตที่เดียว



