สรุปคลิป Youtube: ChatGPT Atlas and the next era of web browsing — the OpenAI Podcast Ep. 9

1. What is Atlas?

  • Atlas Browser ใหม่ ที่ออกแบบมา เพื่อยุคที่ผู้คนหันมาสื่อสารกับเทคโนโลยีด้วยภาษาพูด จุดศูนย์กลาง คือ เอา ChatGPT มาเป็นหัวใจของ Browser เลย

คุณสมบัติหลักๆ ของมันคือ:

  1. สั่งได้ดั่งใจ: คุณสามารถบอกสิ่งที่อยากทำกับคอมพิวเตอร์ได้เลย เช่น อยากได้ชุดใหม่ หรืออยากแก้ปัญหายากๆ.
  2. ช่วยจัดการ: Atlas ช่วยให้เข้าใจเนื้อหาที่เห็นบนเว็บ, ลงมือทำสิ่งต่าง ๆ บนเว็บ, และเรียนรู้จากพฤติกรรมการท่องเว็บของคุณเพื่อปรับประสบการณ์ให้เป็นส่วนตัว
  3. ความจำดี: มันจะจำสิ่งที่คุณทำไว้ทั้งหมด ทำให้ทำงานง่ายมากที่จะกลับไปทำงานเดิมที่คุณค้างไว้ แม้จะไม่ได้ทำมานานแล้วก็ตาม
  • ทีมงาน OpenAI มองว่า นี่คือ ช่วงเวลาที่เหมาะสมมากๆ ในการสร้างสิ่งนี้ เพราะโมเดล AI (อย่าง LLMs) พัฒนาขึ้นอย่างก้าวกระโดดและมีความสามารถที่น่าทึ่งในปัจจุบัน

2. The State of Browsers and AI on the Web

  • ผู้เชี่ยวชาญเห็นตรงกันว่า เบราว์เซอร์จะอยู่กับเราไปอีกนาน เป็นเครื่องมือสำคัญในการทำงานและค้นคว้าข้อมูลบน Internet เป็นแพลตฟอร์มเปิดที่ใครก็เข้ามาเผยแพร่เนื้อหาได้โดยไม่มีคนคอยดูแล
  • การเพิ่ม AI เข้ามาถือเป็นการเปลี่ยนแปลงครั้งใหญ่ มันทำให้การโต้ตอบกับเว็บง่ายขึ้นมาก จากเดิมที่เราต้องจำลิงก์เว็บไซต์ หรือ Search คำที่แม่นยำ ตอนนี้เราสามารถบอกสิ่งที่เราอยากทำให้เสร็จ แล้ว AI ก็จัดการให้
  • เพียงใช้เมาส์คลิก หรือใช้นิ้วแตะได้ ซึ่งทำให้มันสามารถเข้าใจเว็บไซต์ต่างๆ ที่ถูกออกแบบมาสำหรับคนใช้งาน

3. Under the hood

  • Atlas ถูกออกแบบมาให้ ChatGPT เป็นแกนหลักของเบราว์เซอร์อย่างลึกซึ้ง ทำให้ทีมงานสามารถร่ายมนตร์ของ ChatGPT ให้เข้าไปทั่วทุกส่วนของเบราว์เซอร์ได้ เหมือนเป็น OS ขนาดเล็กที่ทำงานอยู่บน Desktop เรา ในด้านสถาปัตยกรรม Atlas เลือกใช้โครงสร้างที่แยกส่วนกัน:
  1. Atlas คือ ตัวแอปพลิเคชันหลัก (ที่เขียนด้วย Swift).
  2. OWL คือ ส่วนที่ฝัง Engine Chromium ไว้

การแยก 2 ส่วนนี้ออกจากกัน มีข้อดีคือ:

  • รวดเร็ว: ทำให้ Atlas รีสตาร์ทได้เร็วมาก เพราะทั้ง 2 ส่วนสามารถเริ่มต้นทำงานไปพร้อมกันได้
  • มั่นคง: ถ้าส่วนที่แสดงผลเว็บเพจ (OWL) มีปัญหา แอป Atlas หลักก็ยังไม่พังตามไปด้วย

4. Building with AI

  • ทีมงานของ OpenAI ใช้เครื่องมือ AI ของตัวเองในการสร้าง Atlas ด้วยเช่นกัน ซึ่งเร่งกระบวนการพัฒนาได้เร็วขึ้นมาก.
  1. เพิ่มประสิทธิภาพ: วิศวกรที่ใช้เครื่องมือโค้ด AI (Codex) มีผลงานการเขียนโค้ด (PR output) พุ่งสูงขึ้นมาก
  2. งานซ้ำซ้อน: งานปรับปรุงโค้ด (Refactoring) ขนาดใหญ่ที่เคยต้องทำด้วยมือและใช้เวลาเป็นสัปดาห์ Codex ทำแทนได้ และเสร็จภายใน 1 ชั่วโมง
  3. ข้ามภาษา: โมเดล AI สามารถสร้างหรือแปลโค้ดข้ามภาษาได้สบายๆ เช่น แปลโค้ดจาก .NET เป็น Swift หรือ WinRT ที่ละเอียดและซับซ้อนให้ได้.
  4. ทุกคนมีส่วนร่วม: เครื่องมือเหล่านี้ทำให้แม้แต่ผู้ที่ปกติไม่ได้เขียนโค้ดมากนัก เช่น ผู้จัดการผลิตภัณฑ์ (PM) หรือดีไซเนอร์ ก็สามารถสร้างและส่งโค้ดเพื่อแก้ปัญหาได้

5. Search in Atlas

  • ใน Atlas เวลาคุณพิมพ์อะไรลงในช่องเดียว คนส่วนใหญ่แล้ว การพูดหรือพิมพ์คำถามที่คลุมเครือให้โมเดลตอบ มักจะเป็นการเริ่มต้นที่ดีกว่า
  1. ไม่ต้องฉลาด: คุณไม่จำเป็นต้องเก่งเรื่องการใช้คำค้นหาที่ซับซ้อน คุณแค่บอกปัญหาที่คุณมี แล้วโมเดลก็จะเข้าใจและให้คำตอบที่ดีกับคุณ.
  2. ค้นหาแบบคุ้นเคย: แม้จะเน้น AI แต่ Atlas ก็ยังมีรูปแบบการค้นหาแบบเดิมที่คุณคุ้นเคย (เช่น การค้นหารูปภาพ, ข่าวสาร) อยู่บนหน้าแรกด้วย.
  3. พลังของโมเดล: เวลาคุณค้นหาแบบปกติ คุณจะได้ทั้งลิงก์ที่เกี่ยวข้องและ คำตอบจากโมเดล AI ควบคู่กันไป ทำให้คุณได้เรียนรู้ว่าเครื่องมือนี้มีความสามารถพิเศษอย่างไร

6. Favorite Features

  • คุณสมบัติที่ทีมงานชื่นชอบมี 2 อย่างหลักๆ คือ:
  1. แถบด้านข้าง Ask ChatGPT (Side Chat): เป็นสิ่งที่ทีมงานใช้ทุกวัน.
    • ใช้สำหรับ สรุปหน้าเว็บ ที่ยาวเกินไป
    • ใช้เปรียบเทียบและหาข้อเสนอที่ดีที่สุดเวลาช้อปปิ้งออนไลน์
    • สร้างงาน Agent เช่น ขอให้ออกแบบแบบสำรวจ ใส่ลงใน Form ทันที
    • ทำหน้าที่เหมือนมีผู้ช่วยมานั่งอยู่ข้างๆ คอยให้คำปรึกษาตลอดเวลา
  2. แถบเลื่อนแท็บ (Scrolling Tabs): เป็นคุณสมบัติที่ออกแบบมาเพื่อจัดการแท็บจำนวนมากๆ ให้ดีขึ้น
    • ข้อดี คือ ไม่ต้องปิดแท็บ คุณสามารถเปิดแท็บไว้ได้เป็นพันๆ แท็บโดยที่ระบบจะจัดการหน่วยความจำให้เอง
    • การเปิดแท็บจำนวนมากทิ้งไว้ทำให้โมเดล AI สามารถเห็น ชุดข้อมูลการทำงาน ที่กว้างขึ้นและใหญ่กว่าที่เราจะจำได้เองตามธรรมชาติ.

7. Side Chat in Action

  • ขยายโลกบนเว็บ: Side Chat ช่วยให้เว็บใหญ่ขึ้น เมื่อคุณดูเว็บไซต์หนึ่งอยู่ คุณสามารถถามคำถามเกี่ยวกับเนื้อหานั้นได้ Side Chat อาจดึงข้อมูลจากเว็บไซต์อื่นมาให้ แทนที่จะให้คุณติดอยู่กับเว็บเดิมๆ
  • ความอยากรู้อยากเห็น: เหมือนกับเดินทางสำรวจเนื้อหาอย่างที่คุณทำใน Wikipedia แต่คุณสามารถทำได้กับเว็บทั้งหมด
  • งานง่ายๆ: คุณสามารถใช้มันช่วยแปลภาษาได้ง่ายๆ เพียงแค่ไฮไลต์ข้อความและคลิกขวา

8. Real-world wins with Agent Mode

  • Agent Mode คือ การที่ ChatGPT สามารถ ลงมือทำสิ่งต่างๆ บนเว็บแทนคุณ เช่น กดคลิก, กรอกข้อมูล, หรือนำทางเว็บไซต์
  • การควบคุม (Control): เมื่อ Agent ต้องทำงานที่ละเอียดอ่อน มันจะเข้าสู่ Sensitive Mode ซึ่งจะขอให้คุณคอยจับตาดู รวมถึงมีปุ่มหยุดสีแดง อยู่ที่ด้านล่างแท็บเสมอ เพื่อให้คุณกดหยุดได้ทันที ถ้า Agent ทำสิ่งที่ไม่ถูกต้อง

9. Why Chromium?

  • ทีมงานเลือกสร้าง Atlas บนพื้นฐานของ Chromium (เอนจินหลักของ Chrome) ด้วยเหตุผลหลัก 2 ข้อ:
  1. ความเข้ากันได้ของเว็บ (Web Compatibility): เว็บไซต์สำคัญๆ ส่วนใหญ่ถูกออกแบบมาให้ทำงานได้ดีหรือมีฟีเจอร์ครบถ้วนเฉพาะบนเบราว์เซอร์ที่ใช้ Chromium เท่านั้น.
  2. ส่วนขยาย (Extensions): การใช้ Chromium ทำให้ผู้ใช้สามารถติดตั้งและใช้ส่วนขยายยอดนิยมที่พวกเขาคุ้นเคยได้ทันที
  • การสร้างบน Chromium เป็นการใช้รากฐานที่เป็นที่รู้จักกันดี ซึ่งทำให้ทีมงานสามารถไปเน้นการสร้างสรรค์นวัตกรรมในชั้นที่สูงกว่า นั่นคือการผสานพลังของ AI เข้ากับเบราว์เซอร์แทน.

10. 5-Year vision

  • ทีมงานคาดหวังว่า:
  1. เราจะใช้ “คำพูด” เป็นหลัก: ผู้คนจะคิดถึงการ แสดงความต้องการของตนเอง ให้กับระบบมากขึ้น แทนที่จะต้องมาคิดว่าต้องใช้เครื่องมืออะไร หรือคลิกตรงไหน.
  2. Agent ทำงานแทน: Agent จะรับงานที่น่าเบื่อหน่ายและต้องใช้แรงงาน (toil) เช่น การคลิกไปมา, การรวบรวมข้อมูลจากหลายแหล่ง, การเปรียบเทียบราคา ไปทำแทนทั้งหมด.
  3. โฟกัสที่สำคัญ: มนุษย์จะสามารถโฟกัสกับเรื่องราวที่สำคัญที่สุด เช่น การตัดสินใจขั้นสุดท้าย หรือการใช้ความคิดสร้างสรรค์.
  4. การจราจรของ Agent: ปริมาณการเข้าชมอินเทอร์เน็ตส่วนใหญ่ (อาจจะเป็นส่วนใหญ่ที่สุด) อาจมาจาก Agent ที่ทำงานแทนมนุษย์

11. Power tips and closing remarks

  • คุณสมบัติลับ: ลองเปิดใช้งานคุณสมบัติ “แถบเลื่อนแท็บ” (Scrolling Tabs) เพราะมันเป็นคุณสมบัติที่ทีมงานชอบมาก.
  • คำแนะนำสำคัญ: ท้าทายความอยากรู้อยากเห็นของคุณ. ลองเปิด Side Chat ขึ้นมาแล้วถามคำถามเกี่ยวกับหน้าเว็บที่คุณกำลังดูอยู่บ่อยๆ คุณอาจจะแปลกใจว่ามันช่วยคุณได้มากแค่ไหน และมันจะช่วยให้คุณค้นพบวิธีการใช้งานใหม่ๆ ที่แม้แต่ผู้สร้างก็ยังคาดไม่ถึง.
  • ทีมงานเปิดรับฟังความคิดเห็นจากผู้ใช้เสมอ เพื่อนำไปปรับปรุง Atlas ต่อไป.

ข้อสรุป:

ภาพรวมของสิ่งที่ OpenAI กำลังทำกับ Atlas ครับ มันเหมือนกับการได้ ผู้ช่วยอัจฉริยะ มาอยู่ตรงกลางของทุกสิ่งที่คุณทำบนอินเทอร์เน็ตที่เดียว

Source:

Youtube

Source:

Youtube