PixelRAG ปรับปรุงความแม่นยำของ RAG และลดค่าโทเคนของ AI ag…

ที่มาภาพ: VentureBeat

AI-อ่าน 8 นาทีVentureBeat

PixelRAG ปรับปรุงความแม่นยำของ RAG และลดค่าโทเคนของ AI ag…

⚡ สรุป 30 วิ

PixelRAG ใช้ภาพสกรีนช็อตของเว็บเป็นดัชนีโดย VLM ทำให้ความแม่นยำสูงกว่าระบบข้อความ 18.1% และลดค่าโทเคนของ AI agent ถึง 10 เท่าในชุดทดสอบ Wikipedia.

การวิจัยใหม่จากทีมที่ร่วมกันระหว่าง UC Berkeley, Princeton University, EPFL และ Databricks เปิดตัวระบบ PixelRAG ที่หลีกเลี่ยงขั้นตอนการแปลง HTML ไปเป็นข้อความโดยตรง ระบบนี้ใช้ภาพสกรีนช็อตของหน้าเว็บเป็นตัวดัชนีและให้โมเดลวิชัน‑ภาษา (VLM) อ่านข้อมูลโดยตรง ผลการทดสอบบน Wikipedia จำนวน 30 ล้านภาพแสดงให้เห็นว่า PixelRAG ให้ความแม่นยำสูงกว่าระบบ RAG แบบข้อความถึง 18.1 % และลดค่าโทเคนของ AI agent ได้ถึง 10 เท่า

Overview

ระบบ Retrieval‑Augmented Generation (RAG) ขององค์กรส่วนใหญ่เริ่มต้นด้วยการใช้ text parser แปลงหน้าเว็บและเอกสารเป็นข้อความธรรมดา เพื่อให้สามารถแบ่งเป็นชิ้นส่วนและทำการจัดดัชนีได้ อย่างไรก็ตามขั้นตอนนี้ทำลายสัญญาณการเรียกคืนข้อมูลที่สำคัญและเป็นสาเหตุหลักของคำตอบที่ผิดพลาดตามการวิจัยใหม่ การทดสอบบนชุดข้อมูล SimpleQA พบว่าการสูญเสียเหล่านี้มาจากสามสาเหตุหลัก:

  • Parser loss – 36.6 % ของความล้มเหลวเกิดจากการแปลง HTML‑to‑text ทำให้ข้อมูลที่ต้องการหายไปโดยสิ้นเชิง
  • Rank loss – 55.2 % ของความล้มเหลวมาจากการจัดอันดับที่ไม่ถูกต้อง เนื่องจากบล็อกข้อมูลที่มีคีย์เวิร์ดสูงเช่น infobox ถูกจัดให้อยู่ในอันดับแรกถึง 75.9 % ของคำถาม
  • Reader loss – 8.2 % ของความล้มเหลวมาจากการที่ข้อมูลที่ถูกต้องถึงมือผู้อ่านแล้ว แต่โครงสร้างที่แบนทำให้การตีความผิดพลาด

ทีมวิจัยสรุปว่า “การปรับปรุง parser อย่างต่อเนื่องเป็นกระบวนการที่ไม่มีที่สิ้นสุด เพราะแต่ละเว็บไซต์ต้องการการจัดการพิเศษ” (Yichuan Wang, UC Berkeley) และจึงมองหาวิธีใหม่ที่ใช้ความก้าวหน้าของ VLM เพื่อข้ามขั้นตอนนี้เลย

How PixelRAG Works

PixelRAG แทนที่กระบวนการแปลงข้อความด้วยระบบสี่ขั้นตอนที่ทำงานโดยตรงกับภาพสกรีนช็อตของหน้าเว็บ

  • Rendering – ใช้ Playwright เรนเดอร์หน้าเว็บที่ความกว้างคงที่ 875 พิกเซล แล้วตัดเป็นแถบภาพสูง 1024 พิกเซล หนึ่งบทความของ Wikipedia จำนวนประมาณ 7 ล้านบทความให้ได้ 30 ล้านแถบภาพ
  • Indexing – แต่ละแถบภาพถูกเข้ารหัสเป็นเวกเตอร์ 2048‑dimensional ด้วย Qwen3‑VL‑Embedding‑2B และเก็บในดัชนี FAISS ที่ใช้ประมาณ 120 GB ในรูปแบบ fp16
  • Training – โมเดลดึงข้อมูลถูกฝึกด้วยข้อมูลคู่คอนทราสต์ที่สร้างจาก datastore โดยใช้เทคนิค hard‑negative mining และ LoRA เพื่ออัปเดตน้ำหนักเพียงส่วนเล็กของโมเดล ทั้งภาษาและภาพ การฝึกใช้ประมาณ 40 000 คู่และเสร็จภายในสามชั่วโมงบน GPU H100 ตัวเดียว
  • Storage – แม้ภาพสกรีนช็อตของ Wikipedia จะต้องใช้ที่จัดเก็บ 5.6 TB ระบบทำการลบภาพหลังจากสร้างเวกเตอร์แล้ว สามารถเรนเดอร์หน้าเว็บใหม่ตามคำขอได้แบบ on‑demand

โครงสร้างนี้ทำให้ PixelRAG สามารถอ่านข้อมูลโดยอิงจาก layout และ typography ของหน้าเว็บได้เหมือนมนุษย์ ซึ่งต่างจากโมเดล LLM ที่อ่านเฉพาะข้อความแบน

Evaluation & Results

ทีมวิจัยทดสอบ PixelRAG บนหกชุดทดสอบที่ครอบคลุมการตอบคำถามจาก Wikipedia, การสืบค้นตาราง, การตอบคำถามหลายโมเดลและการดึงข่าวสารสด ผลลัพธ์สรุปได้ดังนี้

  • บน SimpleQA ความแม่นยำของ PixelRAG อยู่ที่ 78.8 % เทียบกับ 71.6 % ของระบบ text‑parser ที่ดีที่สุด
  • ในการสืบค้นข้อมูลจากตารางความแม่นยำเพิ่มเป็น 48.8 % จาก 42.5 % ของวิธีเดิม
  • การใช้โมเดลระดับ Qwen3‑VL‑4B ขึ้นไปจึงทำให้ได้ประโยชน์ที่ชัดเจน โมเดลขนาดเล็กกว่านั้นจะแย่กว่าระบบข้อความมากกว่า 12.5 เปอร์เซ็นต์

นอกจากนี้ PixelRAG ยังลดจำนวน prompt tokens ของ AI agent จาก 37.5 ล้านเป็น 3.6 ล้านโทเคน ซึ่งหมายถึงต้นทุนที่ลดลง 2‑4 เท่าเมื่อเทียบกับโซลูชันเช่น Google แม้จะยังคงมีค่าใช้จ่ายสูงกว่าโมเดลข้อความทั่วไปเพียงเล็กน้อยก็ตาม

Advantages & Limitations

การข้ามขั้นตอนการแปลงเป็นข้อความทำให้ PixelRAG รักษาข้อมูลเชิงโครงสร้างเช่น ภาพ, ตาราง, การจัดวาง, ตัวหนา เป็นต้น ซึ่งเป็นข้อได้เปรียบสำคัญต่อการทำความเข้าใจข้อมูลที่ซับซ้อน อย่างไรก็ตาม ระบบยังมีข้อจำกัดสำคัญที่ต้องแก้ไข

  • การแบ่งหน้าเว็บเป็นแถบภาพที่มีความสูงคงที่ 1024 พิกเซลอาจทำให้ table หรือ paragraph ถูกตัดครึ่งโดยไม่มีการรับรู้ขอบเขตของเนื้อหา ซึ่งแตกต่างจากการแบ่งชิ้นส่วนในระบบข้อความที่อาศัยการวิเคราะห์หัวข้อหรือเซมานติก
  • ประสิทธิภาพของ PixelRAG พึ่งพาโมเดล VLM ที่มีขนาดใหญ่ การนำไปใช้ในสภาพแวดล้อมที่มีทรัพยากรจำกัดอาจทำให้ค่าใช้จ่ายสูงขึ้น แม้ว่าจะมีการบีบอัดภาพเพื่อลดโทเคนต่อการค้นหาได้อีกหนึ่งในสาม

ทีมวิจัยจึงเรียกร้องให้ชุมชนการดึงข้อมูลมุ่งเน้นการพัฒนา visual chunking ที่ตระหนักถึงโครงสร้างของหน้าเว็บเพื่อให้ผลลัพธ์ดียิ่งขึ้น

Impact & Future Directions

PixelRAG แสดงให้เห็นว่าแนวทางการใช้ vision‑language models แทนการแปลงข้อความอาจเป็นทางออกที่มีประสิทธิภาพสำหรับปัญหาการสูญเสียข้อมูลใน RAG ขององค์กรระดับใหญ่ หากเทคโนโลยีนี้พัฒนาให้รองรับการแบ่งส่วนภาพอย่างชาญฉลาด จะทำให้ระบบสามารถจัดการกับเอกสารที่มีโครงสร้างซับซ้อนได้ดียิ่งขึ้น

ในระยะสั้น การลดจำนวนโทเคนของ AI agent ทำให้บริษัทที่ใช้ระบบ RAG สามารถประหยัดค่าใช้จ่ายได้อย่างมีนัยสำคัญ ซึ่งอาจเป็นจุดขายสำคัญสำหรับผู้ให้บริการคลาวด์และแพลตฟอร์ม AI ส่วนระยะยาว การบูรณาการ VLM กับการดึงข้อมูลอาจเปลี่ยนวิธีการออกแบบระบบค้นหาและสรุปข้อมูลในหลายอุตสาหกรรม ตั้งแต่การบริการลูกค้าไปจนถึงการวิเคราะห์ข้อมูลวิจัย

Summary

PixelRAG แสดงให้เห็นว่าการละทิ้งขั้นตอนแปลง HTML‑to‑text แล้วใช้ภาพสกรีนช็อตเป็นตัวดัชนี สามารถเพิ่มความแม่นยำของ RAG ได้ถึง 18 % และลดค่าโทเคนของ AI agent ถึง 10 เท่า แม้ว่ายังต้องแก้ไขการแบ่งภาพที่อาจตัดเนื้อหา การพัฒนาต่อไปของ VLM จะเป็นกุญแจสำคัญต่อการขยายการใช้งานนี้ในระดับองค์กร.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
PixelRAG beats text parsers on accuracy and cuts AI agent token costs 10x
ผู้เขียน
Unknown
แหล่ง
VentureBeat
วันที่เผยแพร่
12 มิถุนายน 2569 เวลา 22:39

Related

บทความที่เกี่ยวข้อง

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhoneAI
16 มิถุนายน 2569 เวลา 05:00

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

iOS 27 เปิดตัวแอป Siri แยกเป็นสแตนด์อโลนบนหน้าจอหลักของ iPhone ทำให้ผู้ใช้เรียกใช้บริการ AI ได้โดยตรงจากไอคอนเดียว…

9to5Mac8 นาที
ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…AI
16 มิถุนายน 2569 เวลา 03:30

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ผู้เขียนทดลองใช้ NotebookLM ของ Google ร่วมกับ Claude ของ Anthropic เพื่อสรุปข้อมูลและแปลงเป็นขั้นตอนปฏิบัติ ลดเวลาการอ่านและจดโน้ตหลายชั่วโมง

XDA Developers6 นาที
ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
คัดลอกลิงก์แล้ว!