Microsoft เปิดเผย ASSERT เฟรมเวิร์กโอเพ่นซอร์สสำหรับประเม…

ที่มาภาพ: InfoWorld

AI-อ่าน 6 นาทีInfoWorld

Microsoft เปิดเผย ASSERT เฟรมเวิร์กโอเพ่นซอร์สสำหรับประเม…

⚡ สรุป 30 วิ

Microsoft เปิดตัวเฟรมเวิร์กโอเพ่นซอร์ส ASSERT ที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ ช่วยองค์กรตรวจสอบเอเจนต์ AI ก่อนใช้งานจริง แม้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์…

Microsoft เปิดเผย ASSERT – โครงสร้างการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเชิงภาษาธรรมชาติให้เป็นชุดทดสอบอัตโนมัติ การเปิดตัวนี้สอดคล้องกับความพยายามของบริษัทในการขยายโซลูชันการกำกับดูแล AI สำหรับองค์กร เมื่อองค์กรหลายแห่งยังขาดวิธีการตรวจสอบพฤติกรรมของเอเจนต์ AI ก่อนนำไปใช้งานจริงอย่างเป็นระบบ

Overview

Microsoft กล่าวในบล็อกโพสต์ว่า ASSERT (Adaptive Spec‑driven Scoring for Evaluation and Regression Testing) สามารถสร้างสถานการณ์การประเมินผล ชุดข้อมูล ตัวชี้วัด และสกอร์การ์ดจากสเปคที่เขียนเป็นข้อความ เช่น เอกสารข้อกำหนดผลิตภัณฑ์หรือแนวทางการกำกับดูแล การแปลงนี้ทำให้ผู้พัฒนาสามารถผสานการทดสอบเข้าไปในไพลไลน์การพัฒนา AI ได้โดยไม่ต้องสร้างสคริปต์ทดสอบด้วยมือ

บริษัทชี้ว่า “เอเจนต์มักล้มเหลวในรูปแบบที่มองไม่เห็น” เนื่องจากอาจเบี่ยงเบนจากนโยบาย ผลลัพธ์ที่ไม่ปลอดภัยในกรณีขอบ หรือพฤติกรรมที่ต่างจากการทดสอบเมื่อทำงานในสภาพแวดล้อมการผลิต การประเมินผลตามมาตรฐานทั่วไปจึงไม่สามารถจับข้อบกพร่องเหล่านี้ได้เพราะไม่ได้ออกแบบให้สอดคล้องกับนโยบายหรือกรณีการใช้ของแต่ละองค์กร

Technical Details

ASSERT ใช้โมเดลภาษาใหญ่เป็นผู้ตัดสินผลการประเมิน โดย Microsoft รายงานว่าการประเมินของโมเดลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% ตามการตรวจสอบภายในของบริษัท ระดับความสอดคล้องนี้ช่วยให้สามารถอัตโนมัติการทดสอบส่วนใหญ่ได้ แต่ยังคงต้องมีการควบคุมจากมนุษย์ในกรณีที่มีความเสี่ยงสูงหรือสถานการณ์ที่ซับซ้อน

เฟรมเวิร์กนี้ถูกปล่อยภายใต้ MIT license ทำให้องค์กรสามารถตรวจสอบ แก้ไข และรวมเข้ากับกระบวนการพัฒนา AI ที่มีอยู่ได้อย่างอิสระ การเปิดซอร์สยังช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียว แต่ไม่อาจขจัดปัญหาความเป็นกลางของการประเมินได้ทั้งหมด

Market Landscape

การเปิดตัว ASSERT ทำให้ Microsoft เข้าสู่ตลาดโซลูชันการประเมินผล AI ที่กำลังเติบโตอย่างรวดเร็ว ปัจจุบันมีผู้ให้บริการหลายรายที่เสนอแพลตฟอร์มคล้ายคลึงกันเพื่อช่วยองค์กรทำการทดสอบและตรวจสอบโมเดลภาษาใหญ่ ได้แก่

  • LangChain’s LangSmith
  • Braintrust
  • Patronus AI
  • Galileo
  • Arize AI’s Phoenix
  • Promptfoo

แต่ละแพลตฟอร์มต่างเน้นการสร้างเกณฑ์การวัดผล การเฝ้าติดตาม และการเปรียบเทียบผลลัพธ์ของโมเดลตามความต้องการของผู้ใช้

Adoption & Challenges

ตามข้อมูลจาก Gartner, 99% ขององค์กรยังไม่ได้ทำการประเมินเอเจนต์ AI ก่อนการผลิต ความล่าช้าในการนำมาตรฐานการทดสอบเข้ามาใช้ทำให้เกิดความเสี่ยงต่อการล้มเหลวของระบบในอุตสาหกรรมที่ต้องการการควบคุมที่เข้มงวด Gartner คาดว่าโดย 2029 มากกว่า 75% ของเอเจนต์เฉพาะโดเมนที่พัฒนาขึ้นโดยไม่มีการจำลองสถานการณ์จะไม่สร้างคุณค่าให้กับองค์กร

Forrester รายงานว่า 45% ขององค์กรใช้เอเจนต์ AI อยู่แล้ว และอีก 25% อยู่ในขั้นตอนทดลองใช้ อย่างไรก็ตามหลายองค์กรยังประสบปัญหาในการขยายการใช้งานเนื่องจากการกำกับดูแลที่ยังไม่เต็มรูปแบบและกระบวนการดำเนินการที่ขาดความเป็นมาตรฐาน

Governance Implications

ผู้เชี่ยวชาญของ Forrester ชี้ว่าการใช้โมเดลเป็นผู้ตรวจสอบอาจให้ผลสอดคล้องกับผู้ตรวจสอบมนุษย์ในระดับ **80%‑90% แต่ไม่ควรพึ่งพาเป็นเครื่องมือการกำกับดูแลหรือการปฏิบัติตามกฎระเบียบเพียงอย่างเดียว ควรมีการควบคุมระดับหลายชั้นโดยมนุษย์ยังคงรับผิดชอบต่อกรณีที่มีความเสี่ยงหรือความไม่แน่นอน

การเปิดซอร์สของ ASSERT ภายใต้ MIT license ช่วยลดความกังวลเรื่องการล็อกอินกับผู้ให้บริการเดียวและส่งเสริมการทำงานร่วมกับระบบโมเดลหลากหลายรูปแบบ อย่างไรก็ตาม ความเป็นกลางของเกณฑ์การประเมินยังคงขึ้นกับการออกแบบของผู้พัฒนาเฟรมเวิร์ก ผู้ใช้จึงควรตรวจสอบและกำหนดนโยบายภายในของตนเองพร้อมกับใช้เครื่องมือหลายชุดเพื่อยืนยันผลการประเมิน

Summary

Microsoft ปล่อย ASSERT เป็นเฟรมเวิร์กการประเมินผล AI แบบเปิด‑ซอร์สที่แปลงข้อกำหนดเป็นชุดทดสอบอัตโนมัติ เพื่อตอบสนองความต้องการขององค์กรที่ยังขาดการตรวจสอบเอเจนต์ AI อย่างเป็นระบบ แม้การเปิดซอร์สจะลดความเสี่ยงเรื่องการล็อกอิน แต่การกำกับดูแลที่มีประสิทธิภาพยังคงต้องอาศัยการตรวจสอบหลายชั้นและการกำหนดนโยบายภายในของแต่ละองค์กร.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Microsoft open sources AI evaluation framework for enterprise agents
ผู้เขียน
Unknown
แหล่ง
InfoWorld
วันที่เผยแพร่
11 มิถุนายน 2569 เวลา 19:36

Related

บทความที่เกี่ยวข้อง

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhoneAI
16 มิถุนายน 2569 เวลา 05:00

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

iOS 27 เปิดตัวแอป Siri แยกเป็นสแตนด์อโลนบนหน้าจอหลักของ iPhone ทำให้ผู้ใช้เรียกใช้บริการ AI ได้โดยตรงจากไอคอนเดียว…

9to5Mac8 นาที
ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…AI
16 มิถุนายน 2569 เวลา 03:30

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ผู้เขียนทดลองใช้ NotebookLM ของ Google ร่วมกับ Claude ของ Anthropic เพื่อสรุปข้อมูลและแปลงเป็นขั้นตอนปฏิบัติ ลดเวลาการอ่านและจดโน้ตหลายชั่วโมง

XDA Developers6 นาที
ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
คัดลอกลิงก์แล้ว!