
ที่มาภาพ: VentureBeat
Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด
⚡ สรุป 30 วิ
Weibo เปิดโมเดล VibeThinker-3B ขนาด 3 พันล้านพารามิเตอร์ โดยอ้างว่าสามารถทำคะแนน AIME 2026 ได้ 94.3 เทียบเท่าระบบหลายร้อยเท่า…
VibeThinker-3B ของ Sina Weibo เพิ่งเปิดเผยใน arXiv พร้อมอ้างว่ามีขนาดเพียง 3 พันล้านพารามิเตอร์ สามารถทำคะแนนการให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบระดับไจาก Google DeepMind, OpenAI, Anthropic และ DeepSeek ซึ่งมีขนาดหลายร้อยเท่าตัว โมเดลนี้จึงก่อให้เกิดการถกเถียงอย่างกว้างขวางในชุมชน AI เกี่ยวกับความเชื่อถือของ benchmark และทิศทางการพัฒนาโมเดลขนาดใหญ่ต่อไป
Overview
ทีมวิจัยจำนวนเก้าคนจาก Sina Weibo ได้ส่งรายงานเทคนิค 14 หน้าไปยัง arXiv เมื่อวันอาทิตย์ที่ผ่านมา รายงานระบุว่าการฝึกโมเดล VibeThinker-3B ด้วยเทคนิคการประเมินระดับความเชื่อถือ (Claim‑Level Reliability Assessment) ทำให้ได้คะแนน 94.3 บนการสอบ AIME 2026 ซึ่งเทียบเท่ากับ DeepSeek V3.2 (671 พันล้านพารามิเตอร์) และเหนือกว่า Gemini 3 Pro ของ Google ที่ได้คะแนน 91.7
โดยทีมงานยังระบุว่าหากใช้เทคนิคสเกลเวลาทดสอบเพิ่มเติม คะแนนจะเพิ่มเป็น 97.1 ทำให้โมเดลนี้เป็นหนึ่งในระบบที่มีคะแนนสูงสุดที่เปิดเผยต่อสาธารณะ การเผยแพร่ทำให้มีการโหวตบน Hugging Face จำนวน 62 คะแนน, โมเดลรีโพซิทอรีได้รับไลค์ 130 ครั้ง และ GitHub repository สะสมดาว 685 ดาวภายในไม่กี่ชั่วโมง
Benchmark Results
โมเดลนี้ได้ทดสอบบนหลาย benchmark ด้านคณิตศาสตร์, การเขียนโค้ด และการทำตามคำสั่ง โดยสรุปผลได้ดังต่อไปนี้
- AIME 2025 : 91.4
- AIME 2026 : 94.3
- HMMT 2025 : 89.3
- BruMO 2025 : 93.8
- IMO‑AnswerBench : 76.4 (จาก 400 ปัญหาระดับ IMO)
- LiveCodeBench v6 : Pass@1 = 80.2
- LeetCode (ช่วงเมษายน‑พฤษภาคม 2026) : อัตราการยอมรับ = 96.1 %
- IFEval : 93.4
ผลลัพธ์เหล่านี้แสดงให้เห็นว่าโมเดลขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนนได้เทียบเท่าหรือดีกว่าระบบที่มีขนาดหลายร้อยเท่าในงานที่ผลลัพธ์สามารถตรวจสอบได้โดยตรง อย่างไรก็ตามบน benchmark ความรู้แบบเปิด (GPQA‑Diamond) โมเดลได้คะแนน 70.2 ซึ่งต่ำกว่าที่ Gemini 3 Pro (91.9) และ Claude Opus 4.5 (87.0) ทำให้ชี้ให้เห็นถึงข้อจำกัดของโมเดลในด้านความครอบคลุมของความรู้
Training Methodology
VibeThinker-3B ไม่ได้เริ่มจากศูนย์ แต่ต่อยอดจาก Qwen2.5‑Coder‑3B ของทีม Alibaba ผ่านกระบวนการฝึกสี่ขั้นตอนที่ทีม Weibo เรียกว่า “Spectrum‑to‑Signal Principle”
ขั้นตอนแรกเป็นการฝึกแบบ supervised learning สองขั้นตอนโดยใช้ curriculum learning: ขั้นแรกฝึกกับข้อมูลผสมหลากหลายด้านคณิตศาสตร์, โค้ด, STEM, การสนทนาและการทำตามคำสั่ง; ขั้นที่สองย้ายไปฝึกกับชุดข้อมูลที่ยากขึ้นและมีระยะเวลาการให้เหตุผลยาวกว่า
ขั้นตอนที่สองของกระบวนการคัดกรองตัวอย่างที่มีความยาวน้อยกว่า 5,000 โทเคนออก และกรองปัญหาที่ VibeThinker‑1.5B สามารถแก้ได้เกิน 75 % เพื่อลดความง่ายและเน้นความท้าทายที่แท้จริง
ต่อมาคือการฝึกด้วย reinforcement learning (RL) ข้ามหลายโดเมนโดยใช้อัลกอริทึม **MaxEnt‑Guided Policy Optimization (MGPO) ซึ่งให้โมเดลฝึกกับปัญหาที่อยู่บนขอบเขตความสามารถของมัน แทนที่จะฝึกกับปัญหาที่ง่ายหรือยากเกินไป
ทีมงานสังเกตว่าการขยายขนาดหน้าต่างบริบทระหว่างการฝึก RL ซึ่งเคยช่วยในเวอร์ชัน 1.5 B กลับทำให้ประสิทธิภาพของโมเดล 3 B ลดลง ทำให้พวกเขาตั้งสมมติฐานว่า checkpoint ที่แข็งแกร่งกว่าอาจทำให้การตัดทอน trace ระหว่าง warm‑up มีผลเสีย
Theoretical Implications
รายงานได้เสนอ Parametric Compression‑Coverage Hypothesis ซึ่งอธิบายว่าความสามารถของ AI มีความสัมพันธ์กับจำนวนพารามิเตอร์ที่แตกต่างกันอย่างชัดเจน
- ความสามารถด้านการให้เหตุผลที่สามารถตรวจสอบได้ (เช่น คณิตศาสตร์และโค้ด) ถูกจัดเป็น “parameter‑dense” ซึ่งสามารถบีบอัดลงในแกนกลางที่ค่อนข้างเล็กได้
- ความรู้แบบเปิดโดเมน (เช่น ความรู้ทั่วไป, คำตอบวิทยาศาสตร์ระดับมหาวิทยาลัย) ถูกจัดเป็น “parameter‑expansive” ซึ่งต้องการจำนวนพารามิเตอร์มากเพื่อครอบคลุมความหลากหลายของข้อมูล
ผลการทดสอบบน GPQA‑Diamond ที่คะแนนต่ำกว่าระบบขนาดใหญ่สนับสนุนแนวคิดนี้ โดยทีมงานอธิบายว่าข้อแตกต่างไม่ได้เป็นการโต้แย้งกับสมมติฐาน แต่แสดงให้เห็นว่าการบีบอัดความสามารถที่ตรวจสอบได้เป็นไปได้ แม้ในโมเดลขนาดเล็ก
Community Reaction
เมื่อรายงานเผยแพร่บน arXiv มีการโต้ตอบอย่างรวดเร็วบนแพลตฟอร์มต่าง ๆ 62 การโหวตบน Hugging Face, 130 ไลค์บนโมเดลรีโพซิทอรี, และ 685 ดาวบน GitHub แสดงถึงความสนใจสูงของชุมชน
ในเวลาเดียวกัน โซเชียลมีเดียก็มีเสียงวิพากษ์วิจารณ์อย่างเข้มข้น ผู้ใช้บางคนตั้งคำถามว่าการบรรลุคะแนนระดับเดียวกับโมเดลหลายร้อยเท่าอาจมาจากการ “ทำลาย” benchmark หรืออาจเป็นการบิดเบือนผลลัพธ์ ด้วยเหตุนี้หลายคนจึงเรียกร้องให้มีการตรวจสอบอย่างละเอียดและอาจต้องปรับปรุงเกณฑ์วัดผลให้ทนต่อการ “เกม” มากขึ้น
การถกเถียงนี้สะท้อนถึงความกังวลที่กว้างขวางในวงการ AI ว่า benchmark ที่ใช้วัดความฉลาดของโมเดลอาจกลายเป็นเครื่องมือที่สามารถ “โกง” ได้ หากไม่มีการออกแบบที่เหมาะสม ทั้งนี้ผลกระทบต่อการพัฒนาโมเดลขนาดใหญ่ต่อไปยังคงต้องอาศัยการประเมินจากชุมชนอย่างต่อเนื่อง
Impact
ถ้า VibeThinker-3B ยืนยันความสามารถของโมเดลขนาดเล็กในการทำงานด้านการให้เหตุผลอย่างเชื่อถือได้ จะทำให้ผู้พัฒนามองเห็นทางเลือกใหม่ในการลดต้นทุนการฝึกและการใช้งานโมเดล AI โดยเฉพาะในสภาพแวดล้อมที่จำกัดทรัพยากรเช่นอุปกรณ์ส่วนบุคคล
อย่างไรก็ตาม ความอ่อนแอบน benchmark ความรู้แบบเปิดยังคงเป็นอุปสรรคสำคัญ หากต้องการโมเดลที่ทำหน้าที่เป็นผู้ช่วยทั่วไปแบบครบวงจร การเพิ่มพารามิเตอร์หรือการผสานเทคนิคการฝึกใหม่อาจยังคงจำเป็น
การพิจารณาว่าแนวทาง “parameter‑dense” จะเป็นทิศทางหลักของการพัฒนา AI หรือเป็นเพียงส่วนเสริมของแนวคิดเดิม จะขึ้นกับผลการทดลองต่อเนื่องและการยอมรับของชุมชนวิชาการและอุตสาหกรรมในระยะยาว
Summary
VibeThinker-3B ของ Sina Weibo แสดงให้เห็นว่ามodel ขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนน benchmark การให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบขนาดหลายร้อยเท่า รายงานกระตุ้นการถกเถียงเกี่ยวกับความเชื่อถือของ benchmark และอาจเปิดทางให้การพัฒนาโมเดลขนาดเล็กมีบทบาทมากขึ้นในอนาคต.
แชร์บทความนี้:
ชอบบทความแบบนี้?
สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม
แหล่งข่าวต้นฉบับ
- ชื่อต้นฉบับ
- Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again
- ผู้เขียน
- michael.nunez@venturebeat.com (Michael Nuñez)
- แหล่ง
- VentureBeat
- วันที่เผยแพร่
- 17 มิถุนายน 2569 เวลา 07:32



