Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด

VibeThinker-3B ของ Sina Weibo เพิ่งเปิดเผยใน arXiv พร้อมอ้างว่ามีขนาดเพียง 3 พันล้านพารามิเตอร์ สามารถทำคะแนนการให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบระดับไจาก Google DeepMind, OpenAI, Anthropic และ DeepSeek ซึ่งมีขนาดหลายร้อยเท่าตัว โมเดลนี้จึงก่อให้เกิดการถกเถียงอย่างกว้างขวางในชุมชน AI เกี่ยวกับความเชื่อถือของ benchmark และทิศทางการพัฒนาโมเดลขนาดใหญ่ต่อไป

Overview

ทีมวิจัยจำนวนเก้าคนจาก Sina Weibo ได้ส่งรายงานเทคนิค 14 หน้าไปยัง arXiv เมื่อวันอาทิตย์ที่ผ่านมา รายงานระบุว่าการฝึกโมเดล VibeThinker-3B ด้วยเทคนิคการประเมินระดับความเชื่อถือ (Claim‑Level Reliability Assessment) ทำให้ได้คะแนน 94.3 บนการสอบ AIME 2026 ซึ่งเทียบเท่ากับ DeepSeek V3.2 (671 พันล้านพารามิเตอร์) และเหนือกว่า Gemini 3 Pro ของ Google ที่ได้คะแนน 91.7

โดยทีมงานยังระบุว่าหากใช้เทคนิคสเกลเวลาทดสอบเพิ่มเติม คะแนนจะเพิ่มเป็น 97.1 ทำให้โมเดลนี้เป็นหนึ่งในระบบที่มีคะแนนสูงสุดที่เปิดเผยต่อสาธารณะ การเผยแพร่ทำให้มีการโหวตบน Hugging Face จำนวน 62 คะแนน, โมเดลรีโพซิทอรีได้รับไลค์ 130 ครั้ง และ GitHub repository สะสมดาว 685 ดาวภายในไม่กี่ชั่วโมง

Benchmark Results

โมเดลนี้ได้ทดสอบบนหลาย benchmark ด้านคณิตศาสตร์, การเขียนโค้ด และการทำตามคำสั่ง โดยสรุปผลได้ดังต่อไปนี้

AIME 2025 : 91.4
AIME 2026 : 94.3
HMMT 2025 : 89.3
BruMO 2025 : 93.8
IMO‑AnswerBench : 76.4 (จาก 400 ปัญหาระดับ IMO)
LiveCodeBench v6 : Pass@1 = 80.2
LeetCode (ช่วงเมษายน‑พฤษภาคม 2026) : อัตราการยอมรับ = 96.1 %
IFEval : 93.4

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าโมเดลขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนนได้เทียบเท่าหรือดีกว่าระบบที่มีขนาดหลายร้อยเท่าในงานที่ผลลัพธ์สามารถตรวจสอบได้โดยตรง อย่างไรก็ตามบน benchmark ความรู้แบบเปิด (GPQA‑Diamond) โมเดลได้คะแนน 70.2 ซึ่งต่ำกว่าที่ Gemini 3 Pro (91.9) และ Claude Opus 4.5 (87.0) ทำให้ชี้ให้เห็นถึงข้อจำกัดของโมเดลในด้านความครอบคลุมของความรู้

Training Methodology

VibeThinker-3B ไม่ได้เริ่มจากศูนย์ แต่ต่อยอดจาก Qwen2.5‑Coder‑3B ของทีม Alibaba ผ่านกระบวนการฝึกสี่ขั้นตอนที่ทีม Weibo เรียกว่า “Spectrum‑to‑Signal Principle”

ขั้นตอนแรกเป็นการฝึกแบบ supervised learning สองขั้นตอนโดยใช้ curriculum learning: ขั้นแรกฝึกกับข้อมูลผสมหลากหลายด้านคณิตศาสตร์, โค้ด, STEM, การสนทนาและการทำตามคำสั่ง; ขั้นที่สองย้ายไปฝึกกับชุดข้อมูลที่ยากขึ้นและมีระยะเวลาการให้เหตุผลยาวกว่า

ขั้นตอนที่สองของกระบวนการคัดกรองตัวอย่างที่มีความยาวน้อยกว่า 5,000 โทเคนออก และกรองปัญหาที่ VibeThinker‑1.5B สามารถแก้ได้เกิน 75 % เพื่อลดความง่ายและเน้นความท้าทายที่แท้จริง

ต่อมาคือการฝึกด้วย reinforcement learning (RL) ข้ามหลายโดเมนโดยใช้อัลกอริทึม **MaxEnt‑Guided Policy Optimization (MGPO) ซึ่งให้โมเดลฝึกกับปัญหาที่อยู่บนขอบเขตความสามารถของมัน แทนที่จะฝึกกับปัญหาที่ง่ายหรือยากเกินไป

ทีมงานสังเกตว่าการขยายขนาดหน้าต่างบริบทระหว่างการฝึก RL ซึ่งเคยช่วยในเวอร์ชัน 1.5 B กลับทำให้ประสิทธิภาพของโมเดล 3 B ลดลง ทำให้พวกเขาตั้งสมมติฐานว่า checkpoint ที่แข็งแกร่งกว่าอาจทำให้การตัดทอน trace ระหว่าง warm‑up มีผลเสีย

Theoretical Implications

รายงานได้เสนอ Parametric Compression‑Coverage Hypothesis ซึ่งอธิบายว่าความสามารถของ AI มีความสัมพันธ์กับจำนวนพารามิเตอร์ที่แตกต่างกันอย่างชัดเจน

ความสามารถด้านการให้เหตุผลที่สามารถตรวจสอบได้ (เช่น คณิตศาสตร์และโค้ด) ถูกจัดเป็น “parameter‑dense” ซึ่งสามารถบีบอัดลงในแกนกลางที่ค่อนข้างเล็กได้
ความรู้แบบเปิดโดเมน (เช่น ความรู้ทั่วไป, คำตอบวิทยาศาสตร์ระดับมหาวิทยาลัย) ถูกจัดเป็น “parameter‑expansive” ซึ่งต้องการจำนวนพารามิเตอร์มากเพื่อครอบคลุมความหลากหลายของข้อมูล

ผลการทดสอบบน GPQA‑Diamond ที่คะแนนต่ำกว่าระบบขนาดใหญ่สนับสนุนแนวคิดนี้ โดยทีมงานอธิบายว่าข้อแตกต่างไม่ได้เป็นการโต้แย้งกับสมมติฐาน แต่แสดงให้เห็นว่าการบีบอัดความสามารถที่ตรวจสอบได้เป็นไปได้ แม้ในโมเดลขนาดเล็ก

Community Reaction

เมื่อรายงานเผยแพร่บน arXiv มีการโต้ตอบอย่างรวดเร็วบนแพลตฟอร์มต่าง ๆ 62 การโหวตบน Hugging Face, 130 ไลค์บนโมเดลรีโพซิทอรี, และ 685 ดาวบน GitHub แสดงถึงความสนใจสูงของชุมชน

ในเวลาเดียวกัน โซเชียลมีเดียก็มีเสียงวิพากษ์วิจารณ์อย่างเข้มข้น ผู้ใช้บางคนตั้งคำถามว่าการบรรลุคะแนนระดับเดียวกับโมเดลหลายร้อยเท่าอาจมาจากการ “ทำลาย” benchmark หรืออาจเป็นการบิดเบือนผลลัพธ์ ด้วยเหตุนี้หลายคนจึงเรียกร้องให้มีการตรวจสอบอย่างละเอียดและอาจต้องปรับปรุงเกณฑ์วัดผลให้ทนต่อการ “เกม” มากขึ้น

การถกเถียงนี้สะท้อนถึงความกังวลที่กว้างขวางในวงการ AI ว่า benchmark ที่ใช้วัดความฉลาดของโมเดลอาจกลายเป็นเครื่องมือที่สามารถ “โกง” ได้ หากไม่มีการออกแบบที่เหมาะสม ทั้งนี้ผลกระทบต่อการพัฒนาโมเดลขนาดใหญ่ต่อไปยังคงต้องอาศัยการประเมินจากชุมชนอย่างต่อเนื่อง

Impact

ถ้า VibeThinker-3B ยืนยันความสามารถของโมเดลขนาดเล็กในการทำงานด้านการให้เหตุผลอย่างเชื่อถือได้ จะทำให้ผู้พัฒนามองเห็นทางเลือกใหม่ในการลดต้นทุนการฝึกและการใช้งานโมเดล AI โดยเฉพาะในสภาพแวดล้อมที่จำกัดทรัพยากรเช่นอุปกรณ์ส่วนบุคคล

อย่างไรก็ตาม ความอ่อนแอบน benchmark ความรู้แบบเปิดยังคงเป็นอุปสรรคสำคัญ หากต้องการโมเดลที่ทำหน้าที่เป็นผู้ช่วยทั่วไปแบบครบวงจร การเพิ่มพารามิเตอร์หรือการผสานเทคนิคการฝึกใหม่อาจยังคงจำเป็น

การพิจารณาว่าแนวทาง “parameter‑dense” จะเป็นทิศทางหลักของการพัฒนา AI หรือเป็นเพียงส่วนเสริมของแนวคิดเดิม จะขึ้นกับผลการทดลองต่อเนื่องและการยอมรับของชุมชนวิชาการและอุตสาหกรรมในระยะยาว

Summary

VibeThinker-3B ของ Sina Weibo แสดงให้เห็นว่ามodel ขนาด 3 พันล้านพารามิเตอร์ สามารถทำคะแนน benchmark การให้เหตุผลได้เทียบเท่าหรือเหนือกว่าระบบขนาดหลายร้อยเท่า รายงานกระตุ้นการถกเถียงเกี่ยวกับความเชื่อถือของ benchmark และอาจเปิดทางให้การพัฒนาโมเดลขนาดเล็กมีบทบาทมากขึ้นในอนาคต.

Weibo เปิดโมเดล VibeThinker-3B 3 พันล้านพารามิเตอร์ ทำคะแนน AI benchmark สูงสุด

Overview

Benchmark Results

Training Methodology

Theoretical Implications

Community Reaction

Impact

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

Kimi K3 โมเดลโอเพ่นซอร์สขนาด 2.8 trillion ของ Moonshot ยังไม่รันบนเครื่องบ้าน

Spotify เปิดโหมด Running Mode สำหรับ Premium บน iOS

AI พลังต่ำขับเคลื่อนยุคนวัตกรรมระดับโลก

สหรัฐห้ามนำเข้าโรบอตขั้นสูงและอุปกรณ์แปลงไฟฟ้าจากต่างประเทศ

Overview

Benchmark Results

Training Methodology

Theoretical Implications

Community Reaction

Impact

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

Kimi K3 โมเดลโอเพ่นซอร์สขนาด 2.8 trillion ของ Moonshot ยังไม่รันบนเครื่องบ้าน

Spotify เปิดโหมด Running Mode สำหรับ Premium บน iOS

AI พลังต่ำขับเคลื่อนยุคนวัตกรรมระดับโลก

สหรัฐห้ามนำเข้าโรบอตขั้นสูงและอุปกรณ์แปลงไฟฟ้าจากต่างประเทศ

Kimi K3 โมเดลโอเพ่นซอร์สขนาด 2.8 trillion ของ Moonshot ยังไม่รันบนเครื่องบ้าน