Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

Kimi K2.7‑Code รุ่นล่าสุดของ Moonshot AI ได้เปิดตัวสัปดาห์นี้พร้อมอ้างอิงว่าลดการใช้ thinking‑token ลง 30 % เมื่อเทียบกับรุ่นก่อนหน้า K2.6 และให้การอ้างว่าประสิทธิภาพโดยรวมเพิ่มขึ้นหลายสิบเปอร์เซ็นต์ ทั้งนี้การอัปเดตยังคงใช้สถาปัตยกรรม mixture‑of‑experts ขนาดหนึ่งล้านล้านพารามิเตอร์เดียวกันและสามารถเรียกใช้ผ่าน OpenAI‑compatible API ทำให้ผู้ใช้งานที่มี K2.6 อยู่แล้วสามารถสลับไปใช้ได้โดยไม่ต้องปรับโครงสร้างระบบ

Overview

K2.7‑Code เป็นโมเดลโอเพ่นซอร์สที่ต่อเนื่องจากตระกูล K2 ของ Moonshot AI ซึ่งเปิดตัวครั้งแรกในเดือนเมษายนด้วย K2.6 ที่ทำคะแนนสูงสุดบน OpenRouter รายสัปดาห์ ซึ่งอิงจากการตัดสินใจเส้นทาง API ของนักพัฒนาจริง ๆ แทนการอ้างอิงผลการทดสอบภายใน โมเดลใหม่ยังคงใช้สถาปัตยกรรม trillion‑parameter mixture‑of‑experts เดียวกันกับ K2.6 แต่มุ่งเน้นที่การลด “การคิดมากเกินไป” (overthinking) ที่ Moonshot AI ระบุว่าเป็นสาเหตุของค่าใช้จ่ายการทำ inference สูง

K2.7‑Code ถูกปล่อยภายใต้ Modified MIT license พร้อมน้ำหนักโมเดลให้ดาวน์โหลดได้ที่ HuggingFace การติดตั้งสามารถทำผ่านเฟรมเวิร์ก vLLM หรือ SGLang ได้โดยตรง ซึ่งทำให้ทีมไอทีสามารถผสานรวมเข้ากับระบบเดิมได้อย่างรวดเร็ว การทำงานของโมเดลจำกัดอยู่ที่ “thinking mode” เท่านั้น และอุณหภูมิเครื่องตอบกลับถูกตั้งค่าให้คงที่ที่ 1.0 ไม่สามารถปรับเปลี่ยนได้ตามต้องการของผู้ใช้

Technical Changes

การเปลี่ยนแปลงหลักระหว่าง K2.6 กับ K2.7‑Code อยู่ที่วิธีการสร้างโค้ดระดับล่าง K2.6 จะสร้างการทำงานโดย ห่อหุ้มไลบรารี ที่มีอยู่แล้วและส่งต่อผ่านเฟรมเวิร์กที่กำหนดไว้ล่วงหน้า ในขณะที่ K2.7‑Code จะ เขียนโค้ดโดยตรง ซึ่ง Moonshot AI กล่าวว่าช่วยให้โมเดลมีความทั่วไปที่ดีกว่าในหลายภาษา เช่น Rust, Go, และ Python รวมถึงงานประเภทต่าง ๆ เช่น การพัฒนา Front‑end, DevOps, และการปรับประสิทธิภาพระบบ

โมเดลใหม่ยังคงทำงานในโหมด “thinking” อย่างเดียว ซึ่งหมายความว่าการควบคุมความสุ่มของผลลัพธ์ (temperature) ถูกล็อกที่ 1.0 ผู้ใช้จึงไม่สามารถปรับระดับ deterministic ของผลลัพธ์ได้เหมือนกับโมเดลอื่น ๆ ที่เปิดให้กำหนดค่า temperature ได้ตามความต้องการของแอปพลิเคชัน

Benchmark Claims

Moonshot AI ยืนยันว่า K2.7‑Code ให้ผลการเพิ่มประสิทธิภาพบนชุดทดสอบภายในของบริษัทหลายสิบเปอร์เซ็นต์ รายละเอียดการเพิ่มประสิทธิภาพที่ระบุมีดังนี้

Kimi Code Bench v2 เพิ่ม **21.8 %
Program Bench เพิ่ม **11 %
MLS Bench Lite เพิ่ม **31.5 %

ชุดทดสอบเหล่านี้เป็น benchmark ที่พัฒนาและดำเนินการโดย Moonshot AI เอง ซึ่งยังไม่ได้ส่งโมเดลเข้าสู่การทดสอบของ DeepSWE – benchmark การเขียนโค้ดอิสระที่ให้คะแนนกระจายกว้างกว่า SWE‑Bench Pro อย่างมีนัยสำคัญ การที่ K2.7‑Code ยังไม่ผ่านการประเมินจาก DeepSWE ทำให้ยังไม่มีข้อมูลเปรียบเทียบจากแหล่งภายนอกที่เป็นมาตรฐานอุตสาหกรรม

Independent Evaluation

นักวิจัย Elliot Arledge ได้ทำการทดสอบ K2.7‑Code เปรียบเทียบกับ K2.6 และ Claude Fable 5 บน KernelBench‑Hard – benchmark สาธารณะที่มุ่งเน้นการเพิ่มประสิทธิภาพของเคอร์เนล GPU ผลการทดลองเผยว่า K2.7‑Code “more honest but not more capable” โดยในหกโจทย์ที่ทดสอบ โมเดลใหม่สร้าง Triton kernels ที่เขียนโดยตรงใน 5 กรณี แต่มี 2 ตัวที่ล้มเหลวจากบั๊กของโมเดลเอง ทำให้คะแนน MoE kernel ลดลงจาก 0.222 ของ K2.6 เหลือ 0.157 ของ K2.7‑Code ส่วน Claude Fable 5 ติดอันดับบนทุกเซลล์ที่ไม่ล้มเหลว

นักพัฒนา Sugumaran Balasubramaniyan ที่สร้าง model‑task‑router สำหรับแพลตฟอร์ม Hermes Agent โดยอ้างอิงคะแนนจาก DeepSWE แสดงความกังวลต่อการใช้ benchmark ภายในของ Moonshot AI เข้าข้อเรียกร้องให้ K2.7‑Code ส่งคะแนนเข้าสู่ DeepSWE ด้วย เขายังระบุว่า K2.6 ได้คะแนน 24 % บน DeepSWE เทียบเท่ากับ GPT‑5.4‑mini** และบอกว่าจะพิจารณา routing งานไปยัง K2.7‑Code ก็ต่อเมื่อผลลัพธ์จาก benchmark อิสระยืนยันความได้เปรียบของโมเดลใหม่

Enterprise Impact

การลดการใช้ thinking‑token 30 % ที่ Moonshot AI ระบุอาจช่วยองค์กรที่ใช้ K2.6 อยู่แล้วลดค่าใช้จ่ายการ inference ได้อย่างทันทีโดยไม่ต้องปรับสถาปัตยกรรมระบบ เนื่องจากโมเดลใหม่สามารถเรียกใช้ผ่าน OpenAI‑compatible API ที่มีอยู่แล้ว การสลับโมเดลจึงเป็นกระบวนการที่มีความเสี่ยงต่ำและสามารถทดลองกับ workload ของตนเองก่อนทำการเปลี่ยนแปลงน้ำหนัก routing อย่างเป็นทางการ

อย่างไรก็ตาม ประสิทธิภาพที่อ้างอิงจาก benchmark ภายในอาจไม่สอดคล้องกับผลลัพธ์จริงในสภาพแวดล้อมของแต่ละองค์กร ทีมไอทีควรทำการประเมิน K2.7‑Code บนงานจริงของตนเองก่อนปรับค่า routing เพื่อยืนยันว่าการลด token ใช้จริงจะเกิดขึ้นและไม่ส่งผลกระทบต่อคุณภาพของโค้ดที่สร้างขึ้น

Summary

Moonshot AI เปิดตัว Kimi K2.7‑Code พร้อมอ้างว่าลดการใช้ token ในขั้นคิดลง 30 % และให้ผลการเพิ่มประสิทธิภาพหลายสิบเปอร์เซ็นต์บน benchmark ภายใน ส่วนการประเมินจากผู้เชี่ยวชาญอิสระแสดงให้เห็นว่าประสิทธิภาพจริงอาจไม่สอดคล้องกับตัวเลขที่โฆษณา การทดสอบในสภาพแวดล้อมขององค์กรจึงเป็นขั้นตอนสำคัญก่อนนำโมเดลไปใช้ในงานผลิตจริง.

Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

Overview

Technical Changes

Benchmark Claims

Independent Evaluation

Enterprise Impact

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

Overview

Technical Changes

Benchmark Claims

Independent Evaluation

Enterprise Impact

Summary

แหล่งข่าวต้นฉบับ

บทความที่เกี่ยวข้อง

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone