Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

ที่มาภาพ: VentureBeat

AI-อ่าน 7 นาทีVentureBeat

Moonshot AI เปิดตัว Kimi K2.7‑Code ลดการใช้ thinking‑toke…

⚡ สรุป 30 วิ

Moonshot AI ประกาศว่า Kimi K2.7‑Code ลดการใช้ thinking‑token 30 % และเพิ่มประสิทธิภาพหลายด้าน แต่การทดสอบภายนอกยังไม่ได้รับการยืนยันจาก benchmark อิสระ

Kimi K2.7‑Code รุ่นล่าสุดของ Moonshot AI ได้เปิดตัวสัปดาห์นี้พร้อมอ้างอิงว่าลดการใช้ thinking‑token ลง 30 % เมื่อเทียบกับรุ่นก่อนหน้า K2.6 และให้การอ้างว่าประสิทธิภาพโดยรวมเพิ่มขึ้นหลายสิบเปอร์เซ็นต์ ทั้งนี้การอัปเดตยังคงใช้สถาปัตยกรรม mixture‑of‑experts ขนาดหนึ่งล้านล้านพารามิเตอร์เดียวกันและสามารถเรียกใช้ผ่าน OpenAI‑compatible API ทำให้ผู้ใช้งานที่มี K2.6 อยู่แล้วสามารถสลับไปใช้ได้โดยไม่ต้องปรับโครงสร้างระบบ

Overview

K2.7‑Code เป็นโมเดลโอเพ่นซอร์สที่ต่อเนื่องจากตระกูล K2 ของ Moonshot AI ซึ่งเปิดตัวครั้งแรกในเดือนเมษายนด้วย K2.6 ที่ทำคะแนนสูงสุดบน OpenRouter รายสัปดาห์ ซึ่งอิงจากการตัดสินใจเส้นทาง API ของนักพัฒนาจริง ๆ แทนการอ้างอิงผลการทดสอบภายใน โมเดลใหม่ยังคงใช้สถาปัตยกรรม trillion‑parameter mixture‑of‑experts เดียวกันกับ K2.6 แต่มุ่งเน้นที่การลด “การคิดมากเกินไป” (overthinking) ที่ Moonshot AI ระบุว่าเป็นสาเหตุของค่าใช้จ่ายการทำ inference สูง

K2.7‑Code ถูกปล่อยภายใต้ Modified MIT license พร้อมน้ำหนักโมเดลให้ดาวน์โหลดได้ที่ HuggingFace การติดตั้งสามารถทำผ่านเฟรมเวิร์ก vLLM หรือ SGLang ได้โดยตรง ซึ่งทำให้ทีมไอทีสามารถผสานรวมเข้ากับระบบเดิมได้อย่างรวดเร็ว การทำงานของโมเดลจำกัดอยู่ที่ “thinking mode” เท่านั้น และอุณหภูมิเครื่องตอบกลับถูกตั้งค่าให้คงที่ที่ 1.0 ไม่สามารถปรับเปลี่ยนได้ตามต้องการของผู้ใช้

Technical Changes

การเปลี่ยนแปลงหลักระหว่าง K2.6 กับ K2.7‑Code อยู่ที่วิธีการสร้างโค้ดระดับล่าง K2.6 จะสร้างการทำงานโดย ห่อหุ้มไลบรารี ที่มีอยู่แล้วและส่งต่อผ่านเฟรมเวิร์กที่กำหนดไว้ล่วงหน้า ในขณะที่ K2.7‑Code จะ เขียนโค้ดโดยตรง ซึ่ง Moonshot AI กล่าวว่าช่วยให้โมเดลมีความทั่วไปที่ดีกว่าในหลายภาษา เช่น Rust, Go, และ Python รวมถึงงานประเภทต่าง ๆ เช่น การพัฒนา Front‑end, DevOps, และการปรับประสิทธิภาพระบบ

โมเดลใหม่ยังคงทำงานในโหมด “thinking” อย่างเดียว ซึ่งหมายความว่าการควบคุมความสุ่มของผลลัพธ์ (temperature) ถูกล็อกที่ 1.0 ผู้ใช้จึงไม่สามารถปรับระดับ deterministic ของผลลัพธ์ได้เหมือนกับโมเดลอื่น ๆ ที่เปิดให้กำหนดค่า temperature ได้ตามความต้องการของแอปพลิเคชัน

Benchmark Claims

Moonshot AI ยืนยันว่า K2.7‑Code ให้ผลการเพิ่มประสิทธิภาพบนชุดทดสอบภายในของบริษัทหลายสิบเปอร์เซ็นต์ รายละเอียดการเพิ่มประสิทธิภาพที่ระบุมีดังนี้

  • Kimi Code Bench v2 เพิ่ม **21.8 %
  • Program Bench เพิ่ม **11 %
  • MLS Bench Lite เพิ่ม **31.5 %

ชุดทดสอบเหล่านี้เป็น benchmark ที่พัฒนาและดำเนินการโดย Moonshot AI เอง ซึ่งยังไม่ได้ส่งโมเดลเข้าสู่การทดสอบของ DeepSWE – benchmark การเขียนโค้ดอิสระที่ให้คะแนนกระจายกว้างกว่า SWE‑Bench Pro อย่างมีนัยสำคัญ การที่ K2.7‑Code ยังไม่ผ่านการประเมินจาก DeepSWE ทำให้ยังไม่มีข้อมูลเปรียบเทียบจากแหล่งภายนอกที่เป็นมาตรฐานอุตสาหกรรม

Independent Evaluation

นักวิจัย Elliot Arledge ได้ทำการทดสอบ K2.7‑Code เปรียบเทียบกับ K2.6 และ Claude Fable 5 บน KernelBench‑Hard – benchmark สาธารณะที่มุ่งเน้นการเพิ่มประสิทธิภาพของเคอร์เนล GPU ผลการทดลองเผยว่า K2.7‑Code “more honest but not more capable” โดยในหกโจทย์ที่ทดสอบ โมเดลใหม่สร้าง Triton kernels ที่เขียนโดยตรงใน 5 กรณี แต่มี 2 ตัวที่ล้มเหลวจากบั๊กของโมเดลเอง ทำให้คะแนน MoE kernel ลดลงจาก 0.222 ของ K2.6 เหลือ 0.157 ของ K2.7‑Code ส่วน Claude Fable 5 ติดอันดับบนทุกเซลล์ที่ไม่ล้มเหลว

นักพัฒนา Sugumaran Balasubramaniyan ที่สร้าง model‑task‑router สำหรับแพลตฟอร์ม Hermes Agent โดยอ้างอิงคะแนนจาก DeepSWE แสดงความกังวลต่อการใช้ benchmark ภายในของ Moonshot AI เข้าข้อเรียกร้องให้ K2.7‑Code ส่งคะแนนเข้าสู่ DeepSWE ด้วย เขายังระบุว่า K2.6 ได้คะแนน 24 % บน DeepSWE เทียบเท่ากับ GPT‑5.4‑mini** และบอกว่าจะพิจารณา routing งานไปยัง K2.7‑Code ก็ต่อเมื่อผลลัพธ์จาก benchmark อิสระยืนยันความได้เปรียบของโมเดลใหม่

Enterprise Impact

การลดการใช้ thinking‑token 30 % ที่ Moonshot AI ระบุอาจช่วยองค์กรที่ใช้ K2.6 อยู่แล้วลดค่าใช้จ่ายการ inference ได้อย่างทันทีโดยไม่ต้องปรับสถาปัตยกรรมระบบ เนื่องจากโมเดลใหม่สามารถเรียกใช้ผ่าน OpenAI‑compatible API ที่มีอยู่แล้ว การสลับโมเดลจึงเป็นกระบวนการที่มีความเสี่ยงต่ำและสามารถทดลองกับ workload ของตนเองก่อนทำการเปลี่ยนแปลงน้ำหนัก routing อย่างเป็นทางการ

อย่างไรก็ตาม ประสิทธิภาพที่อ้างอิงจาก benchmark ภายในอาจไม่สอดคล้องกับผลลัพธ์จริงในสภาพแวดล้อมของแต่ละองค์กร ทีมไอทีควรทำการประเมิน K2.7‑Code บนงานจริงของตนเองก่อนปรับค่า routing เพื่อยืนยันว่าการลด token ใช้จริงจะเกิดขึ้นและไม่ส่งผลกระทบต่อคุณภาพของโค้ดที่สร้างขึ้น

Summary

Moonshot AI เปิดตัว Kimi K2.7‑Code พร้อมอ้างว่าลดการใช้ token ในขั้นคิดลง 30 % และให้ผลการเพิ่มประสิทธิภาพหลายสิบเปอร์เซ็นต์บน benchmark ภายใน ส่วนการประเมินจากผู้เชี่ยวชาญอิสระแสดงให้เห็นว่าประสิทธิภาพจริงอาจไม่สอดคล้องกับตัวเลขที่โฆษณา การทดสอบในสภาพแวดล้อมขององค์กรจึงเป็นขั้นตอนสำคัญก่อนนำโมเดลไปใช้ในงานผลิตจริง.

แชร์บทความนี้:

ชอบบทความแบบนี้?

สมัคร AI Automate Weekly Newsletter — รับเคล็ดลับ AI + how-to ใหม่
ทุกสัปดาห์ตรงถึง inbox ฟรี ไม่มีสแปม

แหล่งข่าวต้นฉบับ

ชื่อต้นฉบับ
Kimi K2.7-Code cuts thinking tokens 30% — but practitioners say the benchmarks don't check out
ผู้เขียน
Unknown
แหล่ง
VentureBeat
วันที่เผยแพร่
13 มิถุนายน 2569 เวลา 04:55

Related

บทความที่เกี่ยวข้อง

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhoneAI
16 มิถุนายน 2569 เวลา 05:00

iOS 27 เปิดแอป Siri สแตนด์อโลนบนหน้าจอหลักของ iPhone

iOS 27 เปิดตัวแอป Siri แยกเป็นสแตนด์อโลนบนหน้าจอหลักของ iPhone ทำให้ผู้ใช้เรียกใช้บริการ AI ได้โดยตรงจากไอคอนเดียว…

9to5Mac8 นาที
ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…AI
16 มิถุนายน 2569 เวลา 03:30

ใช้ NotebookLM ของ Google กับ Claude ของ Anthropic แปลงข้…

ผู้เขียนทดลองใช้ NotebookLM ของ Google ร่วมกับ Claude ของ Anthropic เพื่อสรุปข้อมูลและแปลงเป็นขั้นตอนปฏิบัติ ลดเวลาการอ่านและจดโน้ตหลายชั่วโมง

XDA Developers6 นาที
ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…AI
15 มิถุนายน 2569 เวลา 21:30

ทดสอบอัปเดตใหญ่ของ NotebookLM 3 รายการและการยกเลิกฟีเจอร์…

NotebookLM ยังคงเป็น AI ช่วยวิจัยยอดนิยม ด้วยอัปเดต UI การสรุปแม่นยำขึ้นและความเร็วในการจัดการข้อมูล การยกเลิกฟีเจอร์เสียงแม้เงียบแต่เปลี่ยนวิธีใช้มาก

XDA Developers6 นาที
เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…AI
15 มิถุนายน 2569 เวลา 17:00

เกมอินดี้ต้องสร้าง Prototype ให้ดี มิใช่พึ่ง AI เพื่อรับเ…

การสร้าง prototype เป็นขั้นตอนสำคัญเพื่อให้ผู้จัดพิมพ์พิจารณาการลงทุน แต่การใช้ AI อย่างเร่งรีบอาจทำให้เกมสูญเสียเอกลักษณ์และความน่าเชื่อถือ ตามที่ผู้แทนจาก…

Rock Paper Shotgun7 นาที
คัดลอกลิงก์แล้ว!