Qwen3.6-Max-Preview: Sức mạnh SOTA hay "Ma trận" Benchmark?

Ngày 20/4/2026, Alibaba Cloud chính thức tung ra Qwen3.6-Max-Preview, phiên bản "xem trước" của mô hình ngôn ngữ lớn mạnh mẽ nhất trong hệ sinh thái Qwen3.6. Được định vị cao hơn dòng Plus, Max-Preview nhắm thẳng vào các tác vụ "agentic coding" (lập trình tự hành), hiểu biết kiến thức thế giới và khả năng tuân thủ hướng dẫn phức tạp. Alibaba không ngần ngại công bố những con số gây sốc: dẫn đầu 6 bảng xếp hạng lập trình và agent lớn nhất thế giới ngay tại thời điểm ra mắt [1][6].

Cụ thể, Qwen3.6-Max-Preview đạt 57.3% trên SWE-bench Pro và 65.4 điểm trên Terminal-Bench 2.0, vượt qua Qwen3.6-Plus lần lượt là 3.8 và 9.9 điểm ở các hạng mục tương ứng [2][3]. Với tính năng mới mang tên preserve_thinking, mô hình này cho phép duy trì chuỗi tư duy (Chain-of-Thought) xuyên suốt các lượt hội thoại, một bước tiến quan trọng cho các workflow agentic yêu cầu tính nhất quán logic cao [1][5].

Tuy nhiên, sự hoài nghi bắt đầu xuất hiện khi nhìn vào bức tranh tổng thể của thị trường. Một người dùng trên diễn đàn công nghệ nhận định: "Việc so sánh với Claude Opus 4.5 vào thời điểm này là một sự né tránh, khi mà Opus 4.7 đã ra mắt và thiết lập một tiêu chuẩn hoàn toàn khác" [Qwen AI Blog Comments]. Thực tế, dữ liệu từ Artificial Analysis cho thấy mặc dù Qwen3.6-Max-Preview đạt chỉ số Intelligence Index là 52, nó vẫn đang phải bám đuổi sát sao phía sau Claude Opus 4.7 và GPT-5.4 trong các bài kiểm tra thực tế không chỉ giới hạn ở Python [8].

qwen-benchmark-battle

Cuộc so găng khốc liệt: Khi Qwen, GLM và Kimi cùng tuyên bố "vô địch"

Đấu trường AI tại Trung Quốc chưa bao giờ ngột ngạt đến thế. Chỉ trong vòng hai tuần đầu tháng 4/2026, cả Zhipu AI (với GLM 5.1) và Moonshot AI (với Kimi K2.6) đều tung ra những "quái vật" hiệu năng riêng.

GLM 5.1 gây ấn tượng mạnh với chế độ "Rumination" (Nghiền ngẫm), cho phép mô hình hoạt động tự hành liên tục tới 8 giờ cho một tác vụ kỹ thuật phức tạp [GLM 5.1 Search]. Trong khi đó, Kimi K2.6 với tính năng "Agent Swarm" hỗ trợ tới 300 sub-agent chạy song song, đã vượt mặt cả GPT-5.4 trên SWE-Bench Pro với tỉ lệ 58.6% — cao hơn con số 57.3% của Qwen3.6-Max-Preview [Kimi K2.6 Search].

Sự khác biệt nằm ở chỗ: Kimi tập trung vào sự ổn định của agent trong các phiên làm việc kéo dài hơn 13 giờ, còn Qwen lại tối ưu hóa cho "vibe coding" và phát triển front-end với ELO rating vượt ngưỡng 1300 trong các danh mục UI/UX [Kimi vs Qwen Comparison]. Một chuyên gia tại Towards AI nhận xét: "Qwen cực kỳ mạnh ở các đơn vị mã nguồn ngắn như method hay function, nhưng khi bước vào vai trò một trợ lý lập trình tự hành end-to-end, nó vẫn chưa thực sự vượt qua được cái bóng của Claude" [Qwen AI Blog Comments].

Bài toán kinh tế: Token rẻ và cái bẫy "Context Caching"

Về lý thuyết, Qwen3.6-Max-Preview cực kỳ hấp dẫn về chi phí: $1.30 cho 1 triệu token đầu vào và $7.80 cho 1 triệu token đầu ra [8]. Con số này rẻ hơn gấp nhiều lần so với mức $5.00/$15.00 của Claude Opus 4.7. Nhưng thực tế vận hành lại kể một câu chuyện khác.

Hiệu quả chi phí của Qwen phụ thuộc nặng nề vào cơ chế Context Caching. Theo tài liệu chính thức từ Alibaba Cloud, cơ chế Explicit Cache chỉ có thời gian tồn tại (TTL) vỏn vẹn 5 phút [Alibaba Cloud Docs]. Nếu cache không được truy cập trong khoảng thời gian này, nó sẽ bị xóa hoàn toàn. Thêm vào đó, yêu cầu tối thiểu 1024 token để kích hoạt cache khiến các workflow tăng trưởng dần dần (như coding agent) gặp khó khăn trong việc duy trì tỉ lệ hit-rate cao [1][Alibaba Cloud Docs].

Hệ quả là, trong các phiên làm việc dài, chi phí thực tế có thể cao hơn dự kiến do phải tính toán lại liên tục. Một người dùng tên @jdw64 chia sẻ: "Mặc dù giá mỗi token thấp, nhưng chi phí hiệu dụng trong các phiên dài lại cảm thấy cao hơn do hit-rate thấp và việc tính toán lặp lại" [Qwen AI Blog Comments]. Ngược lại, đối thủ GLM 5.1 lại thắng thế ở giá token đầu ra, vốn rẻ hơn đáng kể so với Qwen, giúp tiết kiệm chi phí cho các tác vụ sinh mã dài [GLM 5.1 Search].

ai-token-economics

Proprietary vs Open Weights: Pháo đài cuối cùng của sự độc quyền?

Một điểm gây tranh cãi lớn nhất trong cộng đồng là việc Qwen3.6-Max-Preview vẫn duy trì mô hình mã nguồn đóng (proprietary). Trong khi dòng Qwen mã nguồn mở (32B, 72B) đang "làm mưa làm gió" trên các thiết bị cục bộ, thì phiên bản mạnh nhất lại bị giữ kín trên đám mây của Alibaba.

Sự mâu thuẫn này càng rõ rệt khi so sánh với GLM 5.1, mô hình MoE 754B tham số được phát hành dưới giấy phép MIT, cho phép các doanh nghiệp tự lưu trữ và tùy chỉnh hoàn toàn [GLM 5.1 Search]. "Ngày mà không còn ai phát hành trọng số mở sẽ là một ngày buồn cho nhân loại. Những người bình thường sẽ không thực sự sở hữu năng lực tính toán của mình," một người dùng bày tỏ lo ngại về xu hướng thương mại hóa của các nhà cung cấp Trung Quốc [Qwen AI Blog Comments].

Sự chuyển dịch của Alibaba sang mô hình đóng cho phiên bản flagship Max có thể là dấu hiệu của việc "jack giá" (tăng giá mạnh) và bảo vệ lợi thế cạnh tranh trước các đối thủ đang bám đuổi quyết liệt. Tuy nhiên, nếu khoảng cách giữa các mô hình mở (như Qwen 32B/72B) và mô hình đóng Max tiếp tục thu hẹp, liệu người dùng có sẵn sàng trả phí cho một hệ sinh thái đóng với những ràng buộc về TTL cache và quyền riêng tư?

Kết thúc cuộc đua này không phải là một con số benchmark đơn thuần, mà là sự cân bằng giữa trí tuệ tối thượng (như Claude Opus 4.7), khả năng tự hành bền bỉ (Kimi K2.6), tính tự do của mã nguồn mở (GLM 5.1) và hiệu năng kinh tế (Qwen 3.6). Qwen3.6-Max-Preview có thể là một "kẻ hủy diệt" trên bảng xếp hạng, nhưng để trở thành công cụ không thể thay thế trong quy trình làm việc thực tế, Alibaba vẫn còn nhiều rào cản phải vượt qua.

Nguồn trích dẫn:

[1] buildfastwithai.com: Qwen3.6-Max-Preview Technical Overview.

[2] towardsai.net: Analysis of SWE-bench Pro rankings 2026.

[3] qwen.ai: Official Qwen3.6-Max-Preview Announcement.

[5] alibabacloud.com: Model Studio API Documentation - preserve_thinking feature.

[6] datalearner.com: Global LLM Benchmark Leaderboard update April 2026.

[8] artificialanalysis.ai: Qwen3.6-Max-Preview Performance & Pricing Index.

[Alibaba Cloud Docs]: Context Caching Constraints and TTL Policies.

[Qwen AI Blog Comments]: User feedback from topics/qwen-ai-blog.txt.

[GLM 5.1 Search]: Zhipu AI GLM 5.1 Open-Weights Release & Performance.

[Kimi K2.6 Search]: Moonshot AI Kimi K2.6 Agent Swarm & Benchmarks.

[Kimi vs Qwen Comparison]: AtlasCloud.ai performance analysis.

Qwen3.6-Max-Preview: "Kẻ hủy diệt" Benchmark hay Chỉ là Quân cờ trong Trận chiến AI Trung Quốc?

Qwen3.6-Max-Preview: Sức mạnh SOTA hay "Ma trận" Benchmark?

Cuộc so găng khốc liệt: Khi Qwen, GLM và Kimi cùng tuyên bố "vô địch"

Bài toán kinh tế: Token rẻ và cái bẫy "Context Caching"

Proprietary vs Open Weights: Pháo đài cuối cùng của sự độc quyền?

Bài viết liên quan