Claude Opus 4.7 và adaptive thinking: Cuộc đụng độ giữa tối ưu hệ thống và quyền kiểm soát của người dùng
Claude Opus 4.7 được Anthropic tung ra như bản Opus mạnh nhất đang phát hành rộng rãi, với 1M context window, effort level xhigh, task budgets và adaptive thinking. Nhưng đúng tính năng đó lại châm ngòi tranh cãi: Anthropic gọi đây là tối ưu hóa thông minh, còn nhiều power user xem nó như sự thu hẹp quyền kiểm soát và độ quan sát vào cách model suy luận. [anthropic-news] [whats-new] [adaptive-docs]

Về mặt fact, thay đổi của Anthropic là rất cụ thể. Trên Opus 4.7, extended thinking cũ với budget_tokens bị loại bỏ; nếu còn gửi thinking: {"type": "enabled", "budget_tokens": N} thì API trả lỗi 400. Muốn bật reasoning phải dùng thinking: {"type": "adaptive"}, còn không gửi trường thinking thì model chạy không thinking. Đồng thời, reasoning content bị omitted by default trong response và chỉ hiện lại khi caller đặt display: "summarized". Đây là breaking change thực sự, không phải điều chỉnh nhỏ. [adaptive-docs] [whats-new]
Anthropic có lý lẽ để bảo vệ quyết định đó. Tài liệu adaptive thinking nói cơ chế mới cho phép Claude tự xác định khi nào cần nghĩ và cần nghĩ bao nhiêu, thay vì đốt reasoning tokens theo budget cố định; trang “What’s new in Claude Opus 4.7” còn khẳng định adaptive thinking “reliably outperforms extended thinking” trong internal evaluations. Bài giới thiệu sản phẩm cũng đi theo đúng hướng này khi nhấn mạnh Opus 4.7 mạnh hơn 4.6 ở software engineering khó, long-running workflows và độ chính xác tổng thể. [adaptive-docs] [whats-new] [anthropic-news]

Vấn đề là cộng đồng không phản ứng với benchmark, mà phản ứng với cảm giác quyền lực bị lấy khỏi tay họ. Trong thread Hacker News về Claude Opus 4.7, một người dùng nói thẳng rằng trước đó họ từng nhận phản hồi từ nhân sự Anthropic theo hướng “adaptive thinking isn’t working”, nhưng sau đó gần như không còn giải thích nào đủ thuyết phục; người này cho biết chỉ khi quay về các mẹo cấu hình như tăng /effort xhigh, tắt 1M context và bật lại summaries thì chất lượng mới “trở về baseline”. Các bình luận khác mô tả việc phải dùng một tổ hợp cài đặt gần như “wizardry”, đồng thời than phiền hệ sinh thái Claude bị phân mảnh giữa chat, code và cowork. Đó chưa phải bằng chứng kết luận model tệ đi, nhưng là bằng chứng rất rõ rằng power users cảm thấy mình mất khả năng tinh chỉnh và mất niềm tin vào tính nhất quán của sản phẩm. [hn-thread] [adaptive-docs]
Tuy nhiên, Hacker News cũng cho thấy bức tranh không một màu. Có bình luận nói các phiên làm việc của Opus 4.7 vượt quá 200K token mà vẫn “surprisingly capable”, và so với 4.6 thì ít rơi vào “dumb zone” hơn ở vùng ngữ cảnh dài. Decrypt cũng ghi nhận benchmark tăng đáng kể so với 4.6. Nếu chỉ nhìn vào hiệu năng thuần túy, luận điểm “4.7 là bản nâng cấp thật” không hề yếu. [hn-thread] [decrypt]
Mâu thuẫn lớn nhất vì thế không nằm ở câu hỏi “4.7 tốt hay xấu”, mà ở câu hỏi “tốt cho ai, và theo tiêu chí nào”. Anthropic tối ưu cho latency, cost discipline và mức effort mềm thay vì budget cứng; tài liệu chính thức còn cảnh báo tokenizer mới có thể khiến cùng một đoạn văn bản tốn nhiều hơn tới khoảng 35% token so với đời trước. Decrypt ghi nhận đúng mặt trái đó khi mô tả Opus 4.7 như một “token eating machine” trong một số session. Từ phía nhà cung cấp, đó là trade-off có kiểm soát; từ phía người dùng trả tiền, đó là hóa đơn và quota bị đốt nhanh hơn. [whats-new] [decrypt] [allthings]
Thêm một nghịch lý nữa khiến tranh cãi khó hạ nhiệt: Anthropic nói reasoning content mặc định bị ẩn đi trên API nếu không bật display: "summarized", trong khi Decrypt khi thử nghiệm trên bề mặt sản phẩm lại thấy chain-of-thought “visible and traceable” hơn dự kiến. Sự lệch pha giữa docs, API, UI và trải nghiệm từng sản phẩm làm cho cuộc tranh luận về transparency càng thêm rối. Người dùng không chỉ đòi model mạnh; họ đòi một hợp đồng sản phẩm dễ hiểu, nơi khả năng reasoning, visibility và chi phí không thay đổi theo cách khiến họ phải đoán mò. [whats-new] [adaptive-docs] [decrypt]
Nhìn toàn cục, adaptive thinking không phải ý tưởng tệ. Nó phản ánh đúng logic AI hiện tại: không ai muốn model nghĩ sâu vô ích ở câu hỏi đơn giản rồi đốt compute trong im lặng. Nhưng phản ứng từ Hacker News cho thấy khi người dùng chuyên sâu đã quen nhìn thấy reasoning, chỉnh effort theo cách mình hiểu và dự đoán được chi phí lẫn hành vi, thì “tối ưu hóa tự động” rất dễ bị đọc thành “mất quyền điều khiển”. Anthropic đang cố chứng minh rằng model biết tự phân phối suy nghĩ tốt hơn người dùng; cộng đồng đang đáp trả rằng điều đó vẫn có thể tạo ra một trải nghiệm sản phẩm tệ nếu thiếu minh bạch, thiếu nhất quán và thiếu cảm giác kiểm soát. [hn-thread] [anthropic-news] [adaptive-docs]
[anthropic-news]: https://www.anthropic.com/news/claude-opus-4-7
[whats-new]: https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7
[adaptive-docs]: https://platform.claude.com/docs/en/build-with-claude/adaptive-thinking
[hn-thread]: https://news.ycombinator.com/item?id=47793411
[decrypt]: https://decrypt.co/364621/claude-opus-47-review-benchmarks-coding-test
[allthings]: https://allthings.how/claude-opus-4-7-adaptive-thinking-explained/