@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

github.com/lobehub/lobe-chat

lobehub/lobe-chat

405 lines • 385 kB

JSON

{ "01-ai/yi-1.5-34b-chat": { "description": "Zero One Vạn Vật, mô hình tinh chỉnh mã nguồn mở mới nhất với 34 tỷ tham số, hỗ trợ nhiều tình huống đối thoại, dữ liệu đào tạo chất lượng cao, phù hợp với sở thích của con người." }, "01-ai/yi-1.5-9b-chat": { "description": "Zero One Vạn Vật, mô hình tinh chỉnh mã nguồn mở mới nhất với 9 tỷ tham số, hỗ trợ nhiều tình huống đối thoại, dữ liệu đào tạo chất lượng cao, phù hợp với sở thích của con người." }, "360/deepseek-r1": { "description": "【Phiên bản triển khai 360】DeepSeek-R1 đã sử dụng công nghệ học tăng cường quy mô lớn trong giai đoạn huấn luyện sau, nâng cao khả năng suy luận của mô hình một cách đáng kể với rất ít dữ liệu được gán nhãn. Hiệu suất trong các nhiệm vụ toán học, mã, suy luận ngôn ngữ tự nhiên tương đương với phiên bản chính thức OpenAI o1." }, "360gpt-pro": { "description": "360GPT Pro là thành viên quan trọng trong dòng mô hình AI của 360, đáp ứng nhu cầu đa dạng của các ứng dụng ngôn ngữ tự nhiên với khả năng xử lý văn bản hiệu quả, hỗ trợ hiểu văn bản dài và đối thoại nhiều vòng." }, "360gpt-pro-trans": { "description": "Mô hình chuyên dụng cho dịch thuật, được tối ưu hóa bằng cách tinh chỉnh sâu, mang lại hiệu quả dịch thuật hàng đầu." }, "360gpt-turbo": { "description": "360GPT Turbo cung cấp khả năng tính toán và đối thoại mạnh mẽ, có khả năng hiểu ngữ nghĩa và hiệu suất tạo ra xuất sắc, là giải pháp trợ lý thông minh lý tưởng cho doanh nghiệp và nhà phát triển." }, "360gpt-turbo-responsibility-8k": { "description": "360GPT Turbo Responsibility 8K nhấn mạnh an toàn ngữ nghĩa và định hướng trách nhiệm, được thiết kế đặc biệt cho các tình huống ứng dụng có yêu cầu cao về an toàn nội dung, đảm bảo độ chính xác và độ ổn định trong trải nghiệm người dùng." }, "360gpt2-o1": { "description": "360gpt2-o1 sử dụng tìm kiếm cây để xây dựng chuỗi tư duy, và đưa vào cơ chế phản hồi, sử dụng học tăng cường để đào tạo, mô hình có khả năng tự phản hồi và sửa lỗi." }, "360gpt2-pro": { "description": "360GPT2 Pro là mô hình xử lý ngôn ngữ tự nhiên cao cấp do công ty 360 phát hành, có khả năng tạo và hiểu văn bản xuất sắc, đặc biệt trong lĩnh vực tạo ra và sáng tạo, có thể xử lý các nhiệm vụ chuyển đổi ngôn ngữ phức tạp và diễn xuất vai trò." }, "360zhinao2-o1": { "description": "360zhinao2-o1 sử dụng tìm kiếm cây để xây dựng chuỗi tư duy, và giới thiệu cơ chế phản hồi, sử dụng học tăng cường để đào tạo, mô hình có khả năng tự phản hồi và sửa lỗi." }, "4.0Ultra": { "description": "Spark4.0 Ultra là phiên bản mạnh mẽ nhất trong dòng mô hình lớn Xinghuo, nâng cao khả năng hiểu và tóm tắt nội dung văn bản trong khi nâng cấp liên kết tìm kiếm trực tuyến. Đây là giải pháp toàn diện nhằm nâng cao năng suất văn phòng và đáp ứng chính xác nhu cầu, là sản phẩm thông minh dẫn đầu ngành." }, "AnimeSharp": { "description": "AnimeSharp (còn gọi là “4x‑AnimeSharp”) là mô hình siêu phân giải mã nguồn mở do Kim2091 phát triển dựa trên kiến trúc ESRGAN, tập trung vào phóng to và làm sắc nét hình ảnh phong cách anime. Nó được đổi tên từ “4x-TextSharpV1” vào tháng 2 năm 2022, ban đầu cũng phù hợp với hình ảnh văn bản nhưng đã được tối ưu đáng kể cho nội dung anime." }, "Baichuan2-Turbo": { "description": "Sử dụng công nghệ tăng cường tìm kiếm để kết nối toàn diện giữa mô hình lớn và kiến thức lĩnh vực, kiến thức toàn cầu. Hỗ trợ tải lên nhiều loại tài liệu như PDF, Word và nhập URL, thông tin được thu thập kịp thời và toàn diện, kết quả đầu ra chính xác và chuyên nghiệp." }, "Baichuan3-Turbo": { "description": "Tối ưu hóa cho các tình huống doanh nghiệp thường xuyên, hiệu quả được cải thiện đáng kể, chi phí hiệu quả cao. So với mô hình Baichuan2, sáng tạo nội dung tăng 20%, trả lời câu hỏi kiến thức tăng 17%, khả năng đóng vai tăng 40%. Hiệu quả tổng thể tốt hơn GPT3.5." }, "Baichuan3-Turbo-128k": { "description": "Có cửa sổ ngữ cảnh siêu dài 128K, tối ưu hóa cho các tình huống doanh nghiệp thường xuyên, hiệu quả được cải thiện đáng kể, chi phí hiệu quả cao. So với mô hình Baichuan2, sáng tạo nội dung tăng 20%, trả lời câu hỏi kiến thức tăng 17%, khả năng đóng vai tăng 40%. Hiệu quả tổng thể tốt hơn GPT3.5." }, "Baichuan4": { "description": "Mô hình có khả năng hàng đầu trong nước, vượt trội hơn các mô hình chính thống nước ngoài trong các nhiệm vụ tiếng Trung như bách khoa toàn thư, văn bản dài, sáng tạo nội dung. Cũng có khả năng đa phương tiện hàng đầu trong ngành, thể hiện xuất sắc trong nhiều tiêu chuẩn đánh giá uy tín." }, "Baichuan4-Air": { "description": "Mô hình có khả năng hàng đầu trong nước, vượt trội hơn các mô hình chính thống nước ngoài trong các nhiệm vụ tiếng Trung như bách khoa toàn thư, văn bản dài và sáng tạo nội dung. Cũng có khả năng đa phương tiện hàng đầu trong ngành, thể hiện xuất sắc trong nhiều tiêu chuẩn đánh giá uy tín." }, "Baichuan4-Turbo": { "description": "Mô hình có khả năng hàng đầu trong nước, vượt trội hơn các mô hình chính thống nước ngoài trong các nhiệm vụ tiếng Trung như bách khoa toàn thư, văn bản dài và sáng tạo nội dung. Cũng có khả năng đa phương tiện hàng đầu trong ngành, thể hiện xuất sắc trong nhiều tiêu chuẩn đánh giá uy tín." }, "ByteDance-Seed/Seed-OSS-36B-Instruct": { "description": "Seed-OSS là một loạt các mô hình ngôn ngữ lớn mã nguồn mở do nhóm Seed của ByteDance phát triển, được thiết kế đặc biệt cho khả năng xử lý ngữ cảnh dài mạnh mẽ, suy luận, tác nhân (agent) và năng lực tổng quát. Trong loạt này, Seed-OSS-36B-Instruct là một mô hình tinh chỉnh chỉ thị với 36 tỷ tham số, hỗ trợ ngữ cảnh siêu dài nguyên bản, cho phép xử lý một lượng lớn tài liệu hoặc kho mã phức tạp trong một lần. Mô hình được tối ưu đặc biệt cho các tác vụ suy luận, tạo mã và tác nhân (như sử dụng công cụ), đồng thời duy trì năng lực tổng quát cân bằng và xuất sắc. Một điểm nổi bật của mô hình này là tính năng “Ngân sách suy nghĩ” (Thinking Budget), cho phép người dùng điều chỉnh linh hoạt độ dài suy luận theo nhu cầu, từ đó nâng cao hiệu quả suy luận trong ứng dụng thực tế." }, "DeepSeek-R1": { "description": "Mô hình LLM hiệu quả tiên tiến nhất, xuất sắc trong suy luận, toán học và lập trình." }, "DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek R1 - mô hình lớn hơn và thông minh hơn trong bộ công cụ DeepSeek - đã được chưng cất vào kiến trúc Llama 70B. Dựa trên các bài kiểm tra và đánh giá của con người, mô hình này thông minh hơn so với Llama 70B gốc, đặc biệt thể hiện xuất sắc trong các nhiệm vụ yêu cầu độ chính xác về toán học và sự thật." }, "DeepSeek-R1-Distill-Qwen-1.5B": { "description": "Mô hình chưng cất DeepSeek-R1 dựa trên Qwen2.5-Math-1.5B, tối ưu hóa hiệu suất suy luận thông qua học tăng cường và dữ liệu khởi động lạnh, mô hình mã nguồn mở làm mới tiêu chuẩn đa nhiệm." }, "DeepSeek-R1-Distill-Qwen-14B": { "description": "Mô hình chưng cất DeepSeek-R1 dựa trên Qwen2.5-14B, tối ưu hóa hiệu suất suy luận thông qua học tăng cường và dữ liệu khởi động lạnh, mô hình mã nguồn mở làm mới tiêu chuẩn đa nhiệm." }, "DeepSeek-R1-Distill-Qwen-32B": { "description": "Dòng DeepSeek-R1 tối ưu hóa hiệu suất suy luận thông qua học tăng cường và dữ liệu khởi động lạnh, mô hình mã nguồn mở làm mới tiêu chuẩn đa nhiệm, vượt qua mức OpenAI-o1-mini." }, "DeepSeek-R1-Distill-Qwen-7B": { "description": "Mô hình chưng cất DeepSeek-R1 dựa trên Qwen2.5-Math-7B, tối ưu hóa hiệu suất suy luận thông qua học tăng cường và dữ liệu khởi động lạnh, mô hình mã nguồn mở làm mới tiêu chuẩn đa nhiệm." }, "DeepSeek-V3": { "description": "DeepSeek-V3 là một mô hình MoE do công ty DeepSeek tự phát triển. Nhiều kết quả đánh giá của DeepSeek-V3 đã vượt qua các mô hình mã nguồn mở khác như Qwen2.5-72B và Llama-3.1-405B, và về hiệu suất không thua kém các mô hình đóng nguồn hàng đầu thế giới như GPT-4o và Claude-3.5-Sonnet." }, "DeepSeek-V3-1": { "description": "DeepSeek V3.1: Mô hình suy luận thế hệ tiếp theo, nâng cao khả năng suy luận phức tạp và tư duy chuỗi, phù hợp cho các nhiệm vụ cần phân tích sâu." }, "DeepSeek-V3-Fast": { "description": "Nhà cung cấp mô hình: nền tảng sophnet. DeepSeek V3 Fast là phiên bản tốc độ cao TPS của DeepSeek V3 0324, không lượng tử hóa, có khả năng mã hóa và toán học mạnh mẽ hơn, phản hồi nhanh hơn!" }, "DeepSeek-V3.1": { "description": "DeepSeek-V3.1 - chế độ không suy nghĩ; DeepSeek-V3.1 là mô hình suy luận lai mới của DeepSeek, hỗ trợ hai chế độ suy luận là suy nghĩ và không suy nghĩ, hiệu quả suy nghĩ cao hơn so với DeepSeek-R1-0528. Qua tối ưu hậu huấn luyện, hiệu suất sử dụng công cụ Agent và các tác vụ tác nhân được cải thiện đáng kể." }, "DeepSeek-V3.1-Fast": { "description": "DeepSeek V3.1 Fast là phiên bản tốc độ cao TPS của DeepSeek V3.1. Chế độ suy nghĩ lai: thông qua thay đổi mẫu trò chuyện, một mô hình có thể đồng thời hỗ trợ cả chế độ suy nghĩ và không suy nghĩ. Gọi công cụ thông minh hơn: nhờ tối ưu hậu huấn luyện, mô hình thể hiện rõ rệt sự cải thiện trong việc sử dụng công cụ và các tác vụ đại lý." }, "DeepSeek-V3.1-Think": { "description": "DeepSeek-V3.1 - chế độ suy nghĩ; DeepSeek-V3.1 là mô hình suy luận lai mới của DeepSeek, hỗ trợ hai chế độ suy luận là suy nghĩ và không suy nghĩ, hiệu quả suy nghĩ cao hơn so với DeepSeek-R1-0528. Qua tối ưu hậu huấn luyện, hiệu suất sử dụng công cụ Agent và các tác vụ tác nhân được cải thiện đáng kể." }, "DeepSeek-V3.2-Exp": { "description": "DeepSeek V3.2 là mô hình lớn chung mới nhất của DeepSeek, hỗ trợ kiến trúc suy luận hỗn hợp và có khả năng Agent mạnh mẽ hơn." }, "DeepSeek-V3.2-Exp-Think": { "description": "Chế độ suy nghĩ của DeepSeek V3.2. Trước khi đưa ra câu trả lời cuối cùng, mô hình sẽ xuất ra một chuỗi suy nghĩ nhằm nâng cao độ chính xác của câu trả lời." }, "Doubao-lite-128k": { "description": "Doubao-lite sở hữu tốc độ phản hồi tối ưu, hiệu quả chi phí tốt hơn, cung cấp lựa chọn linh hoạt hơn cho các kịch bản khác nhau của khách hàng. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 128k." }, "Doubao-lite-32k": { "description": "Doubao-lite sở hữu tốc độ phản hồi tối ưu, hiệu quả chi phí tốt hơn, cung cấp lựa chọn linh hoạt hơn cho các kịch bản khác nhau của khách hàng. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 32k." }, "Doubao-lite-4k": { "description": "Doubao-lite sở hữu tốc độ phản hồi tối ưu, hiệu quả chi phí tốt hơn, cung cấp lựa chọn linh hoạt hơn cho các kịch bản khác nhau của khách hàng. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 4k." }, "Doubao-pro-128k": { "description": "Mô hình chủ lực với hiệu quả tốt nhất, phù hợp xử lý các nhiệm vụ phức tạp, có hiệu quả xuất sắc trong các kịch bản như hỏi đáp tham khảo, tóm tắt, sáng tạo, phân loại văn bản, nhập vai. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 128k." }, "Doubao-pro-32k": { "description": "Mô hình chủ lực với hiệu quả tốt nhất, phù hợp xử lý các nhiệm vụ phức tạp, có hiệu quả xuất sắc trong các kịch bản như hỏi đáp tham khảo, tóm tắt, sáng tạo, phân loại văn bản, nhập vai. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 32k." }, "Doubao-pro-4k": { "description": "Mô hình chủ lực với hiệu quả tốt nhất, phù hợp xử lý các nhiệm vụ phức tạp, có hiệu quả xuất sắc trong các kịch bản như hỏi đáp tham khảo, tóm tắt, sáng tạo, phân loại văn bản, nhập vai. Hỗ trợ suy luận và tinh chỉnh với cửa sổ ngữ cảnh 4k." }, "DreamO": { "description": "DreamO là mô hình tạo hình ảnh tùy chỉnh mã nguồn mở do ByteDance và Đại học Bắc Kinh hợp tác phát triển, nhằm hỗ trợ tạo hình ảnh đa nhiệm thông qua kiến trúc thống nhất. Nó sử dụng phương pháp mô hình hóa kết hợp hiệu quả, có thể tạo ra hình ảnh nhất quán và tùy chỉnh cao dựa trên các điều kiện như danh tính, chủ thể, phong cách, nền do người dùng chỉ định." }, "ERNIE-3.5-128K": { "description": "Mô hình ngôn ngữ quy mô lớn hàng đầu do Baidu tự phát triển, bao phủ một lượng lớn tài liệu tiếng Trung và tiếng Anh, có khả năng tổng quát mạnh mẽ, có thể đáp ứng hầu hết các yêu cầu về đối thoại, hỏi đáp, sáng tạo nội dung và các tình huống ứng dụng plugin; hỗ trợ tự động kết nối với plugin tìm kiếm của Baidu, đảm bảo thông tin hỏi đáp luôn được cập nhật kịp thời." }, "ERNIE-3.5-8K": { "description": "Mô hình ngôn ngữ quy mô lớn hàng đầu do Baidu tự phát triển, bao phủ một lượng lớn tài liệu tiếng Trung và tiếng Anh, có khả năng tổng quát mạnh mẽ, có thể đáp ứng hầu hết các yêu cầu về đối thoại, hỏi đáp, sáng tạo nội dung và các tình huống ứng dụng plugin; hỗ trợ tự động kết nối với plugin tìm kiếm của Baidu, đảm bảo thông tin hỏi đáp luôn được cập nhật kịp thời." }, "ERNIE-3.5-8K-Preview": { "description": "Mô hình ngôn ngữ quy mô lớn hàng đầu do Baidu tự phát triển, bao phủ một lượng lớn tài liệu tiếng Trung và tiếng Anh, có khả năng tổng quát mạnh mẽ, có thể đáp ứng hầu hết các yêu cầu về đối thoại, hỏi đáp, sáng tạo nội dung và các tình huống ứng dụng plugin; hỗ trợ tự động kết nối với plugin tìm kiếm của Baidu, đảm bảo thông tin hỏi đáp luôn được cập nhật kịp thời." }, "ERNIE-4.0-8K-Latest": { "description": "Mô hình ngôn ngữ quy mô siêu lớn hàng đầu do Baidu tự phát triển, so với ERNIE 3.5 đã nâng cấp toàn diện khả năng của mô hình, phù hợp rộng rãi với các nhiệm vụ phức tạp trong nhiều lĩnh vực; hỗ trợ tự động kết nối với plugin tìm kiếm Baidu, đảm bảo thông tin hỏi đáp luôn cập nhật." }, "ERNIE-4.0-8K-Preview": { "description": "Mô hình ngôn ngữ quy mô siêu lớn hàng đầu do Baidu tự phát triển, so với ERNIE 3.5 đã nâng cấp toàn diện khả năng của mô hình, phù hợp rộng rãi với các nhiệm vụ phức tạp trong nhiều lĩnh vực; hỗ trợ tự động kết nối với plugin tìm kiếm Baidu, đảm bảo thông tin hỏi đáp luôn cập nhật." }, "ERNIE-4.0-Turbo-8K-Latest": { "description": "Mô hình ngôn ngữ quy mô siêu lớn tự phát triển của Baidu, có hiệu suất tổng thể xuất sắc, phù hợp rộng rãi cho các tình huống tác vụ phức tạp trong nhiều lĩnh vực; hỗ trợ tự động kết nối với plugin tìm kiếm của Baidu, đảm bảo tính kịp thời của thông tin câu hỏi đáp. So với ERNIE 4.0, nó có hiệu suất tốt hơn." }, "ERNIE-4.0-Turbo-8K-Preview": { "description": "Mô hình ngôn ngữ quy mô siêu lớn hàng đầu do Baidu tự phát triển, có hiệu suất tổng thể xuất sắc, phù hợp rộng rãi với các nhiệm vụ phức tạp trong nhiều lĩnh vực; hỗ trợ tự động kết nối với plugin tìm kiếm Baidu, đảm bảo thông tin hỏi đáp luôn cập nhật. So với ERNIE 4.0, hiệu suất tốt hơn." }, "ERNIE-Character-8K": { "description": "Mô hình ngôn ngữ quy mô lớn cho các tình huống chuyên biệt do Baidu tự phát triển, phù hợp cho các ứng dụng như NPC trong game, đối thoại dịch vụ khách hàng, và vai trò trong đối thoại, phong cách nhân vật rõ ràng và nhất quán hơn, khả năng tuân thủ chỉ dẫn mạnh mẽ, hiệu suất suy diễn tốt hơn." }, "ERNIE-Lite-Pro-128K": { "description": "Mô hình ngôn ngữ quy mô lớn nhẹ do Baidu tự phát triển, kết hợp hiệu suất mô hình xuất sắc với khả năng suy diễn, hiệu quả tốt hơn ERNIE Lite, phù hợp cho việc suy diễn trên thẻ tăng tốc AI có công suất thấp." }, "ERNIE-Speed-128K": { "description": "Mô hình ngôn ngữ quy mô lớn hiệu suất cao do Baidu phát hành vào năm 2024, có khả năng tổng quát xuất sắc, phù hợp làm mô hình nền để tinh chỉnh, xử lý tốt hơn các vấn đề trong các tình huống cụ thể, đồng thời có khả năng suy diễn tuyệt vời." }, "ERNIE-Speed-Pro-128K": { "description": "Mô hình ngôn ngữ quy mô lớn hiệu suất cao do Baidu phát hành vào năm 2024, có khả năng tổng quát xuất sắc, hiệu quả tốt hơn ERNIE Speed, phù hợp làm mô hình nền để tinh chỉnh, xử lý tốt hơn các vấn đề trong các tình huống cụ thể, đồng thời có khả năng suy diễn tuyệt vời." }, "FLUX-1.1-pro": { "description": "FLUX.1.1 Pro" }, "FLUX.1-Kontext-dev": { "description": "FLUX.1-Kontext-dev là mô hình tạo và chỉnh sửa hình ảnh đa phương thức dựa trên kiến trúc Rectified Flow Transformer do Black Forest Labs phát triển, với quy mô 12 tỷ tham số, tập trung vào việc tạo, tái cấu trúc, nâng cao hoặc chỉnh sửa hình ảnh dựa trên điều kiện ngữ cảnh cho trước. Mô hình kết hợp ưu điểm tạo có kiểm soát của mô hình khuếch tán và khả năng mô hình hóa ngữ cảnh của Transformer, hỗ trợ xuất hình ảnh chất lượng cao, ứng dụng rộng rãi trong sửa chữa hình ảnh, hoàn thiện hình ảnh, tái cấu trúc cảnh quan trực quan." }, "FLUX.1-Kontext-pro": { "description": "FLUX.1 Kontext [pro]" }, "FLUX.1-dev": { "description": "FLUX.1-dev là mô hình ngôn ngữ đa phương thức mã nguồn mở do Black Forest Labs phát triển, tối ưu cho các tác vụ kết hợp hình ảnh và văn bản. Nó tích hợp khả năng hiểu và tạo hình ảnh cùng văn bản, xây dựng trên nền tảng các mô hình ngôn ngữ lớn tiên tiến như Mistral-7B, thông qua bộ mã hóa thị giác thiết kế tinh vi và điều chỉnh chỉ dẫn đa giai đoạn, đạt được khả năng xử lý phối hợp hình ảnh-văn bản và suy luận tác vụ phức tạp." }, "Gryphe/MythoMax-L2-13b": { "description": "MythoMax-L2 (13B) là một mô hình sáng tạo, phù hợp cho nhiều lĩnh vực ứng dụng và nhiệm vụ phức tạp." }, "HelloMeme": { "description": "HelloMeme là công cụ AI có thể tự động tạo meme, ảnh động hoặc video ngắn dựa trên hình ảnh hoặc hành động bạn cung cấp. Bạn không cần có kỹ năng vẽ hay lập trình, chỉ cần chuẩn bị hình ảnh tham khảo, nó sẽ giúp bạn tạo ra nội dung đẹp mắt, thú vị và đồng nhất về phong cách." }, "HiDream-I1-Full": { "description": "HiDream-E1-Full là mô hình chỉnh sửa hình ảnh đa phương thức mã nguồn mở do HiDream.ai phát triển, dựa trên kiến trúc Diffusion Transformer tiên tiến và kết hợp khả năng hiểu ngôn ngữ mạnh mẽ (tích hợp LLaMA 3.1-8B-Instruct). Mô hình hỗ trợ tạo hình ảnh, chuyển đổi phong cách, chỉnh sửa cục bộ và vẽ lại nội dung qua chỉ dẫn ngôn ngữ tự nhiên, có khả năng hiểu và thực thi tốt giữa hình ảnh và văn bản." }, "HunyuanDiT-v1.2-Diffusers-Distilled": { "description": "hunyuandit-v1.2-distilled là mô hình tạo hình ảnh từ văn bản nhẹ, được tối ưu qua kỹ thuật chưng cất, có khả năng tạo hình ảnh chất lượng cao nhanh chóng, đặc biệt phù hợp với môi trường tài nguyên thấp và các tác vụ tạo hình ảnh thời gian thực." }, "InstantCharacter": { "description": "InstantCharacter là mô hình tạo nhân vật cá nhân hóa không cần tinh chỉnh do đội AI Tencent phát hành năm 2025, nhằm đạt được tạo nhân vật nhất quán, độ trung thực cao và đa cảnh. Mô hình hỗ trợ xây dựng nhân vật chỉ dựa trên một hình ảnh tham khảo và có thể linh hoạt chuyển nhân vật đó sang nhiều phong cách, hành động và nền khác nhau." }, "InternVL2-8B": { "description": "InternVL2-8B là một mô hình ngôn ngữ hình ảnh mạnh mẽ, hỗ trợ xử lý đa phương tiện giữa hình ảnh và văn bản, có khả năng nhận diện chính xác nội dung hình ảnh và tạo ra mô tả hoặc câu trả lời liên quan." }, "InternVL2.5-26B": { "description": "InternVL2.5-26B là một mô hình ngôn ngữ hình ảnh mạnh mẽ, hỗ trợ xử lý đa phương tiện giữa hình ảnh và văn bản, có khả năng nhận diện chính xác nội dung hình ảnh và tạo ra mô tả hoặc câu trả lời liên quan." }, "Kolors": { "description": "Kolors là mô hình tạo hình ảnh từ văn bản do nhóm Kolors của Kuaishou phát triển. Được huấn luyện trên hàng tỷ tham số, nổi bật về chất lượng hình ảnh, hiểu ngữ nghĩa tiếng Trung và khả năng hiển thị văn bản." }, "Kwai-Kolors/Kolors": { "description": "Kolors là mô hình tạo hình ảnh từ văn bản quy mô lớn dựa trên khuếch tán tiềm ẩn do nhóm Kolors của Kuaishou phát triển. Mô hình được huấn luyện trên hàng tỷ cặp văn bản-hình ảnh, thể hiện ưu thế rõ rệt về chất lượng hình ảnh, độ chính xác ngữ nghĩa phức tạp và khả năng hiển thị ký tự tiếng Trung và tiếng Anh. Nó hỗ trợ đầu vào tiếng Trung và tiếng Anh, đồng thời thể hiện xuất sắc trong việc hiểu và tạo nội dung đặc thù tiếng Trung." }, "Llama-3.2-11B-Vision-Instruct": { "description": "Khả năng suy luận hình ảnh xuất sắc trên hình ảnh độ phân giải cao, phù hợp cho các ứng dụng hiểu biết thị giác." }, "Llama-3.2-90B-Vision-Instruct\t": { "description": "Khả năng suy luận hình ảnh cao cấp cho các ứng dụng đại lý hiểu biết thị giác." }, "Meta-Llama-3-3-70B-Instruct": { "description": "Llama 3.3 70B: Mô hình Transformer đa năng, thích hợp cho các nhiệm vụ đối thoại và tạo nội dung." }, "Meta-Llama-3.1-405B-Instruct": { "description": "Mô hình văn bản được tinh chỉnh theo chỉ dẫn Llama 3.1, được tối ưu hóa cho các trường hợp sử dụng đối thoại đa ngôn ngữ, thể hiện xuất sắc trong nhiều mô hình trò chuyện mã nguồn mở và đóng có sẵn trên nhiều tiêu chuẩn ngành." }, "Meta-Llama-3.1-70B-Instruct": { "description": "Mô hình văn bản được tinh chỉnh theo chỉ dẫn Llama 3.1, được tối ưu hóa cho các trường hợp sử dụng đối thoại đa ngôn ngữ, thể hiện xuất sắc trong nhiều mô hình trò chuyện mã nguồn mở và đóng có sẵn trên nhiều tiêu chuẩn ngành." }, "Meta-Llama-3.1-8B-Instruct": { "description": "Mô hình văn bản được tinh chỉnh theo chỉ dẫn Llama 3.1, được tối ưu hóa cho các trường hợp sử dụng đối thoại đa ngôn ngữ, thể hiện xuất sắc trong nhiều mô hình trò chuyện mã nguồn mở và đóng có sẵn trên nhiều tiêu chuẩn ngành." }, "Meta-Llama-3.2-1B-Instruct": { "description": "Mô hình ngôn ngữ nhỏ tiên tiến nhất, có khả năng hiểu ngôn ngữ, khả năng suy luận xuất sắc và khả năng sinh văn bản." }, "Meta-Llama-3.2-3B-Instruct": { "description": "Mô hình ngôn ngữ nhỏ tiên tiến nhất, có khả năng hiểu ngôn ngữ, khả năng suy luận xuất sắc và khả năng sinh văn bản." }, "Meta-Llama-3.3-70B-Instruct": { "description": "Llama 3.3 là mô hình ngôn ngữ lớn mã nguồn mở đa ngôn ngữ tiên tiến nhất trong dòng Llama, mang đến trải nghiệm hiệu suất tương đương mô hình 405B với chi phí cực thấp. Dựa trên cấu trúc Transformer, và được cải thiện tính hữu ích và an toàn thông qua tinh chỉnh giám sát (SFT) và học tăng cường từ phản hồi của con người (RLHF). Phiên bản tinh chỉnh theo chỉ dẫn của nó được tối ưu hóa cho các cuộc đối thoại đa ngôn ngữ, thể hiện tốt hơn nhiều mô hình trò chuyện mã nguồn mở và đóng trong nhiều tiêu chuẩn ngành. Ngày cắt đứt kiến thức là tháng 12 năm 2023." }, "Meta-Llama-4-Maverick-17B-128E-Instruct-FP8": { "description": "Llama 4 Maverick: Mô hình quy mô lớn dựa trên Mixture-of-Experts, cung cấp chiến lược kích hoạt chuyên gia hiệu quả để đạt hiệu suất xuất sắc trong suy luận." }, "MiniMax-M1": { "description": "Mô hình suy luận tự phát triển hoàn toàn mới. Dẫn đầu toàn cầu: 80K chuỗi tư duy x 1M đầu vào, hiệu quả sánh ngang với các mô hình hàng đầu quốc tế" }, "MiniMax-M2": { "description": "Được thiết kế đặc biệt cho lập trình hiệu quả và quy trình làm việc của Agent" }, "MiniMax-Text-01": { "description": "Trong dòng mô hình MiniMax-01, chúng tôi đã thực hiện những đổi mới táo bạo: lần đầu tiên hiện thực hóa quy mô lớn cơ chế chú ý tuyến tính, kiến trúc Transformer truyền thống không còn là lựa chọn duy nhất. Mô hình này có số lượng tham số lên tới 4560 tỷ, trong đó kích hoạt một lần là 45,9 tỷ. Hiệu suất tổng hợp của mô hình tương đương với các mô hình hàng đầu quốc tế, đồng thời có khả năng xử lý hiệu quả ngữ cảnh dài nhất toàn cầu lên tới 4 triệu token, gấp 32 lần GPT-4o và 20 lần Claude-3.5-Sonnet." }, "MiniMaxAI/MiniMax-M1-80k": { "description": "MiniMax-M1 là mô hình suy luận chú ý hỗn hợp quy mô lớn với trọng số mã nguồn mở, sở hữu 456 tỷ 600 triệu tham số, mỗi Token có thể kích hoạt khoảng 45,9 tỷ tham số. Mô hình hỗ trợ ngữ cảnh siêu dài lên đến 1 triệu Token một cách nguyên bản, và thông qua cơ chế chú ý chớp nhoáng, trong các tác vụ sinh 100.000 Token tiết kiệm 75% lượng phép tính dấu chấm động so với DeepSeek R1. Đồng thời, MiniMax-M1 áp dụng kiến trúc MoE (chuyên gia hỗn hợp), kết hợp thuật toán CISPO và thiết kế chú ý hỗn hợp trong huấn luyện tăng cường hiệu quả, đạt hiệu suất hàng đầu trong ngành khi suy luận đầu vào dài và các kịch bản kỹ thuật phần mềm thực tế." }, "Moonshot-Kimi-K2-Instruct": { "description": "Tổng tham số 1T, tham số kích hoạt 32B. Trong các mô hình không suy nghĩ, đạt trình độ hàng đầu về kiến thức tiên tiến, toán học và lập trình, đặc biệt phù hợp với các tác vụ đại lý chung. Được tối ưu kỹ lưỡng cho tác vụ đại lý, không chỉ trả lời câu hỏi mà còn có thể thực hiện hành động. Phù hợp nhất cho trò chuyện ứng biến, trải nghiệm đại lý chung, là mô hình phản xạ không cần suy nghĩ lâu." }, "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": { "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) là mô hình chỉ dẫn chính xác cao, phù hợp cho tính toán phức tạp." }, "OmniConsistency": { "description": "OmniConsistency nâng cao tính nhất quán phong cách và khả năng tổng quát hóa trong các tác vụ hình ảnh sang hình ảnh (Image-to-Image) bằng cách giới thiệu các Diffusion Transformers (DiTs) quy mô lớn và dữ liệu phong cách ghép đôi, tránh suy giảm phong cách." }, "Phi-3-medium-128k-instruct": { "description": "Mô hình Phi-3-medium giống nhau, nhưng với kích thước ngữ cảnh lớn hơn cho RAG hoặc gợi ý ít." }, "Phi-3-medium-4k-instruct": { "description": "Mô hình 14B tham số, chứng minh chất lượng tốt hơn Phi-3-mini, tập trung vào dữ liệu dày đặc lý luận chất lượng cao." }, "Phi-3-mini-128k-instruct": { "description": "Mô hình Phi-3-mini giống nhau, nhưng với kích thước ngữ cảnh lớn hơn cho RAG hoặc gợi ý ít." }, "Phi-3-mini-4k-instruct": { "description": "Thành viên nhỏ nhất của gia đình Phi-3. Tối ưu hóa cho cả chất lượng và độ trễ thấp." }, "Phi-3-small-128k-instruct": { "description": "Mô hình Phi-3-small giống nhau, nhưng với kích thước ngữ cảnh lớn hơn cho RAG hoặc gợi ý ít." }, "Phi-3-small-8k-instruct": { "description": "Mô hình 7B tham số, chứng minh chất lượng tốt hơn Phi-3-mini, tập trung vào dữ liệu dày đặc lý luận chất lượng cao." }, "Phi-3.5-mini-instruct": { "description": "Phi-3-mini là phiên bản cập nhật của mô hình." }, "Phi-3.5-vision-instrust": { "description": "Phi-3-vision là phiên bản cập nhật của mô hình." }, "Pro/Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-7B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 7B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó có khả năng xử lý đầu vào quy mô lớn. Mô hình thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở và thể hiện sức cạnh tranh tương đương với các mô hình độc quyền trong một số nhiệm vụ. Qwen2-7B-Instruct đã thể hiện sự cải thiện đáng kể về hiệu suất trong nhiều bài kiểm tra so với Qwen1.5-7B-Chat." }, "Pro/Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct là một trong những mô hình ngôn ngữ lớn mới nhất do Alibaba Cloud phát hành. Mô hình 7B này có khả năng cải thiện đáng kể trong các lĩnh vực mã hóa và toán học. Mô hình cũng cung cấp hỗ trợ đa ngôn ngữ, bao gồm hơn 29 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, v.v. Mô hình đã có sự cải thiện đáng kể trong việc tuân theo chỉ dẫn, hiểu dữ liệu có cấu trúc và tạo ra đầu ra có cấu trúc (đặc biệt là JSON)." }, "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct là phiên bản mới nhất trong loạt mô hình ngôn ngữ lớn chuyên biệt cho mã do Alibaba Cloud phát hành. Mô hình này được cải thiện đáng kể khả năng tạo mã, suy luận và sửa chữa thông qua việc đào tạo trên 5.5 triệu tỷ tokens, không chỉ nâng cao khả năng lập trình mà còn duy trì lợi thế về khả năng toán học và tổng quát. Mô hình cung cấp nền tảng toàn diện hơn cho các ứng dụng thực tế như tác nhân mã." }, "Pro/Qwen/Qwen2.5-VL-7B-Instruct": { "description": "Qwen2.5-VL là thành viên mới của series Qwen, sở hữu khả năng hiểu thị giác mạnh mẽ, có thể phân tích văn bản, biểu đồ và bố cục trong hình ảnh, cũng như hiểu video dài và bắt các sự kiện, có thể suy luận, thao tác công cụ, hỗ trợ định vị vật thể đa định dạng và tạo ra đầu ra có cấu trúc, tối ưu hóa việc huấn luyện độ phân giải và tốc độ khung hình động cho việc hiểu video, đồng thời cải thiện hiệu suất của bộ mã hóa thị giác." }, "Pro/THUDM/GLM-4.1V-9B-Thinking": { "description": "GLM-4.1V-9B-Thinking là một mô hình ngôn ngữ thị giác (VLM) mã nguồn mở được phát hành chung bởi Zhipu AI và Phòng thí nghiệm KEG của Đại học Thanh Hoa, được thiết kế đặc biệt để xử lý các nhiệm vụ nhận thức đa phương thức phức tạp. Mô hình này dựa trên mô hình cơ sở GLM-4-9B-0414, thông qua việc giới thiệu cơ chế suy luận “Chuỗi tư duy” (Chain-of-Thought) và áp dụng chiến lược học tăng cường, đã nâng cao đáng kể khả năng suy luận đa phương thức và tính ổn định của nó." }, "Pro/THUDM/glm-4-9b-chat": { "description": "GLM-4-9B-Chat là phiên bản mã nguồn mở trong loạt mô hình tiền huấn luyện GLM-4 do Zhizhu AI phát hành. Mô hình này thể hiện xuất sắc trong nhiều lĩnh vực như ngữ nghĩa, toán học, suy luận, mã và kiến thức. Ngoài việc hỗ trợ đối thoại nhiều vòng, GLM-4-9B-Chat còn có các tính năng nâng cao như duyệt web, thực thi mã, gọi công cụ tùy chỉnh (Function Call) và suy luận văn bản dài. Mô hình hỗ trợ 26 ngôn ngữ, bao gồm tiếng Trung, tiếng Anh, tiếng Nhật, tiếng Hàn và tiếng Đức. Trong nhiều bài kiểm tra chuẩn, GLM-4-9B-Chat đã thể hiện hiệu suất xuất sắc, như AlignBench-v2, MT-Bench, MMLU và C-Eval. Mô hình hỗ trợ độ dài ngữ cảnh tối đa 128K, phù hợp cho nghiên cứu học thuật và ứng dụng thương mại." }, "Pro/deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1 là một mô hình suy diễn được điều khiển bởi học tăng cường (RL), giải quyết các vấn đề về tính lặp lại và khả năng đọc trong mô hình. Trước khi áp dụng RL, DeepSeek-R1 đã giới thiệu dữ liệu khởi động lạnh, tối ưu hóa thêm hiệu suất suy diễn. Nó thể hiện hiệu suất tương đương với OpenAI-o1 trong các nhiệm vụ toán học, mã và suy diễn, và thông qua phương pháp đào tạo được thiết kế cẩn thận, nâng cao hiệu quả tổng thể." }, "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7B là mô hình được tạo ra từ Qwen2.5-Math-7B thông qua quá trình chưng cất kiến thức. Mô hình này được tinh chỉnh bằng 800.000 mẫu được chọn lọc từ DeepSeek-R1, thể hiện khả năng suy luận xuất sắc. Nó đã đạt được hiệu suất tốt trong nhiều bài kiểm tra chuẩn, trong đó có độ chính xác 92,8% trên MATH-500, tỷ lệ vượt qua 55,5% trên AIME 2024, và điểm số 1189 trên CodeForces, thể hiện khả năng toán học và lập trình mạnh mẽ cho một mô hình có quy mô 7B." }, "Pro/deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3 là một mô hình ngôn ngữ hỗn hợp chuyên gia (MoE) với 6710 tỷ tham số, sử dụng chú ý tiềm ẩn đa đầu (MLA) và kiến trúc DeepSeekMoE, kết hợp chiến lược cân bằng tải không có tổn thất phụ trợ, tối ưu hóa hiệu suất suy diễn và đào tạo. Thông qua việc được tiền huấn luyện trên 14.8 triệu tỷ token chất lượng cao, và thực hiện tinh chỉnh giám sát và học tăng cường, DeepSeek-V3 vượt trội hơn các mô hình mã nguồn mở khác, gần với các mô hình đóng kín hàng đầu." }, "Pro/deepseek-ai/DeepSeek-V3.1-Terminus": { "description": "DeepSeek-V3.1-Terminus là phiên bản cập nhật của mô hình V3.1 do DeepSeek phát hành, được định vị là mô hình ngôn ngữ lớn với trí tuệ hỗn hợp. Bản cập nhật này tập trung sửa các vấn đề phản hồi từ người dùng và nâng cao độ ổn định trong khi vẫn giữ nguyên khả năng của mô hình. Nó cải thiện đáng kể tính nhất quán ngôn ngữ, giảm thiểu việc sử dụng lẫn lộn tiếng Trung và tiếng Anh cũng như các ký tự bất thường. Mô hình tích hợp \"Chế độ suy nghĩ\" (Thinking Mode) và \"Chế độ không suy nghĩ\" (Non-thinking Mode), người dùng có thể linh hoạt chuyển đổi qua các mẫu trò chuyện để phù hợp với các nhiệm vụ khác nhau. Một tối ưu quan trọng là V3.1-Terminus tăng cường hiệu suất của Agent mã (Code Agent) và Agent tìm kiếm (Search Agent), giúp chúng đáng tin cậy hơn trong việc gọi công cụ và thực hiện các nhiệm vụ phức tạp nhiều bước." }, "Pro/deepseek-ai/DeepSeek-V3.2-Exp": { "description": "DeepSeek-V3.2-Exp là phiên bản thử nghiệm V3.2 do DeepSeek phát hành, đóng vai trò là bước chuyển tiếp trong hành trình hướng tới kiến trúc thế hệ tiếp theo. Dựa trên nền tảng của V3.1-Terminus, phiên bản này tích hợp cơ chế Chú ý Thưa (DeepSeek Sparse Attention - DSA) nhằm nâng cao hiệu quả huấn luyện và suy luận trong ngữ cảnh dài. Nó được tối ưu hóa đặc biệt cho việc gọi công cụ, hiểu tài liệu dài và suy luận nhiều bước. V3.2-Exp là cầu nối giữa nghiên cứu và ứng dụng thực tế, phù hợp với người dùng mong muốn khám phá hiệu suất suy luận cao hơn trong các tình huống có ngân sách ngữ cảnh lớn." }, "Pro/moonshotai/Kimi-K2-Instruct-0905": { "description": "Kimi K2-Instruct-0905 là phiên bản mới nhất và mạnh mẽ nhất của Kimi K2. Đây là một mô hình ngôn ngữ chuyên gia hỗn hợp (MoE) hàng đầu với tổng số tham số lên đến 1 nghìn tỷ và 32 tỷ tham số kích hoạt. Các đặc điểm chính của mô hình bao gồm: tăng cường trí tuệ mã hóa tác nhân, thể hiện sự cải thiện đáng kể trong các bài kiểm tra chuẩn công khai và các nhiệm vụ mã hóa tác nhân trong thế giới thực; cải tiến trải nghiệm mã hóa giao diện người dùng, nâng cao cả về tính thẩm mỹ và tính thực tiễn trong lập trình giao diện." }, "QwQ-32B-Preview": { "description": "QwQ-32B-Preview là một mô hình xử lý ngôn ngữ tự nhiên độc đáo, có khả năng xử lý hiệu quả các nhiệm vụ tạo đối thoại phức tạp và hiểu ngữ cảnh." }, "Qwen/QVQ-72B-Preview": { "description": "QVQ-72B-Preview là một mô hình nghiên cứu do đội ngũ Qwen phát triển, tập trung vào khả năng suy diễn hình ảnh, có lợi thế độc đáo trong việc hiểu các cảnh phức tạp và giải quyết các vấn đề toán học liên quan đến hình ảnh." }, "Qwen/QwQ-32B": { "description": "QwQ là mô hình suy diễn của dòng Qwen. So với các mô hình tinh chỉnh theo chỉ dẫn truyền thống, QwQ có khả năng tư duy và suy diễn, có thể đạt được hiệu suất được cải thiện đáng kể trong các nhiệm vụ hạ nguồn, đặc biệt là trong việc giải quyết các vấn đề khó khăn. QwQ-32B là mô hình suy diễn trung bình, có thể đạt được hiệu suất cạnh tranh khi so sánh với các mô hình suy diễn tiên tiến nhất (như DeepSeek-R1, o1-mini). Mô hình này sử dụng các công nghệ như RoPE, SwiGLU, RMSNorm và Attention QKV bias, có cấu trúc mạng 64 lớp và 40 đầu chú ý Q (trong kiến trúc GQA, KV là 8)." }, "Qwen/QwQ-32B-Preview": { "description": "QwQ-32B-Preview là mô hình nghiên cứu thử nghiệm mới nhất của Qwen, tập trung vào việc nâng cao khả năng suy luận của AI. Thông qua việc khám phá các cơ chế phức tạp như trộn ngôn ngữ và suy luận đệ quy, những lợi thế chính bao gồm khả năng phân tích suy luận mạnh mẽ, khả năng toán học và lập trình. Tuy nhiên, cũng có những vấn đề về chuyển đổi ngôn ngữ, vòng lặp suy luận, các vấn đề an toàn và sự khác biệt về các khả năng khác." }, "Qwen/Qwen-Image": { "description": "Qwen-Image là mô hình nền tạo ảnh do đội ngũ Tongyi Qianwen của Alibaba phát triển, với 20 tỷ tham số. Mô hình này đạt được những tiến bộ đáng kể trong việc hiển thị văn bản phức tạp và chỉnh sửa hình ảnh chính xác, đặc biệt xuất sắc trong việc tạo ra hình ảnh chứa văn bản tiếng Trung và tiếng Anh với độ trung thực cao. Qwen-Image không chỉ xử lý tốt bố cục nhiều dòng và văn bản cấp đoạn, mà còn duy trì sự nhất quán trong bố cục và hài hòa về ngữ cảnh khi tạo ảnh. Bên cạnh khả năng hiển thị văn bản vượt trội, mô hình còn hỗ trợ nhiều phong cách nghệ thuật, từ ảnh hiện thực đến thẩm mỹ anime, linh hoạt đáp ứng các nhu cầu sáng tạo khác nhau. Đồng thời, nó cũng sở hữu khả năng chỉnh sửa và hiểu hình ảnh mạnh mẽ, hỗ trợ các thao tác nâng cao như chuyển đổi phong cách, thêm hoặc xóa đối tượng, tăng cường chi tiết, chỉnh sửa văn bản và điều khiển tư thế cơ thể người, hướng tới việc trở thành một mô hình nền thông minh toàn diện cho sáng tạo và xử lý hình ảnh tích hợp ngôn ngữ, bố cục và thị giác." }, "Qwen/Qwen-Image-Edit-2509": { "description": "Qwen-Image-Edit-2509 là phiên bản chỉnh sửa hình ảnh mới nhất của Qwen-Image, được phát hành bởi đội ngũ Tongyi Qianwen của Alibaba. Mô hình này được huấn luyện chuyên sâu dựa trên Qwen-Image với 20 tỷ tham số, mở rộng thành công khả năng hiển thị văn bản độc đáo sang lĩnh vực chỉnh sửa hình ảnh, cho phép chỉnh sửa chính xác văn bản trong ảnh. Ngoài ra, Qwen-Image-Edit áp dụng kiến trúc sáng tạo, đưa hình ảnh đầu vào đồng thời vào Qwen2.5-VL (để kiểm soát ngữ nghĩa thị giác) và VAE Encoder (để kiểm soát diện mạo thị giác), từ đó đạt được khả năng chỉnh sửa kép về ngữ nghĩa và diện mạo. Điều này có nghĩa là mô hình không chỉ hỗ trợ chỉnh sửa cục bộ như thêm, xóa hoặc thay đổi các yếu tố, mà còn hỗ trợ chỉnh sửa ngữ nghĩa thị giác nâng cao như sáng tạo IP, chuyển đổi phong cách mà vẫn giữ được tính nhất quán về ngữ nghĩa. Mô hình đã thể hiện hiệu suất hàng đầu (SOTA) trên nhiều bộ đánh giá công khai, trở thành một mô hình nền chỉnh sửa hình ảnh mạnh mẽ." }, "Qwen/Qwen2-72B-Instruct": { "description": "Qwen2 là mô hình ngôn ngữ tổng quát tiên tiến, hỗ trợ nhiều loại chỉ dẫn." }, "Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-72B-Instruct là mô hình ngôn ngữ lớn được tinh chỉnh theo chỉ dẫn trong loạt Qwen2, với quy mô tham số là 72B. Mô hình này dựa trên kiến trúc Transformer, sử dụng hàm kích hoạt SwiGLU, độ lệch QKV trong chú ý và chú ý theo nhóm. Nó có khả năng xử lý đầu vào quy mô lớn. Mô hình thể hiện xuất sắc trong nhiều bài kiểm tra chuẩn về hiểu ngôn ngữ, sinh ngôn ngữ, khả năng đa ngôn ngữ, mã hóa, toán học và suy luận, vượt qua hầu hết các mô hình mã nguồn mở và thể hiện sức cạnh tranh tương đương với các mô hình độc quyền trong một số nhiệm vụ." }, "Qwen/Qwen2-VL-72B-Instruct": { "description": "Qwen2-VL là phiên bản mới nhất của mô hình Qwen-VL, đạt được hiệu suất hàng đầu trong các thử nghiệm chuẩn hiểu biết hình ảnh." }, "Qwen/Qwen2.5-14B-Instruct": { "description": "Qwen2.5 là một loạt mô hình ngôn ngữ lớn hoàn toàn mới, nhằm tối ưu hóa việc xử lý các nhiệm vụ theo hướng dẫn." }, "Qwen/Qwen2.5-32B-Instruct": { "description": "Qwen2.5 là một loạt mô hình ngôn ngữ lớn hoàn toàn mới, nhằm tối ưu hóa việc xử lý các nhiệm vụ theo hướng dẫn." }, "Qwen/Qwen2.5-72B-Instruct": { "description": "Mô hình ngôn ngữ lớn được phát triển bởi đội ngũ Qianwen của Alibaba Cloud" }, "Qwen/Qwen2.5-72B-Instruct-128K": { "description": "Qwen2.5 là một loạt mô hình ngôn ngữ lớn hoàn toàn mới, sở hữu khả năng hiểu và tạo ra mạnh mẽ hơn." }, "Qwen/Qwen2.5-72B-Instruct-Turbo": { "description": "Qwen2.5 là một loạt mô hình ngôn ngữ lớn hoàn toàn mới, được thiết kế để tối ưu hóa việc xử lý các tác vụ chỉ dẫn." }, "Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5 là một loạt mô hình ngôn ngữ lớn hoàn toàn mới, nhằm tối ưu hóa việc xử lý các nhiệm vụ theo hướng dẫn." }, "Qwen/Qwen2.5-7B-Instruct-Turbo": { "description": "Qwen2.5 là một loạt mô hình ngôn ngữ lớn hoàn toàn mới, được thiết kế để tối ưu hóa việc xử lý các tác vụ chỉ dẫn." }, "Qwen/Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder tập trung vào việc viết mã." }, "Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct là phiên bản mới nhất trong loạt mô hình ngôn ngữ lớn chuyên biệt cho mã do Alibaba Cloud phát hành. Mô hình này được cải thiện đáng kể khả năng tạo mã, suy luận và sửa chữa thông qua việc đào tạo trên 5.5 triệu tỷ tokens, không chỉ nâng cao khả năng lập trình mà còn duy trì lợi thế về khả năng toán học và tổng quát. Mô hình cung cấp nền tảng toàn diện hơn cho các ứng dụng thực tế như tác nhân mã." }, "Qwen/Qwen2.5-VL-32B-Instruct": { "description": "Qwen2.5-VL-32B-Instruct là mô hình đa phương thức do đội ngũ Qwen2.5-VL phát triển, là một phần của loạt Qwen2.5-VL. Mô hình này không chỉ giỏi nhận diện các vật thể thông thường, mà còn có thể phân tích văn bản, biểu đồ, biểu tượng, hình vẽ và bố cục trong hình ảnh. Nó có thể hoạt động như một đại lý thị giác, có khả năng suy luận và điều khiển công cụ một cách động, bao gồm cả việc sử dụng máy tính và điện thoại. Ngoài ra, mô hình này có thể xác định chính xác vị trí của các đối tượng trong hình ảnh và tạo ra đầu ra có cấu trúc cho hóa đơn, bảng biểu, v.v. So với mô hình tiền nhiệm Qwen2-VL, phiên bản này đã được cải thiện đáng kể về khả năng giải toán và giải quyết vấn đề thông qua học tăng cường, và phong cách phản hồi cũng phù hợp hơn với sở thích của con người." }, "Qwen/Qwen2.5-VL-72B-Instruct": { "description": "Qwen2.5-VL là mô hình ngôn ngữ thị giác trong loạt Qwen2.5. Mô hình này có những cải tiến đáng kể: có khả năng hiểu thị giác mạnh hơn, có thể nhận diện các vật thể thông thường, phân tích văn bản, biểu đồ và bố cục; hoạt động như một đại lý thị giác có thể suy luận và hướng dẫn sử dụng công cụ một cách động; hỗ trợ hiểu các video dài hơn 1 giờ và bắt các sự kiện quan trọng; có thể định vị chính xác các vật thể trong hình ảnh thông qua việc tạo khung giới hạn hoặc điểm; hỗ trợ tạo ra đầu ra có cấu trúc, đặc biệt phù hợp với dữ liệu quét như hóa đơn, bảng biểu." }, "Qwen/Qwen3-14B": { "description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ." }, "Qwen/Qwen3-235B-A22B": { "description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ." }, "Qwen/Qwen3-235B-A22B-Instruct-2507": { "description": "Qwen3-235B-A22B-Instruct-2507 là mô hình ngôn ngữ lớn chuyên gia hỗn hợp (MoE) hàng đầu trong dòng Qwen3 do đội ngũ Aliyun Tongyi Qianwen phát triển. Mô hình có tổng 235 tỷ tham số, mỗi lần suy luận kích hoạt 22 tỷ tham số. Đây là phiên bản cập nhật của Qwen3-235B-A22B không ở chế độ suy nghĩ, tập trung cải thiện đáng kể khả năng tuân thủ chỉ dẫn, suy luận logic, hiểu văn bản, toán học, khoa học, lập trình và sử dụng công cụ. Ngoài ra, mô hình tăng cường bao phủ kiến thức đa ngôn ngữ và điều chỉnh tốt hơn sở thích người dùng trong các tác vụ chủ quan và mở, tạo ra văn bản hữu ích và chất lượng cao hơn." }, "Qwen/Qwen3-235B-A22B-Thinking-2507": { "description": "Qwen3-235B-A22B-Thinking-2507 là thành viên trong dòng mô hình ngôn ngữ lớn Qwen3 do đội ngũ Alibaba Tongyi Qianwen phát triển, tập trung vào các tác vụ suy luận phức tạp và khó khăn. Mô hình dựa trên kiến trúc chuyên gia hỗn hợp (MoE), tổng tham số 235 tỷ, mỗi token kích hoạt khoảng 22 tỷ tham số, giúp tăng hiệu quả tính toán trong khi duy trì hiệu suất mạnh mẽ. Là mô hình “suy nghĩ” chuyên biệt, nó cải thiện đáng kể khả năng suy luận logic, toán học, khoa học, lập trình và các bài kiểm tra học thuật, đạt trình độ hàng đầu trong các mô hình suy nghĩ mã nguồn mở. Mô hình cũng tăng cường khả năng chung như tuân thủ chỉ dẫn, sử dụng công cụ và tạo văn bản, hỗ trợ ngữ cảnh dài 256K token, rất phù hợp cho các kịch bản cần suy luận sâu và xử lý tài liệu dài." }, "Qwen/Qwen3-30B-A3B": { "description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ." }, "Qwen/Qwen3-30B-A3B-Instruct-2507": { "description": "Qwen3-30B-A3B-Instruct-2507 là phiên bản cập nhật của Qwen3-30B-A3B ở chế độ không suy nghĩ. Đây là một mô hình chuyên gia hỗn hợp (MoE) với tổng cộng 30,5 tỷ tham số và 3,3 tỷ tham số kích hoạt. Mô hình này đã được cải tiến quan trọng ở nhiều khía cạnh, bao gồm nâng cao đáng kể khả năng tuân thủ chỉ dẫn, suy luận logic, hiểu văn bản, toán học, khoa học, lập trình và sử dụng công cụ. Đồng thời, nó đạt được tiến bộ thực chất trong việc bao phủ kiến thức đa ngôn ngữ và có khả năng điều chỉnh tốt hơn với sở thích của người dùng trong các nhiệm vụ chủ quan và mở, từ đó tạo ra các phản hồi hữu ích hơn và văn bản chất lượng cao hơn. Ngoài ra, khả năng hiểu văn bản dài của mô hình cũng được nâng lên đến 256K. Mô hình này chỉ hỗ trợ chế độ không suy nghĩ và không tạo ra thẻ `<think></think>` trong đầu ra." }, "Qwen/Qwen3-30B-A3B-Thinking-2507": { "description": "Qwen3-30B-A3B-Thinking-2507 là mô hình \"suy nghĩ\" mới nhất trong dòng Qwen3, được phát hành bởi nhóm Tongyi Qianwen của Alibaba. Là một mô hình chuyên gia hỗn hợp (MoE) với tổng cộng 305亿 (30,5 tỷ) tham số và 33亿 (3,3 tỷ) tham số kích hoạt, mô hình tập trung vào nâng cao khả năng xử lý các nhiệm vụ phức tạp. Mô hình này thể hiện hiệu năng cải thiện rõ rệt trên các chuẩn đánh giá học thuật về suy luận logic, toán học, khoa học, lập trình và những bài toán đòi hỏi chuyên môn của con người. Đồng thời, các năng lực chung như tuân thủ hướng dẫn, sử dụng công cụ, sinh văn bản và căn chỉnh theo sở thích con người cũng được tăng cường đáng kể. Mô hình hỗ trợ nguyên sinh khả năng hiểu ngữ cảnh dài 256K và có thể mở rộng lên tới 1 triệu token. Phiên bản này được thiết kế dành cho \"chế độ suy nghĩ\", nhằm giải quyết các nhiệm vụ có độ phức tạp cao thông qua quá trình suy luận từng bước chi tiết, đồng thời năng lực tác nhân (Agent) của nó cũng thể hiện xuất sắc." }, "Qwen/Qwen3-32B": { "description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ." }, "Qwen/Qwen3-8B": { "description": "Qwen3 là một mô hình lớn thế hệ mới của Tongyi Qianwen với khả năng nâng cao đáng kể, đạt được trình độ hàng đầu trong nhiều khả năng cốt lõi như suy luận, tổng quát, đại lý và đa ngôn ngữ, đồng thời hỗ trợ chuyển đổi chế độ suy nghĩ." }, "Qwen/Qwen3-Coder-30B-A3B-Instruct": { "description": "Qwen3-Coder-30B-A3B-Instruct là một mô hình mã trong dòng Qwen3 được phát triển bởi đội ngũ Tongyi Qianwen của Alibaba. Là một mô hình được tinh giản và tối ưu hóa, nó tập trung nâng cao khả năng xử lý mã nguồn trong khi vẫn duy trì hiệu năng và hiệu suất cao. Mô hình này thể hiện ưu thế hiệu năng nổi bật so với các mô hình mã nguồn mở trong các tác vụ phức tạp như lập trình tác nhân (Agentic Coding), tự động hóa thao tác trình duyệt và gọi công cụ. Nó hỗ trợ ngữ cảnh dài 256K token một cách nguyên bản và có thể mở rộng tới 1M token, giúp hiểu và xử lý ở mức độ toàn bộ kho mã tốt hơn. Ngoài ra, mô hình còn cung cấp hỗ trợ lập trình tác nhân mạnh mẽ cho các nền tảng như Qwen Code, CLINE và được thiết kế với định dạng gọi hàm chuyên biệt." }, "Qwen/Qwen3-Coder-480B-A35B-Instruct": { "description": "Qwen3-Coder-480B-A35B-Instruct là mô hình mã do Alibaba phát hành, được đánh giá là có khả năng tác nhân (agentic) mạnh mẽ nhất tính đến nay. Đây là một mô hình chuyên gia hỗn hợp (Mixture of Experts, MoE) với tổng cộng 480 tỷ tham số và 35 tỷ tham số kích hoạt, cân bằng giữa hiệu suất và hiệu quả. Mô hình này hỗ trợ ngữ cảnh gốc dài 256K (khoảng 260 nghìn) token và có thể được mở rộng tới 1 triệu token thông qua các phương pháp ngoại suy như YaRN, giúp nó xử lý các kho mã quy mô lớn và các nhiệm vụ lập trình phức tạp. Qwen3-Coder được thiết kế cho quy trình làm việc lập trình theo mô hình tác nhân, không chỉ sinh mã mà còn có khả năng tương tác tự chủ với các công cụ và môi trường phát triển để giải quyết những vấn đề lập trình phức tạp. Trong nhiều bộ đánh giá chuẩn về mã nguồn và nhiệm vụ tác nhân, mô hình này đạt thứ hạng dẫn đầu trong các mô hình mã nguồn mở, với hiệu năng có thể sánh ngang các mô hình hàng đầu như Claude Sonnet 4." }, "Qwen/Qwen3-Next-80B-A3B-Instruct": { "description": "Qwen3-Next-80B-A3B-Instruct là mô hình nền tảng thế hệ tiếp theo do đội ngũ Alibaba Tongyi Qianwen phát hành. Nó dựa trên kiến trúc Qwen3-Next hoàn toàn mới, nhằm đạt được hiệu quả tối ưu trong huấn luyện và suy luận. Mô hình này áp dụng cơ chế chú ý hỗn hợp sáng tạo (Gated DeltaNet và Gated Attention), cấu trúc chuyên gia hỗn hợp có độ thưa cao (MoE) cùng nhiều tối ưu hóa về độ ổn định trong huấn luyện. Là một mô hình thưa với tổng số 80 tỷ tham số, nó chỉ kích hoạt khoảng 3 tỷ tham số trong quá trình suy luận, giúp giảm đáng kể chi phí tính toán và khi xử lý các tác vụ ngữ cảnh dài trên 32K token, thông lượng suy luận cao hơn mô hình Qwen3-32B hơn 10 lần. Mô hình này là phiên bản tinh chỉnh theo chỉ dẫn, thiết kế cho các tác vụ chung và không hỗ trợ chế độ Chuỗi suy nghĩ (Thinking). Về hiệu năng, nó tương đương với mô hình chủ lực Qwen3-235B của Tongyi Qianwen trong một số bài kiểm tra chuẩn, đặc biệt thể hiện ưu thế rõ rệt trong các tác vụ ngữ cảnh siêu dài." }, "Qwen/Qwen3-Next-80B-A3B-Thinking": { "description": "Qwen3-Next-80B-A3B-Thinking là mô hình nền tảng thế hệ tiếp theo do đội ngũ Alibaba Tongyi Qianwen phát hành, được thiết kế chuyên biệt cho các tác vụ suy luận phức tạp. Nó dựa trên kiến trúc sáng tạo Qwen3-Next, kết hợp cơ chế chú ý hỗn hợp (Gated DeltaNet và Gated Attention) và cấu trúc chuyên gia hỗn hợp có độ thưa cao (MoE), nhằm đạt hiệu quả tối ưu trong huấn luyện và suy luận. Là mô hình thưa với tổng số 80 tỷ tham số, nó chỉ kích hoạt khoảng 3 tỷ tham số trong quá trình suy luận, giảm đáng kể chi phí tính toán, và khi xử lý các tác vụ ngữ cảnh dài trên 32K token, thông lượng cao hơn mô hình Qwen3-32B hơn 10 lần. Phiên bản “Thinking” này được tối ưu để thực hiện các tác vụ đa bước khó như chứng minh toán học, tổng hợp mã, phân tích logic và lập kế hoạch, và mặc định xuất ra quá trình suy luận dưới dạng chuỗi suy nghĩ có cấu trúc. Về hiệu năng, nó không chỉ vượt trội so với các mô hình có chi phí cao hơn như Qwen3-32B-Thinking mà còn vượt qua Gemini-2.5-Flash-Thinking trong nhiều bài kiểm tra chuẩn." }, "Qwen/Qwen3-Omni-30B-A3B-Captioner": { "description": "Qwen3-Omni-30B-A3B-Captioner là một mô hình n