UNPKG

@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

429 lines 437 kB
{ "01-ai/yi-1.5-34b-chat": { "description": "零一万物 — это последняя версия открытой доработанной модели с 34 миллиардами параметров, которая поддерживает различные сценарии диалога, используя высококачественные обучающие данные, соответствующие человеческим предпочтениям." }, "01-ai/yi-1.5-9b-chat": { "description": "零一万物 — это последняя версия открытой доработанной модели с 9 миллиардами параметров, которая поддерживает различные сценарии диалога, используя высококачественные обучающие данные, соответствующие человеческим предпочтениям." }, "360/deepseek-r1": { "description": "【360 версия】DeepSeek-R1 использует технологии усиленного обучения на этапе постобучения в больших масштабах, значительно улучшая способности модели к выводу при наличии лишь небольшого количества размеченных данных. В задачах математики, кода и естественного языка его производительность сопоставима с официальной версией OpenAI o1." }, "360gpt-pro": { "description": "360GPT Pro, как важный член серии моделей AI от 360, удовлетворяет разнообразные приложения обработки текста с высокой эффективностью, поддерживает понимание длинных текстов и многораундные диалоги." }, "360gpt-pro-trans": { "description": "Модель, предназначенная для перевода, глубоко настроенная и оптимизированная, с выдающимися результатами перевода." }, "360gpt-turbo": { "description": "360GPT Turbo предлагает мощные вычислительные и диалоговые возможности, обладает выдающимся пониманием семантики и эффективностью генерации, что делает его идеальным решением для интеллектуальных помощников для предприятий и разработчиков." }, "360gpt-turbo-responsibility-8k": { "description": "360GPT Turbo Responsibility 8K акцентирует внимание на семантической безопасности и ответственности, специально разработан для приложений с высокими требованиями к безопасности контента, обеспечивая точность и надежность пользовательского опыта." }, "360gpt2-o1": { "description": "360gpt2-o1 использует дерево поиска для построения цепочек размышлений и вводит механизм рефлексии, обучаясь с помощью усиленного обучения, модель обладает способностью к саморефлексии и исправлению ошибок." }, "360gpt2-pro": { "description": "360GPT2 Pro — это продвинутая модель обработки естественного языка, выпущенная компанией 360, обладающая выдающимися способностями к генерации и пониманию текста, особенно в области генерации и творчества, способная обрабатывать сложные языковые преобразования и ролевые задачи." }, "360zhinao2-o1": { "description": "Модель 360zhinao2-o1 использует дерево поиска для построения цепочки размышлений и включает механизм рефлексии, обучаясь с помощью усиленного обучения, что позволяет модели самостоятельно рефлексировать и исправлять ошибки." }, "4.0Ultra": { "description": "Spark4.0 Ultra — это самая мощная версия в серии больших моделей Xinghuo, которая, обновив сетевые поисковые связи, улучшает понимание и обобщение текстового контента. Это всестороннее решение для повышения производительности в офисе и точного реагирования на запросы, являющееся ведущим интеллектуальным продуктом в отрасли." }, "AnimeSharp": { "description": "AnimeSharp (также известный как \"4x‑AnimeSharp\") — это открытая модель сверхразрешения, разработанная Kim2091 на основе архитектуры ESRGAN, ориентированная на увеличение и улучшение изображений в аниме-стиле. В феврале 2022 года модель была переименована из \"4x-TextSharpV1\"; изначально она также применялась для текстовых изображений, но была значительно оптимизирована для аниме-контента." }, "Baichuan2-Turbo": { "description": "Использует технологии улучшенного поиска для полной связи между большой моделью и отраслевыми знаниями, а также знаниями из сети. Поддерживает загрузку различных документов, таких как PDF и Word, а также ввод URL, обеспечивая своевременное и полное получение информации с точными и профессиональными результатами." }, "Baichuan3-Turbo": { "description": "Оптимизирован для высокочастотных корпоративных сценариев, значительно улучшает результаты и предлагает высокую стоимость. По сравнению с моделью Baichuan2, создание контента увеличилось на 20%, ответы на вопросы на 17%, а способности ролевого взаимодействия на 40%. Общая эффективность лучше, чем у GPT3.5." }, "Baichuan3-Turbo-128k": { "description": "Обладает 128K сверхдлинным контекстным окном, оптимизированным для высокочастотных корпоративных сценариев, значительно улучшает результаты и предлагает высокую стоимость. По сравнению с моделью Baichuan2, создание контента увеличилось на 20%, ответы на вопросы на 17%, а способности ролевого взаимодействия на 40%. Общая эффективность лучше, чем у GPT3.5." }, "Baichuan4": { "description": "Модель обладает лучшими возможностями в стране, превосходя зарубежные модели в задачах на знание, длинные тексты и генерацию контента. Также обладает передовыми мультимодальными возможностями и показывает отличные результаты в нескольких авторитетных тестах." }, "Baichuan4-Air": { "description": "Модель обладает лучшими в стране возможностями, превосходя зарубежные модели в задачах на китайском языке, таких как энциклопедические знания, длинные тексты и генерация контента. Также обладает передовыми мультимодальными возможностями и демонстрирует отличные результаты в нескольких авторитетных оценочных тестах." }, "Baichuan4-Turbo": { "description": "Модель обладает лучшими в стране возможностями, превосходя зарубежные модели в задачах на китайском языке, таких как энциклопедические знания, длинные тексты и генерация контента. Также обладает передовыми мультимодальными возможностями и демонстрирует отличные результаты в нескольких авторитетных оценочных тестах." }, "DeepSeek-R1": { "description": "Современная эффективная LLM, специализирующаяся на логическом выводе, математике и программировании." }, "DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek R1 — более крупная и умная модель в наборе DeepSeek, была дистиллирована в архитектуру Llama 70B. На основе бенчмарков и человеческой оценки эта модель более умная, чем оригинальная Llama 70B, особенно в задачах, требующих математической и фактической точности." }, "DeepSeek-R1-Distill-Qwen-1.5B": { "description": "Модель DeepSeek-R1, основанная на Qwen2.5-Math-1.5B, оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях." }, "DeepSeek-R1-Distill-Qwen-14B": { "description": "Модель DeepSeek-R1, основанная на Qwen2.5-14B, оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях." }, "DeepSeek-R1-Distill-Qwen-32B": { "description": "Серия DeepSeek-R1 оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях, превосходя уровень OpenAI-o1-mini." }, "DeepSeek-R1-Distill-Qwen-7B": { "description": "Модель DeepSeek-R1, основанная на Qwen2.5-Math-7B, оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях." }, "DeepSeek-V3": { "description": "DeepSeek-V3 — это модель MoE, разработанная компанией DeepSeek. Результаты DeepSeek-V3 в нескольких оценках превосходят другие открытые модели, такие как Qwen2.5-72B и Llama-3.1-405B, и по производительности не уступают мировым ведущим закрытым моделям GPT-4o и Claude-3.5-Sonnet." }, "Doubao-lite-128k": { "description": "Doubao-lite обладает исключительной скоростью отклика и лучшим соотношением цена-качество, предоставляя клиентам более гибкие варианты для различных сценариев. Поддерживает вывод и дообучение с контекстным окном в 128k." }, "Doubao-lite-32k": { "description": "Doubao-lite обладает исключительной скоростью отклика и лучшим соотношением цена-качество, предоставляя клиентам более гибкие варианты для различных сценариев. Поддерживает вывод и дообучение с контекстным окном в 32k." }, "Doubao-lite-4k": { "description": "Doubao-lite обладает исключительной скоростью отклика и лучшим соотношением цена-качество, предоставляя клиентам более гибкие варианты для различных сценариев. Поддерживает вывод и дообучение с контекстным окном в 4k." }, "Doubao-pro-128k": { "description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 128k." }, "Doubao-pro-32k": { "description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 32k." }, "Doubao-pro-4k": { "description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 4k." }, "DreamO": { "description": "DreamO — это открытая модель генерации изображений, разработанная совместно ByteDance и Пекинским университетом, предназначенная для поддержки многозадачной генерации изображений в единой архитектуре. Она использует эффективный метод комбинированного моделирования, позволяющий создавать высоко согласованные и кастомизированные изображения на основе заданных пользователем условий, таких как идентичность, объект, стиль и фон." }, "ERNIE-3.5-128K": { "description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-3.5-8K": { "description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-3.5-8K-Preview": { "description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-4.0-8K-Latest": { "description": "Флагманская сверхкрупномасштабная языковая модель, разработанная Baidu, которая по сравнению с ERNIE 3.5 обеспечивает полное обновление возможностей модели и широко применяется в сложных задачах в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-4.0-8K-Preview": { "description": "Флагманская сверхкрупномасштабная языковая модель, разработанная Baidu, которая по сравнению с ERNIE 3.5 обеспечивает полное обновление возможностей модели и широко применяется в сложных задачах в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-4.0-Turbo-8K-Latest": { "description": "Флагманская 超大型 языковая модель, разработанная Baidu, демонстрирует отличные результаты и хорошо подходит для сложных задач в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая своевременность ответов. По сравнению с ERNIE 4.0 имеет лучшие показатели производительности." }, "ERNIE-4.0-Turbo-8K-Preview": { "description": "Флагманская сверхкрупномасштабная языковая модель, разработанная Baidu, демонстрирующая отличные результаты в комплексной эффективности, широко применяемая в сложных задачах в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах. По сравнению с ERNIE 4.0, она демонстрирует лучшие показатели производительности." }, "ERNIE-Character-8K": { "description": "Специализированная языковая модель, разработанная Baidu для вертикальных сценариев, подходящая для применения в играх (NPC), диалогах службы поддержки, ролевых играх и других сценариях, обладающая ярко выраженным и согласованным стилем персонажей, высокой способностью следовать инструкциям и отличной производительностью вывода." }, "ERNIE-Lite-Pro-128K": { "description": "Легковесная языковая модель, разработанная Baidu, которая сочетает в себе отличные результаты модели и производительность вывода, превосходя ERNIE Lite, подходит для использования в системах с низкой вычислительной мощностью." }, "ERNIE-Speed-128K": { "description": "Новая высокопроизводительная языковая модель, разработанная Baidu в 2024 году, обладающая выдающимися универсальными возможностями, подходит для использования в качестве базовой модели для тонкой настройки, лучше справляясь с задачами в специфических сценариях, при этом обладая отличной производительностью вывода." }, "ERNIE-Speed-Pro-128K": { "description": "Новая высокопроизводительная языковая модель, разработанная Baidu в 2024 году, обладающая выдающимися универсальными возможностями, превосходящая ERNIE Speed, подходит для использования в качестве базовой модели для тонкой настройки, лучше справляясь с задачами в специфических сценариях, при этом обладая отличной производительностью вывода." }, "FLUX.1-Kontext-dev": { "description": "FLUX.1-Kontext-dev — мультимодальная модель генерации и редактирования изображений, разработанная Black Forest Labs на основе архитектуры Rectified Flow Transformer с масштабом 12 миллиардов параметров. Модель специализируется на генерации, реконструкции, улучшении и редактировании изображений с учётом заданного контекста. Она сочетает преимущества контролируемой генерации диффузионных моделей и контекстного моделирования Transformer, обеспечивая высококачественный вывод и широкое применение в задачах восстановления, дополнения и реконструкции визуальных сцен." }, "FLUX.1-dev": { "description": "FLUX.1-dev — это открытая мультимодальная языковая модель (Multimodal Language Model, MLLM), разработанная Black Forest Labs и оптимизированная для задач, связанных с изображениями и текстом. Она объединяет возможности понимания и генерации изображений и текста, построена на основе передовой большой языковой модели (например, Mistral-7B) и использует тщательно разработанный визуальный кодировщик и многоступенчатую инструкционную донастройку для совместной обработки изображений и текста, а также сложного вывода." }, "Gryphe/MythoMax-L2-13b": { "description": "MythoMax-L2 (13B) — это инновационная модель, подходящая для многообластных приложений и сложных задач." }, "HelloMeme": { "description": "HelloMeme — это AI-инструмент, который автоматически создаёт мемы, анимированные изображения или короткие видео на основе предоставленных вами картинок или действий. Для работы не требуется навыков рисования или программирования — достаточно подготовить референсное изображение, и инструмент поможет создать привлекательный, забавный и стилистически единый контент." }, "HiDream-I1-Full": { "description": "HiDream-E1-Full — это открытая мультимодальная модель редактирования изображений, выпущенная HiDream.ai, основанная на передовой архитектуре Diffusion Transformer и обладающая мощными возможностями понимания языка (встроенный LLaMA 3.1-8B-Instruct). Модель поддерживает генерацию изображений, перенос стиля, локальное редактирование и перерисовку контента по естественным языковым инструкциям, демонстрируя выдающиеся способности в понимании и выполнении текстово-графических задач." }, "HunyuanDiT-v1.2-Diffusers-Distilled": { "description": "hunyuandit-v1.2-distilled — это облегчённая модель генерации изображений из текста, оптимизированная с помощью дистилляции для быстрой генерации высококачественных изображений, особенно подходящая для условий с ограниченными ресурсами и задач реального времени." }, "InstantCharacter": { "description": "InstantCharacter — персонализированная модель генерации персонажей без необходимости дообучения, выпущенная командой Tencent AI в 2025 году. Модель обеспечивает высокую точность и согласованность персонажей в различных сценах, позволяя создавать модели персонажей на основе одной референсной фотографии и гибко переносить их в разные стили, позы и фоны." }, "InternVL2-8B": { "description": "InternVL2-8B — это мощная визуально-языковая модель, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы." }, "InternVL2.5-26B": { "description": "InternVL2.5-26B — это мощная визуально-языковая модель, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы." }, "Kolors": { "description": "Kolors — модель генерации изображений из текста, разработанная командой Kolors компании Kuaishou. Обученная на миллиардах параметров, она демонстрирует значительные преимущества в визуальном качестве, понимании китайской семантики и рендеринге текста." }, "Kwai-Kolors/Kolors": { "description": "Kolors — масштабная модель генерации изображений из текста на основе латентного диффузионного процесса, разработанная командой Kolors компании Kuaishou. Обученная на миллиардах пар текст-изображение, модель демонстрирует выдающиеся результаты в визуальном качестве, точности сложной семантики и рендеринге китайских и английских символов. Она поддерживает ввод на китайском и английском языках и особенно хорошо справляется с пониманием и генерацией специфического китайского контента." }, "Llama-3.2-11B-Vision-Instruct": { "description": "Отличные способности к визуальному выводу на изображениях высокого разрешения, подходящие для приложений визуального понимания." }, "Llama-3.2-90B-Vision-Instruct\t": { "description": "Передовые способности к визуальному выводу, подходящие для приложений визуального понимания." }, "Meta-Llama-3.1-405B-Instruct": { "description": "Текстовая модель Llama 3.1 с оптимизацией под инструкции, разработанная для многоязычных диалоговых случаев, показывает отличные результаты по сравнению с многими доступными открытыми и закрытыми чат-моделями на общепринятых отраслевых бенчмарках." }, "Meta-Llama-3.1-70B-Instruct": { "description": "Текстовая модель Llama 3.1 с оптимизацией под инструкции, разработанная для многоязычных диалоговых случаев, показывает отличные результаты по сравнению с многими доступными открытыми и закрытыми чат-моделями на общепринятых отраслевых бенчмарках." }, "Meta-Llama-3.1-8B-Instruct": { "description": "Текстовая модель Llama 3.1 с оптимизацией под инструкции, разработанная для многоязычных диалоговых случаев, показывает отличные результаты по сравнению с многими доступными открытыми и закрытыми чат-моделями на общепринятых отраслевых бенчмарках." }, "Meta-Llama-3.2-1B-Instruct": { "description": "Современная передовая компактная языковая модель с выдающимися способностями к пониманию языка, логическому выводу и генерации текста." }, "Meta-Llama-3.2-3B-Instruct": { "description": "Современная передовая компактная языковая модель с выдающимися способностями к пониманию языка, логическому выводу и генерации текста." }, "Meta-Llama-3.3-70B-Instruct": { "description": "Llama 3.3 — это самая современная многоязычная открытая языковая модель из серии Llama, которая позволяет получить производительность, сопоставимую с 405B моделями, по крайне низкой цене. Основана на структуре Transformer и улучшена с помощью контролируемой донастройки (SFT) и обучения с подкреплением на основе человеческой обратной связи (RLHF) для повышения полезности и безопасности. Ее версия с оптимизацией под инструкции специально разработана для многоязычных диалогов и показывает лучшие результаты по сравнению с многими открытыми и закрытыми чат-моделями на нескольких отраслевых бенчмарках. Дата окончания знаний — декабрь 2023 года." }, "MiniMax-M1": { "description": "Совершенно новая собственная модель вывода. Мировой лидер: 80K цепочек мышления x 1M входов, эффективность сопоставима с ведущими зарубежными моделями." }, "MiniMax-Text-01": { "description": "В серии моделей MiniMax-01 мы сделали смелые инновации: впервые в крупномасштабном масштабе реализован линейный механизм внимания, традиционная архитектура Transformer больше не является единственным выбором. Объем параметров этой модели достигает 456 миллиардов, из которых 45,9 миллиарда активируются за один раз. Комплексная производительность модели сопоставима с ведущими зарубежными моделями, при этом она может эффективно обрабатывать контекст длиной до 4 миллионов токенов, что в 32 раза больше, чем у GPT-4o, и в 20 раз больше, чем у Claude-3.5-Sonnet." }, "MiniMaxAI/MiniMax-M1-80k": { "description": "MiniMax-M1 — это масштабная модель вывода с гибридным вниманием и открытыми весами, содержащая 456 миллиардов параметров, при этом каждый токен активирует около 45,9 миллиарда параметров. Модель изначально поддерживает сверхдлинный контекст до 1 миллиона токенов и благодаря механизму молниеносного внимания экономит 75% вычислительных операций с плавающей точкой в задачах генерации на 100 тысяч токенов по сравнению с DeepSeek R1. Кроме того, MiniMax-M1 использует архитектуру MoE (смешанные эксперты), сочетая алгоритм CISPO и эффективное обучение с подкреплением с гибридным вниманием, достигая ведущих в отрасли показателей при выводе на длинных входах и в реальных сценариях программной инженерии." }, "Moonshot-Kimi-K2-Instruct": { "description": "Общая численность параметров — 1 триллион, активируемых параметров — 32 миллиарда. Среди немыслящих моделей достигает передовых результатов в области актуальных знаний, математики и программирования, особенно эффективна для универсальных агентских задач. Модель тщательно оптимизирована для агентских задач, способна не только отвечать на вопросы, но и предпринимать действия. Идеально подходит для импровизационного, универсального общения и агентских сценариев, являясь моделью рефлекторного уровня без необходимости длительного обдумывания." }, "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": { "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) — это высокоточная модель команд, подходящая для сложных вычислений." }, "OmniConsistency": { "description": "OmniConsistency повышает согласованность стиля и обобщающую способность в задачах преобразования изображений (Image-to-Image) за счёт внедрения масштабных Diffusion Transformers (DiTs) и парных стилизованных данных, предотвращая деградацию стиля." }, "Phi-3-medium-128k-instruct": { "description": "Та же модель Phi-3-medium, но с большим размером контекста для RAG или нескольких подсказок." }, "Phi-3-medium-4k-instruct": { "description": "Модель с 14B параметрами, демонстрирующая лучшее качество, чем Phi-3-mini, с акцентом на высококачественные, насыщенные рассуждениями данные." }, "Phi-3-mini-128k-instruct": { "description": "Та же модель Phi-3-mini, но с большим размером контекста для RAG или нескольких подсказок." }, "Phi-3-mini-4k-instruct": { "description": "Самая маленькая модель в семействе Phi-3. Оптимизирована как для качества, так и для низкой задержки." }, "Phi-3-small-128k-instruct": { "description": "Та же модель Phi-3-small, но с большим размером контекста для RAG или нескольких подсказок." }, "Phi-3-small-8k-instruct": { "description": "Модель с 7B параметрами, демонстрирующая лучшее качество, чем Phi-3-mini, с акцентом на высококачественные, насыщенные рассуждениями данные." }, "Phi-3.5-mini-instruct": { "description": "Обновленная версия модели Phi-3-mini." }, "Phi-3.5-vision-instrust": { "description": "Обновленная версия модели Phi-3-vision." }, "Pro/Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-7B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 7B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах. Qwen2-7B-Instruct показывает значительное улучшение производительности в нескольких оценках по сравнению с Qwen1.5-7B-Chat." }, "Pro/Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 7B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON)." }, "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода." }, "Pro/Qwen/Qwen2.5-VL-7B-Instruct": { "description": "Qwen2.5-VL — это новый член семейства Qwen, обладающий мощными возможностями визуального понимания. Может анализировать текст, диаграммы и компоновку в изображениях, понимать длинные видео и фиксировать события. Способен к логическим рассуждениям, работе с инструментами, поддерживает локализацию объектов в различных форматах и генерацию структурированных выводов. Оптимизирован для понимания видео с динамическим разрешением и частотой кадров, а также улучшена эффективность визуального кодировщика." }, "Pro/THUDM/GLM-4.1V-9B-Thinking": { "description": "GLM-4.1V-9B-Thinking — это открытая визуально-языковая модель (VLM), совместно выпущенная Zhipu AI и лабораторией KEG Университета Цинхуа, специально разработанная для решения сложных мультимодальных когнитивных задач. Модель основана на базовой модели GLM-4-9B-0414 и значительно улучшает межмодальные способности рассуждения и стабильность за счёт внедрения механизма рассуждения «цепочка мышления» (Chain-of-Thought) и использования методов обучения с подкреплением." }, "Pro/THUDM/glm-4-9b-chat": { "description": "GLM-4-9B-Chat — это открытая версия предобученной модели из серии GLM-4, выпущенная Zhizhu AI. Эта модель показывает отличные результаты в семантике, математике, выводах, коде и знаниях. Кроме поддержки многократных диалогов, GLM-4-9B-Chat также обладает продвинутыми функциями, такими как веб-браузинг, выполнение кода, вызов пользовательских инструментов (Function Call) и вывод длинных текстов. Модель поддерживает 26 языков, включая китайский, английский, японский, корейский и немецкий. В нескольких бенчмарках GLM-4-9B-Chat демонстрирует отличные результаты, такие как AlignBench-v2, MT-Bench, MMLU и C-Eval. Эта модель поддерживает максимальную длину контекста 128K и подходит для академических исследований и коммерческих приложений." }, "Pro/deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1 — это модель вывода, управляемая обучением с подкреплением (RL), которая решает проблемы повторяемости и читаемости в модели. Перед RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода и улучшает общую эффективность благодаря тщательно продуманным методам обучения." }, "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7B — это модель, полученная методом дистилляции знаний на основе Qwen2.5-Math-7B. Модель была доработана с использованием 800 тысяч отобранных образцов, сгенерированных DeepSeek-R1, и демонстрирует выдающиеся способности к логическому рассуждению. Показывает отличные результаты в различных тестах: точность 92,8% на MATH-500, проходной балл 55,5% на AIME 2024 и оценку 1189 на CodeForces, что подтверждает её высокие математические и программистские возможности для модели масштаба 7B." }, "Pro/deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям." }, "Pro/moonshotai/Kimi-K2-Instruct": { "description": "Kimi K2 — базовая модель на архитектуре MoE с выдающимися возможностями в кодировании и агентских задачах, общим числом параметров 1 триллион и 32 миллиардами активируемых параметров. В тестах на универсальное знание, программирование, математику и агентские задачи производительность модели K2 превосходит другие ведущие открытые модели." }, "QwQ-32B-Preview": { "description": "QwQ-32B-Preview — это инновационная модель обработки естественного языка, способная эффективно обрабатывать сложные задачи генерации диалогов и понимания контекста." }, "Qwen/QVQ-72B-Preview": { "description": "QVQ-72B-Preview — это исследовательская модель, разработанная командой Qwen, сосредоточенная на способностях визуального вывода, обладающая уникальными преимуществами в понимании сложных сцен и решении визуально связанных математических задач." }, "Qwen/QwQ-32B": { "description": "QwQ — это модель вывода из серии Qwen. В отличие от традиционных моделей, настроенных на инструкции, QwQ обладает способностями к мышлению и рассуждению, что позволяет значительно улучшить производительность в задачах нижнего уровня, особенно при решении сложных проблем. QwQ-32B — это средняя модель вывода, которая демонстрирует конкурентоспособные результаты в сравнении с самыми современными моделями вывода (такими как DeepSeek-R1, o1-mini). Эта модель использует технологии RoPE, SwiGLU, RMSNorm и Attention QKV bias, имеет 64-слойную архитектуру и 40 голов внимания Q (в архитектуре GQA KV составляет 8)." }, "Qwen/QwQ-32B-Preview": { "description": "QwQ-32B-Preview — это последняя экспериментальная исследовательская модель Qwen, сосредоточенная на повышении возможностей вывода ИИ. Исследуя сложные механизмы, такие как смешение языков и рекурсивные выводы, основные преимущества включают мощные аналитические способности, математические и программные навыки. В то же время существуют проблемы с переключением языков, циклом вывода, соображениями безопасности и различиями в других способностях." }, "Qwen/Qwen2-72B-Instruct": { "description": "Qwen2 — это передовая универсальная языковая модель, поддерживающая множество типов команд." }, "Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-72B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 72B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах." }, "Qwen/Qwen2-VL-72B-Instruct": { "description": "Qwen2-VL - это последняя версия модели Qwen-VL, которая достигла передовых результатов в тестировании визуального понимания." }, "Qwen/Qwen2.5-14B-Instruct": { "description": "Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач." }, "Qwen/Qwen2.5-32B-Instruct": { "description": "Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач." }, "Qwen/Qwen2.5-72B-Instruct": { "description": "Большая языковая модель, разработанная командой Alibaba Cloud Tongyi Qianwen." }, "Qwen/Qwen2.5-72B-Instruct-128K": { "description": "Qwen2.5 - это новая серия крупных языковых моделей с улучшенными способностями понимания и генерации." }, "Qwen/Qwen2.5-72B-Instruct-Turbo": { "description": "Qwen2.5 - это новая серия крупных языковых моделей, нацеленная на оптимизацию обработки задач с инструкциями." }, "Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач." }, "Qwen/Qwen2.5-7B-Instruct-Turbo": { "description": "Qwen2.5 - это новая серия крупных языковых моделей, нацеленная на оптимизацию обработки задач с инструкциями." }, "Qwen/Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder сосредоточен на написании кода." }, "Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода." }, "Qwen/Qwen2.5-VL-32B-Instruct": { "description": "Qwen2.5-VL-32B-Instruct — это мультимодальная языковая модель, разработанная командой Tongyi Qianwen, являющаяся частью серии Qwen2.5-VL. Модель не только превосходно распознаёт обычные объекты, но и анализирует текст, диаграммы, иконки, графики и композицию в изображениях. Она может функционировать как визуальный агент, способный к логическим рассуждениям и динамическому управлению инструментами, включая работу с компьютерами и мобильными устройствами. Кроме того, модель точно определяет местоположение объектов на изображениях и генерирует структурированные выводы для документов, таких как счета и таблицы. По сравнению с предыдущей версией Qwen2-VL, данная модель демонстрирует улучшенные математические способности и навыки решения задач благодаря обучению с подкреплением, а также более естественный стиль ответов, соответствующий человеческим предпочтениям." }, "Qwen/Qwen2.5-VL-72B-Instruct": { "description": "Qwen2.5-VL — это визуально-языковая модель из серии Qwen2.5. Модель демонстрирует значительные улучшения в различных аспектах: обладает более сильными способностями к визуальному пониманию, может распознавать обычные объекты, анализировать текст, диаграммы и макеты; как визуальный агент способна рассуждать и динамически направлять использование инструментов; поддерживает понимание длинных видео продолжительностью более 1 часа с возможностью выделения ключевых событий; может точно локализовать объекты на изображении, генерируя ограничивающие рамки или точки; поддерживает генерацию структурированного вывода, что особенно полезно для сканированных данных, таких как счета-фактуры и таблицы." }, "Qwen/Qwen3-14B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-235B-A22B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-235B-A22B-Instruct-2507": { "description": "Qwen3-235B-A22B-Instruct-2507 — флагманская модель серии Qwen3 с архитектурой смешанных экспертов (MoE), разработанная командой Alibaba Cloud Tongyi Qianwen. Модель содержит 235 миллиардов параметров, из которых при каждом выводе активируется 22 миллиарда. Это обновлённая версия Qwen3-235B-A22B в неразмышляющем режиме, с улучшениями в следовании инструкциям, логическом выводе, понимании текста, математике, науке, программировании и использовании инструментов. Модель расширяет покрытие многоязычных знаний и лучше согласуется с пользовательскими предпочтениями в субъективных и открытых задачах, обеспечивая более полезный и качественный текст." }, "Qwen/Qwen3-235B-A22B-Thinking-2507": { "description": "Qwen3-235B-A22B-Thinking-2507 — крупная языковая модель серии Qwen3, разработанная командой Alibaba Tongyi Qianwen, ориентированная на сложные задачи рассуждения. Модель построена на архитектуре смешанных экспертов (MoE) с общим числом параметров 235 миллиардов и активацией около 22 миллиардов параметров на токен, что обеспечивает высокую производительность при эффективном использовании ресурсов. Как специализированная \"мыслящая\" модель, она демонстрирует выдающиеся результаты в логическом выводе, математике, науке, программировании и академических тестах, достигая топовых показателей среди открытых моделей. Модель также улучшает универсальные способности, такие как следование инструкциям, использование инструментов и генерация текста, и нативно поддерживает контекст длиной до 256K токенов, что делает её идеальной для глубокого анализа и обработки длинных документов." }, "Qwen/Qwen3-30B-A3B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-30B-A3B-Instruct-2507": { "description": "Qwen3-30B-A3B-Instruct-2507 — это обновленная версия модели Qwen3-30B-A3B в режиме без размышлений. Это модель с гибридными экспертами (MoE), имеющая в общей сложности 30,5 миллиарда параметров и 3,3 миллиарда активных параметров. Модель получила ключевые улучшения во многих аспектах, включая значительное повышение способности следовать инструкциям, логического мышления, понимания текста, математики, науки, программирования и использования инструментов. Кроме того, она достигла существенного прогресса в покрытии многоязычных редких знаний и лучше согласуется с предпочтениями пользователей в субъективных и открытых задачах, что позволяет генерировать более полезные ответы и тексты высокого качества. Также улучшена способность к пониманию длинных текстов — теперь до 256K. Эта модель поддерживает только режим без размышлений и не генерирует теги `<think></think>` в выводе." }, "Qwen/Qwen3-32B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-8B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen2-72B-Instruct": { "description": "Qwen2 — это последняя серия моделей Qwen, поддерживающая контекст до 128k. По сравнению с текущими лучшими открытыми моделями, Qwen2-72B значительно превосходит ведущие модели по многим аспектам, включая понимание естественного языка, знания, код, математику и многоязычность." }, "Qwen2-7B-Instruct": { "description": "Qwen2 — это последняя серия моделей Qwen, способная превосходить лучшие открытые модели сопоставимого размера и даже более крупные модели. Qwen2 7B демонстрирует значительные преимущества в нескольких тестах, особенно в понимании кода и китайского языка." }, "Qwen2-VL-72B": { "description": "Qwen2-VL-72B — это мощная модель визуального языка, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы." }, "Qwen2.5-14B-Instruct": { "description": "Qwen2.5-14B-Instruct — это языковая модель с 14 миллиардами параметров, с отличными показателями производительности, оптимизированная для китайского и многоязычного контекста, поддерживает интеллектуальные ответы, генерацию контента и другие приложения." }, "Qwen2.5-32B-Instruct": { "description": "Qwen2.5-32B-Instruct — это языковая модель с 32 миллиардами параметров, с сбалансированными показателями производительности, оптимизированная для китайского и многоязычного контекста, поддерживает интеллектуальные ответы, генерацию контента и другие приложения." }, "Qwen2.5-72B-Instruct": { "description": "Qwen2.5-72B-Instruct поддерживает контекст до 16k, генерируя длинные тексты более 8K. Поддерживает вызовы функций и бесшовное взаимодействие с внешними системами, что значительно повышает гибкость и масштабируемость. Знания модели значительно увеличены, а способности в кодировании и математике значительно улучшены, поддерживает более 29 языков." }, "Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct — это языковая модель с 7 миллиардами параметров, поддерживающая вызовы функций и бесшовное взаимодействие с внешними системами, что значительно повышает гибкость и масштабируемость. Оптимизирована для китайского и многоязычного контекста, поддерживает интеллектуальные ответы, генерацию контента и другие приложения." }, "Qwen2.5-Coder-14B-Instruct": { "description": "Qwen2.5-Coder-14B-Instruct — это модель программирования на основе масштабного предварительного обучения, обладающая мощными способностями к пониманию и генерации кода, способная эффективно решать различные задачи программирования, особенно подходит для интеллектуального написания кода, автоматизации скриптов и ответов на программные вопросы." }, "Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder-32B-Instruct — это крупная языковая модель, специально разработанная для генерации кода, понимания кода и эффективных сценариев разработки, с передовым масштабом параметров 32B, способная удовлетворить разнообразные потребности программирования." }, "Qwen3-235B": { "description": "Qwen3-235B-A22B — модель MoE (гибридных экспертов), которая внедрила «гибридный режим рассуждений», позволяющий пользователям бесшовно переключаться между режимами «размышления» и «без размышлений». Поддерживает понимание и рассуждение на 119 языках и диалектах, обладает мощными возможностями вызова инструментов. По совокупности способностей, кода, математики, многоязычия, знаний и рассуждений модель конкурирует с ведущими современными крупными моделями на рынке, такими как DeepSeek R1, OpenAI o1, o3-mini, Grok 3 и Google Gemini 2.5 Pro." }, "Qwen3-32B": { "description": "Qwen3-32B — плотная модель (Dense Model), внедрившая «гибридный режим рассуждений», позволяющий пользователям бесшовно переключаться между режимами «размышления» и «без размышлений». Благодаря улучшениям архитектуры модели, увеличению объема обучающих данных и более эффективным методам обучения, общая производительность сопоставима с Qwen2.5-72B." }, "SenseChat": { "description": "Базовая версия модели (V4), длина контекста 4K, обладает мощными универсальными возможностями." }, "SenseChat-128K": { "description": "Базовая версия модели (V4), длина контекста 128K, демонстрирует отличные результаты в задачах понимания и генерации длинных текстов." }, "SenseChat-32K": { "description": "Базовая версия модели (V4), длина контекста 32K, гибко применяется в различных сценариях." }, "SenseChat-5": { "description": "Последняя версия модели (V5.5), длина контекста 128K, значительно улучшенные способности в математическом рассуждении, английских диалогах, следовании инструкциям и понимании длинных текстов, сопоставимые с GPT-4o." }, "SenseChat-5-1202": { "description": "Основана на версии V5.5, с заметными улучшениями по нескольким направлениям: базовые навыки на китайском и английском, чат, знания в естественных и гуманитарных науках, письмо, математическая логика, контроль длины текста." }, "SenseChat-5-Cantonese": { "description": "Длина контекста 32K, превосходит GPT-4 в понимании диалогов на кантонском, сопоставим с GPT-4 Turbo в таких областях, как знания, рассуждение, математика и написание кода." }, "SenseChat-5-beta": { "description": "Частично превосходит производительность SenseCat-5-1202" }, "SenseChat-Character": { "description": "Стандартная версия модели, длина контекста 8K, высокая скорость отклика." }, "SenseChat-Character-Pro": { "description": "Расширенная версия модели, длина контекста 32K, всеобъемлющие улучшения возможностей, поддерживает диалоги на китайском и английском языках." }, "SenseChat-Turbo": { "description": "Подходит для быстрого ответа на вопросы и сценариев тонкой настройки модели." }, "SenseChat-Turbo-1202": { "description": "Это последняя легковесная версия модели, которая достигает более 90% возможностей полной модели и значительно снижает затраты на вывод." }, "SenseChat-Vision": { "description": "Последняя версия модели (V5.5) поддерживает ввод нескольких изображений, полностью реализует оптимизацию базовых возможностей модели и значительно улучшила распознавание свойств объектов, пространственные отношения, распознавание событий, понимание сцен, распознавание эмоций, логическое рассуждение и понимание текста." }, "SenseNova-V6-5-Pro": { "description": "Благодаря всестороннему обновлению мультимодальных, языковых и рассуждательных данных, а также оптимизации стратегий обучения, новая модель значительно улучшила мультимодальные рассуждения и способность следовать универсальным инструкциям. Поддерживает контекстное окно до 128k и демонстрирует выдающиеся результаты в специализированных задачах, таких как OCR и распознавание туристических IP." }, "SenseNova-V6-5-Turbo": { "description": "Благодаря всестороннему обновлению мультимодальных, языковых и рассуждательных данных, а также оптимизации стратегий обучения, новая модель значительно улучшила мультимодальные рассуждения и способность следовать универсальным инструкциям. Поддерживает контекстное окно до 128k и демонстрирует выдающиеся результаты в специализированных задачах, таких как OCR и распознавание туристических IP." }, "SenseNova-V6-Pro": { "description": "Реализует родное единство возможностей изображений, текста и видео, преодолевая традиционные ограничения раздельных мультимодальных систем, завоевав двойное чемпионство в оценках OpenCompass и SuperCLUE." }, "SenseNova-V6-Reasoner": { "description": "Учитывает визуальное и языковое глубокое рассуждение, реализует медленное мышление и глубокое рассуждение, демонстрируя полный процесс мыслительной цепочки." }, "SenseNova-V6-Turbo": { "description": "Реализует родное единство возможностей изображений, текста и видео, преодолевая традиционные ограничения раздельных мультимодальных систем, значительно опережая в ключевых аспектах, таких как базовые мультимодальные и языковые способности, сочетая литературное и научное образование, многократно занимая позиции первой группы в различных оценках как в стране, так и за рубежом." }, "Skylark2-lite-8k": { "description": "Модель второго поколения Skylark (云雀), модель Skylark2-lite имеет высокую скорость отклика, подходит для сценариев с высокими требованиями к оперативности, чувствительных к стоимости и с не такими высокими требованиями к точности модели. Длина контекстного окна составляет 8k." }, "Skylark2-pro-32k": { "description": "Модель второго поколения Skylark (云雀), версия Skylark2-pro имеет высокую точность модели, подходит для более сложных сценариев генерации текста, таких как написание специализированной документации, создание романов, высококачественный перевод и т.д. Длина контекстного окна составляет 32k." }, "Skylark2-pro-4k": { "description": "Модель второго поколения Skylark (云雀)