@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

github.com/lobehub/lobe-chat

lobehub/lobe-chat

390 lines • 549 kB

JSON

{ "01-ai/yi-1.5-34b-chat": { "description": "零一万物 — это последняя версия открытой доработанной модели с 34 миллиардами параметров, которая поддерживает различные сценарии диалога, используя высококачественные обучающие данные, соответствующие человеческим предпочтениям." }, "01-ai/yi-1.5-9b-chat": { "description": "零一万物 — это последняя версия открытой доработанной модели с 9 миллиардами параметров, которая поддерживает различные сценарии диалога, используя высококачественные обучающие данные, соответствующие человеческим предпочтениям." }, "360/deepseek-r1": { "description": "【360 версия】DeepSeek-R1 использует технологии усиленного обучения на этапе постобучения в больших масштабах, значительно улучшая способности модели к выводу при наличии лишь небольшого количества размеченных данных. В задачах математики, кода и естественного языка его производительность сопоставима с официальной версией OpenAI o1." }, "360gpt-pro": { "description": "360GPT Pro, как важный член серии моделей AI от 360, удовлетворяет разнообразные приложения обработки текста с высокой эффективностью, поддерживает понимание длинных текстов и многораундные диалоги." }, "360gpt-pro-trans": { "description": "Модель, предназначенная для перевода, глубоко настроенная и оптимизированная, с выдающимися результатами перевода." }, "360gpt-turbo": { "description": "360GPT Turbo предлагает мощные вычислительные и диалоговые возможности, обладает выдающимся пониманием семантики и эффективностью генерации, что делает его идеальным решением для интеллектуальных помощников для предприятий и разработчиков." }, "360gpt-turbo-responsibility-8k": { "description": "360GPT Turbo Responsibility 8K акцентирует внимание на семантической безопасности и ответственности, специально разработан для приложений с высокими требованиями к безопасности контента, обеспечивая точность и надежность пользовательского опыта." }, "360gpt2-o1": { "description": "360gpt2-o1 использует дерево поиска для построения цепочек размышлений и вводит механизм рефлексии, обучаясь с помощью усиленного обучения, модель обладает способностью к саморефлексии и исправлению ошибок." }, "360gpt2-pro": { "description": "360GPT2 Pro — это продвинутая модель обработки естественного языка, выпущенная компанией 360, обладающая выдающимися способностями к генерации и пониманию текста, особенно в области генерации и творчества, способная обрабатывать сложные языковые преобразования и ролевые задачи." }, "360zhinao2-o1": { "description": "Модель 360zhinao2-o1 использует дерево поиска для построения цепочки размышлений и включает механизм рефлексии, обучаясь с помощью усиленного обучения, что позволяет модели самостоятельно рефлексировать и исправлять ошибки." }, "4.0Ultra": { "description": "Spark4.0 Ultra — это самая мощная версия в серии больших моделей Xinghuo, которая, обновив сетевые поисковые связи, улучшает понимание и обобщение текстового контента. Это всестороннее решение для повышения производительности в офисе и точного реагирования на запросы, являющееся ведущим интеллектуальным продуктом в отрасли." }, "AnimeSharp": { "description": "AnimeSharp (также известный как \"4x‑AnimeSharp\") — это открытая модель сверхразрешения, разработанная Kim2091 на основе архитектуры ESRGAN, ориентированная на увеличение и улучшение изображений в аниме-стиле. В феврале 2022 года модель была переименована из \"4x-TextSharpV1\"; изначально она также применялась для текстовых изображений, но была значительно оптимизирована для аниме-контента." }, "Baichuan2-Turbo": { "description": "Использует технологии улучшенного поиска для полной связи между большой моделью и отраслевыми знаниями, а также знаниями из сети. Поддерживает загрузку различных документов, таких как PDF и Word, а также ввод URL, обеспечивая своевременное и полное получение информации с точными и профессиональными результатами." }, "Baichuan3-Turbo": { "description": "Оптимизирован для высокочастотных корпоративных сценариев, значительно улучшает результаты и предлагает высокую стоимость. По сравнению с моделью Baichuan2, создание контента увеличилось на 20%, ответы на вопросы на 17%, а способности ролевого взаимодействия на 40%. Общая эффективность лучше, чем у GPT3.5." }, "Baichuan3-Turbo-128k": { "description": "Обладает 128K сверхдлинным контекстным окном, оптимизированным для высокочастотных корпоративных сценариев, значительно улучшает результаты и предлагает высокую стоимость. По сравнению с моделью Baichuan2, создание контента увеличилось на 20%, ответы на вопросы на 17%, а способности ролевого взаимодействия на 40%. Общая эффективность лучше, чем у GPT3.5." }, "Baichuan4": { "description": "Модель обладает лучшими возможностями в стране, превосходя зарубежные модели в задачах на знание, длинные тексты и генерацию контента. Также обладает передовыми мультимодальными возможностями и показывает отличные результаты в нескольких авторитетных тестах." }, "Baichuan4-Air": { "description": "Модель обладает лучшими в стране возможностями, превосходя зарубежные модели в задачах на китайском языке, таких как энциклопедические знания, длинные тексты и генерация контента. Также обладает передовыми мультимодальными возможностями и демонстрирует отличные результаты в нескольких авторитетных оценочных тестах." }, "Baichuan4-Turbo": { "description": "Модель обладает лучшими в стране возможностями, превосходя зарубежные модели в задачах на китайском языке, таких как энциклопедические знания, длинные тексты и генерация контента. Также обладает передовыми мультимодальными возможностями и демонстрирует отличные результаты в нескольких авторитетных оценочных тестах." }, "ByteDance-Seed/Seed-OSS-36B-Instruct": { "description": "Seed-OSS — это серия открытых крупных языковых моделей, разработанных командой Seed компании ByteDance, специально созданных для мощной обработки длинных контекстов, рассуждений, агентов и универсальных возможностей. Модель Seed-OSS-36B-Instruct из этой серии имеет 36 миллиардов параметров и является моделью с донастройкой по инструкциям, изначально поддерживающей сверхдлинные контексты, что позволяет ей обрабатывать огромные документы или сложные кодовые базы за один раз. Эта модель специально оптимизирована для рассуждений, генерации кода и задач агентов (например, использования инструментов), при этом сохраняя сбалансированные и выдающиеся универсальные способности. Одной из ключевых особенностей модели является функция «Бюджет размышлений» (Thinking Budget), позволяющая пользователям гибко регулировать длину рассуждений по необходимости, что эффективно повышает производительность в реальных приложениях." }, "DeepSeek-R1": { "description": "Современная эффективная LLM, специализирующаяся на логическом выводе, математике и программировании." }, "DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek R1 — более крупная и умная модель в наборе DeepSeek, была дистиллирована в архитектуру Llama 70B. На основе бенчмарков и человеческой оценки эта модель более умная, чем оригинальная Llama 70B, особенно в задачах, требующих математической и фактической точности." }, "DeepSeek-R1-Distill-Qwen-1.5B": { "description": "Модель DeepSeek-R1, основанная на Qwen2.5-Math-1.5B, оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях." }, "DeepSeek-R1-Distill-Qwen-14B": { "description": "Модель DeepSeek-R1, основанная на Qwen2.5-14B, оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях." }, "DeepSeek-R1-Distill-Qwen-32B": { "description": "Серия DeepSeek-R1 оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях, превосходя уровень OpenAI-o1-mini." }, "DeepSeek-R1-Distill-Qwen-7B": { "description": "Модель DeepSeek-R1, основанная на Qwen2.5-Math-7B, оптимизирует производительность вывода с помощью усиленного обучения и данных холодного старта, обновляя стандарт многозадачности в открытых моделях." }, "DeepSeek-V3": { "description": "DeepSeek-V3 — это модель MoE, разработанная компанией DeepSeek. Результаты DeepSeek-V3 в нескольких оценках превосходят другие открытые модели, такие как Qwen2.5-72B и Llama-3.1-405B, и по производительности не уступают мировым ведущим закрытым моделям GPT-4o и Claude-3.5-Sonnet." }, "DeepSeek-V3-1": { "description": "DeepSeek V3.1: модель следующего поколения для вывода, улучшенная для сложных рассуждений и цепочечного мышления, подходит для задач, требующих глубокого анализа." }, "DeepSeek-V3-Fast": { "description": "Поставщик модели: платформа sophnet. DeepSeek V3 Fast — это высокоскоростная версия DeepSeek V3 0324 с высокой пропускной способностью (TPS), полностью не квантизированная, с улучшенными возможностями кода и математики, обеспечивающая более быструю реакцию!" }, "DeepSeek-V3.1": { "description": "DeepSeek-V3.1 — режим без размышлений; DeepSeek-V3.1 — новая гибридная модель рассуждений от DeepSeek, поддерживающая два режима: с размышлениями и без. По сравнению с DeepSeek-R1-0528, эффективность размышлений выше. После посттренировки значительно улучшены использование инструментов агентом и выполнение задач агентов." }, "DeepSeek-V3.1-Fast": { "description": "DeepSeek V3.1 Fast — высокопроизводительная версия DeepSeek V3.1 с высокой пропускной способностью (TPS). Гибридный режим размышлений: с изменением шаблона чата одна модель может одновременно поддерживать режимы с размышлениями и без. Более интеллектуальный вызов инструментов: благодаря посттренировке значительно улучшена работа модели с инструментами и выполнение агентских задач." }, "DeepSeek-V3.1-Think": { "description": "DeepSeek-V3.1 — режим с размышлениями; DeepSeek-V3.1 — новая гибридная модель рассуждений от DeepSeek, поддерживающая два режима: с размышлениями и без. По сравнению с DeepSeek-R1-0528, эффективность размышлений выше. После посттренировки значительно улучшены использование инструментов агентом и выполнение задач агентов." }, "DeepSeek-V3.2-Exp": { "description": "DeepSeek V3.2 — это последняя универсальная большая модель от DeepSeek, поддерживающая гибридную архитектуру вывода и обладающая улучшенными возможностями агента." }, "DeepSeek-V3.2-Exp-Think": { "description": "Режим размышления DeepSeek V3.2. Перед выводом окончательного ответа модель сначала генерирует цепочку рассуждений для повышения точности итогового результата." }, "Doubao-lite-128k": { "description": "Doubao-lite обладает исключительной скоростью отклика и лучшим соотношением цена-качество, предоставляя клиентам более гибкие варианты для различных сценариев. Поддерживает вывод и дообучение с контекстным окном в 128k." }, "Doubao-lite-32k": { "description": "Doubao-lite обладает исключительной скоростью отклика и лучшим соотношением цена-качество, предоставляя клиентам более гибкие варианты для различных сценариев. Поддерживает вывод и дообучение с контекстным окном в 32k." }, "Doubao-lite-4k": { "description": "Doubao-lite обладает исключительной скоростью отклика и лучшим соотношением цена-качество, предоставляя клиентам более гибкие варианты для различных сценариев. Поддерживает вывод и дообучение с контекстным окном в 4k." }, "Doubao-pro-128k": { "description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 128k." }, "Doubao-pro-32k": { "description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 32k." }, "Doubao-pro-4k": { "description": "Основная модель с наилучшей производительностью, подходящая для решения сложных задач. Отлично справляется с вопросами-ответами, резюмированием, творческим написанием, классификацией текста, ролевыми играми и другими сценариями. Поддерживает вывод и дообучение с контекстным окном в 4k." }, "DreamO": { "description": "DreamO — это открытая модель генерации изображений, разработанная совместно ByteDance и Пекинским университетом, предназначенная для поддержки многозадачной генерации изображений в единой архитектуре. Она использует эффективный метод комбинированного моделирования, позволяющий создавать высоко согласованные и кастомизированные изображения на основе заданных пользователем условий, таких как идентичность, объект, стиль и фон." }, "ERNIE-3.5-128K": { "description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-3.5-8K": { "description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-3.5-8K-Preview": { "description": "Флагманская крупномасштабная языковая модель, разработанная Baidu, охватывающая огромные объемы китайских и английских текстов, обладающая мощными универсальными возможностями, способная удовлетворить большинство требований к диалоговым ответам, генерации контента и сценариям использования плагинов; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-4.0-8K-Latest": { "description": "Флагманская сверхкрупномасштабная языковая модель, разработанная Baidu, которая по сравнению с ERNIE 3.5 обеспечивает полное обновление возможностей модели и широко применяется в сложных задачах в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-4.0-8K-Preview": { "description": "Флагманская сверхкрупномасштабная языковая модель, разработанная Baidu, которая по сравнению с ERNIE 3.5 обеспечивает полное обновление возможностей модели и широко применяется в сложных задачах в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах." }, "ERNIE-4.0-Turbo-8K-Latest": { "description": "Флагманская 超大型 языковая модель, разработанная Baidu, демонстрирует отличные результаты и хорошо подходит для сложных задач в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая своевременность ответов. По сравнению с ERNIE 4.0 имеет лучшие показатели производительности." }, "ERNIE-4.0-Turbo-8K-Preview": { "description": "Флагманская сверхкрупномасштабная языковая модель, разработанная Baidu, демонстрирующая отличные результаты в комплексной эффективности, широко применяемая в сложных задачах в различных областях; поддерживает автоматическую интеграцию с плагином поиска Baidu, обеспечивая актуальность информации в ответах. По сравнению с ERNIE 4.0, она демонстрирует лучшие показатели производительности." }, "ERNIE-Character-8K": { "description": "Специализированная языковая модель, разработанная Baidu для вертикальных сценариев, подходящая для применения в играх (NPC), диалогах службы поддержки, ролевых играх и других сценариях, обладающая ярко выраженным и согласованным стилем персонажей, высокой способностью следовать инструкциям и отличной производительностью вывода." }, "ERNIE-Lite-Pro-128K": { "description": "Легковесная языковая модель, разработанная Baidu, которая сочетает в себе отличные результаты модели и производительность вывода, превосходя ERNIE Lite, подходит для использования в системах с низкой вычислительной мощностью." }, "ERNIE-Speed-128K": { "description": "Новая высокопроизводительная языковая модель, разработанная Baidu в 2024 году, обладающая выдающимися универсальными возможностями, подходит для использования в качестве базовой модели для тонкой настройки, лучше справляясь с задачами в специфических сценариях, при этом обладая отличной производительностью вывода." }, "ERNIE-Speed-Pro-128K": { "description": "Новая высокопроизводительная языковая модель, разработанная Baidu в 2024 году, обладающая выдающимися универсальными возможностями, превосходящая ERNIE Speed, подходит для использования в качестве базовой модели для тонкой настройки, лучше справляясь с задачами в специфических сценариях, при этом обладая отличной производительностью вывода." }, "FLUX-1.1-pro": { "description": "FLUX.1.1 Pro" }, "FLUX.1-Kontext-dev": { "description": "FLUX.1-Kontext-dev — мультимодальная модель генерации и редактирования изображений, разработанная Black Forest Labs на основе архитектуры Rectified Flow Transformer с масштабом 12 миллиардов параметров. Модель специализируется на генерации, реконструкции, улучшении и редактировании изображений с учётом заданного контекста. Она сочетает преимущества контролируемой генерации диффузионных моделей и контекстного моделирования Transformer, обеспечивая высококачественный вывод и широкое применение в задачах восстановления, дополнения и реконструкции визуальных сцен." }, "FLUX.1-Kontext-pro": { "description": "FLUX.1 Kontext [pro]" }, "FLUX.1-dev": { "description": "FLUX.1-dev — это открытая мультимодальная языковая модель (Multimodal Language Model, MLLM), разработанная Black Forest Labs и оптимизированная для задач, связанных с изображениями и текстом. Она объединяет возможности понимания и генерации изображений и текста, построена на основе передовой большой языковой модели (например, Mistral-7B) и использует тщательно разработанный визуальный кодировщик и многоступенчатую инструкционную донастройку для совместной обработки изображений и текста, а также сложного вывода." }, "Gryphe/MythoMax-L2-13b": { "description": "MythoMax-L2 (13B) — это инновационная модель, подходящая для многообластных приложений и сложных задач." }, "HelloMeme": { "description": "HelloMeme — это AI-инструмент, который автоматически создаёт мемы, анимированные изображения или короткие видео на основе предоставленных вами картинок или действий. Для работы не требуется навыков рисования или программирования — достаточно подготовить референсное изображение, и инструмент поможет создать привлекательный, забавный и стилистически единый контент." }, "HiDream-I1-Full": { "description": "HiDream-E1-Full — это открытая мультимодальная модель редактирования изображений, выпущенная HiDream.ai, основанная на передовой архитектуре Diffusion Transformer и обладающая мощными возможностями понимания языка (встроенный LLaMA 3.1-8B-Instruct). Модель поддерживает генерацию изображений, перенос стиля, локальное редактирование и перерисовку контента по естественным языковым инструкциям, демонстрируя выдающиеся способности в понимании и выполнении текстово-графических задач." }, "HunyuanDiT-v1.2-Diffusers-Distilled": { "description": "hunyuandit-v1.2-distilled — это облегчённая модель генерации изображений из текста, оптимизированная с помощью дистилляции для быстрой генерации высококачественных изображений, особенно подходящая для условий с ограниченными ресурсами и задач реального времени." }, "InstantCharacter": { "description": "InstantCharacter — персонализированная модель генерации персонажей без необходимости дообучения, выпущенная командой Tencent AI в 2025 году. Модель обеспечивает высокую точность и согласованность персонажей в различных сценах, позволяя создавать модели персонажей на основе одной референсной фотографии и гибко переносить их в разные стили, позы и фоны." }, "InternVL2-8B": { "description": "InternVL2-8B — это мощная визуально-языковая модель, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы." }, "InternVL2.5-26B": { "description": "InternVL2.5-26B — это мощная визуально-языковая модель, поддерживающая многомодальную обработку изображений и текста, способная точно распознавать содержимое изображений и генерировать соответствующие описания или ответы." }, "Kolors": { "description": "Kolors — модель генерации изображений из текста, разработанная командой Kolors компании Kuaishou. Обученная на миллиардах параметров, она демонстрирует значительные преимущества в визуальном качестве, понимании китайской семантики и рендеринге текста." }, "Kwai-Kolors/Kolors": { "description": "Kolors — масштабная модель генерации изображений из текста на основе латентного диффузионного процесса, разработанная командой Kolors компании Kuaishou. Обученная на миллиардах пар текст-изображение, модель демонстрирует выдающиеся результаты в визуальном качестве, точности сложной семантики и рендеринге китайских и английских символов. Она поддерживает ввод на китайском и английском языках и особенно хорошо справляется с пониманием и генерацией специфического китайского контента." }, "Llama-3.2-11B-Vision-Instruct": { "description": "Отличные способности к визуальному выводу на изображениях высокого разрешения, подходящие для приложений визуального понимания." }, "Llama-3.2-90B-Vision-Instruct\t": { "description": "Передовые способности к визуальному выводу, подходящие для приложений визуального понимания." }, "Meta-Llama-3-3-70B-Instruct": { "description": "Llama 3.3 70B: универсальная модель Transformer, подходящая для диалогов и генеративных задач." }, "Meta-Llama-3.1-405B-Instruct": { "description": "Текстовая модель Llama 3.1 с оптимизацией под инструкции, разработанная для многоязычных диалоговых случаев, показывает отличные результаты по сравнению с многими доступными открытыми и закрытыми чат-моделями на общепринятых отраслевых бенчмарках." }, "Meta-Llama-3.1-70B-Instruct": { "description": "Текстовая модель Llama 3.1 с оптимизацией под инструкции, разработанная для многоязычных диалоговых случаев, показывает отличные результаты по сравнению с многими доступными открытыми и закрытыми чат-моделями на общепринятых отраслевых бенчмарках." }, "Meta-Llama-3.1-8B-Instruct": { "description": "Текстовая модель Llama 3.1 с оптимизацией под инструкции, разработанная для многоязычных диалоговых случаев, показывает отличные результаты по сравнению с многими доступными открытыми и закрытыми чат-моделями на общепринятых отраслевых бенчмарках." }, "Meta-Llama-3.2-1B-Instruct": { "description": "Современная передовая компактная языковая модель с выдающимися способностями к пониманию языка, логическому выводу и генерации текста." }, "Meta-Llama-3.2-3B-Instruct": { "description": "Современная передовая компактная языковая модель с выдающимися способностями к пониманию языка, логическому выводу и генерации текста." }, "Meta-Llama-3.3-70B-Instruct": { "description": "Llama 3.3 — это самая современная многоязычная открытая языковая модель из серии Llama, которая позволяет получить производительность, сопоставимую с 405B моделями, по крайне низкой цене. Основана на структуре Transformer и улучшена с помощью контролируемой донастройки (SFT) и обучения с подкреплением на основе человеческой обратной связи (RLHF) для повышения полезности и безопасности. Ее версия с оптимизацией под инструкции специально разработана для многоязычных диалогов и показывает лучшие результаты по сравнению с многими открытыми и закрытыми чат-моделями на нескольких отраслевых бенчмарках. Дата окончания знаний — декабрь 2023 года." }, "Meta-Llama-4-Maverick-17B-128E-Instruct-FP8": { "description": "Llama 4 Maverick: крупномасштабная модель на основе Mixture-of-Experts, обеспечивающая эффективную стратегию активации экспертов для превосходной производительности при выводе." }, "MiniMax-M1": { "description": "Новая собственная модель вывода. Мировой лидер: 80K цепочек рассуждений x 1M входов, по эффективности сопоставима с ведущими зарубежными моделями" }, "MiniMax-M2": { "description": "Создана специально для эффективного кодирования и рабочих процессов агентов" }, "MiniMax-Text-01": { "description": "В серии моделей MiniMax-01 мы сделали смелые инновации: впервые в крупномасштабном масштабе реализован линейный механизм внимания, традиционная архитектура Transformer больше не является единственным выбором. Объем параметров этой модели достигает 456 миллиардов, из которых 45,9 миллиарда активируются за один раз. Комплексная производительность модели сопоставима с ведущими зарубежными моделями, при этом она может эффективно обрабатывать контекст длиной до 4 миллионов токенов, что в 32 раза больше, чем у GPT-4o, и в 20 раз больше, чем у Claude-3.5-Sonnet." }, "MiniMaxAI/MiniMax-M1-80k": { "description": "MiniMax-M1 — это масштабная модель вывода с гибридным вниманием и открытыми весами, содержащая 456 миллиардов параметров, при этом каждый токен активирует около 45,9 миллиарда параметров. Модель изначально поддерживает сверхдлинный контекст до 1 миллиона токенов и благодаря механизму молниеносного внимания экономит 75% вычислительных операций с плавающей точкой в задачах генерации на 100 тысяч токенов по сравнению с DeepSeek R1. Кроме того, MiniMax-M1 использует архитектуру MoE (смешанные эксперты), сочетая алгоритм CISPO и эффективное обучение с подкреплением с гибридным вниманием, достигая ведущих в отрасли показателей при выводе на длинных входах и в реальных сценариях программной инженерии." }, "Moonshot-Kimi-K2-Instruct": { "description": "Общая численность параметров — 1 триллион, активируемых параметров — 32 миллиарда. Среди немыслящих моделей достигает передовых результатов в области актуальных знаний, математики и программирования, особенно эффективна для универсальных агентских задач. Модель тщательно оптимизирована для агентских задач, способна не только отвечать на вопросы, но и предпринимать действия. Идеально подходит для импровизационного, универсального общения и агентских сценариев, являясь моделью рефлекторного уровня без необходимости длительного обдумывания." }, "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": { "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) — это высокоточная модель команд, подходящая для сложных вычислений." }, "OmniConsistency": { "description": "OmniConsistency повышает согласованность стиля и обобщающую способность в задачах преобразования изображений (Image-to-Image) за счёт внедрения масштабных Diffusion Transformers (DiTs) и парных стилизованных данных, предотвращая деградацию стиля." }, "Phi-3-medium-128k-instruct": { "description": "Та же модель Phi-3-medium, но с большим размером контекста для RAG или нескольких подсказок." }, "Phi-3-medium-4k-instruct": { "description": "Модель с 14B параметрами, демонстрирующая лучшее качество, чем Phi-3-mini, с акцентом на высококачественные, насыщенные рассуждениями данные." }, "Phi-3-mini-128k-instruct": { "description": "Та же модель Phi-3-mini, но с большим размером контекста для RAG или нескольких подсказок." }, "Phi-3-mini-4k-instruct": { "description": "Самая маленькая модель в семействе Phi-3. Оптимизирована как для качества, так и для низкой задержки." }, "Phi-3-small-128k-instruct": { "description": "Та же модель Phi-3-small, но с большим размером контекста для RAG или нескольких подсказок." }, "Phi-3-small-8k-instruct": { "description": "Модель с 7B параметрами, демонстрирующая лучшее качество, чем Phi-3-mini, с акцентом на высококачественные, насыщенные рассуждениями данные." }, "Phi-3.5-mini-instruct": { "description": "Обновленная версия модели Phi-3-mini." }, "Phi-3.5-vision-instrust": { "description": "Обновленная версия модели Phi-3-vision." }, "Pro/Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-7B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 7B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах. Qwen2-7B-Instruct показывает значительное улучшение производительности в нескольких оценках по сравнению с Qwen1.5-7B-Chat." }, "Pro/Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct — это одна из последних языковых моделей, выпущенных Alibaba Cloud. Эта 7B модель значительно улучшила способности в области кодирования и математики. Модель также поддерживает множество языков, охватывающих более 29 языков, включая китайский и английский. Она значительно улучшила выполнение инструкций, понимание структурированных данных и генерацию структурированных выходных данных (особенно JSON)." }, "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода." }, "Pro/Qwen/Qwen2.5-VL-7B-Instruct": { "description": "Qwen2.5-VL — это новый член семейства Qwen, обладающий мощными возможностями визуального понимания. Может анализировать текст, диаграммы и компоновку в изображениях, понимать длинные видео и фиксировать события. Способен к логическим рассуждениям, работе с инструментами, поддерживает локализацию объектов в различных форматах и генерацию структурированных выводов. Оптимизирован для понимания видео с динамическим разрешением и частотой кадров, а также улучшена эффективность визуального кодировщика." }, "Pro/THUDM/GLM-4.1V-9B-Thinking": { "description": "GLM-4.1V-9B-Thinking — это открытая визуально-языковая модель (VLM), совместно выпущенная Zhipu AI и лабораторией KEG Университета Цинхуа, специально разработанная для решения сложных мультимодальных когнитивных задач. Модель основана на базовой модели GLM-4-9B-0414 и значительно улучшает межмодальные способности рассуждения и стабильность за счёт внедрения механизма рассуждения «цепочка мышления» (Chain-of-Thought) и использования методов обучения с подкреплением." }, "Pro/THUDM/glm-4-9b-chat": { "description": "GLM-4-9B-Chat — это открытая версия предобученной модели из серии GLM-4, выпущенная Zhizhu AI. Эта модель показывает отличные результаты в семантике, математике, выводах, коде и знаниях. Кроме поддержки многократных диалогов, GLM-4-9B-Chat также обладает продвинутыми функциями, такими как веб-браузинг, выполнение кода, вызов пользовательских инструментов (Function Call) и вывод длинных текстов. Модель поддерживает 26 языков, включая китайский, английский, японский, корейский и немецкий. В нескольких бенчмарках GLM-4-9B-Chat демонстрирует отличные результаты, такие как AlignBench-v2, MT-Bench, MMLU и C-Eval. Эта модель поддерживает максимальную длину контекста 128K и подходит для академических исследований и коммерческих приложений." }, "Pro/deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1 — это модель вывода, управляемая обучением с подкреплением (RL), которая решает проблемы повторяемости и читаемости в модели. Перед RL DeepSeek-R1 вводит данные холодного старта, что дополнительно оптимизирует производительность вывода. Она показывает сопоставимые результаты с OpenAI-o1 в математических, кодовых и задачах вывода и улучшает общую эффективность благодаря тщательно продуманным методам обучения." }, "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7B — это модель, полученная методом дистилляции знаний на основе Qwen2.5-Math-7B. Модель была доработана с использованием 800 тысяч отобранных образцов, сгенерированных DeepSeek-R1, и демонстрирует выдающиеся способности к логическому рассуждению. Показывает отличные результаты в различных тестах: точность 92,8% на MATH-500, проходной балл 55,5% на AIME 2024 и оценку 1189 на CodeForces, что подтверждает её высокие математические и программистские возможности для модели масштаба 7B." }, "Pro/deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3 — это языковая модель с 6710 миллиардами параметров, использующая архитектуру смешанных экспертов (MoE) и многофункциональное внимание (MLA), в сочетании с стратегией балансировки нагрузки без вспомогательных потерь, оптимизирующая эффективность вывода и обучения. После предобучения на 14.8 триллионах высококачественных токенов и последующей контролируемой донастройки и обучения с подкреплением, DeepSeek-V3 превосходит другие открытые модели и приближается к ведущим закрытым моделям." }, "Pro/deepseek-ai/DeepSeek-V3.1-Terminus": { "description": "DeepSeek-V3.1-Terminus — обновлённая версия модели V3.1 от DeepSeek, позиционируемая как гибридная большая языковая модель с агентскими функциями. В этом обновлении, сохраняя прежние возможности модели, акцент сделан на исправлении проблем, выявленных пользователями, и повышении стабильности. Значительно улучшена языковая согласованность, уменьшено смешение китайского и английского языков, а также появление аномальных символов. Модель интегрирует режимы «размышления» (Thinking Mode) и «без размышления» (Non-thinking Mode), которые пользователи могут гибко переключать через шаблоны чата для разных задач. Важным улучшением является усиление производительности кодового агента (Code Agent) и поискового агента (Search Agent), что повышает надёжность при вызове инструментов и выполнении многошаговых сложных задач." }, "Pro/deepseek-ai/DeepSeek-V3.2-Exp": { "description": "DeepSeek-V3.2-Exp — это экспериментальная версия V3.2, выпущенная компанией DeepSeek, представляющая собой промежуточный этап на пути к архитектуре следующего поколения. На основе V3.1-Terminus она внедряет механизм разреженного внимания DeepSeek (DeepSeek Sparse Attention, DSA) для повышения эффективности обучения и вывода в условиях длинного контекста. Модель специально оптимизирована для вызова инструментов, понимания длинных документов и многошагового рассуждения. V3.2-Exp служит мостом между исследованием и коммерческим применением, идеально подходит для пользователей, стремящихся к более высокой эффективности вывода в сценариях с большим контекстом." }, "Pro/moonshotai/Kimi-K2-Instruct-0905": { "description": "Kimi K2-Instruct-0905 — это последняя и самая мощная версия Kimi K2. Это передовая языковая модель с архитектурой смешанных экспертов (MoE), обладающая общим числом параметров в 1 триллион и 32 миллиардами активных параметров. Основные характеристики модели включают: улучшенный интеллект кодирующих агентов, демонстрирующий значительный прирост производительности на открытых бенчмарках и в реальных задачах кодирования агентов; усовершенствованный опыт фронтенд-кодирования, с улучшениями как в эстетике, так и в практичности фронтенд-программирования." }, "QwQ-32B-Preview": { "description": "QwQ-32B-Preview — это инновационная модель обработки естественного языка, способная эффективно обрабатывать сложные задачи генерации диалогов и понимания контекста." }, "Qwen/QVQ-72B-Preview": { "description": "QVQ-72B-Preview — это исследовательская модель, разработанная командой Qwen, сосредоточенная на способностях визуального вывода, обладающая уникальными преимуществами в понимании сложных сцен и решении визуально связанных математических задач." }, "Qwen/QwQ-32B": { "description": "QwQ — это модель вывода из серии Qwen. В отличие от традиционных моделей, настроенных на инструкции, QwQ обладает способностями к мышлению и рассуждению, что позволяет значительно улучшить производительность в задачах нижнего уровня, особенно при решении сложных проблем. QwQ-32B — это средняя модель вывода, которая демонстрирует конкурентоспособные результаты в сравнении с самыми современными моделями вывода (такими как DeepSeek-R1, o1-mini). Эта модель использует технологии RoPE, SwiGLU, RMSNorm и Attention QKV bias, имеет 64-слойную архитектуру и 40 голов внимания Q (в архитектуре GQA KV составляет 8)." }, "Qwen/QwQ-32B-Preview": { "description": "QwQ-32B-Preview — это последняя экспериментальная исследовательская модель Qwen, сосредоточенная на повышении возможностей вывода ИИ. Исследуя сложные механизмы, такие как смешение языков и рекурсивные выводы, основные преимущества включают мощные аналитические способности, математические и программные навыки. В то же время существуют проблемы с переключением языков, циклом вывода, соображениями безопасности и различиями в других способностях." }, "Qwen/Qwen-Image": { "description": "Qwen-Image — это базовая модель генерации изображений, разработанная командой Tongyi Qianwen компании Alibaba, содержащая 20 миллиардов параметров. Модель достигла значительных успехов в сложной текстовой визуализации и точном редактировании изображений, особенно хорошо справляется с генерацией изображений с высококачественным текстом на китайском и английском языках. Qwen-Image способна обрабатывать многострочные макеты и текст на уровне абзацев, сохраняя при этом согласованность верстки и контекстную гармонию при генерации изображений. Помимо выдающихся возможностей визуализации текста, модель поддерживает широкий спектр художественных стилей — от фотореализма до аниме-эстетики, гибко адаптируясь к различным творческим задачам. Кроме того, она обладает мощными возможностями редактирования и понимания изображений, поддерживает перенос стиля, добавление и удаление объектов, улучшение деталей, редактирование текста и даже управление позами человека, стремясь стать универсальной интеллектуальной моделью для визуального творчества и обработки, объединяющей язык, макет и изображение." }, "Qwen/Qwen-Image-Edit-2509": { "description": "Qwen-Image-Edit-2509 — это последняя версия модели редактирования изображений Qwen-Image, выпущенная командой Tongyi Qianwen компании Alibaba. Эта модель была глубоко обучена на основе 20-миллиардной модели Qwen-Image, успешно расширив её уникальные возможности текстовой визуализации в область редактирования изображений, обеспечивая точное редактирование текста на изображениях. Qwen-Image-Edit использует инновационную архитектуру, в которой входное изображение одновременно подаётся в Qwen2.5-VL (для управления визуальной семантикой) и VAE Encoder (для управления визуальным внешним видом), что обеспечивает двойную возможность редактирования как по смыслу, так и по внешнему виду. Это означает, что модель поддерживает не только локальное редактирование внешнего вида, такое как добавление, удаление или изменение элементов, но и высокоуровневое семантическое редактирование, требующее сохранения смысловой целостности, например, для IP-контента или переноса стиля. Модель демонстрирует передовые (SOTA) результаты на множестве открытых бенчмарков, делая её мощной базовой моделью для редактирования изображений." }, "Qwen/Qwen2-72B-Instruct": { "description": "Qwen2 — это передовая универсальная языковая модель, поддерживающая множество типов команд." }, "Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-72B-Instruct — это языковая модель с дообучением на инструкциях в серии Qwen2, с параметрами 72B. Эта модель основана на архитектуре Transformer и использует такие технологии, как активационная функция SwiGLU, смещение внимания QKV и групповой запрос внимания. Она может обрабатывать большие объемы входных данных. Эта модель показывает отличные результаты в понимании языка, генерации, многоязычных способностях, кодировании, математике и выводах в различных бенчмарках, превосходя большинство открытых моделей и демонстрируя конкурентоспособность с проприетарными моделями в некоторых задачах." }, "Qwen/Qwen2-VL-72B-Instruct": { "description": "Qwen2-VL - это последняя версия модели Qwen-VL, которая достигла передовых результатов в тестировании визуального понимания." }, "Qwen/Qwen2.5-14B-Instruct": { "description": "Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач." }, "Qwen/Qwen2.5-32B-Instruct": { "description": "Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач." }, "Qwen/Qwen2.5-72B-Instruct": { "description": "Большая языковая модель, разработанная командой Alibaba Cloud Tongyi Qianwen." }, "Qwen/Qwen2.5-72B-Instruct-128K": { "description": "Qwen2.5 - это новая серия крупных языковых моделей с улучшенными способностями понимания и генерации." }, "Qwen/Qwen2.5-72B-Instruct-Turbo": { "description": "Qwen2.5 - это новая серия крупных языковых моделей, нацеленная на оптимизацию обработки задач с инструкциями." }, "Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5 — это новая серия крупных языковых моделей, предназначенная для оптимизации обработки инструктивных задач." }, "Qwen/Qwen2.5-7B-Instruct-Turbo": { "description": "Qwen2.5 - это новая серия крупных языковых моделей, нацеленная на оптимизацию обработки задач с инструкциями." }, "Qwen/Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder сосредоточен на написании кода." }, "Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct — это последняя версия серии языковых моделей, специфичных для кода, выпущенная Alibaba Cloud. Эта модель значительно улучшила способности генерации кода, вывода и исправления на основе Qwen2.5, обучаясь на 5.5 триллионах токенов. Она не только усилила кодирование, но и сохранила преимущества в математике и общих способностях. Модель предоставляет более полную основу для практических приложений, таких как интеллектуальные агенты кода." }, "Qwen/Qwen2.5-VL-32B-Instruct": { "description": "Qwen2.5-VL-32B-Instruct — это мультимодальная языковая модель, разработанная командой Tongyi Qianwen, являющаяся частью серии Qwen2.5-VL. Модель не только превосходно распознаёт обычные объекты, но и анализирует текст, диаграммы, иконки, графики и композицию в изображениях. Она может функционировать как визуальный агент, способный к логическим рассуждениям и динамическому управлению инструментами, включая работу с компьютерами и мобильными устройствами. Кроме того, модель точно определяет местоположение объектов на изображениях и генерирует структурированные выводы для документов, таких как счета и таблицы. По сравнению с предыдущей версией Qwen2-VL, данная модель демонстрирует улучшенные математические способности и навыки решения задач благодаря обучению с подкреплением, а также более естественный стиль ответов, соответствующий человеческим предпочтениям." }, "Qwen/Qwen2.5-VL-72B-Instruct": { "description": "Qwen2.5-VL — это визуально-языковая модель из серии Qwen2.5. Модель демонстрирует значительные улучшения в различных аспектах: обладает более сильными способностями к визуальному пониманию, может распознавать обычные объекты, анализировать текст, диаграммы и макеты; как визуальный агент способна рассуждать и динамически направлять использование инструментов; поддерживает понимание длинных видео продолжительностью более 1 часа с возможностью выделения ключевых событий; может точно локализовать объекты на изображении, генерируя ограничивающие рамки или точки; поддерживает генерацию структурированного вывода, что особенно полезно для сканированных данных, таких как счета-фактуры и таблицы." }, "Qwen/Qwen3-14B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-235B-A22B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-235B-A22B-Instruct-2507": { "description": "Qwen3-235B-A22B-Instruct-2507 — флагманская модель серии Qwen3 с архитектурой смешанных экспертов (MoE), разработанная командой Alibaba Cloud Tongyi Qianwen. Модель содержит 235 миллиардов параметров, из которых при каждом выводе активируется 22 миллиарда. Это обновлённая версия Qwen3-235B-A22B в неразмышляющем режиме, с улучшениями в следовании инструкциям, логическом выводе, понимании текста, математике, науке, программировании и использовании инструментов. Модель расширяет покрытие многоязычных знаний и лучше согласуется с пользовательскими предпочтениями в субъективных и открытых задачах, обеспечивая более полезный и качественный текст." }, "Qwen/Qwen3-235B-A22B-Thinking-2507": { "description": "Qwen3-235B-A22B-Thinking-2507 — крупная языковая модель серии Qwen3, разработанная командой Alibaba Tongyi Qianwen, ориентированная на сложные задачи рассуждения. Модель построена на архитектуре смешанных экспертов (MoE) с общим числом параметров 235 миллиардов и активацией около 22 миллиардов параметров на токен, что обеспечивает высокую производительность при эффективном использовании ресурсов. Как специализированная \"мыслящая\" модель, она демонстрирует выдающиеся результаты в логическом выводе, математике, науке, программировании и академических тестах, достигая топовых показателей среди открытых моделей. Модель также улучшает универсальные способности, такие как следование инструкциям, использование инструментов и генерация текста, и нативно поддерживает контекст длиной до 256K токенов, что делает её идеальной для глубокого анализа и обработки длинных документов." }, "Qwen/Qwen3-30B-A3B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-30B-A3B-Instruct-2507": { "description": "Qwen3-30B-A3B-Instruct-2507 — это обновленная версия модели Qwen3-30B-A3B в режиме без размышлений. Это модель с гибридными экспертами (MoE), имеющая в общей сложности 30,5 миллиарда параметров и 3,3 миллиарда активных параметров. Модель получила ключевые улучшения во многих аспектах, включая значительное повышение способности следовать инструкциям, логического мышления, понимания текста, математики, науки, программирования и использования инструментов. Кроме того, она достигла существенного прогресса в покрытии многоязычных редких знаний и лучше согласуется с предпочтениями пользователей в субъективных и открытых задачах, что позволяет генерировать более полезные ответы и тексты высокого качества. Также улучшена способность к пониманию длинных текстов — теперь до 256K. Эта модель поддерживает только режим без размышлений и не генерирует теги `<think></think>` в выводе." }, "Qwen/Qwen3-30B-A3B-Thinking-2507": { "description": "Qwen3-30B-A3B-Thinking-2507 — это новейшая модель «мышления» в серии Qwen3, выпущенная командой Tongyi Qianwen компании Alibaba. Будучи гибридной экспертной (MoE) моделью с общим числом параметров 30,5 млрд и 3,3 млрд активных параметров, она ориентирована на повышение способности решать сложные задачи. Модель демонстрирует заметное улучшение результатов по академическим бенчмаркам в областях логического рассуждения, математики, естественных наук, программирования и задач, требующих человеческой экспертизы. Также существенно усилены её универсальные способности: следование инструкциям, использование инструментов, генерация текста и согласование с человеческими предпочтениями. Модель изначально поддерживает понимание длинного контекста до 256K токенов и может масштабироваться до 1 млн токенов. Эта версия специально разработана в «режиме мышления» для решения крайне сложных задач посредством подробного пошагового рассуждения; её возможности в роли агента также находятся на высоком уровне." }, "Qwen/Qwen3-32B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая рассуждение, общие задачи, агентские функции и многоязычность, а также поддерживающей переключение режимов размышления." }, "Qwen/Qwen3-8B": { "description": "Qwen3 — это новая генерация модели Qwen с значительно улучшенными возможностями, достигнувшими ведущих позиций в отрасли по нескольким ключевым направлениям, включая р