UNPKG

@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

480 lines 358 kB
{ "01-ai/yi-1.5-34b-chat": { "description": "零一万物, най-новият отворен модел с фина настройка, с 34 милиарда параметри, който поддържа множество диалогови сценарии, с висококачествени обучителни данни, съобразени с човешките предпочитания." }, "01-ai/yi-1.5-9b-chat": { "description": "零一万物, най-новият отворен модел с фина настройка, с 9 милиарда параметри, който поддържа множество диалогови сценарии, с висококачествени обучителни данни, съобразени с човешките предпочитания." }, "360/deepseek-r1": { "description": "【360 версия】DeepSeek-R1 използва мащабно обучение с подсилване в етапа на следобучение, значително подобрявайки способността на модела за извеждане при наличието на много малко етикетирани данни. В задачите по математика, код и разсъждения на естествен език, производителността му е наравно с официалната версия на OpenAI o1." }, "360gpt-pro": { "description": "360GPT Pro, като важен член на серията AI модели на 360, отговаря на разнообразни приложения на естествения език с ефективни способности за обработка на текст, поддържайки разбиране на дълги текстове и многостепенни диалози." }, "360gpt-pro-trans": { "description": "Модел, специално проектиран за превод, дълбоко оптимизиран за постигане на водещи резултати." }, "360gpt-turbo": { "description": "360GPT Turbo предлага мощни изчислителни и диалогови способности, с отлична семантична разбираемост и ефективност на генериране, идеално решение за интелигентни асистенти за предприятия и разработчици." }, "360gpt-turbo-responsibility-8k": { "description": "360GPT Turbo Responsibility 8K акцентира на семантичната безопасност и отговорността, проектиран специално за приложения с високи изисквания за безопасност на съдържанието, осигурявайки точност и стабилност на потребителското изживяване." }, "360gpt2-o1": { "description": "360gpt2-o1 използва дървесно търсене за изграждане на вериги от мисли и въвежда механизъм за размисъл, обучен чрез подсилено учене, моделът притежава способността за саморазмисъл и корекция на грешки." }, "360gpt2-pro": { "description": "360GPT2 Pro е усъвършенстван модел за обработка на естествен език, пуснат от компания 360, с изключителни способности за генериране и разбиране на текст, особено в областта на генерирането и творчеството, способен да обработва сложни езикови трансформации и ролеви игри." }, "360zhinao2-o1": { "description": "360zhinao2-o1 използва дървесно търсене за изграждане на мисловни вериги и въвежда механизъм за саморазмисъл, обучавайки се чрез подсилено учене, моделът притежава способността за саморазмисъл и корекция на грешки." }, "4.0Ultra": { "description": "Spark4.0 Ultra е най-мощната версия в серията Starfire, която подобрява разбирането и обобщаването на текстовото съдържание, докато надгражда свързаните търсения. Това е всестранно решение за повишаване на производителността в офиса и точно отговаряне на нуждите, водещо в индустрията интелигентно решение." }, "Baichuan2-Turbo": { "description": "Използва технологии за подобряване на търсенето, за да свърже голям модел с областни знания и знания от интернет. Поддържа качване на различни документи като PDF, Word и вход на уебсайтове, с бърз и цялостен достъп до информация, предоставяйки точни и професионални резултати." }, "Baichuan3-Turbo": { "description": "Оптимизиран за често срещани корпоративни сценарии, с значително подобрени резултати и висока цена-качество. В сравнение с модела Baichuan2, генерирането на съдържание е увеличено с 20%, отговорите на знания с 17%, а способността за ролеви игри с 40%. Общите резултати са по-добри от тези на GPT3.5." }, "Baichuan3-Turbo-128k": { "description": "С 128K свръхдълъг контекстен прозорец, оптимизиран за често срещани корпоративни сценарии, с значително подобрени резултати и висока цена-качество. В сравнение с модела Baichuan2, генерирането на съдържание е увеличено с 20%, отговорите на знания с 17%, а способността за ролеви игри с 40%. Общите резултати са по-добри от тези на GPT3.5." }, "Baichuan4": { "description": "Моделът е с най-добри способности в страната, надминаващ чуждестранните водещи модели в задачи като енциклопедични знания, дълги текстове и генериране на съдържание. Също така притежава водещи в индустрията мултимодални способности и отлични резултати в множество авторитетни тестови стандарти." }, "Baichuan4-Air": { "description": "Моделът е лидер в страната по способности, надминавайки чуждестранните основни модели в задачи на китайски език, като знания, дълги текстове и генериране на творби. Също така притежава водещи в индустрията мултимодални способности и отлични резултати в множество авторитетни оценки." }, "Baichuan4-Turbo": { "description": "Моделът е лидер в страната по способности, надминавайки чуждестранните основни модели в задачи на китайски език, като знания, дълги текстове и генериране на творби. Също така притежава водещи в индустрията мултимодални способности и отлични резултати в множество авторитетни оценки." }, "DeepSeek-R1": { "description": "Най-напредналият ефективен LLM, специализиран в разсъждения, математика и програмиране." }, "DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek R1 - по-голям и по-умен модел в комплекта DeepSeek - е дестилиран в архитектурата Llama 70B. На базата на бенчмаркове и човешка оценка, този модел е по-умен от оригиналния Llama 70B, особено в задачи, изискващи математическа и фактическа точност." }, "DeepSeek-R1-Distill-Qwen-1.5B": { "description": "DeepSeek-R1 дестилиран модел, базиран на Qwen2.5-Math-1.5B, оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт." }, "DeepSeek-R1-Distill-Qwen-14B": { "description": "DeepSeek-R1 дестилиран модел, базиран на Qwen2.5-14B, оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт." }, "DeepSeek-R1-Distill-Qwen-32B": { "description": "Серията DeepSeek-R1 оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт, надминавайки нивото на OpenAI-o1-mini." }, "DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1 дестилиран модел, базиран на Qwen2.5-Math-7B, оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт." }, "DeepSeek-V3": { "description": "DeepSeek-V3 е MoE модел, разработен от компанията DeepSeek. DeepSeek-V3 постига резултати в множество оценки, които надминават други отворени модели като Qwen2.5-72B и Llama-3.1-405B, като по отношение на производителност е наравно с водещите затворени модели в света като GPT-4o и Claude-3.5-Sonnet." }, "Doubao-1.5-thinking-pro-m": { "description": "Doubao-1.5 е новият модел за дълбочинно разсъждение (версия m идва с вградена многомодална дълбочинна разсъждаваща способност), който показва отлични резултати в професионални области като математика, програмиране, научни разсъждения и в общи задачи като креативно писане, достигайки или приближавайки се до водещото ниво в индустрията в множество авторитетни бенчмаркове като AIME 2024, Codeforces, GPQA. Поддържа контекстен прозорец от 128k и изход от 16k." }, "Doubao-1.5-thinking-vision-pro": { "description": "Напълно нов модел за дълбочинно визуално мислене, с по-силни способности за общо мултимодално разбиране и разсъждение, постигнал SOTA представяне в 37 от 59 публични оценъчни стандарта." }, "Doubao-1.5-vision-pro": { "description": "Doubao-1.5-vision-pro е ново обновление на мултимодалния модел, поддържащ разпознаване на изображения с произволна резолюция и екстремни съотношения на дължина и ширина, подобряващ способностите за визуални разсъждения, разпознаване на документи, разбиране на детайлна информация и следване на инструкции." }, "Doubao-1.5-vision-pro-32k": { "description": "Doubao-1.5-vision-pro е ново обновен мултимодален голям модел, който поддържа разпознаване на изображения с произволна резолюция и екстремни съотношения на страните, подобрявайки способностите за визуално разсъждение, разпознаване на документи, разбиране на детайлна информация и следване на инструкции." }, "Doubao-lite-128k": { "description": "Doubao-lite предлага изключителна скорост на отговор и по-добра цена, предоставяйки на клиентите гъвкави опции за различни сценарии. Поддържа извеждане и фин настройка на контекстов прозорец от 128k." }, "Doubao-lite-32k": { "description": "Doubao-lite предлага изключителна скорост на отговор и по-добра цена, предоставяйки на клиентите гъвкави опции за различни сценарии. Поддържа извеждане и фин настройка на контекстов прозорец от 32k." }, "Doubao-lite-4k": { "description": "Doubao-lite предлага изключителна скорост на отговор и по-добра цена, предоставяйки на клиентите гъвкави опции за различни сценарии. Поддържа извеждане и фин настройка на контекстов прозорец от 4k." }, "Doubao-pro-128k": { "description": "Най-добрият модел за основни задачи, подходящ за работа с комплексни задачи, с много добри резултати в справочния отговор, обобщение, творчество, текстова класификация и ролеви игри. Поддържа извеждане и фин настройка на контекстов прозорец от 128k." }, "Doubao-pro-256k": { "description": "Най-добрият основен модел, подходящ за обработка на сложни задачи, с отлични резултати в сценарии като отговори на въпроси, резюмиране, творчество, текстова класификация и ролеви игри. Поддържа разсъждения и фина настройка с контекстен прозорец от 256k." }, "Doubao-pro-32k": { "description": "Най-добрият модел за основни задачи, подходящ за работа с комплексни задачи, с много добри резултати в справочния отговор, обобщение, творчество, текстова класификация и ролеви игри. Поддържа извеждане и фин настройка на контекстов прозорец от 32k." }, "Doubao-pro-4k": { "description": "Най-добрият модел за основни задачи, подходящ за работа с комплексни задачи, с много добри резултати в справочния отговор, обобщение, творчество, текстова класификация и ролеви игри. Поддържа извеждане и фин настройка на контекстов прозорец от 4k." }, "Doubao-vision-lite-32k": { "description": "Doubao-vision моделът е мултимодален голям модел, представен от Doubao, който притежава мощни способности за разбиране и разсъждение на изображения, както и прецизно разбиране на инструкции. Моделът показва силни резултати в извличането на текстова информация от изображения и в задачи за разсъждение, базирани на изображения, и може да се прилага в по-сложни и по-широки визуални въпроси." }, "Doubao-vision-pro-32k": { "description": "Doubao-vision моделът е мултимодален голям модел, представен от Doubao, който притежава мощни способности за разбиране и разсъждение на изображения, както и прецизно разбиране на инструкции. Моделът показва силни резултати в извличането на текстова информация от изображения и в задачи за разсъждение, базирани на изображения, и може да се прилага в по-сложни и по-широки визуални въпроси." }, "ERNIE-3.5-128K": { "description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите." }, "ERNIE-3.5-8K": { "description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите." }, "ERNIE-3.5-8K-Preview": { "description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите." }, "ERNIE-4.0-8K-Latest": { "description": "Флагманският модел на Baidu за изключително големи езикови модели, разработен самостоятелно, е напълно обновен в сравнение с ERNIE 3.5 и е широко приложим в сложни задачи в различни области; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговори." }, "ERNIE-4.0-8K-Preview": { "description": "Флагманският модел на Baidu за изключително големи езикови модели, разработен самостоятелно, е напълно обновен в сравнение с ERNIE 3.5 и е широко приложим в сложни задачи в различни области; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговори." }, "ERNIE-4.0-Turbo-8K-Latest": { "description": "Патентованият флагмански модул на Baidu, изключително мащабен езиков модел, показващ отлични резултати и широко приложение в сложни сценарии. Поддържа автоматично свързване с плъгини на Baidu Search, гарантирайки актуалността на информацията. В сравнение с ERNIE 4.0, той представя по-добри резултати." }, "ERNIE-4.0-Turbo-8K-Preview": { "description": "Флагманският модел на Baidu за изключително големи езикови модели, разработен самостоятелно, показва отлични резултати и е широко приложим в сложни задачи в различни области; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговори. В сравнение с ERNIE 4.0, представянето му е по-добро." }, "ERNIE-Character-8K": { "description": "Специализиран модел на Baidu за големи езикови модели, разработен самостоятелно, подходящ за приложения като NPC в игри, клиентски разговори и ролеви игри, с по-изразителен и последователен стил на персонажите, по-силна способност за следване на инструкции и по-добра производителност при извеждане." }, "ERNIE-Lite-Pro-128K": { "description": "Лек модел на Baidu за големи езикови модели, разработен самостоятелно, който съчетава отлични резултати с производителност при извеждане, с по-добри резултати в сравнение с ERNIE Lite, подходящ за използване с AI ускорителни карти с ниска изчислителна мощ." }, "ERNIE-Speed-128K": { "description": "Най-новият модел на Baidu за големи езикови модели с висока производителност, разработен самостоятелно, с отлични общи способности, подходящ за основен модел за фина настройка, за по-добро справяне с конкретни проблеми, като същевременно предлага отлична производителност при извеждане." }, "ERNIE-Speed-Pro-128K": { "description": "Най-новият модел на Baidu за големи езикови модели с висока производителност, разработен самостоятелно, с отлични общи способности, по-добри резултати в сравнение с ERNIE Speed, подходящ за основен модел за фина настройка, за по-добро справяне с конкретни проблеми, като същевременно предлага отлична производителност при извеждане." }, "Gryphe/MythoMax-L2-13b": { "description": "MythoMax-L2 (13B) е иновативен модел, подходящ за приложения в множество области и сложни задачи." }, "InternVL2-8B": { "description": "InternVL2-8B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен да разпознава точно съдържанието на изображения и да генерира свързани описания или отговори." }, "InternVL2.5-26B": { "description": "InternVL2.5-26B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен да разпознава точно съдържанието на изображения и да генерира свързани описания или отговори." }, "Llama-3.2-11B-Vision-Instruct": { "description": "Изключителни способности за визуално разсъждение върху изображения с висока резолюция, подходящи за приложения за визуално разбиране." }, "Llama-3.2-90B-Vision-Instruct\t": { "description": "Напреднали способности за визуално разсъждение, подходящи за приложения на агенти за визуално разбиране." }, "Meta-Llama-3.1-405B-Instruct": { "description": "Текстов модел с оптимизация за инструкции на Llama 3.1, проектиран за многоезични диалогови случаи, който показва отлични резултати на много налични отворени и затворени чат модели на общи индустриални бенчмаркове." }, "Meta-Llama-3.1-70B-Instruct": { "description": "Текстов модел с оптимизация за инструкции на Llama 3.1, проектиран за многоезични диалогови случаи, който показва отлични резултати на много налични отворени и затворени чат модели на общи индустриални бенчмаркове." }, "Meta-Llama-3.1-8B-Instruct": { "description": "Текстов модел с оптимизация за инструкции на Llama 3.1, проектиран за многоезични диалогови случаи, който показва отлични резултати на много налични отворени и затворени чат модели на общи индустриални бенчмаркове." }, "Meta-Llama-3.2-1B-Instruct": { "description": "Напреднал, водещ малък езиков модел с разбиране на езика, изключителни способности за разсъждение и генериране на текст." }, "Meta-Llama-3.2-3B-Instruct": { "description": "Напреднал, водещ малък езиков модел с разбиране на езика, изключителни способности за разсъждение и генериране на текст." }, "Meta-Llama-3.3-70B-Instruct": { "description": "Llama 3.3 е най-напредналият многоезичен отворен голям езиков модел от серията Llama, който предлага производителност, сравнима с 405B моделите, на изключително ниска цена. Базиран на структурата Transformer и подобрен чрез супервизирано фино настройване (SFT) и обучение с човешка обратна връзка (RLHF) за повишаване на полезността и безопасността. Неговата версия с оптимизация за инструкции е специално проектирана за многоезични диалози и показва по-добри резултати от много от наличните отворени и затворени чат модели на множество индустриални бенчмаркове. Краен срок за знанията е декември 2023 г." }, "MiniMax-M1": { "description": "Изцяло ново самостоятелно разработено модел за разсъждение. Световен лидер: 80K вериги на мислене x 1M вход, с резултати, сравними с водещите модели в чужбина." }, "MiniMax-Text-01": { "description": "В серията модели MiniMax-01 направихме смели иновации: за първи път реализирахме мащабно линейно внимание, традиционната архитектура на Transformer вече не е единственият избор. Параметрите на този модел достигат 4560 милиарда, с единична активация от 45.9 милиарда. Общата производителност на модела е на нивото на водещите модели в чужбина, като същевременно ефективно обработва глобалния контекст от 4 милиона токена, което е 32 пъти повече от GPT-4o и 20 пъти повече от Claude-3.5-Sonnet." }, "MiniMaxAI/MiniMax-M1-80k": { "description": "MiniMax-M1 е мащабен модел за разсъждение с отворени тегла и смесено внимание, с 456 милиарда параметри, като всеки токен активира около 45.9 милиарда параметри. Моделът поддържа естествено контекст с дължина до 1 милион токена и чрез механизма за светкавично внимание спестява 75% от изчисленията при задачи с генериране на 100 хиляди токена в сравнение с DeepSeek R1. Освен това MiniMax-M1 използва MoE (смесен експертен) архитектура, комбинирайки CISPO алгоритъм и ефективно обучение с подсилване с дизайн на смесено внимание, постигащи водещи в индустрията резултати при дълги входни разсъждения и реални софтуерни инженерни сценарии." }, "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": { "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) е модел с висока точност за инструкции, подходящ за сложни изчисления." }, "Phi-3-medium-128k-instruct": { "description": "Същият модел Phi-3-medium, но с по-голям размер на контекста за RAG или малко подканване." }, "Phi-3-medium-4k-instruct": { "description": "Модел с 14B параметри, предлагащ по-добро качество от Phi-3-mini, с акцент върху висококачествени, плътни на разсъждения данни." }, "Phi-3-mini-128k-instruct": { "description": "Същият модел Phi-3-mini, но с по-голям размер на контекста за RAG или малко подканване." }, "Phi-3-mini-4k-instruct": { "description": "Най-малкият член на семейството Phi-3. Оптимизиран както за качество, така и за ниска латентност." }, "Phi-3-small-128k-instruct": { "description": "Същият модел Phi-3-small, но с по-голям размер на контекста за RAG или малко подканване." }, "Phi-3-small-8k-instruct": { "description": "Модел с 7B параметри, предлагащ по-добро качество от Phi-3-mini, с акцент върху висококачествени, плътни на разсъждения данни." }, "Phi-3.5-mini-instruct": { "description": "Актуализирана версия на модела Phi-3-mini." }, "Phi-3.5-vision-instrust": { "description": "Актуализирана версия на модела Phi-3-vision." }, "Pro/Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-7B-Instruct е голям езиков модел с параметри 7B от серията Qwen2, специално настроен за инструкции. Моделът е базиран на архитектурата Transformer и използва технологии като SwiGLU активационна функция, QKV отклонение за внимание и групова внимание. Той може да обработва големи входни данни. Моделът показва отлични резултати в множество бенчмаркове за разбиране на езика, генериране, многоезични способности, кодиране, математика и разсъждения, надминавайки повечето отворени модели и показвайки конкурентоспособност на определени задачи в сравнение с патентовани модели. Qwen2-7B-Instruct показва значителни подобрения в множество оценки в сравнение с Qwen1.5-7B-Chat." }, "Pro/Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct е един от най-новите големи езикови модели, публикувани от Alibaba Cloud. Този 7B модел показва значителни подобрения в областите на кодирането и математиката. Моделът предлага многоезична поддръжка, обхващаща над 29 езика, включително китайски, английски и др. Моделът показва значителни подобрения в следването на инструкции, разбирането на структурирани данни и генерирането на структурирани изходи (особено JSON)." }, "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct е най-новата версия на серията големи езикови модели, специфични за код, публикувана от Alibaba Cloud. Моделът значително подобрява способностите за генериране на код, разсъждения и корекции, след като е обучен с 55 трилиона токена на базата на Qwen2.5. Той не само подобрява кодовите умения, но и запазва предимствата в математиката и общите способности. Моделът предоставя по-пълна основа за практическите приложения като кодови интелигентни агенти." }, "Pro/Qwen/Qwen2.5-VL-7B-Instruct": { "description": "Qwen2.5-VL е нов член от серията Qwen, който разполага с мощни възможности за визуално разбиране. Той може да анализира текст, диаграми и оформление в изображения, да разбира дълги видеоклипове и да улавя събития. Може да извършва логически изводи, да работи с инструменти, поддържа локализиране на обекти в различни формати и генериране на структуриран изход. Оптимизиран е с динамична резолюция и честота на кадрите за разбиране на видео и подобрена ефективност на визуалния кодиращ модул." }, "Pro/THUDM/glm-4-9b-chat": { "description": "GLM-4-9B-Chat е отворената версия на предварително обучен модел от серията GLM-4, пусната от Zhizhu AI. Моделът показва отлични резултати в семантика, математика, разсъждения, код и знания. Освен че поддържа многократни разговори, GLM-4-9B-Chat предлага и напреднали функции като уеб браузинг, изпълнение на код, извикване на персонализирани инструменти (Function Call) и разсъждения с дълги текстове. Моделът поддържа 26 езика, включително китайски, английски, японски, корейски и немски. В множество бенчмаркове, GLM-4-9B-Chat показва отлична производителност, като AlignBench-v2, MT-Bench, MMLU и C-Eval. Моделът поддържа максимална контекстна дължина от 128K, подходящ за академични изследвания и търговски приложения." }, "Pro/deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1 е модел за инференция, управляван от обучение с подсилване (RL), който решава проблемите с повторяемостта и четимостта в моделите. Преди RL, DeepSeek-R1 въвежда данни за студен старт, за да оптимизира допълнително производителността на инференцията. Той показва сравними резултати с OpenAI-o1 в математически, кодови и инференционни задачи и подобрява общата ефективност чрез внимателно проектирани методи на обучение." }, "Pro/deepseek-ai/DeepSeek-R1-0120": { "description": "DeepSeek-R1 е модел за разсъждение, задвижван от усилено обучение (RL), който решава проблеми с повторяемост и четимост в модела. Преди RL, DeepSeek-R1 въвежда студено стартиране на данни за допълнително оптимизиране на разсъжденията. Моделът постига резултати, сравними с OpenAI-o1 в задачи по математика, кодиране и разсъждение, и подобрява общата ефективност чрез внимателно проектирани методи за обучение." }, "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7B е модел, получен чрез дистилация на знания от Qwen2.5-Math-7B. Този модел е фино настроен с 800 000 избрани проби, генерирани от DeepSeek-R1, и демонстрира изключителни способности за разсъждение. Той се представя отлично в множество тестове, постигайки 92,8% точност в MATH-500, 55,5% успеваемост в AIME 2024 и рейтинг от 1189 в CodeForces, показвайки силни математически и програмистки способности за модел с мащаб 7B." }, "Pro/deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3 е модел на езика с 6710 милиарда параметри, който използва архитектура на смесени експерти (MoE) с много глави на потенциално внимание (MLA) и стратегия за баланс на натоварването без помощни загуби, оптимизираща производителността на инференцията и обучението. Чрез предварително обучение на 14.8 трилиона висококачествени токени и последващо супервизирано фино настройване и обучение с подсилване, DeepSeek-V3 надминава производителността на други отворени модели и е близо до водещите затворени модели." }, "Pro/deepseek-ai/DeepSeek-V3-1226": { "description": "DeepSeek-V3 е хибриден езиков модел (MoE) с 6710 милиарда параметри, използващ многоглаво внимание (MLA) и архитектурата DeepSeekMoE, комбинираща стратегия за баланс на натоварването без помощни загуби, оптимизираща ефективността на извеждане и обучение. Чрез предварително обучение на 14.8 трилиона висококачествени токени и последващо наблюдавано фино настройване и обучение с подсилване, DeepSeek-V3 надминава други отворени модели по производителност, приближавайки се до водещите затворени модели." }, "QwQ-32B-Preview": { "description": "QwQ-32B-Preview е иновативен модел за обработка на естествен език, способен да обработва ефективно сложни задачи за генериране на диалог и разбиране на контекста." }, "Qwen/QVQ-72B-Preview": { "description": "QVQ-72B-Preview е изследователски модел, разработен от екипа на Qwen, който се фокусира върху визуалните способности за извеждане и притежава уникални предимства в разбирането на сложни сцени и решаването на визуално свързани математически проблеми." }, "Qwen/QwQ-32B": { "description": "QwQ е моделът за изводи от серията Qwen. В сравнение с традиционните модели за оптимизация на инструкции, QwQ притежава способности за разсъждение и извод, което позволява значително подобряване на производителността в задачи от по-ниско ниво, особено при решаване на трудни проблеми. QwQ-32B е среден модел за изводи, който постига конкурентоспособна производителност в сравнение с най-съвременните модели за изводи (като DeepSeek-R1, o1-mini). Този модел използва технологии като RoPE, SwiGLU, RMSNorm и Attention QKV bias, с 64 слоя в мрежовата структура и 40 Q внимание глави (в архитектурата GQA KV е 8)." }, "Qwen/QwQ-32B-Preview": { "description": "QwQ-32B-Preview е най-новият експериментален изследователски модел на Qwen, който се фокусира върху подобряване на AI разсъдъчните способности. Чрез изследване на сложни механизми като езикови смеси и рекурсивно разсъждение, основните предимства включват мощни аналитични способности, математически и програмистки умения. В същото време съществуват проблеми с езиковото превключване, цикли на разсъждение, съображения за безопасност и разлики в други способности." }, "Qwen/Qwen2-72B-Instruct": { "description": "Qwen2 е напреднал универсален езиков модел, поддържащ множество типове инструкции." }, "Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-72B-Instruct е голям езиков модел с параметри 72B от серията Qwen2, специално настроен за инструкции. Моделът е базиран на архитектурата Transformer и използва технологии като SwiGLU активационна функция, QKV отклонение за внимание и групова внимание. Той може да обработва големи входни данни. Моделът показва отлични резултати в множество бенчмаркове за разбиране на езика, генериране, многоезични способности, кодиране, математика и разсъждения, надминавайки повечето отворени модели и показвайки конкурентоспособност на определени задачи в сравнение с патентовани модели." }, "Qwen/Qwen2-VL-72B-Instruct": { "description": "Qwen2-VL е най-новата итерация на модела Qwen-VL, който е постигнал водещи резултати в тестовете за визуално разбиране." }, "Qwen/Qwen2.5-14B-Instruct": { "description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкции." }, "Qwen/Qwen2.5-32B-Instruct": { "description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкции." }, "Qwen/Qwen2.5-72B-Instruct": { "description": "Голям езиков модел, разработен от екипа на Alibaba Cloud Tongyi Qianwen" }, "Qwen/Qwen2.5-72B-Instruct-128K": { "description": "Qwen2.5 е нова серия от големи езикови модели с по-силни способности за разбиране и генериране." }, "Qwen/Qwen2.5-72B-Instruct-Turbo": { "description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкти." }, "Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкции." }, "Qwen/Qwen2.5-7B-Instruct-Turbo": { "description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкти." }, "Qwen/Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder се фокусира върху писането на код." }, "Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct е най-новата версия на серията големи езикови модели, специфични за код, публикувана от Alibaba Cloud. Моделът значително подобрява способностите за генериране на код, разсъждения и корекции, след като е обучен с 55 трилиона токена на базата на Qwen2.5. Той не само подобрява кодовите умения, но и запазва предимствата в математиката и общите способности. Моделът предоставя по-пълна основа за практическите приложения като кодови интелигентни агенти." }, "Qwen/Qwen2.5-VL-32B-Instruct": { "description": "Qwen2.5-VL-32B-Instruct е многомодален голям модел, разработен от екипа на Tongyi Qianwen, част от серията Qwen2.5-VL. Този модел не само разпознава отлично обичайни обекти, но също така анализира текст, диаграми, икони, графики и оформление в изображения. Той може да функционира като визуален агент, способен да разсъждава и динамично да управлява инструменти, с възможности за работа с компютри и мобилни устройства. Освен това, моделът може точно да локализира обекти в изображения и да генерира структурирани изходи за фактури, таблици и други. В сравнение с предходния модел Qwen2-VL, тази версия е подобрена чрез усилено обучение в областта на математиката и способностите за решаване на проблеми, като стилът на отговорите е по-съобразен с човешките предпочитания." }, "Qwen/Qwen2.5-VL-72B-Instruct": { "description": "Qwen2.5-VL е визуален езиков модел от серията Qwen2.5. Този модел има значителни подобрения в различни аспекти: разполага с по-добри възможности за визуално разбиране, може да разпознава обикновени обекти, да анализира текст, диаграми и оформление; като визуален агент може да разсъждава и динамично да насочва използването на инструменти; поддържа разбиране на дълги видеоклипове с продължителност над 1 час и улавяне на ключови събития; може да локализира точно обекти в изображения чрез генериране на ограничителни кутии или точки; поддържа генериране на структуриран изход, особено подходящ за сканирани данни като фактури и таблици." }, "Qwen/Qwen3-14B": { "description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене." }, "Qwen/Qwen3-235B-A22B": { "description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене." }, "Qwen/Qwen3-30B-A3B": { "description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене." }, "Qwen/Qwen3-32B": { "description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене." }, "Qwen/Qwen3-8B": { "description": "Qwen3 е ново поколение модел на Tongyi Qianwen с значително подобрени способности, достигащи водещо ниво в индустрията в разсъждения, общи, агенти и многоезични основни способности, и поддържа превключване на режим на мислене." }, "Qwen2-72B-Instruct": { "description": "Qwen2 е най-новата серия на модела Qwen, поддържаща 128k контекст. В сравнение с текущите най-добри отворени модели, Qwen2-72B значително надминава водещите модели в области като разбиране на естествен език, знания, код, математика и многоезичност." }, "Qwen2-7B-Instruct": { "description": "Qwen2 е най-новата серия на модела Qwen, способен да надмине оптималните отворени модели с равен размер или дори по-големи модели. Qwen2 7B постига значителни предимства в множество тестове, особено в разбирането на код и китайския език." }, "Qwen2-VL-72B": { "description": "Qwen2-VL-72B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен точно да разпознава съдържанието на изображения и да генерира свързани описания или отговори." }, "Qwen2.5-14B-Instruct": { "description": "Qwen2.5-14B-Instruct е голям езиков модел с 14 милиарда параметри, с отлично представяне, оптимизиран за китайски и многоезични сценарии, поддържа интелигентни въпроси и отговори, генериране на съдържание и други приложения." }, "Qwen2.5-32B-Instruct": { "description": "Qwen2.5-32B-Instruct е голям езиков модел с 32 милиарда параметри, с балансирано представяне, оптимизиран за китайски и многоезични сценарии, поддържа интелигентни въпроси и отговори, генериране на съдържание и други приложения." }, "Qwen2.5-72B-Instruct": { "description": "Qwen2.5-72B-Instruct поддържа 16k контекст, генерира дълги текстове над 8K. Поддържа функция за извикване и безпроблемна интеграция с външни системи, значително увеличаваща гъвкавостта и разширяемостта. Моделът има значително увеличени знания и значително подобрени способности в кодиране и математика, с поддръжка на над 29 езика." }, "Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct е голям езиков модел с 7 милиарда параметри, който поддържа безпроблемно взаимодействие с функции и външни системи, значително увеличавайки гъвкавостта и разширяемостта. Оптимизиран за китайски и многоезични сценарии, поддържа интелигентни въпроси и отговори, генериране на съдържание и други приложения." }, "Qwen2.5-Coder-14B-Instruct": { "description": "Qwen2.5-Coder-14B-Instruct е модел за програмиране, базиран на мащабно предварително обучение, с мощни способности за разбиране и генериране на код, способен ефективно да обработва различни програмни задачи, особено подходящ за интелигентно писане на код, автоматично генериране на скриптове и отговори на програмни въпроси." }, "Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder-32B-Instruct е голям езиков модел, проектиран специално за генериране на код, разбиране на код и ефективни сценарии за разработка, с водеща в индустрията параметрична стойност от 32B, способен да отговори на разнообразни програмни нужди." }, "SenseChat": { "description": "Основна версия на модела (V4), с контекстна дължина 4K, с мощни общи способности." }, "SenseChat-128K": { "description": "Основна версия на модела (V4), с контекстна дължина 128K, показваща отлични резултати в задачи за разбиране и генериране на дълги текстове." }, "SenseChat-32K": { "description": "Основна версия на модела (V4), с контекстна дължина 32K, гъвкаво приложима в различни сцени." }, "SenseChat-5": { "description": "Най-новата версия на модела (V5.5), с контекстна дължина 128K, значително подобрена способност в области като математическо разсъждение, английски разговори, следване на инструкции и разбиране на дълги текстове, сравнима с GPT-4o." }, "SenseChat-5-1202": { "description": "Базирана на версия V5.5, последната версия показва значително подобрение в основните умения на китайски и английски, чат, научни знания, хуманитарни знания, писане, математическа логика и контрол на броя думи." }, "SenseChat-5-Cantonese": { "description": "С контекстна дължина 32K, надминава GPT-4 в разбирането на разговори на кантонски, сравним с GPT-4 Turbo в множество области като знания, разсъждение, математика и писане на код." }, "SenseChat-5-beta": { "description": "Част от производителността е надминала SenseCat-5-1202" }, "SenseChat-Character": { "description": "Стандартна версия на модела, с контекстна дължина 8K, с висока скорост на отговор." }, "SenseChat-Character-Pro": { "description": "Премиум версия на модела, с контекстна дължина 32K, с напълно подобрени способности, поддържаща разговори на китайски/английски." }, "SenseChat-Turbo": { "description": "Подходящ за бързи въпроси и отговори, сцени на фино настройване на модела." }, "SenseChat-Turbo-1202": { "description": "Това е най-новият лек модел, който достига над 90% от способностите на пълния модел, значително намалявайки разходите за изчисление." }, "SenseChat-Vision": { "description": "Най-новата версия на модела (V5.5) поддържа вход с множество изображения и напълно реализира оптимизация на основните способности на модела, с голямо подобрение в разпознаването на свойства на обекти, пространствени отношения, разпознаване на действия и събития, разбиране на сцени, разпознаване на емоции, логическо разсъждение и генериране на текст." }, "SenseNova-V6-Pro": { "description": "Постигане на родно обединение на възможностите за изображения, текст и видео, преодолявайки ограниченията на традиционните мултимодални разделения, спечелвайки двойна титла в оценките OpenCompass и SuperCLUE." }, "SenseNova-V6-Reasoner": { "description": "Комбинира визуално и езиково дълбоко разсъждение, осъществявайки бавно мислене и задълбочен анализ, представяйки пълния процес на мисловната верига." }, "SenseNova-V6-Turbo": { "description": "Постигане на родно обединение на възможностите за изображения, текст и видео, преодолявайки ограниченията на традиционните мултимодални разделения, с водещи постижения в основни измерения като мултимодални базови способности и езикови базови способности, съчетавайки хуманитарни и технически умения, многократно класиран на първото ниво както в национални, така и в международни оценки." }, "Skylark2-lite-8k": { "description": "Cloud Lark (Skylark) второ поколение модел, Skylark2-lite предлага висока скорост на отговор, подходяща за сценарии с високи изисквания за реално време, чувствителни към разходите и с по-ниски изисквания за прецизност, с дължина на контекстовия прозорец 8k." }, "Skylark2-pro-32k": { "description": "Cloud Lark (Skylark) второ поколение модел, версията Skylark2-pro предлага висока прецизност на модела, подходяща за по-сложни текстови генерации, като например генериране на текстове за специализирани области, писане на романи и висококачествени преводи, с дължина на контекстовия прозорец 32k." }, "Skylark2-pro-4k": { "description": "Cloud Lark (Skylark) второ поколение модел, версията Skylark2-pro предлага висока прецизност на модела, подходяща за по-сложни текстови генерации, като например генериране на текстове за специализирани области, писане на романи и висококачествени преводи, с дължина на контекстовия прозорец 4k." }, "Skylark2-pro-character-4k": { "description": "Cloud Lark (Skylark) второ поколение модел, Skylark2-pro-character предоставя отлични способности за ролеви игри и чат, специализирани в адаптиране на стилове на персонажи, които естествено взаимодействат с потребителите, идеален за изграждане на чат-ботове, виртуални асистенти и онлайн обслужване с висока скорост на отговор." }, "Skylark2-pro-turbo-8k": { "description": "Cloud Lark (Skylark) второ поколение модел, Skylark2-pro-turbo-8k предлага по-бърза обработка и по-ниски разходи, с дължина на контекстовия прозорец 8k." }, "THUDM/GLM-4-32B-0414": { "description": "GLM-4-32B-0414 е новото поколение отворен модел от серията GLM, с 32 милиарда параметри. Производителността на този модел е сравнима с GPT серията на OpenAI и V3/R1 серията на DeepSeek." }, "THUDM/GLM-4-9B-0414": { "description": "GLM-4-9B-0414 е малкият модел от серията GLM, с 9 милиарда параметри. Този модел наследява техническите характеристики на GLM-4-32B серията, но предлага по-леко решение за внедряване. Въпреки по-малкия си размер, GLM-4-9B-0414 все още показва отлични способности в генерирането на код, уеб дизайн, генериране на SVG графики и писане на базата на търсене." }, "THUDM/GLM-Z1-32B-0414": { "description": "GLM-Z1-32B-0414 е модел за разсъждение с дълбоки способности за разсъждение. Този модел е разработен на базата на GLM-4-32B-0414 чрез студен старт и разширено обучение с подсилване и е допълнително обучен в задачи по математика, код и логика. В сравнение с основния модел, GLM-Z1-32B-0414 значително подобрява математическите способности и способността за решаване на сложни задачи." }, "THUDM/GLM-Z1-9B-0414": { "description": "GLM-Z1-9B-0414 е малкият модел от серията GLM, с 9 милиарда параметри, но запазва удивителни способности, докато следва традицията на отворен код. Въпреки по-малкия си размер, моделът все още показва отлични резултати в математическите разсъждения и общите задачи, като общата му производителност е на водещо ниво сред модели с подобен размер." }, "THUDM/GLM-Z1-Rumination-32B-0414": { "description": "GLM-Z1-Rumination-32B-0414 е модел за дълбочинно разсъждение с дълбоки способности за разсъждение (сравним с Deep Research на OpenAI). За разлика от типичните модели за дълбочинно разсъждение, моделът за разсъждение използва по-дълго време за дълбочинно разсъждение, за да решава по-отворени и сложни проблеми." }, "THUDM/glm-4-9b-chat": { "description": "GLM-4 9B е отворен код версия, предоставяща оптимизирано изживяване в разговорните приложения." }, "Tongyi-Zhiwen/QwenLong-L1-32B": { "description": "QwenLong-L1-32B е първият голям модел за разсъждение с дълъг контекст, обучен чрез усилено обучение (LRM), специално оптимизиран за задачи с дълги текстове. Моделът използва прогресивна рамка за разширяване на контекста чрез усилено обучение, осигурявайки стабилен преход от кратък към дълъг контекст. В седем базови теста за въпроси и отговори с дълъг контекст QwenLong-L1-32B превъзхожда водещи модели като OpenAI-o3-mini и Qwen3-235B-A22B, с производителност, сравнима с Claude-3.7-Sonnet-Thinking. Моделът е особено силен в математическо, логическо и многократно разсъждение." }, "Yi-34B-Chat": { "description": "Yi-1.5-34B значително подобрява математическата логика и способностите в кодирането, като запазва отличните общи езикови способности на оригиналната серия модели, чрез инкрементално обучение с 500 милиарда висококачествени токени." }, "abab5.5-chat": { "description": "Насочена към производствени сценарии, поддържаща обработка на сложни задачи и ефективно генериране на текст, подходяща за професионални приложения." }, "abab5.5s-chat": { "description": "Специално проектирана за диалогови сценарии на китайски, предлагаща висококачествено генериране на диалози на китайски, подходяща за множество приложения." }, "abab6.5g-chat": { "description": "Специално проектирана за многоезични диалогови системи, поддържаща висококачествено генериране на диалози на английски и много други езици." }, "abab6.5s-chat": { "description": "Подходяща за широк спектър от задачи за обработка на естествен език, включително генериране на текст, диалогови системи и др." }, "abab6.5t-chat": { "description": "Оптимизирана за диалогови сценарии на китайски, предлагаща плавно и съответстващо на китайските изразни навици генериране на диалози." }, "accounts/fireworks/models/deepseek-r1": { "description": "DeepSeek-R1 е авангарден голям езиков модел, оптимизиран чрез подсилено обучение и данни за студен старт, с отлични способности в разсъжденията, математиката и програмирането." }, "accounts/fireworks/models/deepseek-v3": { "description": "Мощен езиков модел Mixture-of-Experts (MoE) от Deepseek, с общ брой параметри 671B, активиращи 37B параметри на всеки токен." }, "accounts/fireworks/models/llama-v3-70b-instruct": { "description": "Llama 3 70B модел за инструкции, специално оптимизиран за многоезични диалози и разбиране на естествен език, с производителност, превъзхождаща повечето конкурентни модели." }, "accounts/fireworks/models/llama-v3-8b-instruct": { "description": "Llama 3 8B модел за инструкции, оптимизиран за диалози и многоезични задачи, с изключителна производителност и ефективност." }, "accounts/fireworks/models/llama-v3-8b-instruct-hf": { "description": "Llama 3 8B модел за инструкции (HF версия), с резултати, съвпадащи с официалната реализация, предлагаща висока последователност и съвместимост между платформите." }, "accounts/fireworks/models/llama-v3p1-405b-instruct": { "description": "Llama 3.1 405B модел за инструкции, с огромен брой параметри, подходящ за сложни задачи и следване на инструкции в сценарии с високо натоварване." }, "accounts/fireworks/models/llama-v3p1-70b-instruct": { "description": "Llama 3.1 70B модел за инструкции, предлагащ изключителни способности за разбиране и генериране на естествен език, идеален за диалогови и аналитични задачи." }, "accounts/fireworks/models/llama-v3p1-8b-instruct": { "description": "Llama 3.1 8B модел за инструкции, оптимизиран за многоезични диалози, способен да надмине повечето отворени и затворени модели на общи индустриални стандарти." }, "accounts/fireworks/models/llama-v3p2-11b-vision-instruct": { "description": "Моделът за разсъждение по изображения с 11B параметри на Meta е оптимизиран за визуално разпознаване, разсъждение по изображения, описание на изображения и отговаряне на общи въпроси относно изображения. Моделът може да разбира визуални данни, като графики и таблици, и свързва визуалните данни с текстовите описания на детайлите на изображенията." }, "accounts/fireworks/models/llama-v3p2-3b-instruct": { "description": "Моделът Llama 3.2 3B е лека многоезична разработка от Meta. Този модел е проектиран да подобри ефективността, предоставяйки значителни подобрения в забавянето и разходите в сравнение с по-големи модели. Примерни случаи на ползване включват заявки, пренаписване на подканвания и подпомагане на писането." }, "accounts/fireworks/models/llama-v3p2-90b-vision-instruct": { "description": "Моделът за разсъждение по изображения с 90B параметри на Meta е оптимизиран за визуално разпознаване, разсъждение по изображения, описание на изображения и отговаряне на общи въпроси относно изображения. Моделът може да разбира визуални данни, като графики и таблици, и свързва визуалните данни с текстовите описания на детайлите на изображенията." }, "accounts/fireworks/models/llama-v3p3-70b-instruct": { "description": "Llama 3.3 70B Instruct е актуализирана версия на Llama 3.1 70B от декември. Този модел е подобрен на базата на Llama 3.1 70B (пуснат през юли 2024 г.), с подобрени възможности за извикване на инструменти, поддръжка на многоезичен текст, математика и програмиране. Моделът постига водещи в индустрията резултати в области като разсъждение, математика и следване на инструкции, и предлага производителност, подобна на 3.1 405B, с значителни предимства в скоростта и разходите." }, "accounts/fireworks/models/mistral-small-24b-instruct-2501": { "description": "Модел с 24B параметри, предлагащ водещи в индустрията способности, сравними с по-големите модели." }, "accounts/fireworks/models/mixtral-8x22b-instruct": { "description": "Mixtral MoE 8x22B модел за инструкции, с голям брой параметри и архитектура с множество експерти, осигуряваща всестранна поддръжка за еф