@lobehub/chat
Version:
Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.
477 lines • 256 kB
JSON
{
"01-ai/Yi-1.5-34B-Chat-16K": {
"description": "Yi-1.5 34B предлага отлични резултати в индустриалните приложения с богат набор от обучителни примери."
},
"01-ai/Yi-1.5-6B-Chat": {
"description": "Yi-1.5-6B-Chat е вариант на Yi-1.5, който принадлежи към отворените модели за разговори. Yi-1.5 е подобрена версия на Yi, която е била предварително обучена на 500B висококачествени корпуси и е била фино настроена на 3M разнообразни примери. В сравнение с Yi, Yi-1.5 показва по-силни способности в кодирането, математиката, разсъжденията и следването на инструкции, като същевременно запазва отлични способности за разбиране на езика, разсъждения на общи познания и разбиране на текст. Моделът предлага версии с контекстна дължина от 4K, 16K и 32K, с общо количество предварително обучение от 3.6T токена."
},
"01-ai/Yi-1.5-9B-Chat-16K": {
"description": "Yi-1.5 9B поддържа 16K токена, предоставяйки ефективни и плавни способности за генериране на език."
},
"01-ai/yi-1.5-34b-chat": {
"description": "零一万物, най-новият отворен модел с фина настройка, с 34 милиарда параметри, който поддържа множество диалогови сценарии, с висококачествени обучителни данни, съобразени с човешките предпочитания."
},
"01-ai/yi-1.5-9b-chat": {
"description": "零一万物, най-новият отворен модел с фина настройка, с 9 милиарда параметри, който поддържа множество диалогови сценарии, с висококачествени обучителни данни, съобразени с човешките предпочитания."
},
"360gpt-pro": {
"description": "360GPT Pro, като важен член на серията AI модели на 360, отговаря на разнообразни приложения на естествения език с ефективни способности за обработка на текст, поддържайки разбиране на дълги текстове и многостепенни диалози."
},
"360gpt-turbo": {
"description": "360GPT Turbo предлага мощни изчислителни и диалогови способности, с отлична семантична разбираемост и ефективност на генериране, идеално решение за интелигентни асистенти за предприятия и разработчици."
},
"360gpt-turbo-responsibility-8k": {
"description": "360GPT Turbo Responsibility 8K акцентира на семантичната безопасност и отговорността, проектиран специално за приложения с високи изисквания за безопасност на съдържанието, осигурявайки точност и стабилност на потребителското изживяване."
},
"360gpt2-o1": {
"description": "360gpt2-o1 използва дървесно търсене за изграждане на вериги от мисли и въвежда механизъм за размисъл, обучен чрез подсилено учене, моделът притежава способността за саморазмисъл и корекция на грешки."
},
"360gpt2-pro": {
"description": "360GPT2 Pro е усъвършенстван модел за обработка на естествен език, пуснат от компания 360, с изключителни способности за генериране и разбиране на текст, особено в областта на генерирането и творчеството, способен да обработва сложни езикови трансформации и ролеви игри."
},
"360zhinao2-o1": {
"description": "360zhinao2-o1 използва дървесно търсене за изграждане на мисловни вериги и въвежда механизъм за саморазмисъл, обучавайки се чрез подсилено учене, моделът притежава способността за саморазмисъл и корекция на грешки."
},
"4.0Ultra": {
"description": "Spark4.0 Ultra е най-мощната версия в серията Starfire, която подобрява разбирането и обобщаването на текстовото съдържание, докато надгражда свързаните търсения. Това е всестранно решение за повишаване на производителността в офиса и точно отговаряне на нуждите, водещо в индустрията интелигентно решение."
},
"Baichuan2-Turbo": {
"description": "Използва технологии за подобряване на търсенето, за да свърже голям модел с областни знания и знания от интернет. Поддържа качване на различни документи като PDF, Word и вход на уебсайтове, с бърз и цялостен достъп до информация, предоставяйки точни и професионални резултати."
},
"Baichuan3-Turbo": {
"description": "Оптимизиран за често срещани корпоративни сценарии, с значително подобрени резултати и висока цена-качество. В сравнение с модела Baichuan2, генерирането на съдържание е увеличено с 20%, отговорите на знания с 17%, а способността за ролеви игри с 40%. Общите резултати са по-добри от тези на GPT3.5."
},
"Baichuan3-Turbo-128k": {
"description": "С 128K свръхдълъг контекстен прозорец, оптимизиран за често срещани корпоративни сценарии, с значително подобрени резултати и висока цена-качество. В сравнение с модела Baichuan2, генерирането на съдържание е увеличено с 20%, отговорите на знания с 17%, а способността за ролеви игри с 40%. Общите резултати са по-добри от тези на GPT3.5."
},
"Baichuan4": {
"description": "Моделът е с най-добри способности в страната, надминаващ чуждестранните водещи модели в задачи като енциклопедични знания, дълги текстове и генериране на съдържание. Също така притежава водещи в индустрията мултимодални способности и отлични резултати в множество авторитетни тестови стандарти."
},
"Baichuan4-Air": {
"description": "Моделът е лидер в страната по способности, надминавайки чуждестранните основни модели в задачи на китайски език, като знания, дълги текстове и генериране на творби. Също така притежава водещи в индустрията мултимодални способности и отлични резултати в множество авторитетни оценки."
},
"Baichuan4-Turbo": {
"description": "Моделът е лидер в страната по способности, надминавайки чуждестранните основни модели в задачи на китайски език, като знания, дълги текстове и генериране на творби. Също така притежава водещи в индустрията мултимодални способности и отлични резултати в множество авторитетни оценки."
},
"DeepSeek-R1": {
"description": "Най-напредналият ефективен LLM, специализиран в разсъждения, математика и програмиране."
},
"DeepSeek-R1-Distill-Llama-70B": {
"description": "DeepSeek R1 - по-голям и по-умен модел в комплекта DeepSeek - е дестилиран в архитектурата Llama 70B. На базата на бенчмаркове и човешка оценка, този модел е по-умен от оригиналния Llama 70B, особено в задачи, изискващи математическа и фактическа точност."
},
"DeepSeek-R1-Distill-Qwen-1.5B": {
"description": "DeepSeek-R1 дестилиран модел, базиран на Qwen2.5-Math-1.5B, оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт."
},
"DeepSeek-R1-Distill-Qwen-14B": {
"description": "DeepSeek-R1 дестилиран модел, базиран на Qwen2.5-14B, оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт."
},
"DeepSeek-R1-Distill-Qwen-32B": {
"description": "Серията DeepSeek-R1 оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт, надминавайки нивото на OpenAI-o1-mini."
},
"DeepSeek-R1-Distill-Qwen-7B": {
"description": "DeepSeek-R1 дестилиран модел, базиран на Qwen2.5-Math-7B, оптимизира производителността на разсъжденията чрез подсилено учене и данни за студен старт, отворен модел, който обновява многозадачния стандарт."
},
"Doubao-1.5-vision-pro-32k": {
"description": "Doubao-1.5-vision-pro е ново обновен мултимодален голям модел, който поддържа разпознаване на изображения с произволна резолюция и екстремни съотношения на страните, подобрявайки способностите за визуално разсъждение, разпознаване на документи, разбиране на детайлна информация и следване на инструкции."
},
"Doubao-lite-128k": {
"description": "Doubao-lite предлага изключителна скорост на отговор и по-добра цена, предоставяйки на клиентите гъвкави опции за различни сценарии. Поддържа извеждане и фин настройка на контекстов прозорец от 128k."
},
"Doubao-lite-32k": {
"description": "Doubao-lite предлага изключителна скорост на отговор и по-добра цена, предоставяйки на клиентите гъвкави опции за различни сценарии. Поддържа извеждане и фин настройка на контекстов прозорец от 32k."
},
"Doubao-lite-4k": {
"description": "Doubao-lite предлага изключителна скорост на отговор и по-добра цена, предоставяйки на клиентите гъвкави опции за различни сценарии. Поддържа извеждане и фин настройка на контекстов прозорец от 4k."
},
"Doubao-pro-128k": {
"description": "Най-добрият модел за основни задачи, подходящ за работа с комплексни задачи, с много добри резултати в справочния отговор, обобщение, творчество, текстова класификация и ролеви игри. Поддържа извеждане и фин настройка на контекстов прозорец от 128k."
},
"Doubao-pro-256k": {
"description": "Най-добрият основен модел, подходящ за обработка на сложни задачи, с отлични резултати в сценарии като отговори на въпроси, резюмиране, творчество, текстова класификация и ролеви игри. Поддържа разсъждения и фина настройка с контекстен прозорец от 256k."
},
"Doubao-pro-32k": {
"description": "Най-добрият модел за основни задачи, подходящ за работа с комплексни задачи, с много добри резултати в справочния отговор, обобщение, творчество, текстова класификация и ролеви игри. Поддържа извеждане и фин настройка на контекстов прозорец от 32k."
},
"Doubao-pro-4k": {
"description": "Най-добрият модел за основни задачи, подходящ за работа с комплексни задачи, с много добри резултати в справочния отговор, обобщение, творчество, текстова класификация и ролеви игри. Поддържа извеждане и фин настройка на контекстов прозорец от 4k."
},
"Doubao-vision-lite-32k": {
"description": "Doubao-vision моделът е мултимодален голям модел, представен от Doubao, който притежава мощни способности за разбиране и разсъждение на изображения, както и прецизно разбиране на инструкции. Моделът показва силни резултати в извличането на текстова информация от изображения и в задачи за разсъждение, базирани на изображения, и може да се прилага в по-сложни и по-широки визуални въпроси."
},
"Doubao-vision-pro-32k": {
"description": "Doubao-vision моделът е мултимодален голям модел, представен от Doubao, който притежава мощни способности за разбиране и разсъждение на изображения, както и прецизно разбиране на инструкции. Моделът показва силни резултати в извличането на текстова информация от изображения и в задачи за разсъждение, базирани на изображения, и може да се прилага в по-сложни и по-широки визуални въпроси."
},
"ERNIE-3.5-128K": {
"description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите."
},
"ERNIE-3.5-8K": {
"description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите."
},
"ERNIE-3.5-8K-Preview": {
"description": "Флагманският модел на Baidu, разработен самостоятелно, е мащабен езиков модел, който обхваща огромно количество китайски и английски текстове. Той притежава мощни общи способности и може да отговори на почти всички изисквания за диалогови въпроси и отговори, генериране на съдържание и приложения с плъгини; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговорите."
},
"ERNIE-4.0-8K-Latest": {
"description": "Флагманският модел на Baidu за изключително големи езикови модели, разработен самостоятелно, е напълно обновен в сравнение с ERNIE 3.5 и е широко приложим в сложни задачи в различни области; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговори."
},
"ERNIE-4.0-8K-Preview": {
"description": "Флагманският модел на Baidu за изключително големи езикови модели, разработен самостоятелно, е напълно обновен в сравнение с ERNIE 3.5 и е широко приложим в сложни задачи в различни области; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговори."
},
"ERNIE-4.0-Turbo-8K-Latest": {
"description": "Патентованият флагмански модул на Baidu, изключително мащабен езиков модел, показващ отлични резултати и широко приложение в сложни сценарии. Поддържа автоматично свързване с плъгини на Baidu Search, гарантирайки актуалността на информацията. В сравнение с ERNIE 4.0, той представя по-добри резултати."
},
"ERNIE-4.0-Turbo-8K-Preview": {
"description": "Флагманският модел на Baidu за изключително големи езикови модели, разработен самостоятелно, показва отлични резултати и е широко приложим в сложни задачи в различни области; поддържа автоматично свързване с плъгина за търсене на Baidu, осигурявайки актуалност на информацията за отговори. В сравнение с ERNIE 4.0, представянето му е по-добро."
},
"ERNIE-Character-8K": {
"description": "Специализиран модел на Baidu за големи езикови модели, разработен самостоятелно, подходящ за приложения като NPC в игри, клиентски разговори и ролеви игри, с по-изразителен и последователен стил на персонажите, по-силна способност за следване на инструкции и по-добра производителност при извеждане."
},
"ERNIE-Lite-Pro-128K": {
"description": "Лек модел на Baidu за големи езикови модели, разработен самостоятелно, който съчетава отлични резултати с производителност при извеждане, с по-добри резултати в сравнение с ERNIE Lite, подходящ за използване с AI ускорителни карти с ниска изчислителна мощ."
},
"ERNIE-Speed-128K": {
"description": "Най-новият модел на Baidu за големи езикови модели с висока производителност, разработен самостоятелно, с отлични общи способности, подходящ за основен модел за фина настройка, за по-добро справяне с конкретни проблеми, като същевременно предлага отлична производителност при извеждане."
},
"ERNIE-Speed-Pro-128K": {
"description": "Най-новият модел на Baidu за големи езикови модели с висока производителност, разработен самостоятелно, с отлични общи способности, по-добри резултати в сравнение с ERNIE Speed, подходящ за основен модел за фина настройка, за по-добро справяне с конкретни проблеми, като същевременно предлага отлична производителност при извеждане."
},
"Gryphe/MythoMax-L2-13b": {
"description": "MythoMax-L2 (13B) е иновативен модел, подходящ за приложения в множество области и сложни задачи."
},
"InternVL2-8B": {
"description": "InternVL2-8B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен да разпознава точно съдържанието на изображения и да генерира свързани описания или отговори."
},
"InternVL2.5-26B": {
"description": "InternVL2.5-26B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен да разпознава точно съдържанието на изображения и да генерира свързани описания или отговори."
},
"Llama-3.2-11B-Vision-Instruct": {
"description": "Изключителни способности за визуално разсъждение върху изображения с висока резолюция, подходящи за приложения за визуално разбиране."
},
"Llama-3.2-90B-Vision-Instruct\t": {
"description": "Напреднали способности за визуално разсъждение, подходящи за приложения на агенти за визуално разбиране."
},
"LoRA/Qwen/Qwen2.5-72B-Instruct": {
"description": "Qwen2.5-72B-Instruct е един от най-новите големи езикови модели, публикувани от Alibaba Cloud. Този 72B модел показва значителни подобрения в областите на кодирането и математиката. Моделът предлага многоезична поддръжка, обхващаща над 29 езика, включително китайски, английски и др. Моделът показва значителни подобрения в следването на инструкции, разбирането на структурирани данни и генерирането на структурирани изходи (особено JSON)."
},
"LoRA/Qwen/Qwen2.5-7B-Instruct": {
"description": "Qwen2.5-7B-Instruct е един от най-новите големи езикови модели, публикувани от Alibaba Cloud. Този 7B модел показва значителни подобрения в областите на кодирането и математиката. Моделът предлага многоезична поддръжка, обхващаща над 29 езика, включително китайски, английски и др. Моделът показва значителни подобрения в следването на инструкции, разбирането на структурирани данни и генерирането на структурирани изходи (особено JSON)."
},
"Meta-Llama-3.1-405B-Instruct": {
"description": "Текстов модел с оптимизация за инструкции на Llama 3.1, проектиран за многоезични диалогови случаи, който показва отлични резултати на много налични отворени и затворени чат модели на общи индустриални бенчмаркове."
},
"Meta-Llama-3.1-70B-Instruct": {
"description": "Текстов модел с оптимизация за инструкции на Llama 3.1, проектиран за многоезични диалогови случаи, който показва отлични резултати на много налични отворени и затворени чат модели на общи индустриални бенчмаркове."
},
"Meta-Llama-3.1-8B-Instruct": {
"description": "Текстов модел с оптимизация за инструкции на Llama 3.1, проектиран за многоезични диалогови случаи, който показва отлични резултати на много налични отворени и затворени чат модели на общи индустриални бенчмаркове."
},
"Meta-Llama-3.2-1B-Instruct": {
"description": "Напреднал, водещ малък езиков модел с разбиране на езика, изключителни способности за разсъждение и генериране на текст."
},
"Meta-Llama-3.2-3B-Instruct": {
"description": "Напреднал, водещ малък езиков модел с разбиране на езика, изключителни способности за разсъждение и генериране на текст."
},
"Meta-Llama-3.3-70B-Instruct": {
"description": "Llama 3.3 е най-напредналият многоезичен отворен голям езиков модел от серията Llama, който предлага производителност, сравнима с 405B моделите, на изключително ниска цена. Базиран на структурата Transformer и подобрен чрез супервизирано фино настройване (SFT) и обучение с човешка обратна връзка (RLHF) за повишаване на полезността и безопасността. Неговата версия с оптимизация за инструкции е специално проектирана за многоезични диалози и показва по-добри резултати от много от наличните отворени и затворени чат модели на множество индустриални бенчмаркове. Краен срок за знанията е декември 2023 г."
},
"MiniMax-Text-01": {
"description": "В серията модели MiniMax-01 направихме смели иновации: за първи път реализирахме мащабно линейно внимание, традиционната архитектура на Transformer вече не е единственият избор. Параметрите на този модел достигат 4560 милиарда, с единична активация от 45.9 милиарда. Общата производителност на модела е на нивото на водещите модели в чужбина, като същевременно ефективно обработва глобалния контекст от 4 милиона токена, което е 32 пъти повече от GPT-4o и 20 пъти повече от Claude-3.5-Sonnet."
},
"NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": {
"description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) е модел с висока точност за инструкции, подходящ за сложни изчисления."
},
"OpenGVLab/InternVL2-26B": {
"description": "InternVL2 демонстрира изключителни резултати в различни визуално-языкови задачи, включително разбиране на документи и графики, разбиране на текст в сцени, OCR, решаване на научни и математически проблеми."
},
"Phi-3-medium-128k-instruct": {
"description": "Същият модел Phi-3-medium, но с по-голям размер на контекста за RAG или малко подканване."
},
"Phi-3-medium-4k-instruct": {
"description": "Модел с 14B параметри, предлагащ по-добро качество от Phi-3-mini, с акцент върху висококачествени, плътни на разсъждения данни."
},
"Phi-3-mini-128k-instruct": {
"description": "Същият модел Phi-3-mini, но с по-голям размер на контекста за RAG или малко подканване."
},
"Phi-3-mini-4k-instruct": {
"description": "Най-малкият член на семейството Phi-3. Оптимизиран както за качество, така и за ниска латентност."
},
"Phi-3-small-128k-instruct": {
"description": "Същият модел Phi-3-small, но с по-голям размер на контекста за RAG или малко подканване."
},
"Phi-3-small-8k-instruct": {
"description": "Модел с 7B параметри, предлагащ по-добро качество от Phi-3-mini, с акцент върху висококачествени, плътни на разсъждения данни."
},
"Phi-3.5-mini-instruct": {
"description": "Актуализирана версия на модела Phi-3-mini."
},
"Phi-3.5-vision-instrust": {
"description": "Актуализирана версия на модела Phi-3-vision."
},
"Pro/OpenGVLab/InternVL2-8B": {
"description": "InternVL2 демонстрира изключителни резултати в различни визуално-языкови задачи, включително разбиране на документи и графики, разбиране на текст в сцени, OCR, решаване на научни и математически проблеми."
},
"Pro/Qwen/Qwen2-1.5B-Instruct": {
"description": "Qwen2-1.5B-Instruct е голям езиков модел с параметри 1.5B от серията Qwen2, специално настроен за инструкции. Моделът е базиран на архитектурата Transformer и използва технологии като SwiGLU активационна функция, QKV отклонение за внимание и групова внимание. Той показва отлични резултати в множество бенчмаркове за разбиране на езика, генериране, многоезични способности, кодиране, математика и разсъждения, надминавайки повечето отворени модели. В сравнение с Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct показва значителни подобрения в тестовете MMLU, HumanEval, GSM8K, C-Eval и IFEval, въпреки че параметрите са малко по-малко."
},
"Pro/Qwen/Qwen2-7B-Instruct": {
"description": "Qwen2-7B-Instruct е голям езиков модел с параметри 7B от серията Qwen2, специално настроен за инструкции. Моделът е базиран на архитектурата Transformer и използва технологии като SwiGLU активационна функция, QKV отклонение за внимание и групова внимание. Той може да обработва големи входни данни. Моделът показва отлични резултати в множество бенчмаркове за разбиране на езика, генериране, многоезични способности, кодиране, математика и разсъждения, надминавайки повечето отворени модели и показвайки конкурентоспособност на определени задачи в сравнение с патентовани модели. Qwen2-7B-Instruct показва значителни подобрения в множество оценки в сравнение с Qwen1.5-7B-Chat."
},
"Pro/Qwen/Qwen2-VL-7B-Instruct": {
"description": "Qwen2-VL е най-новата итерация на модела Qwen-VL, който е постигнал водещи резултати в тестовете за визуално разбиране."
},
"Pro/Qwen/Qwen2.5-7B-Instruct": {
"description": "Qwen2.5-7B-Instruct е един от най-новите големи езикови модели, публикувани от Alibaba Cloud. Този 7B модел показва значителни подобрения в областите на кодирането и математиката. Моделът предлага многоезична поддръжка, обхващаща над 29 езика, включително китайски, английски и др. Моделът показва значителни подобрения в следването на инструкции, разбирането на структурирани данни и генерирането на структурирани изходи (особено JSON)."
},
"Pro/Qwen/Qwen2.5-Coder-7B-Instruct": {
"description": "Qwen2.5-Coder-7B-Instruct е най-новата версия на серията големи езикови модели, специфични за код, публикувана от Alibaba Cloud. Моделът значително подобрява способностите за генериране на код, разсъждения и корекции, след като е обучен с 55 трилиона токена на базата на Qwen2.5. Той не само подобрява кодовите умения, но и запазва предимствата в математиката и общите способности. Моделът предоставя по-пълна основа за практическите приложения като кодови интелигентни агенти."
},
"Pro/THUDM/glm-4-9b-chat": {
"description": "GLM-4-9B-Chat е отворената версия на предварително обучен модел от серията GLM-4, пусната от Zhizhu AI. Моделът показва отлични резултати в семантика, математика, разсъждения, код и знания. Освен че поддържа многократни разговори, GLM-4-9B-Chat предлага и напреднали функции като уеб браузинг, изпълнение на код, извикване на персонализирани инструменти (Function Call) и разсъждения с дълги текстове. Моделът поддържа 26 езика, включително китайски, английски, японски, корейски и немски. В множество бенчмаркове, GLM-4-9B-Chat показва отлична производителност, като AlignBench-v2, MT-Bench, MMLU и C-Eval. Моделът поддържа максимална контекстна дължина от 128K, подходящ за академични изследвания и търговски приложения."
},
"Pro/deepseek-ai/DeepSeek-R1": {
"description": "DeepSeek-R1 е модел за инференция, управляван от обучение с подсилване (RL), който решава проблемите с повторяемостта и четимостта в моделите. Преди RL, DeepSeek-R1 въвежда данни за студен старт, за да оптимизира допълнително производителността на инференцията. Той показва сравними резултати с OpenAI-o1 в математически, кодови и инференционни задачи и подобрява общата ефективност чрез внимателно проектирани методи на обучение."
},
"Pro/deepseek-ai/DeepSeek-V3": {
"description": "DeepSeek-V3 е модел на езика с 6710 милиарда параметри, който използва архитектура на смесени експерти (MoE) с много глави на потенциално внимание (MLA) и стратегия за баланс на натоварването без помощни загуби, оптимизираща производителността на инференцията и обучението. Чрез предварително обучение на 14.8 трилиона висококачествени токени и последващо супервизирано фино настройване и обучение с подсилване, DeepSeek-V3 надминава производителността на други отворени модели и е близо до водещите затворени модели."
},
"Pro/google/gemma-2-9b-it": {
"description": "Gemma е един от най-новите леки, авангардни отворени модели, разработени от Google. Това е голям езиков модел с един декодер, който поддържа английски и предлага отворени тегла, предварително обучени варианти и варианти с фино настройване на инструкции. Моделът Gemma е подходящ за различни задачи по генериране на текст, включително въпроси и отговори, резюмиране и разсъждения. Този 9B модел е обучен с 8 трилиона токена. Неговият относително малък размер позволява внедряване в среди с ограничени ресурси, като лаптопи, настолни компютри или собствена облачна инфраструктура, което позволява на повече хора да имат достъп до авангардни AI модели и да насърчават иновации."
},
"Pro/meta-llama/Meta-Llama-3.1-8B-Instruct": {
"description": "Meta Llama 3.1 е семейство от многоезични големи езикови модели, разработени от Meta, включващо предварително обучени и модели с фино настройване с параметри 8B, 70B и 405B. Този 8B модел с фино настройване на инструкции е оптимизиран за многоезични разговорни сценарии и показва отлични резултати в множество индустриални бенчмаркове. Моделът е обучен с над 15 трилиона токена от публични данни и използва технологии като наблюдавано фино настройване и обучение с човешка обратна връзка, за да подобри полезността и безопасността на модела. Llama 3.1 поддържа генериране на текст и генериране на код, с дата на прекратяване на знанията до декември 2023 г."
},
"QwQ-32B-Preview": {
"description": "QwQ-32B-Preview е иновативен модел за обработка на естествен език, способен да обработва ефективно сложни задачи за генериране на диалог и разбиране на контекста."
},
"Qwen/QVQ-72B-Preview": {
"description": "QVQ-72B-Preview е изследователски модел, разработен от екипа на Qwen, който се фокусира върху визуалните способности за извеждане и притежава уникални предимства в разбирането на сложни сцени и решаването на визуално свързани математически проблеми."
},
"Qwen/QwQ-32B": {
"description": "QwQ е моделът за изводи от серията Qwen. В сравнение с традиционните модели за оптимизация на инструкции, QwQ притежава способности за разсъждение и извод, което позволява значително подобряване на производителността в задачи от по-ниско ниво, особено при решаване на трудни проблеми. QwQ-32B е среден модел за изводи, който постига конкурентоспособна производителност в сравнение с най-съвременните модели за изводи (като DeepSeek-R1, o1-mini). Този модел използва технологии като RoPE, SwiGLU, RMSNorm и Attention QKV bias, с 64 слоя в мрежовата структура и 40 Q внимание глави (в архитектурата GQA KV е 8)."
},
"Qwen/QwQ-32B-Preview": {
"description": "QwQ-32B-Preview е най-новият експериментален изследователски модел на Qwen, който се фокусира върху подобряване на AI разсъдъчните способности. Чрез изследване на сложни механизми като езикови смеси и рекурсивно разсъждение, основните предимства включват мощни аналитични способности, математически и програмистки умения. В същото време съществуват проблеми с езиковото превключване, цикли на разсъждение, съображения за безопасност и разлики в други способности."
},
"Qwen/Qwen2-1.5B-Instruct": {
"description": "Qwen2-1.5B-Instruct е голям езиков модел с параметри 1.5B от серията Qwen2, специално настроен за инструкции. Моделът е базиран на архитектурата Transformer и използва технологии като SwiGLU активационна функция, QKV отклонение за внимание и групова внимание. Той показва отлични резултати в множество бенчмаркове за разбиране на езика, генериране, многоезични способности, кодиране, математика и разсъждения, надминавайки повечето отворени модели. В сравнение с Qwen1.5-1.8B-Chat, Qwen2-1.5B-Instruct показва значителни подобрения в тестовете MMLU, HumanEval, GSM8K, C-Eval и IFEval, въпреки че параметрите са малко по-малко."
},
"Qwen/Qwen2-72B-Instruct": {
"description": "Qwen2 е напреднал универсален езиков модел, поддържащ множество типове инструкции."
},
"Qwen/Qwen2-7B-Instruct": {
"description": "Qwen2-72B-Instruct е голям езиков модел с параметри 72B от серията Qwen2, специално настроен за инструкции. Моделът е базиран на архитектурата Transformer и използва технологии като SwiGLU активационна функция, QKV отклонение за внимание и групова внимание. Той може да обработва големи входни данни. Моделът показва отлични резултати в множество бенчмаркове за разбиране на езика, генериране, многоезични способности, кодиране, математика и разсъждения, надминавайки повечето отворени модели и показвайки конкурентоспособност на определени задачи в сравнение с патентовани модели."
},
"Qwen/Qwen2-VL-72B-Instruct": {
"description": "Qwen2-VL е най-новата итерация на модела Qwen-VL, който е постигнал водещи резултати в тестовете за визуално разбиране."
},
"Qwen/Qwen2.5-14B-Instruct": {
"description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкции."
},
"Qwen/Qwen2.5-32B-Instruct": {
"description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкции."
},
"Qwen/Qwen2.5-72B-Instruct": {
"description": "Голям езиков модел, разработен от екипа на Alibaba Cloud Tongyi Qianwen"
},
"Qwen/Qwen2.5-72B-Instruct-128K": {
"description": "Qwen2.5 е нова серия от големи езикови модели с по-силни способности за разбиране и генериране."
},
"Qwen/Qwen2.5-72B-Instruct-Turbo": {
"description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкти."
},
"Qwen/Qwen2.5-7B-Instruct": {
"description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкции."
},
"Qwen/Qwen2.5-7B-Instruct-Turbo": {
"description": "Qwen2.5 е нова серия от големи езикови модели, проектирана да оптимизира обработката на инструкти."
},
"Qwen/Qwen2.5-Coder-32B-Instruct": {
"description": "Qwen2.5-Coder се фокусира върху писането на код."
},
"Qwen/Qwen2.5-Coder-7B-Instruct": {
"description": "Qwen2.5-Coder-7B-Instruct е най-новата версия на серията големи езикови модели, специфични за код, публикувана от Alibaba Cloud. Моделът значително подобрява способностите за генериране на код, разсъждения и корекции, след като е обучен с 55 трилиона токена на базата на Qwen2.5. Той не само подобрява кодовите умения, но и запазва предимствата в математиката и общите способности. Моделът предоставя по-пълна основа за практическите приложения като кодови интелигентни агенти."
},
"Qwen2-72B-Instruct": {
"description": "Qwen2 е най-новата серия на модела Qwen, поддържаща 128k контекст. В сравнение с текущите най-добри отворени модели, Qwen2-72B значително надминава водещите модели в области като разбиране на естествен език, знания, код, математика и многоезичност."
},
"Qwen2-7B-Instruct": {
"description": "Qwen2 е най-новата серия на модела Qwen, способен да надмине оптималните отворени модели с равен размер или дори по-големи модели. Qwen2 7B постига значителни предимства в множество тестове, особено в разбирането на код и китайския език."
},
"Qwen2-VL-72B": {
"description": "Qwen2-VL-72B е мощен визуален езиков модел, който поддържа многомодално обработване на изображения и текст, способен точно да разпознава съдържанието на изображения и да генерира свързани описания или отговори."
},
"Qwen2.5-14B-Instruct": {
"description": "Qwen2.5-14B-Instruct е голям езиков модел с 14 милиарда параметри, с отлично представяне, оптимизиран за китайски и многоезични сценарии, поддържа интелигентни въпроси и отговори, генериране на съдържание и други приложения."
},
"Qwen2.5-32B-Instruct": {
"description": "Qwen2.5-32B-Instruct е голям езиков модел с 32 милиарда параметри, с балансирано представяне, оптимизиран за китайски и многоезични сценарии, поддържа интелигентни въпроси и отговори, генериране на съдържание и други приложения."
},
"Qwen2.5-72B-Instruct": {
"description": "Qwen2.5-72B-Instruct поддържа 16k контекст, генерира дълги текстове над 8K. Поддържа функция за извикване и безпроблемна интеграция с външни системи, значително увеличаваща гъвкавостта и разширяемостта. Моделът има значително увеличени знания и значително подобрени способности в кодиране и математика, с поддръжка на над 29 езика."
},
"Qwen2.5-7B-Instruct": {
"description": "Qwen2.5-7B-Instruct е голям езиков модел с 7 милиарда параметри, който поддържа безпроблемно взаимодействие с функции и външни системи, значително увеличавайки гъвкавостта и разширяемостта. Оптимизиран за китайски и многоезични сценарии, поддържа интелигентни въпроси и отговори, генериране на съдържание и други приложения."
},
"Qwen2.5-Coder-14B-Instruct": {
"description": "Qwen2.5-Coder-14B-Instruct е модел за програмиране, базиран на мащабно предварително обучение, с мощни способности за разбиране и генериране на код, способен ефективно да обработва различни програмни задачи, особено подходящ за интелигентно писане на код, автоматично генериране на скриптове и отговори на програмни въпроси."
},
"Qwen2.5-Coder-32B-Instruct": {
"description": "Qwen2.5-Coder-32B-Instruct е голям езиков модел, проектиран специално за генериране на код, разбиране на код и ефективни сценарии за разработка, с водеща в индустрията параметрична стойност от 32B, способен да отговори на разнообразни програмни нужди."
},
"SenseChat": {
"description": "Основна версия на модела (V4), с контекстна дължина 4K, с мощни общи способности."
},
"SenseChat-128K": {
"description": "Основна версия на модела (V4), с контекстна дължина 128K, показваща отлични резултати в задачи за разбиране и генериране на дълги текстове."
},
"SenseChat-32K": {
"description": "Основна версия на модела (V4), с контекстна дължина 32K, гъвкаво приложима в различни сцени."
},
"SenseChat-5": {
"description": "Най-новата версия на модела (V5.5), с контекстна дължина 128K, значително подобрена способност в области като математическо разсъждение, английски разговори, следване на инструкции и разбиране на дълги текстове, сравнима с GPT-4o."
},
"SenseChat-5-1202": {
"description": "Това е най-новата версия, базирана на V5.5, която показва значителни подобрения в основните способности на китайски и английски, чат, научни знания, хуманитарни знания, писане, математическа логика и контрол на броя на думите в сравнение с предишната версия."
},
"SenseChat-5-Cantonese": {
"description": "С контекстна дължина 32K, надминава GPT-4 в разбирането на разговори на кантонски, сравним с GPT-4 Turbo в множество области като знания, разсъждение, математика и писане на код."
},
"SenseChat-Character": {
"description": "Стандартна версия на модела, с контекстна дължина 8K, с висока скорост на отговор."
},
"SenseChat-Character-Pro": {
"description": "Премиум версия на модела, с контекстна дължина 32K, с напълно подобрени способности, поддържаща разговори на китайски/английски."
},
"SenseChat-Turbo": {
"description": "Подходящ за бързи въпроси и отговори, сцени на фино настройване на модела."
},
"SenseChat-Turbo-1202": {
"description": "Това е най-новият лек модел, който достига над 90% от способностите на пълния модел, значително намалявайки разходите за изчисление."
},
"SenseChat-Vision": {
"description": "Най-новата версия на модела (V5.5) поддържа вход с множество изображения и напълно реализира оптимизация на основните способности на модела, с голямо подобрение в разпознаването на свойства на обекти, пространствени отношения, разпознаване на действия и събития, разбиране на сцени, разпознаване на емоции, логическо разсъждение и генериране на текст."
},
"Skylark2-lite-8k": {
"description": "Cloud Lark (Skylark) второ поколение модел, Skylark2-lite предлага висока скорост на отговор, подходяща за сценарии с високи изисквания за реално време, чувствителни към разходите и с по-ниски изисквания за прецизност, с дължина на контекстовия прозорец 8k."
},
"Skylark2-pro-32k": {
"description": "Cloud Lark (Skylark) второ поколение модел, версията Skylark2-pro предлага висока прецизност на модела, подходяща за по-сложни текстови генерации, като например генериране на текстове за специализирани области, писане на романи и висококачествени преводи, с дължина на контекстовия прозорец 32k."
},
"Skylark2-pro-4k": {
"description": "Cloud Lark (Skylark) второ поколение модел, версията Skylark2-pro предлага висока прецизност на модела, подходяща за по-сложни текстови генерации, като например генериране на текстове за специализирани области, писане на романи и висококачествени преводи, с дължина на контекстовия прозорец 4k."
},
"Skylark2-pro-character-4k": {
"description": "Cloud Lark (Skylark) второ поколение модел, Skylark2-pro-character предоставя отлични способности за ролеви игри и чат, специализирани в адаптиране на стилове на персонажи, които естествено взаимодействат с потребителите, идеален за изграждане на чат-ботове, виртуални асистенти и онлайн обслужване с висока скорост на отговор."
},
"Skylark2-pro-turbo-8k": {
"description": "Cloud Lark (Skylark) второ поколение модел, Skylark2-pro-turbo-8k предлага по-бърза обработка и по-ниски разходи, с дължина на контекстовия прозорец 8k."
},
"THUDM/chatglm3-6b": {
"description": "ChatGLM3-6B е отворен модел от серията ChatGLM, разработен от Zhizhu AI. Моделът запазва отличителните характеристики на предшествениците си, като плавност на разговора и ниски изисквания за внедряване, докато въвежда нови функции. Той използва по-разнообразни тренировъчни данни, по-пълноценни тренировъчни стъпки и по-разумни тренировъчни стратегии, показвайки отлични резултати сред предварително обучените модели под 10B. ChatGLM3-6B поддържа многократни разговори, извикване на инструменти, изпълнение на код и сложни сценарии на задачи на агенти. Освен модела за разговори, са отворени и основният модел ChatGLM-6B-Base и моделът за дълги текстови разговори ChatGLM3-6B-32K. Моделът е напълно отворен за академични изследвания и позволява безплатна търговска употреба след регистрация."
},
"THUDM/glm-4-9b-chat": {
"description": "GLM-4 9B е отворен код версия, предоставяща оптимизирано изживяване в разговорните приложения."
},
"TeleAI/TeleChat2": {
"description": "TeleChat2 е голям модел, разработен от China Telecom, който предлага генеративен семантичен модел, поддържащ функции като енциклопедични въпроси и отговори, генериране на код и генериране на дълги текстове, предоставяйки услуги за консултации на потребителите, способни да взаимодействат с потребителите, да отговарят на въпроси и да помагат в творчеството, ефективно и удобно помагайки на потребителите да получат информация, знания и вдъхновение. Моделът показва отлични резултати в проблеми с илюзии, генериране на дълги текстове и логическо разбиране."
},
"TeleAI/TeleMM": {
"description": "TeleMM е многомодален голям модел, разработен от China Telecom, способен да обработва текст, изображения и други видове входни данни, поддържащ функции като разбиране на изображения и анализ на графики, предоставяйки услуги за разбиране на потребителите в различни модалности. Моделът може да взаимодейства с потребителите в многомодални сценарии, точно разбирайки входното съдържание, отговаряйки на въпроси, помагайки в творчеството и ефективно предоставяйки многомодална информация и вдъхновение. Моделът показва отлични резултати в задачи с фина перцепция и логическо разсъждение."
},
"Vendor-A/Qwen/Qwen2.5-72B-Instruct": {
"description": "Qwen2.5-72B-Instruct е един от най-новите големи езикови модели, публикувани от Alibaba Cloud. Този 72B модел показва значителни подобрения в областите на кодирането и математиката. Моделът предлага многоезична поддръжка, обхващаща над 29 езика, включително китайски, английски и др. Моделът показва значителни подобрения в следването на инструкции, разбирането на структурирани данни и генерирането на структурирани изходи (особено JSON)."
},
"Yi-34B-Chat": {
"description": "Yi-1.5-34B значително подобрява математическата логика и способностите в кодирането, като запазва отличните общи езикови способности на оригиналната серия модели, чрез инкрементално обучение с 500 милиарда висококачествени токени."
},
"abab5.5-chat": {
"description": "Насочена към производствени сценарии, поддържаща обработка на сложни задачи и ефективно генериране на текст, подходяща за професионални приложения."
},
"abab5.5s-chat": {
"description": "Специално проектирана за диалогови сценарии на китайски, предлагаща висококачествено генериране на диалози на китайски, подходяща за множество приложения."
},
"abab6.5g-chat": {
"description": "Специално проектирана за многоезични диалогови системи, поддържаща висококачествено генериране на диалози на английски и много други езици."
},
"abab6.5s-chat": {
"description": "Подходяща за широк спектър от задачи за обработка на естествен език, включително генериране на текст, диалогови системи и др."
},
"abab6.5t-chat": {
"description": "Оптимизирана за диалогови сценарии на китайски, предлагаща плавно и съответстващо на китайските изразни навици генериране на диалози."
},
"accounts/fireworks/models/deepseek-r1": {
"description": "DeepSeek-R1 е авангарден голям езиков модел, оптимизиран чрез подсилено обучение и данни за студен старт, с отлични способности в разсъжденията, математиката и програмирането."
},
"accounts/fireworks/models/deepseek-v3": {
"description": "Мощен езиков модел Mixture-of-Experts (MoE) от Deepseek, с общ брой параметри 671B, активиращи 37B параметри на всеки токен."
},
"accounts/fireworks/models/llama-v3-70b-instruct": {
"description": "Llama 3 70B модел за инструкции, специално оптимизиран за многоезични диалози и разбиране на естествен език, с производителност, превъзхождаща повечето конкурентни модели."
},
"accounts/fireworks/models/llama-v3-8b-instruct": {
"description": "Llama 3 8B модел за инструкции, оптимизиран за диалози и многоезични задачи, с изключителна производителност и ефективност."
},
"accounts/fireworks/models/llama-v3-8b-instruct-hf": {
"description": "Llama 3 8B модел за инструкции (HF версия), с резултати, съвпадащи с официалната реализация, предлагаща висока последователност и съвместимост между платформите."
},
"accounts/fireworks/models/llama-v3p1-405b-instruct": {
"description": "Llama 3.1 405B модел за инструкции, с огромен брой параметри, подходящ за сложни задачи и следване на инструкции в сценарии с високо натоварване."
},
"accounts/fireworks/models/llama-v3p1-70b-instruct": {
"description": "Llama 3.1 70B модел за инструкции, предлагащ изключителни способности за разбиране и генериране на естествен език, идеален за диалогови и аналитични задачи."
},
"accounts/fireworks/models/llama-v3p1-8b-instruct": {
"description": "Llama 3.1 8B модел за инструкции, оптимизиран за многоезични диалози, способен да надмине повечето отворени и затворени модели на общи индустриални стандарти."
},
"accounts/fireworks/models/llama-v3p2-11b-vision-instruct": {
"description": "Моделът за разсъждение по изображения с 11B параметри на Meta е оптимизиран за визуално разпознаване, разсъждение по изображения, описание на изображения и отговаряне на общи въпроси относно изображения. Моделът може да разбира визуални данни, като графики и таблици, и свързва визуалните данни с текстовите описания на детайлите на изображенията."
},
"accounts/fireworks/models/llama-v3p2-3b-instruct": {
"description": "Моделът Llama 3.2 3B е лека многоезична разработка от Meta. Този модел е проектиран да подобри ефективността, предоставяйки значителни подобрения в забавянето и разходите в сравнение с по-големи модели. Примерни случаи на ползване включват заявки, пренаписване на подканвания и подпомагане на писането."
},
"accounts/fireworks/models/llama-v3p2-90b-vision-instruct": {
"description": "Моделът за разсъждение по изображения с 90B параметри на Meta е оптимизиран за визуално разпознаване, разсъждение по изображения, описание на изображения и отговаряне на общи въпроси относно изображения. Моделът може да разбира визуални данни, като графики и таблици, и свързва визуалните данни с текстовите описания на детайлите на изображенията."
},
"accounts/fireworks/models/llama-v3p3-70b-instruct": {
"description": "Llama 3.3 70B Instruct е актуализирана версия на Llama 3.1 70B от декември. Този модел е подобрен на базата на Llama 3.1 70B (пуснат през юли 2024 г.), с подобрени възможности за извикване на инструменти, поддръжка на многоезичен текст, математика и програмиране. Моделът постига водещи в индустрията резултати в области като разсъждение, математика и следване на инструкции, и предлага производителност, подобна на 3.1 405B, с значителни предимства в скоростта и разходите."
},
"accounts/fireworks/models/mistral-small-24b-instruct-2501": {
"description": "Модел с 24B параметри, предлагащ водещи в индустрията способности, сравними с по-големите модели."
},
"accounts/fireworks/models/mixtral-8x22b-instruct": {
"description": "Mixtral MoE 8x22B модел за инструкции, с голям брой параметри и архитектура с множество експерти, осигуряваща всестранна поддръжка за ефективна обработка на сложни задачи."
},
"accounts/fireworks/models/mixtral-8x7b-instruct": {
"description": "Mixtral MoE 8x7B модел за инструкции, архитектура с множество експерти, предлагаща ефективно следване и изпълнение на инструкции."
},
"accounts/fireworks/models/mythomax-l2-13b": {
"description": "MythoMax L2 13B модел, комбиниращ новаторски технологии за интеграция, специализиран в разказване на истории и ролеви игри."
},
"accounts/fireworks/models/phi-3-vision-128k-instruct": {
"description": "Phi 3 Vision модел за инструкции, лек мултимодален модел, способен да обработва сложна визуална и текстова информация, с високи способности за разсъждение."
},
"accounts/fireworks/models/qwen-qwq-32b-preview": {
"description": "QwQ моделът е експериментален изследователски модел, разработен от екипа на Qwen, който се фокусира върху подобряване на AI разсъдъчните способности."
},
"accounts/fireworks/models/qwen2-vl-72b-instruct": {
"description": "72B версия на модела Qwen-VL е последната итерация на Alibaba, представляваща иновации от последната година."
},
"accounts/fireworks/models/qwen2p5-72b-instruct": {
"description": "Qwen2.5 е серия от езикови модели, разработени от екипа на Alibaba Cloud Qwen, които съдържат само декодери. Тези модели предлагат различни размери, включително 0.5B, 1.5B, 3B, 7B, 14B, 32B и 72B, и разполагат с базови (base) и инструкти (instruct) варианти."
},
"accounts/fireworks/models/qwen2p5-coder-32b-instruct": {
"description": "Qwen2.5 Coder 32B Instruct е най-новата версия на серията големи езикови модели, специфични за код, публикувана от Alibaba Cloud. Моделът значително подобрява способностите за генериране на код, разсъждения и корекции, след като е обучен с 55 трилиона токена на базата на Qwen2.5. Той не само подобрява кодовите умения, но и запазва предимствата в математиката и общите способности. Моделът предоставя по-пълна основа за практическите приложения като кодови интелигентни агенти."
},
"accounts/yi-01-ai/models/yi-large": {
"description": "Yi-Large модел, предлагащ изключителни способности за многоезична обработка, подходящ за различни задачи по генериране и разбиране на език."
},
"ai21-jamba-1.5-large": {
"description": "Многоезичен модел с 398B параметри (94B активни), предлагащ контекстен прозорец с дължина 256K, извикване на функции, структурирани изходи и генериране на основа."
},
"ai21-jamba-1.5-mini": {
"description": "Многоезичен модел с 52B параметри (12B активни), предлагащ контекстен прозорец с дължина 256K, извикване на функции, структурирани изходи и генериране на основа."
},
"anthropic.claude-3-5-sonnet-20240620-v1:0": {
"description": "Claude 3.5 Sonnet повишава индустриалните стандарти, с производителност, надвишаваща конкурентните модели и Claude 3 Opus, с отлични резултати в широки оценки, като същевременно предлага скорост и разходи на нашите модели от средно ниво."
},
"anthropic.claude-3-5-sonnet-20241022-v2:0": {
"description": "Claude 3.5 Sonnet повишава индустриалните стандарти, с производителност, надминаваща конкурентните модели и Claude 3 Opus, показвайки отлични резултати в широки оценки, като същевременно предлага скорост и разходи, характерни за нашите модели