@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

github.com/lobehub/lobe-chat

lobehub/lobe-chat

381 lines • 351 kB

JSON

{ "01-ai/yi-1.5-34b-chat": { "description": "Cero Uno, el último modelo de ajuste fino de código abierto, cuenta con 34 mil millones de parámetros, con ajuste fino que admite múltiples escenarios de conversación y datos de entrenamiento de alta calidad, alineados con las preferencias humanas." }, "01-ai/yi-1.5-9b-chat": { "description": "Cero Uno, el último modelo de ajuste fino de código abierto, cuenta con 9 mil millones de parámetros, con ajuste fino que admite múltiples escenarios de conversación y datos de entrenamiento de alta calidad, alineados con las preferencias humanas." }, "360/deepseek-r1": { "description": "【Versión desplegada de 360】DeepSeek-R1 utiliza técnicas de aprendizaje por refuerzo a gran escala en la fase de post-entrenamiento, mejorando enormemente la capacidad de inferencia del modelo con muy pocos datos etiquetados. En tareas de matemáticas, código y razonamiento en lenguaje natural, su rendimiento es comparable al de la versión oficial de OpenAI o1." }, "360gpt-pro": { "description": "360GPT Pro, como un miembro importante de la serie de modelos de IA de 360, satisface diversas aplicaciones de procesamiento de lenguaje natural con su eficiente capacidad de manejo de textos, soportando la comprensión de textos largos y funciones de diálogo en múltiples turnos." }, "360gpt-pro-trans": { "description": "Modelo especializado en traducción, optimizado con un ajuste fino profundo, con resultados de traducción líderes." }, "360gpt-turbo": { "description": "360GPT Turbo ofrece potentes capacidades de cálculo y diálogo, con una excelente comprensión semántica y eficiencia de generación, siendo la solución ideal para empresas y desarrolladores como asistente inteligente." }, "360gpt-turbo-responsibility-8k": { "description": "360GPT Turbo Responsibility 8K enfatiza la seguridad semántica y la responsabilidad, diseñado específicamente para aplicaciones que requieren altos estándares de seguridad de contenido, asegurando la precisión y robustez de la experiencia del usuario." }, "360gpt2-o1": { "description": "360gpt2-o1 utiliza la búsqueda en árbol para construir cadenas de pensamiento e introduce un mecanismo de reflexión, entrenado mediante aprendizaje por refuerzo, lo que le permite tener la capacidad de auto-reflexión y corrección de errores." }, "360gpt2-pro": { "description": "360GPT2 Pro es un modelo avanzado de procesamiento de lenguaje natural lanzado por la empresa 360, con una excelente capacidad de generación y comprensión de textos, destacándose especialmente en la generación y creación de contenido, capaz de manejar tareas complejas de conversión de lenguaje y representación de roles." }, "360zhinao2-o1": { "description": "360zhinao2-o1 utiliza búsqueda en árbol para construir cadenas de pensamiento e introduce un mecanismo de reflexión, entrenando el modelo con aprendizaje por refuerzo, lo que le confiere la capacidad de auto-reflexión y corrección de errores." }, "4.0Ultra": { "description": "Spark4.0 Ultra es la versión más poderosa de la serie de modelos grandes de Xinghuo, mejorando la comprensión y capacidad de resumen de contenido textual al actualizar la conexión de búsqueda en línea. Es una solución integral para mejorar la productividad en la oficina y responder con precisión a las necesidades, siendo un producto inteligente líder en la industria." }, "AnimeSharp": { "description": "AnimeSharp (también conocido como “4x‑AnimeSharp”) es un modelo de superresolución de código abierto desarrollado por Kim2091 basado en la arquitectura ESRGAN, enfocado en la ampliación y el afilado de imágenes con estilo anime. Fue renombrado en febrero de 2022 desde “4x-TextSharpV1”, originalmente también aplicable a imágenes de texto, pero con un rendimiento significativamente optimizado para contenido anime." }, "Baichuan2-Turbo": { "description": "Utiliza tecnología de búsqueda mejorada para lograr un enlace completo entre el gran modelo y el conocimiento del dominio, así como el conocimiento de toda la red. Soporta la carga de documentos en PDF, Word y otros formatos, así como la entrada de URL, proporcionando información oportuna y completa, con resultados precisos y profesionales." }, "Baichuan3-Turbo": { "description": "Optimizado para escenarios de alta frecuencia empresarial, con mejoras significativas en el rendimiento y una excelente relación calidad-precio. En comparación con el modelo Baichuan2, la creación de contenido mejora un 20%, las preguntas y respuestas de conocimiento un 17%, y la capacidad de interpretación de roles un 40%. En general, su rendimiento es superior al de GPT-3.5." }, "Baichuan3-Turbo-128k": { "description": "Con una ventana de contexto ultra larga de 128K, optimizado para escenarios de alta frecuencia empresarial, con mejoras significativas en el rendimiento y una excelente relación calidad-precio. En comparación con el modelo Baichuan2, la creación de contenido mejora un 20%, las preguntas y respuestas de conocimiento un 17%, y la capacidad de interpretación de roles un 40%. En general, su rendimiento es superior al de GPT-3.5." }, "Baichuan4": { "description": "El modelo tiene la mejor capacidad en el país, superando a los modelos principales extranjeros en tareas en chino como enciclopedias, textos largos y creación generativa. También cuenta con capacidades multimodales líderes en la industria, destacándose en múltiples evaluaciones de referencia autorizadas." }, "Baichuan4-Air": { "description": "El modelo más potente del país, superando a los modelos principales extranjeros en tareas en chino como enciclopedias, textos largos y creación generativa. También cuenta con capacidades multimodales líderes en la industria, destacándose en múltiples evaluaciones de referencia." }, "Baichuan4-Turbo": { "description": "El modelo más potente del país, superando a los modelos principales extranjeros en tareas en chino como enciclopedias, textos largos y creación generativa. También cuenta con capacidades multimodales líderes en la industria, destacándose en múltiples evaluaciones de referencia." }, "ByteDance-Seed/Seed-OSS-36B-Instruct": { "description": "Seed-OSS es una serie de modelos de lenguaje grandes de código abierto desarrollados por el equipo Seed de ByteDance, diseñados específicamente para un potente manejo de contextos largos, razonamiento, agentes inteligentes y capacidades generales. Dentro de esta serie, Seed-OSS-36B-Instruct es un modelo afinado por instrucciones con 36 mil millones de parámetros, que soporta de forma nativa contextos ultra largos, permitiendo procesar grandes volúmenes de documentos o complejas bases de código de una sola vez. Este modelo está especialmente optimizado para tareas de razonamiento, generación de código y agentes (como el uso de herramientas), manteniendo un equilibrio y una capacidad general sobresaliente. Una característica destacada de este modelo es la función \"Presupuesto de Pensamiento\" (Thinking Budget), que permite a los usuarios ajustar de manera flexible la longitud del razonamiento según sus necesidades, mejorando así la eficiencia en aplicaciones prácticas." }, "DeepSeek-R1": { "description": "LLM eficiente de última generación, experto en razonamiento, matemáticas y programación." }, "DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek R1, el modelo más grande e inteligente del conjunto DeepSeek, ha sido destilado en la arquitectura Llama 70B. Basado en pruebas de referencia y evaluaciones humanas, este modelo es más inteligente que el Llama 70B original, destacándose especialmente en tareas que requieren precisión matemática y factual." }, "DeepSeek-R1-Distill-Qwen-1.5B": { "description": "El modelo de destilación DeepSeek-R1 basado en Qwen2.5-Math-1.5B optimiza el rendimiento de inferencia mediante aprendizaje por refuerzo y datos de arranque en frío, actualizando el estándar de múltiples tareas en modelos de código abierto." }, "DeepSeek-R1-Distill-Qwen-14B": { "description": "El modelo de destilación DeepSeek-R1 basado en Qwen2.5-14B optimiza el rendimiento de inferencia mediante aprendizaje por refuerzo y datos de arranque en frío, actualizando el estándar de múltiples tareas en modelos de código abierto." }, "DeepSeek-R1-Distill-Qwen-32B": { "description": "La serie DeepSeek-R1 optimiza el rendimiento de inferencia mediante aprendizaje por refuerzo y datos de arranque en frío, actualizando el estándar de múltiples tareas en modelos de código abierto, superando el nivel de OpenAI-o1-mini." }, "DeepSeek-R1-Distill-Qwen-7B": { "description": "El modelo de destilación DeepSeek-R1 basado en Qwen2.5-Math-7B optimiza el rendimiento de inferencia mediante aprendizaje por refuerzo y datos de arranque en frío, actualizando el estándar de múltiples tareas en modelos de código abierto." }, "DeepSeek-V3": { "description": "DeepSeek-V3 es un modelo MoE desarrollado internamente por la empresa DeepSeek. Los resultados de DeepSeek-V3 en múltiples evaluaciones superan a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B, y su rendimiento es comparable al de los modelos cerrados de primer nivel mundial como GPT-4o y Claude-3.5-Sonnet." }, "DeepSeek-V3-1": { "description": "DeepSeek V3.1: modelo de inferencia de próxima generación, mejora la capacidad de razonamiento complejo y pensamiento en cadena, adecuado para tareas que requieren análisis profundo." }, "DeepSeek-V3-Fast": { "description": "Proveedor del modelo: plataforma sophnet. DeepSeek V3 Fast es la versión de alta velocidad y alto TPS de DeepSeek V3 0324, completamente sin cuantificación, con mayor capacidad en código y matemáticas, ¡y respuesta más rápida!" }, "DeepSeek-V3.1": { "description": "DeepSeek-V3.1 en modo no reflexivo; DeepSeek-V3.1 es un nuevo modelo híbrido de razonamiento lanzado por DeepSeek, que soporta dos modos de razonamiento: reflexivo y no reflexivo, con una eficiencia de pensamiento superior a DeepSeek-R1-0528. Tras una optimización post-entrenamiento, el uso de herramientas por agentes y el desempeño en tareas de agentes inteligentes han mejorado significativamente." }, "DeepSeek-V3.1-Fast": { "description": "DeepSeek V3.1 Fast es la versión de alta TPS y alta velocidad del DeepSeek V3.1. Modo híbrido de pensamiento: mediante la modificación de la plantilla de chat, un solo modelo puede soportar simultáneamente modos reflexivo y no reflexivo. Llamadas a herramientas más inteligentes: gracias a la optimización post-entrenamiento, el modelo mejora notablemente su desempeño en el uso de herramientas y tareas de agentes." }, "DeepSeek-V3.1-Think": { "description": "DeepSeek-V3.1 en modo reflexivo; DeepSeek-V3.1 es un nuevo modelo híbrido de razonamiento lanzado por DeepSeek, que soporta dos modos de razonamiento: reflexivo y no reflexivo, con una eficiencia de pensamiento superior a DeepSeek-R1-0528. Tras una optimización post-entrenamiento, el uso de herramientas por agentes y el desempeño en tareas de agentes inteligentes han mejorado significativamente." }, "DeepSeek-V3.2-Exp": { "description": "DeepSeek V3.2 es el último modelo general lanzado por DeepSeek, que soporta una arquitectura de inferencia híbrida y cuenta con capacidades de agente más potentes." }, "DeepSeek-V3.2-Exp-Think": { "description": "Modo de pensamiento de DeepSeek V3.2. Antes de proporcionar la respuesta final, el modelo genera una cadena de razonamiento para mejorar la precisión de la respuesta." }, "Doubao-lite-128k": { "description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 128k." }, "Doubao-lite-32k": { "description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 32k." }, "Doubao-lite-4k": { "description": "Doubao-lite ofrece una velocidad de respuesta excepcional y una mejor relación calidad-precio, proporcionando opciones más flexibles para diferentes escenarios de los clientes. Soporta inferencia y ajuste fino con una ventana de contexto de 4k." }, "Doubao-pro-128k": { "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 128k." }, "Doubao-pro-32k": { "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 32k." }, "Doubao-pro-4k": { "description": "El modelo principal con mejor rendimiento, adecuado para tareas complejas, con excelentes resultados en preguntas de referencia, resúmenes, creación, clasificación de texto, juegos de rol y otros escenarios. Soporta inferencia y ajuste fino con una ventana de contexto de 4k." }, "DreamO": { "description": "DreamO es un modelo de generación de imágenes personalizado de código abierto desarrollado conjuntamente por ByteDance y la Universidad de Pekín, diseñado para soportar generación de imágenes multitarea mediante una arquitectura unificada. Utiliza un método eficiente de modelado combinado para generar imágenes altamente coherentes y personalizadas según múltiples condiciones especificadas por el usuario, como identidad, sujeto, estilo y fondo." }, "ERNIE-3.5-128K": { "description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas." }, "ERNIE-3.5-8K": { "description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas." }, "ERNIE-3.5-8K-Preview": { "description": "Modelo de lenguaje a gran escala de primera línea desarrollado por Baidu, que abarca una vasta cantidad de corpus en chino y en inglés, con potentes capacidades generales que pueden satisfacer la mayoría de los requisitos de preguntas y respuestas en diálogos, generación de contenido y aplicaciones de plugins; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas." }, "ERNIE-4.0-8K-Latest": { "description": "Modelo de lenguaje a gran escala ultra avanzado desarrollado por Baidu, que ha logrado una actualización completa de las capacidades del modelo en comparación con ERNIE 3.5, siendo ampliamente aplicable a escenarios de tareas complejas en diversos campos; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas." }, "ERNIE-4.0-8K-Preview": { "description": "Modelo de lenguaje a gran escala ultra avanzado desarrollado por Baidu, que ha logrado una actualización completa de las capacidades del modelo en comparación con ERNIE 3.5, siendo ampliamente aplicable a escenarios de tareas complejas en diversos campos; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas." }, "ERNIE-4.0-Turbo-8K-Latest": { "description": "Modelo de lenguaje a gran escala desarrollado por Baidu, con un rendimiento general excepcional, ampliamente aplicable a escenas complejas en diversos campos; soporta la conexión automática al complemento de búsqueda de Baidu, garantizando la actualidad de la información de las preguntas y respuestas. En comparación con ERNIE 4.0, tiene un rendimiento superior." }, "ERNIE-4.0-Turbo-8K-Preview": { "description": "Modelo de lenguaje a gran escala ultra avanzado desarrollado por Baidu, con un rendimiento excepcional en efectos generales, siendo ampliamente aplicable a escenarios de tareas complejas en diversos campos; soporta la integración automática con el plugin de búsqueda de Baidu, garantizando la actualidad de la información en las respuestas. En comparación con ERNIE 4.0, ofrece un rendimiento superior." }, "ERNIE-Character-8K": { "description": "Modelo de lenguaje vertical desarrollado por Baidu, adecuado para aplicaciones como NPC en juegos, diálogos de servicio al cliente, y juegos de rol conversacionales, con un estilo de personaje más distintivo y coherente, y una mayor capacidad de seguir instrucciones, además de un rendimiento de inferencia superior." }, "ERNIE-Lite-Pro-128K": { "description": "Modelo de lenguaje ligero desarrollado por Baidu, que combina un excelente rendimiento del modelo con una alta eficiencia de inferencia, superando a ERNIE Lite, adecuado para su uso en tarjetas de aceleración de IA de bajo consumo." }, "ERNIE-Speed-128K": { "description": "Modelo de lenguaje de alto rendimiento desarrollado por Baidu, lanzado en 2024, con capacidades generales excepcionales, adecuado como modelo base para ajustes finos, manejando mejor problemas en escenarios específicos, y con un rendimiento de inferencia excelente." }, "ERNIE-Speed-Pro-128K": { "description": "Modelo de lenguaje de alto rendimiento desarrollado por Baidu, lanzado en 2024, con capacidades generales excepcionales, superando a ERNIE Speed, adecuado como modelo base para ajustes finos, manejando mejor problemas en escenarios específicos, y con un rendimiento de inferencia excelente." }, "FLUX-1.1-pro": { "description": "FLUX.1.1 Pro" }, "FLUX.1-Kontext-dev": { "description": "FLUX.1-Kontext-dev es un modelo multimodal de generación y edición de imágenes desarrollado por Black Forest Labs, basado en la arquitectura Rectified Flow Transformer, con una escala de 12 mil millones de parámetros. Se especializa en generar, reconstruir, mejorar o editar imágenes bajo condiciones contextuales dadas. Combina las ventajas de generación controlada de modelos de difusión con la capacidad de modelado contextual de Transformers, soportando salidas de alta calidad y aplicándose ampliamente en tareas como restauración de imágenes, completado y reconstrucción de escenas visuales." }, "FLUX.1-Kontext-pro": { "description": "FLUX.1 Kontext [pro]" }, "FLUX.1-dev": { "description": "FLUX.1-dev es un modelo multimodal de lenguaje (MLLM) de código abierto desarrollado por Black Forest Labs, optimizado para tareas de texto e imagen, integrando capacidades de comprensión y generación tanto visual como textual. Está basado en avanzados modelos de lenguaje grande (como Mistral-7B) y mediante un codificador visual cuidadosamente diseñado y un ajuste fino por etapas con instrucciones, logra procesamiento colaborativo de texto e imagen y razonamiento para tareas complejas." }, "Gryphe/MythoMax-L2-13b": { "description": "MythoMax-L2 (13B) es un modelo innovador, adecuado para aplicaciones en múltiples campos y tareas complejas." }, "HelloMeme": { "description": "HelloMeme es una herramienta de IA que puede generar automáticamente memes, GIFs o videos cortos basados en las imágenes o acciones que proporciones. No requiere conocimientos de dibujo o programación; solo necesitas preparar una imagen de referencia y la herramienta te ayudará a crear contenido atractivo, divertido y con estilo coherente." }, "HiDream-I1-Full": { "description": "HiDream-E1-Full es un modelo de edición de imágenes multimodal de código abierto lanzado por HiDream.ai, basado en la avanzada arquitectura Diffusion Transformer y potenciado con una fuerte capacidad de comprensión del lenguaje (incorporando LLaMA 3.1-8B-Instruct). Soporta generación de imágenes, transferencia de estilo, edición local y redibujo de contenido mediante instrucciones en lenguaje natural, con excelentes habilidades de comprensión y ejecución texto-imagen." }, "HunyuanDiT-v1.2-Diffusers-Distilled": { "description": "hunyuandit-v1.2-distilled es un modelo ligero de generación de imágenes a partir de texto, optimizado mediante destilación para generar imágenes de alta calidad rápidamente, especialmente adecuado para entornos con recursos limitados y tareas de generación en tiempo real." }, "InstantCharacter": { "description": "InstantCharacter es un modelo de generación de personajes personalizados sin necesidad de ajuste fino, lanzado por el equipo de IA de Tencent en 2025, diseñado para lograr generación consistente y de alta fidelidad en múltiples escenarios. El modelo permite modelar un personaje basándose únicamente en una imagen de referencia y transferirlo de forma flexible a diversos estilos, acciones y fondos." }, "InternVL2-8B": { "description": "InternVL2-8B es un potente modelo de lenguaje visual, que admite el procesamiento multimodal de imágenes y texto, capaz de identificar con precisión el contenido de las imágenes y generar descripciones o respuestas relacionadas." }, "InternVL2.5-26B": { "description": "InternVL2.5-26B es un potente modelo de lenguaje visual, que admite el procesamiento multimodal de imágenes y texto, capaz de identificar con precisión el contenido de las imágenes y generar descripciones o respuestas relacionadas." }, "Kolors": { "description": "Kolors es un modelo de generación de imágenes a partir de texto desarrollado por el equipo Kolors de Kuaishou. Entrenado con miles de millones de parámetros, destaca en calidad visual, comprensión semántica del chino y renderizado de texto." }, "Kwai-Kolors/Kolors": { "description": "Kolors es un modelo de generación de imágenes a partir de texto a gran escala basado en difusión latente, desarrollado por el equipo Kolors de Kuaishou. Entrenado con miles de millones de pares texto-imagen, muestra ventajas significativas en calidad visual, precisión semántica compleja y renderizado de caracteres en chino e inglés. Soporta entradas en ambos idiomas y sobresale en la comprensión y generación de contenido específico en chino." }, "Llama-3.2-11B-Vision-Instruct": { "description": "Capacidad de razonamiento de imágenes excepcional en imágenes de alta resolución, adecuada para aplicaciones de comprensión visual." }, "Llama-3.2-90B-Vision-Instruct\t": { "description": "Capacidad avanzada de razonamiento de imágenes para aplicaciones de agentes de comprensión visual." }, "Meta-Llama-3-3-70B-Instruct": { "description": "Llama 3.3 70B: modelo Transformer de gran versatilidad, adecuado para tareas de diálogo y generación." }, "Meta-Llama-3.1-405B-Instruct": { "description": "Modelo de texto ajustado por instrucciones de Llama 3.1, optimizado para casos de uso de diálogos multilingües, que se destaca en muchos modelos de chat de código abierto y cerrados en benchmarks de la industria comunes." }, "Meta-Llama-3.1-70B-Instruct": { "description": "Modelo de texto ajustado por instrucciones de Llama 3.1, optimizado para casos de uso de diálogos multilingües, que se destaca en muchos modelos de chat de código abierto y cerrados en benchmarks de la industria comunes." }, "Meta-Llama-3.1-8B-Instruct": { "description": "Modelo de texto ajustado por instrucciones de Llama 3.1, optimizado para casos de uso de diálogos multilingües, que se destaca en muchos modelos de chat de código abierto y cerrados en benchmarks de la industria comunes." }, "Meta-Llama-3.2-1B-Instruct": { "description": "Modelo de lenguaje pequeño de última generación, con comprensión del lenguaje, excelente capacidad de razonamiento y generación de texto." }, "Meta-Llama-3.2-3B-Instruct": { "description": "Modelo de lenguaje pequeño de última generación, con comprensión del lenguaje, excelente capacidad de razonamiento y generación de texto." }, "Meta-Llama-3.3-70B-Instruct": { "description": "Llama 3.3 es el modelo de lenguaje de código abierto multilingüe más avanzado de la serie Llama, que ofrece un rendimiento comparable al modelo de 405B a un costo extremadamente bajo. Basado en la estructura Transformer, y mejorado en utilidad y seguridad a través de ajuste fino supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF). Su versión ajustada por instrucciones está optimizada para diálogos multilingües, superando a muchos modelos de chat de código abierto y cerrados en múltiples benchmarks de la industria. La fecha límite de conocimiento es diciembre de 2023." }, "Meta-Llama-4-Maverick-17B-128E-Instruct-FP8": { "description": "Llama 4 Maverick: modelo a gran escala basado en Mixture-of-Experts, que ofrece una estrategia eficiente de activación de expertos para un rendimiento sobresaliente en inferencia." }, "MiniMax-M1": { "description": "Modelo de inferencia de desarrollo propio completamente nuevo. Líder mundial: 80K cadenas de pensamiento x 1M de entradas, con un rendimiento comparable a los modelos más avanzados del extranjero." }, "MiniMax-M2": { "description": "Diseñado específicamente para una codificación eficiente y flujos de trabajo con agentes." }, "MiniMax-Text-01": { "description": "En la serie de modelos MiniMax-01, hemos realizado una innovación audaz: la implementación a gran escala del mecanismo de atención lineal, donde la arquitectura Transformer tradicional ya no es la única opción. Este modelo tiene una cantidad de parámetros de hasta 456 mil millones, con 45.9 mil millones por activación. El rendimiento general del modelo es comparable a los mejores modelos internacionales, y puede manejar de manera eficiente contextos de hasta 4 millones de tokens, que es 32 veces más que GPT-4o y 20 veces más que Claude-3.5-Sonnet." }, "MiniMaxAI/MiniMax-M1-80k": { "description": "MiniMax-M1 es un modelo de inferencia de atención mixta a gran escala con pesos de código abierto, que cuenta con 456 mil millones de parámetros, activando aproximadamente 45.9 mil millones de parámetros por token. El modelo soporta de forma nativa contextos ultra largos de hasta 1 millón de tokens y, gracias a su mecanismo de atención relámpago, reduce en un 75 % las operaciones de punto flotante en tareas de generación de 100 mil tokens en comparación con DeepSeek R1. Además, MiniMax-M1 utiliza una arquitectura MoE (Mezcla de Expertos), combinando el algoritmo CISPO y un diseño de atención mixta para un entrenamiento eficiente mediante aprendizaje reforzado, logrando un rendimiento líder en la industria en inferencia con entradas largas y escenarios reales de ingeniería de software." }, "Moonshot-Kimi-K2-Instruct": { "description": "Con un total de 1 billón de parámetros y 32 mil millones de parámetros activados, este modelo no reflexivo alcanza niveles de vanguardia en conocimiento avanzado, matemáticas y codificación, destacando en tareas generales de agentes. Optimizado para tareas de agentes, no solo responde preguntas sino que también puede actuar. Ideal para conversaciones improvisadas, chat general y experiencias de agentes, es un modelo de nivel reflexivo que no requiere largos tiempos de pensamiento." }, "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": { "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B) es un modelo de instrucciones de alta precisión, adecuado para cálculos complejos." }, "OmniConsistency": { "description": "OmniConsistency mejora la consistencia de estilo y la capacidad de generalización en tareas de imagen a imagen mediante la introducción de grandes Diffusion Transformers (DiTs) y datos estilizados emparejados, evitando la degradación del estilo." }, "Phi-3-medium-128k-instruct": { "description": "El mismo modelo Phi-3-medium, pero con un tamaño de contexto más grande para RAG o indicaciones de pocos disparos." }, "Phi-3-medium-4k-instruct": { "description": "Un modelo de 14B parámetros, que demuestra mejor calidad que Phi-3-mini, con un enfoque en datos densos de razonamiento de alta calidad." }, "Phi-3-mini-128k-instruct": { "description": "El mismo modelo Phi-3-mini, pero con un tamaño de contexto más grande para RAG o indicaciones de pocos disparos." }, "Phi-3-mini-4k-instruct": { "description": "El miembro más pequeño de la familia Phi-3. Optimizado tanto para calidad como para baja latencia." }, "Phi-3-small-128k-instruct": { "description": "El mismo modelo Phi-3-small, pero con un tamaño de contexto más grande para RAG o indicaciones de pocos disparos." }, "Phi-3-small-8k-instruct": { "description": "Un modelo de 7B parámetros, que demuestra mejor calidad que Phi-3-mini, con un enfoque en datos densos de razonamiento de alta calidad." }, "Phi-3.5-mini-instruct": { "description": "Versión actualizada del modelo Phi-3-mini." }, "Phi-3.5-vision-instrust": { "description": "Versión actualizada del modelo Phi-3-vision." }, "Pro/Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-7B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 7B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas. Qwen2-7B-Instruct ha mostrado mejoras significativas en múltiples evaluaciones en comparación con Qwen1.5-7B-Chat." }, "Pro/Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instruct es uno de los últimos modelos de lenguaje a gran escala lanzados por Alibaba Cloud. Este modelo de 7B ha mejorado significativamente en áreas como codificación y matemáticas. También ofrece soporte multilingüe, abarcando más de 29 idiomas, incluidos chino e inglés. El modelo ha mostrado mejoras significativas en el seguimiento de instrucciones, comprensión de datos estructurados y generación de salidas estructuradas (especialmente JSON)." }, "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código." }, "Pro/Qwen/Qwen2.5-VL-7B-Instruct": { "description": "Qwen2.5-VL es el nuevo miembro de la serie Qwen, con potentes capacidades de comprensión visual. Puede analizar texto, gráficos y diseños en imágenes, comprender videos largos y capturar eventos. Es capaz de razonar, manipular herramientas, admitir el posicionamiento de objetos en múltiples formatos y generar salidas estructuradas. Optimiza la resolución dinámica y la tasa de cuadros para la comprensión de videos, además de mejorar la eficiencia del codificador visual." }, "Pro/THUDM/GLM-4.1V-9B-Thinking": { "description": "GLM-4.1V-9B-Thinking es un modelo de lenguaje visual (VLM) de código abierto lanzado conjuntamente por Zhipu AI y el laboratorio KEG de la Universidad de Tsinghua, diseñado específicamente para manejar tareas cognitivas multimodales complejas. Este modelo se basa en el modelo base GLM-4-9B-0414 y mejora significativamente su capacidad y estabilidad de razonamiento multimodal mediante la introducción del mecanismo de razonamiento \"Cadena de Pensamiento\" (Chain-of-Thought) y la adopción de estrategias de aprendizaje reforzado." }, "Pro/THUDM/glm-4-9b-chat": { "description": "GLM-4-9B-Chat es la versión de código abierto de la serie de modelos preentrenados GLM-4 lanzada por Zhipu AI. Este modelo destaca en semántica, matemáticas, razonamiento, código y conocimiento. Además de soportar diálogos de múltiples turnos, GLM-4-9B-Chat también cuenta con funciones avanzadas como navegación web, ejecución de código, llamadas a herramientas personalizadas (Function Call) y razonamiento de textos largos. El modelo admite 26 idiomas, incluidos chino, inglés, japonés, coreano y alemán. En múltiples pruebas de referencia, GLM-4-9B-Chat ha demostrado un rendimiento excepcional, como AlignBench-v2, MT-Bench, MMLU y C-Eval. Este modelo admite una longitud de contexto máxima de 128K, adecuado para investigación académica y aplicaciones comerciales." }, "Pro/deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1 es un modelo de inferencia impulsado por aprendizaje por refuerzo (RL) que aborda problemas de repetitividad y legibilidad en el modelo. Antes del RL, DeepSeek-R1 introdujo datos de arranque en frío, optimizando aún más el rendimiento de inferencia. Se desempeña de manera comparable a OpenAI-o1 en tareas matemáticas, de código e inferencia, y mejora el rendimiento general a través de métodos de entrenamiento cuidadosamente diseñados." }, "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7B es un modelo obtenido mediante destilación de conocimiento basado en Qwen2.5-Math-7B. Este modelo se ha ajustado utilizando 800.000 muestras seleccionadas generadas por DeepSeek-R1, demostrando una excelente capacidad de razonamiento. Ha mostrado un rendimiento sobresaliente en múltiples pruebas de referencia, alcanzando un 92,8% de precisión en MATH-500, un 55,5% de tasa de aprobación en AIME 2024 y una puntuación de 1189 en CodeForces, lo que demuestra una fuerte capacidad matemática y de programación para un modelo de escala 7B." }, "Pro/deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3 es un modelo de lenguaje de expertos mixtos (MoE) con 671 mil millones de parámetros, que utiliza atención potencial de múltiples cabezas (MLA) y la arquitectura DeepSeekMoE, combinando estrategias de balanceo de carga sin pérdidas auxiliares para optimizar la eficiencia de inferencia y entrenamiento. Preentrenado en 14.8 billones de tokens de alta calidad, y ajustado mediante supervisión y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y se acerca a los modelos cerrados líderes." }, "Pro/deepseek-ai/DeepSeek-V3.1-Terminus": { "description": "DeepSeek-V3.1-Terminus es una versión actualizada del modelo V3.1 lanzado por DeepSeek, posicionada como un modelo de lenguaje grande con agentes híbridos. Esta actualización mantiene las capacidades originales del modelo, enfocándose en corregir problemas reportados por los usuarios y mejorar la estabilidad. Mejora significativamente la coherencia del lenguaje, reduciendo la mezcla de chino e inglés y la aparición de caracteres anómalos. El modelo integra el “Modo de pensamiento” y el “Modo sin pensamiento”, permitiendo a los usuarios cambiar flexiblemente mediante plantillas de chat para adaptarse a diferentes tareas. Como optimización importante, V3.1-Terminus mejora el rendimiento del agente de código y del agente de búsqueda, haciéndolos más confiables en la invocación de herramientas y en la ejecución de tareas complejas de múltiples pasos." }, "Pro/deepseek-ai/DeepSeek-V3.2-Exp": { "description": "DeepSeek-V3.2-Exp es una versión experimental lanzada por DeepSeek como un paso intermedio hacia una arquitectura de próxima generación. Basado en V3.1-Terminus, introduce el mecanismo de Atención Dispersa de DeepSeek (DeepSeek Sparse Attention, DSA) para mejorar la eficiencia en el entrenamiento e inferencia con contextos largos. Ha sido especialmente optimizado para la invocación de herramientas, la comprensión de documentos extensos y el razonamiento en múltiples pasos. V3.2-Exp actúa como un puente entre la investigación y la producción, ideal para usuarios que buscan explorar una mayor eficiencia de razonamiento en escenarios con presupuestos de contexto elevados." }, "Pro/moonshotai/Kimi-K2-Instruct-0905": { "description": "Kimi K2-Instruct-0905 es la versión más reciente y potente de Kimi K2. Es un modelo de lenguaje de expertos mixtos (MoE) de primer nivel, con un total de un billón de parámetros y 32 mil millones de parámetros activados. Las principales características de este modelo incluyen: inteligencia mejorada para agentes de codificación, mostrando un rendimiento notable en pruebas de referencia públicas y en tareas reales de agentes de codificación; y una experiencia mejorada en la codificación frontend, con avances tanto en la estética como en la funcionalidad de la programación frontend." }, "QwQ-32B-Preview": { "description": "QwQ-32B-Preview es un modelo de procesamiento de lenguaje natural innovador, capaz de manejar de manera eficiente tareas complejas de generación de diálogos y comprensión del contexto." }, "Qwen/QVQ-72B-Preview": { "description": "QVQ-72B-Preview es un modelo de investigación desarrollado por el equipo de Qwen, enfocado en la capacidad de razonamiento visual, que tiene ventajas únicas en la comprensión de escenas complejas y en la resolución de problemas matemáticos relacionados con la visión." }, "Qwen/QwQ-32B": { "description": "QwQ es el modelo de inferencia de la serie Qwen. A diferencia de los modelos tradicionales de ajuste por instrucciones, QwQ posee habilidades de pensamiento e inferencia, lo que le permite lograr un rendimiento significativamente mejorado en tareas posteriores, especialmente en la resolución de problemas difíciles. QwQ-32B es un modelo de inferencia de tamaño mediano que puede competir en rendimiento con los modelos de inferencia más avanzados (como DeepSeek-R1, o1-mini). Este modelo utiliza tecnologías como RoPE, SwiGLU, RMSNorm y sesgo de atención QKV, y cuenta con una estructura de red de 64 capas y 40 cabezas de atención Q (en la arquitectura GQA, KV es de 8)." }, "Qwen/QwQ-32B-Preview": { "description": "QwQ-32B-Preview es el último modelo de investigación experimental de Qwen, enfocado en mejorar la capacidad de razonamiento de la IA. A través de la exploración de mecanismos complejos como la mezcla de lenguajes y el razonamiento recursivo, sus principales ventajas incluyen una poderosa capacidad de análisis de razonamiento, así como habilidades matemáticas y de programación. Sin embargo, también presenta problemas de cambio de idioma, ciclos de razonamiento, consideraciones de seguridad y diferencias en otras capacidades." }, "Qwen/Qwen-Image": { "description": "Qwen-Image es un modelo base de generación de imágenes desarrollado por el equipo Tongyi Qianwen de Alibaba, con 20 mil millones de parámetros. Este modelo ha logrado avances significativos en la representación compleja de texto y la edición precisa de imágenes, destacándose especialmente en la generación de imágenes con texto en chino e inglés de alta fidelidad. Qwen-Image no solo puede manejar diseños de múltiples líneas y textos a nivel de párrafo, sino que también mantiene la coherencia tipográfica y la armonía contextual al generar imágenes. Además de su sobresaliente capacidad de renderizado de texto, el modelo admite una amplia gama de estilos artísticos, desde fotografía realista hasta estética de anime, adaptándose con flexibilidad a diversas necesidades creativas. También posee potentes capacidades de edición y comprensión de imágenes, incluyendo transferencia de estilo, adición y eliminación de objetos, mejora de detalles, edición de texto e incluso manipulación de posturas humanas. Su objetivo es convertirse en un modelo base integral para la creación y procesamiento visual inteligente que integre lenguaje, diseño y contenido visual." }, "Qwen/Qwen-Image-Edit-2509": { "description": "Qwen-Image-Edit-2509 es la versión más reciente de edición de imágenes del modelo Qwen-Image, lanzado por el equipo Tongyi Qianwen de Alibaba. Este modelo ha sido entrenado en profundidad sobre la base del modelo Qwen-Image de 20 mil millones de parámetros, extendiendo con éxito su capacidad única de renderizado de texto al ámbito de la edición de imágenes, logrando una edición precisa del texto dentro de las imágenes. Qwen-Image-Edit adopta una arquitectura innovadora que envía la imagen de entrada simultáneamente a Qwen2.5-VL (para el control semántico visual) y al codificador VAE (para el control de la apariencia visual), lo que le otorga una capacidad de edición dual tanto semántica como visual. Esto significa que no solo permite ediciones locales de apariencia como agregar, eliminar o modificar elementos, sino también ediciones semánticas visuales avanzadas que requieren coherencia semántica, como la creación de propiedad intelectual (IP) o la transferencia de estilo. El modelo ha demostrado un rendimiento de vanguardia (SOTA) en múltiples pruebas de referencia públicas, consolidándose como un potente modelo base para la edición de imágenes." }, "Qwen/Qwen2-72B-Instruct": { "description": "Qwen2 es un modelo de lenguaje general avanzado, que soporta múltiples tipos de instrucciones." }, "Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-72B-Instruct es un modelo de lenguaje a gran escala de ajuste fino por instrucciones dentro de la serie Qwen2, con un tamaño de parámetros de 72B. Este modelo se basa en la arquitectura Transformer, utilizando funciones de activación SwiGLU, sesgos de atención QKV y atención de consulta agrupada, entre otras técnicas. Es capaz de manejar entradas a gran escala. Este modelo ha destacado en múltiples pruebas de referencia en comprensión del lenguaje, generación, capacidad multilingüe, codificación, matemáticas y razonamiento, superando a la mayoría de los modelos de código abierto y mostrando competitividad comparable a modelos propietarios en ciertas tareas." }, "Qwen/Qwen2-VL-72B-Instruct": { "description": "Qwen2-VL es la última iteración del modelo Qwen-VL, alcanzando un rendimiento de vanguardia en pruebas de comprensión visual." }, "Qwen/Qwen2.5-14B-Instruct": { "description": "Qwen2.5 es una nueva serie de modelos de lenguaje a gran escala, diseñada para optimizar el procesamiento de tareas de instrucción." }, "Qwen/Qwen2.5-32B-Instruct": { "description": "Qwen2.5 es una nueva serie de modelos de lenguaje a gran escala, diseñada para optimizar el procesamiento de tareas de instrucción." }, "Qwen/Qwen2.5-72B-Instruct": { "description": "Modelo de lenguaje de gran escala desarrollado por el equipo de Tongyi Qianwen de Alibaba Cloud" }, "Qwen/Qwen2.5-72B-Instruct-128K": { "description": "Qwen2.5 es una nueva serie de grandes modelos de lenguaje, con capacidades de comprensión y generación más fuertes." }, "Qwen/Qwen2.5-72B-Instruct-Turbo": { "description": "Qwen2.5 es una nueva serie de grandes modelos de lenguaje, diseñada para optimizar el manejo de tareas instructivas." }, "Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5 es una nueva serie de modelos de lenguaje a gran escala, diseñada para optimizar el procesamiento de tareas de instrucción." }, "Qwen/Qwen2.5-7B-Instruct-Turbo": { "description": "Qwen2.5 es una nueva serie de grandes modelos de lenguaje, diseñada para optimizar el manejo de tareas instructivas." }, "Qwen/Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder se centra en la escritura de código." }, "Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-Instruct es la última versión de la serie de modelos de lenguaje a gran escala específicos para código lanzada por Alibaba Cloud. Este modelo, basado en Qwen2.5, ha mejorado significativamente la generación, razonamiento y reparación de código a través de un entrenamiento con 55 billones de tokens. No solo ha mejorado la capacidad de codificación, sino que también ha mantenido ventajas en habilidades matemáticas y generales. El modelo proporciona una base más completa para aplicaciones prácticas como agentes de código." }, "Qwen/Qwen2.5-VL-32B-Instruct": { "description": "Qwen2.5-VL-32B-Instruct es un modelo multimodal avanzado desarrollado por el equipo Tongyi Qianwen, que forma parte de la serie Qwen2.5-VL. Este modelo no solo domina el reconocimiento de objetos comunes, sino que también puede analizar texto, gráficos, iconos, diagramas y diseños en imágenes. Funciona como un agente visual inteligente capaz de razonar y manipular herramientas dinámicamente, con habilidades para operar computadoras y dispositivos móviles. Además, el modelo puede localizar con precisión objetos en imágenes y generar salidas estructuradas para documentos como facturas y tablas. En comparación con su predecesor Qwen2-VL, esta versión ha mejorado significativamente sus capacidades matemáticas y de resolución de problemas mediante aprendizaje por refuerzo, y su estilo de respuesta se ha optimizado para adaptarse mejor a las preferencias humanas." }, "Qwen/Qwen2.5-VL-72B-Instruct": { "description": "Qwen2.5-VL es el modelo de lenguaje visual de la serie Qwen2.5. Este modelo presenta mejoras significativas en múltiples aspectos: posee una mayor capacidad de comprensión visual, pudiendo reconocer objetos comunes, analizar texto, gráficos y diseños; como agente visual puede razonar y guiar dinámicamente el uso de herramientas; soporta la comprensión de videos largos de más de 1 hora capturando eventos clave; es capaz de localizar objetos en imágenes con precisión generando cuadros delimitadores o puntos; y admite la generación de salidas estructuradas, especialmente útil para datos escaneados como facturas o tablas." }, "Qwen/Qwen3-14B": { "description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento." }, "Qwen/Qwen3-235B-A22B": { "description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento." }, "Qwen/Qwen3-235B-A22B-Instruct-2507": { "description": "Qwen3-235B-A22B-Instruct-2507 es un modelo de lenguaje grande híbrido experto (MoE) de nivel insignia desarrollado por el equipo Tongyi Qianwen de Alibaba Cloud. Cuenta con 235 mil millones de parámetros totales y activa 22 mil millones por inferencia. Es una versión actualizada del modo no reflexivo Qwen3-235B-A22B, enfocada en mejorar significativamente el cumplimiento de instrucciones, razonamiento lógico, comprensión textual, matemáticas, ciencias, programación y uso de herramientas. Además, amplía la cobertura de conocimientos multilingües y mejora la alineación con las preferencias del usuario en tareas subjetivas y abiertas para generar textos más útiles y de alta calidad." }, "Qwen/Qwen3-235B-A22B-Thinking-2507": { "description": "Qwen3-235B-A22B-Thinking-2507 es un modelo de lenguaje grande de la serie Qwen3 desarrollado por el equipo Tongyi Qianwen de Alibaba, especializado en tareas complejas de razonamiento avanzado. Basado en arquitectura MoE, cuenta con 235 mil millones de parámetros totales y activa aproximadamente 22 mil millones por token, mejorando la eficiencia computacional sin sacrificar rendimiento. Como modelo dedicado al “pensamiento”, destaca en razonamiento lógico, matemáticas, ciencias, programación y pruebas académicas que requieren conocimiento experto, alcanzando niveles líderes en modelos reflexivos de código abierto. También mejora capacidades generales como cumplimiento de instrucciones, uso de herramientas y generación de texto, y soporta nativamente comprensión de contexto largo de hasta 256K tokens, ideal para escenarios que requieren razonamiento profundo y manejo de documentos extensos." }, "Qwen/Qwen3-30B-A3B": { "description": "Qwen3 es un nuevo modelo de Tongyi Qianwen de próxima generación con capacidades significativamente mejoradas, alcanzando niveles líderes en la industria en razonamiento, general, agente y múltiples idiomas, y admite el cambio de modo de pensamiento." }, "Qwen/Qwen3-30B-A3B-Instruct-2507": { "description": "Qwen3-30B-A3B-Instruct-2507 es una versión actualizada del modelo Qwen3-30B-A3B en modo no reflexivo. Es un modelo de expertos mixtos (MoE) con un total de 30.5 mil millones de parámetros y 3.3 mil millones de parámetros activados. El modelo ha mejorado significativamente en varios aspectos, incluyendo el seguimiento de instrucciones, razonamiento lógico, comprensión de texto, matemáticas, c