UNPKG

@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

896 lines (895 loc) 249 kB
{ "01-ai/yi-1.5-34b-chat": { "description": "零一万物、最新のオープンソース微調整モデル、340億パラメータ、微調整は多様な対話シーンをサポートし、高品質なトレーニングデータで人間の好みに合わせています。" }, "01-ai/yi-1.5-9b-chat": { "description": "零一万物、最新のオープンソース微調整モデル、90億パラメータ、微調整は多様な対話シーンをサポートし、高品質なトレーニングデータで人間の好みに合わせています。" }, "360/deepseek-r1": { "description": "【360デプロイ版】DeepSeek-R1は、後訓練段階で大規模に強化学習技術を使用し、わずかなラベル付きデータでモデルの推論能力を大幅に向上させました。数学、コード、自然言語推論などのタスクで、OpenAI o1正式版に匹敵する性能を持っています。" }, "360gpt-pro": { "description": "360GPT Proは360 AIモデルシリーズの重要なメンバーであり、高効率なテキスト処理能力を持ち、多様な自然言語アプリケーションシーンに対応し、長文理解や多輪対話などの機能をサポートします。" }, "360gpt-pro-trans": { "description": "翻訳専用モデルで、深く微調整されており、翻訳効果が優れています。" }, "360gpt-turbo": { "description": "360GPT Turboは強力な計算と対話能力を提供し、優れた意味理解と生成効率を備え、企業や開発者にとって理想的なインテリジェントアシスタントソリューションです。" }, "360gpt-turbo-responsibility-8k": { "description": "360GPT Turbo Responsibility 8Kは意味の安全性と責任指向を強調し、コンテンツの安全性に高い要求を持つアプリケーションシーンのために設計されており、ユーザー体験の正確性と堅牢性を確保します。" }, "360gpt2-o1": { "description": "360gpt2-o1は、ツリーサーチを使用して思考の連鎖を構築し、反省メカニズムを導入し、強化学習で訓練されたモデルであり、自己反省と誤り訂正の能力を備えています。" }, "360gpt2-pro": { "description": "360GPT2 Proは360社が発表した高級自然言語処理モデルで、卓越したテキスト生成と理解能力を備え、特に生成と創作の分野で優れたパフォーマンスを発揮し、複雑な言語変換や役割演技タスクを処理できます。" }, "360zhinao2-o1": { "description": "360zhinao2-o1は、木探索を使用して思考の連鎖を構築し、反省メカニズムを導入し、強化学習で訓練され、自己反省と誤り訂正の能力を備えています。" }, "4.0Ultra": { "description": "Spark4.0 Ultraは星火大モデルシリーズの中で最も強力なバージョンで、ネットワーク検索のリンクをアップグレードし、テキストコンテンツの理解と要約能力を向上させています。これは、オフィスの生産性を向上させ、要求に正確に応えるための全方位のソリューションであり、業界をリードするインテリジェントな製品です。" }, "Baichuan2-Turbo": { "description": "検索強化技術を採用し、大モデルと分野知識、全網知識の全面的なリンクを実現しています。PDF、Wordなどのさまざまな文書のアップロードやURL入力をサポートし、情報取得が迅速かつ包括的で、出力結果は正確かつ専門的です。" }, "Baichuan3-Turbo": { "description": "企業の高頻度シーンに最適化され、効果が大幅に向上し、高コストパフォーマンスを実現しています。Baichuan2モデルに対して、コンテンツ生成が20%、知識問答が17%、役割演技能力が40%向上しています。全体的な効果はGPT3.5よりも優れています。" }, "Baichuan3-Turbo-128k": { "description": "128Kの超長コンテキストウィンドウを備え、企業の高頻度シーンに最適化され、効果が大幅に向上し、高コストパフォーマンスを実現しています。Baichuan2モデルに対して、コンテンツ生成が20%、知識問答が17%、役割演技能力が40%向上しています。全体的な効果はGPT3.5よりも優れています。" }, "Baichuan4": { "description": "モデル能力は国内でトップであり、知識百科、長文、生成創作などの中国語タスクで海外の主流モデルを超えています。また、業界をリードするマルチモーダル能力を備え、複数の権威ある評価基準で優れたパフォーマンスを示しています。" }, "Baichuan4-Air": { "description": "モデル能力は国内で第一であり、知識百科、長文、生成創作などの中国語タスクで海外の主流モデルを超えています。また、業界をリードするマルチモーダル能力を持ち、多くの権威ある評価基準で優れたパフォーマンスを示しています。" }, "Baichuan4-Turbo": { "description": "モデル能力は国内で第一であり、知識百科、長文、生成創作などの中国語タスクで海外の主流モデルを超えています。また、業界をリードするマルチモーダル能力を持ち、多くの権威ある評価基準で優れたパフォーマンスを示しています。" }, "DeepSeek-R1": { "description": "最先端の効率的なLLMで、推論、数学、プログラミングに優れています。" }, "DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek R1——DeepSeekスイートの中でより大きく、より賢いモデル——がLlama 70Bアーキテクチャに蒸留されました。ベンチマークテストと人間の評価に基づき、このモデルは元のLlama 70Bよりも賢く、特に数学と事実の正確性が求められるタスクで優れた性能を発揮します。" }, "DeepSeek-R1-Distill-Qwen-1.5B": { "description": "Qwen2.5-Math-1.5Bに基づくDeepSeek-R1蒸留モデルで、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新しました。" }, "DeepSeek-R1-Distill-Qwen-14B": { "description": "Qwen2.5-14Bに基づくDeepSeek-R1蒸留モデルで、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新しました。" }, "DeepSeek-R1-Distill-Qwen-32B": { "description": "DeepSeek-R1シリーズは、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新し、OpenAI-o1-miniのレベルを超えました。" }, "DeepSeek-R1-Distill-Qwen-7B": { "description": "Qwen2.5-Math-7Bに基づくDeepSeek-R1蒸留モデルで、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新しました。" }, "DeepSeek-V3": { "description": "DeepSeek-V3は、深度求索社が独自に開発したMoEモデルです。DeepSeek-V3は、Qwen2.5-72BやLlama-3.1-405Bなどの他のオープンソースモデルを超える評価成績を収め、性能面では世界トップクラスのクローズドソースモデルであるGPT-4oやClaude-3.5-Sonnetと肩を並べています。" }, "Doubao-1.5-thinking-pro-m": { "description": "Doubao-1.5は新しい深い思考モデルであり(mバージョンはネイティブなマルチモーダル深推論能力を備えています)、数学、プログラミング、科学推論などの専門分野や創造的な執筆などの一般的なタスクで優れたパフォーマンスを発揮し、AIME 2024、Codeforces、GPQAなどの複数の権威あるベンチマークで業界の第一梯隊レベルに達しています。128kのコンテキストウィンドウと16kの出力をサポートしています。" }, "Doubao-1.5-thinking-vision-pro": { "description": "全く新しい視覚的深層思考モデルで、より強力な汎用マルチモーダル理解と推論能力を備えており、59 の公開評価基準のうち 37 の基準で SOTA パフォーマンスを達成しています。" }, "Doubao-1.5-vision-pro": { "description": "Doubao-1.5-vision-proは新たにアップグレードされた多モーダル大モデルで、任意の解像度と極端なアスペクト比の画像認識をサポートし、視覚推論、文書認識、詳細情報の理解、指示の遵守能力を強化しています。" }, "Doubao-1.5-vision-pro-32k": { "description": "Doubao-1.5-vision-proは全く新しいアップグレード版のマルチモーダル大モデルで、任意の解像度と極端なアスペクト比の画像認識をサポートし、視覚推論、文書認識、詳細情報の理解、指示遵守能力を強化しています。" }, "Doubao-lite-128k": { "description": "Doubao-liteは、極めて高速な応答速度と優れたコストパフォーマンスを備え、顧客のさまざまなシーンに柔軟な選択肢を提供します。128kコンテキストウィンドウの推論と微調整をサポートしています。" }, "Doubao-lite-32k": { "description": "Doubao-liteは、極めて高速な応答速度と優れたコストパフォーマンスを備え、顧客のさまざまなシーンに柔軟な選択肢を提供します。32kコンテキストウィンドウの推論と微調整をサポートしています。" }, "Doubao-lite-4k": { "description": "Doubao-liteは、極めて高速な応答速度と優れたコストパフォーマンスを備え、顧客のさまざまなシーンに柔軟な選択肢を提供します。4kコンテキストウィンドウの推論と微調整をサポートしています。" }, "Doubao-pro-128k": { "description": "最も効果的な主力モデルで、複雑なタスクの処理に適しており、参考質問応答、要約、創作、テキスト分類、ロールプレイングなどのシーンで素晴らしい結果を出します。128kコンテキストウィンドウの推論と微調整をサポートしています。" }, "Doubao-pro-256k": { "description": "最も効果的な主力モデルで、複雑なタスクの処理に適しており、参考質問応答、要約、創作、テキスト分類、ロールプレイなどのシーンで優れた効果を発揮します。256kのコンテキストウィンドウでの推論とファインチューニングをサポートします。" }, "Doubao-pro-32k": { "description": "最も効果的な主力モデルで、複雑なタスクの処理に適しており、参考質問応答、要約、創作、テキスト分類、ロールプレイングなどのシーンで素晴らしい結果を出します。32kコンテキストウィンドウの推論と微調整をサポートしています。" }, "Doubao-pro-4k": { "description": "最も効果的な主力モデルで、複雑なタスクの処理に適しており、参考質問応答、要約、創作、テキスト分類、ロールプレイングなどのシーンで素晴らしい結果を出します。4kコンテキストウィンドウの推論と微調整をサポートしています。" }, "Doubao-vision-lite-32k": { "description": "Doubao-visionモデルは豆包が提供するマルチモーダル大モデルで、強力な画像理解と推論能力、正確な指示理解能力を備えています。モデルは画像テキスト情報の抽出や画像に基づく推論タスクで強力な性能を発揮し、より複雑で広範な視覚的質問応答タスクに応用できます。" }, "Doubao-vision-pro-32k": { "description": "Doubao-visionモデルは豆包が提供するマルチモーダル大モデルで、強力な画像理解と推論能力、正確な指示理解能力を備えています。モデルは画像テキスト情報の抽出や画像に基づく推論タスクで強力な性能を発揮し、より複雑で広範な視覚的質問応答タスクに応用できます。" }, "ERNIE-3.5-128K": { "description": "百度が独自に開発したフラッグシップの大規模言語モデルで、膨大な中英語のコーパスをカバーし、強力な汎用能力を持っています。ほとんどの対話型質問応答、創作生成、プラグインアプリケーションの要件を満たすことができます。また、百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。" }, "ERNIE-3.5-8K": { "description": "百度が独自に開発したフラッグシップの大規模言語モデルで、膨大な中英語のコーパスをカバーし、強力な汎用能力を持っています。ほとんどの対話型質問応答、創作生成、プラグインアプリケーションの要件を満たすことができます。また、百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。" }, "ERNIE-3.5-8K-Preview": { "description": "百度が独自に開発したフラッグシップの大規模言語モデルで、膨大な中英語のコーパスをカバーし、強力な汎用能力を持っています。ほとんどの対話型質問応答、創作生成、プラグインアプリケーションの要件を満たすことができます。また、百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。" }, "ERNIE-4.0-8K-Latest": { "description": "百度が独自に開発したフラッグシップの超大規模言語モデルで、ERNIE 3.5に比べてモデル能力が全面的にアップグレードされ、さまざまな分野の複雑なタスクシナリオに広く適用されます。百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。" }, "ERNIE-4.0-8K-Preview": { "description": "百度が独自に開発したフラッグシップの超大規模言語モデルで、ERNIE 3.5に比べてモデル能力が全面的にアップグレードされ、さまざまな分野の複雑なタスクシナリオに広く適用されます。百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。" }, "ERNIE-4.0-Turbo-8K-Latest": { "description": "百度が自主開発したフラッグシップの超大規模な言語モデルで、総合的なパフォーマンスが優れており、各分野の複雑なタスクシナリオに広く適応します;百度検索プラグインとの自動連携をサポートし、質問応答情報のタイムリーさを保証します。ERNIE 4.0に比べてパフォーマンスが向上しています。" }, "ERNIE-4.0-Turbo-8K-Preview": { "description": "百度が独自に開発したフラッグシップの超大規模言語モデルで、総合的なパフォーマンスが優れており、さまざまな分野の複雑なタスクシナリオに広く適用されます。百度検索プラグインとの自動接続をサポートし、質問応答情報のタイムリーさを保証します。ERNIE 4.0に比べてパフォーマンスがさらに優れています。" }, "ERNIE-Character-8K": { "description": "百度が独自に開発した垂直シナリオ向けの大規模言語モデルで、ゲームのNPC、カスタマーサービスの対話、対話型キャラクターの役割演技などのアプリケーションシナリオに適しており、キャラクターのスタイルがより鮮明で一貫性があり、指示に従う能力が強化され、推論性能が向上しています。" }, "ERNIE-Lite-Pro-128K": { "description": "百度が独自に開発した軽量大規模言語モデルで、優れたモデル効果と推論性能を兼ね備え、ERNIE Liteよりも効果が優れており、低計算能力のAIアクセラレータカードでの推論使用に適しています。" }, "ERNIE-Speed-128K": { "description": "百度が2024年に最新リリースした独自開発の高性能大規模言語モデルで、汎用能力が優れており、基盤モデルとして微調整に適しており、特定のシナリオの問題をより良く処理し、優れた推論性能を持っています。" }, "ERNIE-Speed-Pro-128K": { "description": "百度が2024年に最新リリースした独自開発の高性能大規模言語モデルで、汎用能力が優れており、ERNIE Speedよりも効果が優れており、基盤モデルとして微調整に適しており、特定のシナリオの問題をより良く処理し、優れた推論性能を持っています。" }, "Gryphe/MythoMax-L2-13b": { "description": "MythoMax-L2 (13B)は、革新的なモデルであり、多分野のアプリケーションや複雑なタスクに適しています。" }, "InternVL2-8B": { "description": "InternVL2-8Bは、強力な視覚言語モデルで、画像とテキストのマルチモーダル処理をサポートし、画像内容を正確に認識し、関連する説明や回答を生成することができます。" }, "InternVL2.5-26B": { "description": "InternVL2.5-26Bは、強力な視覚言語モデルで、画像とテキストのマルチモーダル処理をサポートし、画像内容を正確に認識し、関連する説明や回答を生成することができます。" }, "Llama-3.2-11B-Vision-Instruct": { "description": "高解像度画像で優れた画像推論能力を発揮し、視覚理解アプリケーションに適しています。" }, "Llama-3.2-90B-Vision-Instruct\t": { "description": "視覚理解エージェントアプリケーションに適した高度な画像推論能力を備えています。" }, "Meta-Llama-3.1-405B-Instruct": { "description": "Llama 3.1の指示調整されたテキストモデルで、多言語対話のユースケースに最適化されており、多くの利用可能なオープンソースおよびクローズドチャットモデルの中で、一般的な業界ベンチマークで優れた性能を発揮します。" }, "Meta-Llama-3.1-70B-Instruct": { "description": "Llama 3.1の指示調整されたテキストモデルで、多言語対話のユースケースに最適化されており、多くの利用可能なオープンソースおよびクローズドチャットモデルの中で、一般的な業界ベンチマークで優れた性能を発揮します。" }, "Meta-Llama-3.1-8B-Instruct": { "description": "Llama 3.1の指示調整されたテキストモデルで、多言語対話のユースケースに最適化されており、多くの利用可能なオープンソースおよびクローズドチャットモデルの中で、一般的な業界ベンチマークで優れた性能を発揮します。" }, "Meta-Llama-3.2-1B-Instruct": { "description": "最先端の小型言語モデルで、言語理解、優れた推論能力、テキスト生成能力を備えています。" }, "Meta-Llama-3.2-3B-Instruct": { "description": "最先端の小型言語モデルで、言語理解、優れた推論能力、テキスト生成能力を備えています。" }, "Meta-Llama-3.3-70B-Instruct": { "description": "Llama 3.3は、Llamaシリーズの最先端の多言語オープンソース大規模言語モデルで、非常に低コストで405Bモデルに匹敵する性能を体験できます。Transformer構造に基づき、監視付き微調整(SFT)と人間のフィードバックによる強化学習(RLHF)を通じて有用性と安全性を向上させています。その指示調整バージョンは多言語対話に最適化されており、さまざまな業界のベンチマークで多くのオープンソースおよびクローズドチャットモデルを上回る性能を発揮します。知識のカットオフ日は2023年12月です。" }, "MiniMax-Text-01": { "description": "MiniMax-01シリーズモデルでは、大胆な革新を行いました:初めて大規模に線形注意メカニズムを実現し、従来のTransformerアーキテクチャが唯一の選択肢ではなくなりました。このモデルのパラメータ数は4560億に達し、単回のアクティベーションは459億です。モデルの総合性能は海外のトップモデルに匹敵し、世界最長の400万トークンのコンテキストを効率的に処理でき、GPT-4oの32倍、Claude-3.5-Sonnetの20倍です。" }, "NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO": { "description": "Nous Hermes 2 - Mixtral 8x7B-DPO (46.7B)は、高精度の指示モデルであり、複雑な計算に適しています。" }, "Phi-3-medium-128k-instruct": { "description": "同じPhi-3-mediumモデルですが、RAGまたは少数ショットプロンプティング用により大きなコンテキストサイズを持っています。" }, "Phi-3-medium-4k-instruct": { "description": "14Bパラメータのモデルで、Phi-3-miniよりも高品質で、質の高い推論密度のデータに焦点を当てています。" }, "Phi-3-mini-128k-instruct": { "description": "同じPhi-3-miniモデルですが、RAGまたは少数ショットプロンプティング用により大きなコンテキストサイズを持っています。" }, "Phi-3-mini-4k-instruct": { "description": "Phi-3ファミリーの最小メンバー。品質と低遅延の両方に最適化されています。" }, "Phi-3-small-128k-instruct": { "description": "同じPhi-3-smallモデルですが、RAGまたは少数ショットプロンプティング用により大きなコンテキストサイズを持っています。" }, "Phi-3-small-8k-instruct": { "description": "7Bパラメータのモデルで、Phi-3-miniよりも高品質で、質の高い推論密度のデータに焦点を当てています。" }, "Phi-3.5-mini-instruct": { "description": "Phi-3-miniモデルの更新版です。" }, "Phi-3.5-vision-instrust": { "description": "Phi-3-visionモデルの更新版です。" }, "Pro/Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-7B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は7Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。大規模な入力を処理することができます。このモデルは言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超え、特定のタスクでは専有モデルと同等の競争力を示しています。Qwen2-7B-Instructは多くの評価でQwen1.5-7B-Chatを上回り、顕著な性能向上を示しています。" }, "Pro/Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-InstructはAlibaba Cloudが発表した最新の大規模言語モデルシリーズの一つです。この7Bモデルはコーディングや数学などの分野で顕著な能力の改善を持っています。このモデルは29以上の言語をカバーする多言語サポートも提供しており、中国語、英語などが含まれています。モデルは指示の遵守、構造化データの理解、特にJSONのような構造化出力の生成において顕著な向上を示しています。" }, "Pro/Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-InstructはAlibaba Cloudが発表したコード特化型大規模言語モデルシリーズの最新バージョンです。このモデルはQwen2.5を基に、55兆トークンの訓練を通じて、コード生成、推論、修正能力を大幅に向上させました。コーディング能力を強化するだけでなく、数学および一般的な能力の利点も維持しています。このモデルはコードエージェントなどの実際のアプリケーションに対して、より包括的な基盤を提供します。" }, "Pro/Qwen/Qwen2.5-VL-7B-Instruct": { "description": "Qwen2.5-VLはQwenシリーズの新メンバーで、強力な視覚理解能力を備えています。画像内のテキスト、チャート、レイアウトを分析でき、長い動画の理解やイベントの捕捉が可能です。推論やツール操作が行え、多様な形式の物体位置特定や構造化された出力生成をサポートします。動画理解のための動的解像度とフレームレートのトレーニングが最適化され、視覚エンコーダーの効率も向上しています。" }, "Pro/THUDM/glm-4-9b-chat": { "description": "GLM-4-9B-Chatは智譜AIが提供するGLM-4シリーズの事前訓練モデルのオープンバージョンです。このモデルは意味、数学、推論、コード、知識などの複数の側面で優れたパフォーマンスを示します。多輪対話をサポートするだけでなく、GLM-4-9B-Chatはウェブブラウジング、コード実行、カスタムツール呼び出し(Function Call)、長文推論などの高度な機能も備えています。モデルは中国語、英語、日本語、韓国語、ドイツ語など26の言語をサポートしています。多くのベンチマークテストで、GLM-4-9B-Chatは優れた性能を示し、AlignBench-v2、MT-Bench、MMLU、C-Evalなどでの評価が行われています。このモデルは最大128Kのコンテキスト長をサポートし、学術研究や商業アプリケーションに適しています。" }, "Pro/deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1は、強化学習(RL)駆動の推論モデルで、モデル内の繰り返しと可読性の問題を解決します。RLの前に、DeepSeek-R1はコールドスタートデータを導入し、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1と同等の性能を発揮し、精巧に設計されたトレーニング手法によって全体的な効果を向上させています。" }, "Pro/deepseek-ai/DeepSeek-R1-0120": { "description": "DeepSeek-R1は強化学習(RL)駆動の推論モデルで、モデルの反復性と可読性の問題を解決しました。RL導入前にコールドスタートデータを導入し、推論性能をさらに最適化。数学、コード、推論タスクにおいてOpenAI-o1と同等の性能を示し、精緻に設計された訓練手法により全体的な効果を向上させています。" }, "Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7B は、Qwen2.5-Math-7B を基に知識蒸留によって得られたモデルです。このモデルは、DeepSeek-R1 によって生成された80万の精選されたサンプルを使用して微調整されており、優れた推論能力を発揮します。複数のベンチマークテストで優れた性能を示し、MATH-500では92.8%の精度、AIME 2024では55.5%の合格率、CodeForcesでは1189のスコアを達成し、7B規模のモデルとして強力な数学およびプログラミング能力を実証しています。" }, "Pro/deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルで、多頭潜在注意力(MLA)とDeepSeekMoEアーキテクチャを採用し、無補助損失の負荷バランス戦略を組み合わせて推論とトレーニングの効率を最適化しています。14.8兆の高品質トークンで事前トレーニングを行い、監視付き微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドモデルに近づいています。" }, "Pro/deepseek-ai/DeepSeek-V3-1226": { "description": "DeepSeek-V3は、6710億のパラメータを持つ混合専門家(MoE)言語モデルであり、マルチヘッド潜在注意(MLA)とDeepSeekMoEアーキテクチャを採用し、補助損失なしの負荷バランス戦略を組み合わせて、推論とトレーニングの効率を最適化しています。14.8兆の高品質トークンで事前トレーニングを行い、監視付き微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドソースモデルに近づいています。" }, "QwQ-32B-Preview": { "description": "QwQ-32B-Previewは、複雑な対話生成と文脈理解タスクを効率的に処理できる革新的な自然言語処理モデルです。" }, "Qwen/QVQ-72B-Preview": { "description": "QVQ-72B-Previewは、Qwenチームによって開発された視覚推論能力に特化した研究モデルであり、複雑なシーン理解と視覚関連の数学問題を解決する上で独自の利点を持っています。" }, "Qwen/QwQ-32B": { "description": "QwQはQwenシリーズの推論モデルです。従来の指示調整モデルと比較して、QwQは思考と推論能力を備えており、特に困難な問題を解決する際に、下流タスクでのパフォーマンスを大幅に向上させることができます。QwQ-32Bは中型の推論モデルであり、最先端の推論モデル(DeepSeek-R1、o1-miniなど)との比較において競争力のあるパフォーマンスを発揮します。このモデルはRoPE、SwiGLU、RMSNorm、Attention QKVバイアスなどの技術を採用しており、64層のネットワーク構造と40のQアテンションヘッド(GQAアーキテクチャではKVは8個)を持っています。" }, "Qwen/QwQ-32B-Preview": { "description": "QwQ-32B-PreviewはQwenの最新の実験的研究モデルで、AIの推論能力を向上させることに特化しています。言語の混合、再帰的推論などの複雑なメカニズムを探求することで、主な利点は強力な推論分析能力、数学およびプログラミング能力です。同時に、言語切り替えの問題、推論のループ、安全性の考慮、その他の能力の違いも存在します。" }, "Qwen/Qwen2-72B-Instruct": { "description": "Qwen2は、先進的な汎用言語モデルであり、さまざまな指示タイプをサポートします。" }, "Qwen/Qwen2-7B-Instruct": { "description": "Qwen2-72B-InstructはQwen2シリーズの指示微調整大規模言語モデルで、パラメータ規模は72Bです。このモデルはTransformerアーキテクチャに基づき、SwiGLU活性化関数、注意QKVバイアス、グループクエリ注意などの技術を採用しています。大規模な入力を処理することができます。このモデルは言語理解、生成、多言語能力、コーディング、数学、推論などの複数のベンチマークテストで優れたパフォーマンスを示し、ほとんどのオープンソースモデルを超え、特定のタスクでは専有モデルと同等の競争力を示しています。" }, "Qwen/Qwen2-VL-72B-Instruct": { "description": "Qwen2-VLはQwen-VLモデルの最新のイテレーションで、視覚理解のベンチマークテストで最先端の性能を達成しました。" }, "Qwen/Qwen2.5-14B-Instruct": { "description": "Qwen2.5は、新しい大型言語モデルシリーズで、指示型タスクの処理を最適化することを目的としています。" }, "Qwen/Qwen2.5-32B-Instruct": { "description": "Qwen2.5は、新しい大型言語モデルシリーズで、指示型タスクの処理を最適化することを目的としています。" }, "Qwen/Qwen2.5-72B-Instruct": { "description": "アリババクラウドの通義千問チームが開発した大規模言語モデル" }, "Qwen/Qwen2.5-72B-Instruct-128K": { "description": "Qwen2.5は新しい大型言語モデルシリーズで、より強力な理解と生成能力を持っています。" }, "Qwen/Qwen2.5-72B-Instruct-Turbo": { "description": "Qwen2.5は新しい大型言語モデルシリーズで、指示タスクの処理を最適化することを目的としています。" }, "Qwen/Qwen2.5-7B-Instruct": { "description": "Qwen2.5は、新しい大型言語モデルシリーズで、指示型タスクの処理を最適化することを目的としています。" }, "Qwen/Qwen2.5-7B-Instruct-Turbo": { "description": "Qwen2.5は新しい大型言語モデルシリーズで、指示タスクの処理を最適化することを目的としています。" }, "Qwen/Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coderはコード作成に特化しています。" }, "Qwen/Qwen2.5-Coder-7B-Instruct": { "description": "Qwen2.5-Coder-7B-InstructはAlibaba Cloudが発表したコード特化型大規模言語モデルシリーズの最新バージョンです。このモデルはQwen2.5を基に、55兆トークンの訓練を通じて、コード生成、推論、修正能力を大幅に向上させました。コーディング能力を強化するだけでなく、数学および一般的な能力の利点も維持しています。このモデルはコードエージェントなどの実際のアプリケーションに対して、より包括的な基盤を提供します。" }, "Qwen/Qwen2.5-VL-32B-Instruct": { "description": "Qwen2.5-VL-32B-Instructは、通義千問チームが開発したマルチモーダル大規模言語モデルで、Qwen2.5-VLシリーズの一部です。このモデルは一般的な物体認識に優れるだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトの分析も可能です。視覚エージェントとして機能し、推論と動的なツール操作が可能で、コンピュータやスマートフォンの操作能力を備えています。さらに、画像内のオブジェクトを正確に位置特定でき、請求書や表などの構造化された出力を生成します。前世代モデルであるQwen2-VLと比較して、強化学習による数学的思考力と問題解決能力が向上し、応答スタイルも人間の嗜好により適合しています。" }, "Qwen/Qwen2.5-VL-72B-Instruct": { "description": "Qwen2.5-VLはQwen2.5シリーズの視覚言語モデルです。このモデルは複数の面で大幅な改善が見られます:一般的な物体の認識、テキスト・図表・レイアウトの分析能力が強化された視覚理解能力を備えています;視覚エージェントとして推論を行い、ツール使用を動的に指導できます;1時間以上の長い動画を理解し、重要なイベントを捕捉することが可能です;境界ボックスやポイントを生成することで画像内の物体を正確に位置特定できます;特に請求書や表などのスキャンデータに適した構造化出力の生成をサポートしています。" }, "Qwen/Qwen3-14B": { "description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。" }, "Qwen/Qwen3-235B-A22B": { "description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。" }, "Qwen/Qwen3-30B-A3B": { "description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。" }, "Qwen/Qwen3-32B": { "description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。" }, "Qwen/Qwen3-8B": { "description": "Qwen3は、能力が大幅に向上した新世代の通義千問大モデルであり、推論、一般、エージェント、多言語などの複数のコア能力で業界のリーダーレベルに達し、思考モードの切り替えをサポートしています。" }, "Qwen2-72B-Instruct": { "description": "Qwen2はQwenモデルの最新シリーズで、128kのコンテキストをサポートしています。現在の最適なオープンソースモデルと比較して、Qwen2-72Bは自然言語理解、知識、コード、数学、そして多言語などの能力において、現在のリーディングモデルを大幅に上回っています。" }, "Qwen2-7B-Instruct": { "description": "Qwen2はQwenモデルの最新シリーズで、同等の規模の最適なオープンソースモデルやそれ以上の規模のモデルを超えることができ、Qwen2 7Bは複数の評価で顕著な優位性を示し、特にコードと中国語理解において優れています。" }, "Qwen2-VL-72B": { "description": "Qwen2-VL-72Bは、強力な視覚言語モデルであり、画像とテキストのマルチモーダル処理をサポートし、画像の内容を正確に認識し、関連する説明や回答を生成できます。" }, "Qwen2.5-14B-Instruct": { "description": "Qwen2.5-14B-Instructは、140億パラメータの大規模言語モデルで、優れたパフォーマンスを発揮し、中国語と多言語シーンを最適化し、インテリジェントQ&A、コンテンツ生成などのアプリケーションをサポートします。" }, "Qwen2.5-32B-Instruct": { "description": "Qwen2.5-32B-Instructは、320億パラメータの大規模言語モデルで、パフォーマンスが均衡しており、中国語と多言語シーンを最適化し、インテリジェントQ&A、コンテンツ生成などのアプリケーションをサポートします。" }, "Qwen2.5-72B-Instruct": { "description": "Qwen2.5-72B-Instructは、16kのコンテキストをサポートし、8Kを超える長文を生成します。関数呼び出しと外部システムとのシームレスなインタラクションをサポートし、柔軟性と拡張性を大幅に向上させました。モデルの知識は明らかに増加し、コーディングと数学の能力が大幅に向上し、29以上の言語をサポートしています。" }, "Qwen2.5-7B-Instruct": { "description": "Qwen2.5-7B-Instructは、70億パラメータの大規模言語モデルで、関数呼び出しと外部システムとのシームレスなインタラクションをサポートし、柔軟性と拡張性を大幅に向上させます。中国語と多言語シーンを最適化し、インテリジェントQ&A、コンテンツ生成などのアプリケーションをサポートします。" }, "Qwen2.5-Coder-14B-Instruct": { "description": "Qwen2.5-Coder-14B-Instructは、大規模な事前学習に基づくプログラミング指示モデルであり、強力なコード理解と生成能力を持ち、さまざまなプログラミングタスクを効率的に処理でき、特にスマートコード作成、自動化スクリプト生成、プログラミング問題の解決に適しています。" }, "Qwen2.5-Coder-32B-Instruct": { "description": "Qwen2.5-Coder-32B-Instructは、コード生成、コード理解、効率的な開発シーンのために設計された大規模言語モデルで、業界をリードする32Bパラメータ規模を採用しており、多様なプログラミングニーズに応えます。" }, "SenseChat": { "description": "基本バージョンのモデル (V4)、4Kのコンテキスト長で、汎用能力が強力です。" }, "SenseChat-128K": { "description": "基本バージョンのモデル (V4)、128Kのコンテキスト長で、長文理解や生成などのタスクで優れたパフォーマンスを発揮します。" }, "SenseChat-32K": { "description": "基本バージョンのモデル (V4)、32Kのコンテキスト長で、さまざまなシーンに柔軟に適用できます。" }, "SenseChat-5": { "description": "最新バージョンのモデル (V5.5)、128Kのコンテキスト長で、数学的推論、英語の対話、指示のフォロー、長文理解などの分野での能力が大幅に向上し、GPT-4oに匹敵します。" }, "SenseChat-5-1202": { "description": "V5.5をベースにした最新バージョンで、前バージョンに比べて中英語の基礎能力、チャット、理系知識、文系知識、ライティング、数理論理、文字数制御など複数の面で顕著に向上しています。" }, "SenseChat-5-Cantonese": { "description": "32Kのコンテキスト長で、広東語の対話理解においてGPT-4を超え、知識、推論、数学、コード作成などの複数の分野でGPT-4 Turboに匹敵します。" }, "SenseChat-5-beta": { "description": "一部の性能が SenseCat-5-1202 を上回っています" }, "SenseChat-Character": { "description": "スタンダード版モデル、8Kのコンテキスト長で、高速な応答速度を持っています。" }, "SenseChat-Character-Pro": { "description": "ハイエンド版モデル、32Kのコンテキスト長で、能力が全面的に向上し、中国語/英語の対話をサポートしています。" }, "SenseChat-Turbo": { "description": "迅速な質問応答やモデルの微調整シーンに適しています。" }, "SenseChat-Turbo-1202": { "description": "最新の軽量バージョンモデルで、フルモデルの90%以上の能力を達成し、推論コストを大幅に削減しています。" }, "SenseChat-Vision": { "description": "最新バージョンモデル (V5.5) で、複数の画像入力をサポートし、モデルの基本能力の最適化を全面的に実現し、オブジェクト属性認識、空間関係、動作イベント認識、シーン理解、感情認識、論理常識推論、テキスト理解生成において大幅な向上を実現しました。" }, "SenseNova-V6-Pro": { "description": "画像、テキスト、動画の能力をネイティブに統一し、従来のマルチモーダルの分立的制限を突破し、OpenCompassとSuperCLUEの評価でダブルチャンピオンを獲得しました。" }, "SenseNova-V6-Reasoner": { "description": "視覚と言語の深い推論を兼ね備え、ゆっくりとした思考と深い推論を実現し、完全な思考の連鎖過程を提示します。" }, "SenseNova-V6-Turbo": { "description": "画像、テキスト、動画の能力をネイティブに統一し、従来のマルチモーダルの分立的制限を突破し、マルチモーダルの基礎能力や言語の基礎能力などのコア次元で全面的にリードし、文理を兼ね備え、複数の評価で国内外の第一梯隊レベルに何度もランクインしています。" }, "Skylark2-lite-8k": { "description": "雲雀(Skylark)第2世代モデル、Skylark2-liteモデルは高い応答速度を持ち、リアルタイム性が求められ、コストに敏感で、モデルの精度要求がそれほど高くないシーンに適しています。コンテキストウィンドウ長は8kです。" }, "Skylark2-pro-32k": { "description": "雲雀(Skylark)第2世代モデル、Skylark2-proバージョンは高いモデル精度を持ち、専門分野の文書生成、小説創作、高品質翻訳などの複雑なテキスト生成シーンに適しています。コンテキストウィンドウ長は32kです。" }, "Skylark2-pro-4k": { "description": "雲雀(Skylark)第2世代モデル、Skylark2-proモデルは高いモデル精度を持ち、専門分野の文書生成、小説創作、高品質翻訳などの複雑なテキスト生成シーンに適しています。コンテキストウィンドウ長は4kです。" }, "Skylark2-pro-character-4k": { "description": "雲雀(Skylark)第2世代モデル、Skylark2-pro-characterモデルは、優れたロールプレイングとチャット能力を持ち、ユーザーのプロンプト要件に基づいて異なるキャラクターを演じながらチャットを行うのが得意です。キャラクターのスタイルが際立ち、対話の内容は自然で流暢です。チャットボット、仮想アシスタント、オンラインカスタマーサービスなどのシーンに適しており、高速な応答を実現します。" }, "Skylark2-pro-turbo-8k": { "description": "雲雀(Skylark)第2世代モデル、Skylark2-pro-turbo-8kは、推論がより速く、コストが低く、コンテキストウィンドウ長は8kです。" }, "THUDM/GLM-4-32B-0414": { "description": "GLM-4-32B-0414はGLMシリーズの新世代オープンソースモデルで、320億パラメータを持ちます。このモデルはOpenAIのGPTシリーズやDeepSeekのV3/R1シリーズと同等の性能を持っています。" }, "THUDM/GLM-4-9B-0414": { "description": "GLM-4-9B-0414はGLMシリーズの小型モデルで、90億パラメータを持ちます。このモデルはGLM-4-32Bシリーズの技術的特徴を継承しつつ、より軽量なデプロイメントオプションを提供します。規模は小さいものの、GLM-4-9B-0414はコード生成、ウェブデザイン、SVGグラフィック生成、検索ベースの執筆などのタスクで優れた能力を示しています。" }, "THUDM/GLM-Z1-32B-0414": { "description": "GLM-Z1-32B-0414は深い思考能力を持つ推論モデルです。このモデルはGLM-4-32B-0414に基づき、コールドスタートと拡張強化学習を通じて開発され、数学、コード、論理タスクにおいてさらに訓練されています。基礎モデルと比較して、GLM-Z1-32B-0414は数学能力と複雑なタスクの解決能力を大幅に向上させています。" }, "THUDM/GLM-Z1-9B-0414": { "description": "GLM-Z1-9B-0414はGLMシリーズの小型モデルで、90億パラメータを持ち、オープンソースの伝統を維持しつつ驚くべき能力を示しています。規模は小さいものの、このモデルは数学推論や一般的なタスクで優れたパフォーマンスを発揮し、同等の規模のオープンソースモデルの中でリーダーシップを発揮しています。" }, "THUDM/GLM-Z1-Rumination-32B-0414": { "description": "GLM-Z1-Rumination-32B-0414は深い推論能力を持つモデルで(OpenAIのDeep Researchに対抗)、典型的な深い思考モデルとは異なり、より長い時間の深い思考を用いてよりオープンで複雑な問題を解決します。" }, "THUDM/glm-4-9b-chat": { "description": "GLM-4 9Bはオープンソース版で、会話アプリケーションに最適化された対話体験を提供します。" }, "Tongyi-Zhiwen/QwenLong-L1-32B": { "description": "QwenLong-L1-32Bは強化学習で訓練された初の長文コンテキスト大型推論モデル(LRM)で、長文推論タスクに特化して最適化されています。段階的なコンテキスト拡張強化学習フレームワークにより、短文から長文への安定した移行を実現。7つの長文ドキュメントQAベンチマークでOpenAI-o3-miniやQwen3-235B-A22Bなどのフラッグシップモデルを上回り、Claude-3.7-Sonnet-Thinkingに匹敵する性能を示します。数学推論、論理推論、多段推論などの複雑なタスクに特に優れています。" }, "Yi-34B-Chat": { "description": "Yi-1.5-34Bは、元のシリーズモデルの優れた汎用言語能力を維持しつつ、5000億の高品質トークンを増分トレーニングすることで、数学的論理とコーディング能力を大幅に向上させました。" }, "abab5.5-chat": { "description": "生産性シーン向けであり、複雑なタスク処理と効率的なテキスト生成をサポートし、専門分野のアプリケーションに適しています。" }, "abab5.5s-chat": { "description": "中国語のキャラクター対話シーンに特化しており、高品質な中国語対話生成能力を提供し、さまざまなアプリケーションシーンに適しています。" }, "abab6.5g-chat": { "description": "多言語のキャラクター対話に特化しており、英語および他の多くの言語の高品質な対話生成をサポートします。" }, "abab6.5s-chat": { "description": "テキスト生成、対話システムなど、幅広い自然言語処理タスクに適しています。" }, "abab6.5t-chat": { "description": "中国語のキャラクター対話シーンに最適化されており、流暢で中国語の表現習慣に合った対話生成能力を提供します。" }, "accounts/fireworks/models/deepseek-r1": { "description": "DeepSeek-R1は、強化学習とコールドスタートデータの最適化を経た最先端の大規模言語モデルで、優れた推論、数学、プログラミング性能を持っています。" }, "accounts/fireworks/models/deepseek-v3": { "description": "Deepseekが提供する強力なMixture-of-Experts (MoE)言語モデルで、総パラメータ数は671Bであり、各トークンは37Bのパラメータを活性化します。" }, "accounts/fireworks/models/llama-v3-70b-instruct": { "description": "Llama 3 70B指示モデルは、多言語対話と自然言語理解に最適化されており、ほとんどの競合モデルを上回る性能を持っています。" }, "accounts/fireworks/models/llama-v3-8b-instruct": { "description": "Llama 3 8B指示モデルは、対話や多言語タスクに最適化されており、卓越した効率を発揮します。" }, "accounts/fireworks/models/llama-v3-8b-instruct-hf": { "description": "Llama 3 8B指示モデル(HFバージョン)は、公式実装結果と一致し、高い一貫性とクロスプラットフォーム互換性を持っています。" }, "accounts/fireworks/models/llama-v3p1-405b-instruct": { "description": "Llama 3.1 405B指示モデルは、超大規模なパラメータを持ち、複雑なタスクや高負荷シナリオでの指示フォローに適しています。" }, "accounts/fireworks/models/llama-v3p1-70b-instruct": { "description": "Llama 3.1 70B指示モデルは、卓越した自然言語理解と生成能力を提供し、対話や分析タスクに理想的な選択肢です。" }, "accounts/fireworks/models/llama-v3p1-8b-instruct": { "description": "Llama 3.1 8B指示モデルは、多言語対話の最適化のために設計されており、一般的な業界ベンチマークを超える性能を発揮します。" }, "accounts/fireworks/models/llama-v3p2-11b-vision-instruct": { "description": "Metaの11Bパラメータ指示調整画像推論モデルです。このモデルは視覚認識、画像推論、画像説明、および画像に関する一般的な質問への回答に最適化されています。このモデルは、グラフや図表などの視覚データを理解し、画像の詳細をテキストで記述することで、視覚と言語の間のギャップを埋めることができます。" }, "accounts/fireworks/models/llama-v3p2-3b-instruct": { "description": "Llama 3.2 3B指示モデルはMetaが発表した軽量な多言語モデルです。このモデルは効率を向上させることを目的としており、より大規模なモデルと比較して遅延とコストの面で大きな改善を提供します。このモデルの使用例には、問い合わせやプロンプトのリライト、執筆支援が含まれます。" }, "accounts/fireworks/models/llama-v3p2-90b-vision-instruct": { "description": "Metaの90Bパラメータ指示調整画像推論モデルです。このモデルは視覚認識、画像推論、画像説明、および画像に関する一般的な質問への回答に最適化されています。このモデルは、グラフや図表などの視覚データを理解し、画像の詳細をテキストで記述することで、視覚と言語の間のギャップを埋めることができます。" }, "accounts/fireworks/models/llama-v3p3-70b-instruct": { "description": "Llama 3.3 70B Instructは、Llama 3.1 70Bの12月の更新版です。このモデルは、2024年7月にリリースされたLlama 3.1 70Bを基に改良され、ツール呼び出し、多言語テキストサポート、数学およびプログラミング能力が強化されています。このモデルは、推論、数学、指示遵守の面で業界の最前線に達しており、3.1 405Bと同等の性能を提供しつつ、速度とコストにおいて顕著な利点を持っています。" }, "accounts/fireworks/models/mistral-small-24b-instruct-2501": { "description": "24Bパラメータモデルで、より大規模なモデルと同等の最先端の能力を備えています。" }, "accounts/fireworks/models/mixtral-8x22b-instruct": { "description": "Mixtral MoE 8x22B指示モデルは、大規模なパラメータと多専門家アーキテクチャを持ち、複雑なタスクの高効率処理を全方位でサポートします。" }, "accounts/fireworks/models/mixtral-8x7b-instruct": { "description": "Mixtral MoE 8x7B指示モデルは、多専門家アーキテクチャを提供し、高効率の指示フォローと実行をサポートします。" }, "accounts/fireworks/models/mythomax-l2-13b": { "description": "MythoMax L2 13Bモデルは、新しい統合技術を組み合わせており、物語やキャラクターの役割に優れています。" }, "accounts/fireworks/models/phi-3-vision-128k-instruct": { "description": "Phi 3 Vision指示モデルは、軽量の多モーダルモデルであり、複雑な視覚とテキスト情報を処理でき、強力な推論能力を持っています。" }, "accounts/fireworks/models/qwen-qwq-32b-preview": { "description": "QwQモデルはQwenチームによって開発された実験的な研究モデルで、AIの推論能力を強化することに焦点を当てています。" }, "accounts/fireworks/models/qwen2-vl-72b-instruct": { "description": "Qwen-VLモデルの72Bバージョンは、アリババの最新のイテレーションの成果であり、近年の革新を代表しています。" }, "accounts/fireworks/models/qwen2p5-72b-instruct": { "description": "Qwen2.5はAlibaba Cloud Qwenチームによって開発された一連のデコーダーのみを含む言語モデルです。これらのモデルは、0.5B、1.5B、3B、7B、14B、32B、72Bなど、さまざまなサイズを提供し、ベース版と指示版の2種類のバリエーションがあります。" }, "accounts/fireworks/models/qwen2p5-coder-32b-instruct": { "description": "Qwen2.5 Coder 32B InstructはAlibaba Cloudが発表したコード特化型大規模言語モデルシリーズの最新バージョンです。このモデルはQwen2.5を基に、55兆トークンの訓練を通じて、コード生成、推論、修正能力を大幅に向上させました。コーディング能力を強化するだけでなく、数学および一般的な能力の利点も維持しています。このモデルはコードエージェントなどの実際のアプリケーションに対して、より包括的な基盤を提供します。" }, "accounts/yi-01-ai/models/yi-large": { "description": "Yi-Largeモデルは、卓越した多言語処理能力を持ち、さまざまな言語生成と理解タスクに使用できます。" }, "ai21-jamba-1.5-large": { "description": "398Bパラメータ(94Bアクティブ)の多言語モデルで、256Kの長いコンテキストウィンドウ、関数呼び出し、構造化出力、基盤生成を提供します。" }, "ai21-jamba-1.5-mini": { "description": "52Bパラメータ(12Bアクティブ)の多言語モデルで、256Kの長いコンテキストウィンドウ、関数呼び出し、構造化出力、基盤生成を提供します。" }, "ai21-labs/AI21-Jamba-1.5-Large": { "description": "398Bパラメータ(うち94Bがアクティブ)の多言語モデルで、256Kの長いコンテキストウィンドウ、関数呼び出し、構造化出力、事実に基づく生成を提供します。" }, "ai21-labs/AI21-Jamba-1.5-Mini": { "description": "52Bパラメータ(うち12Bがアクティブ)の多言語モデルで、256Kの長いコンテキストウィンドウ、関数呼び出し、構造化出力、事実に基づく生成を提供します。" }, "anthropic.claude-3-5-sonnet-20240620-v1:0": { "description": "Claude 3.5 Sonnetは業界標準を向上させ、競合モデルやClaude 3 Opusを超える性能を持ち、広範な評価で優れたパフォーマンスを示し、私たちの中程度のモデルの速度とコストを兼ね備えています。" }, "anthropic.claude-3-5-sonnet-20241022-v2:0": { "description": "Claude 3.5 Sonnetは業界標準を引き上げ、競合モデルやClaude 3 Opusを上回る性能を発揮し、広範な評価で優れた結果を示しています。また、中程度のレベルのモデルと同等の速度とコストを持っています。" }, "anthropic.claude-3-haiku-20240307-v1:0": { "description": "Claude 3 HaikuはAnthropicの最も速く、最もコンパクトなモデルで、ほぼ瞬時の応答速度を提供します。簡単なクエリやリクエストに迅速に回答できます。顧客は人間のインタラクションを模倣するシームレスなAI体験を構築できるようになります。Claude 3 Haikuは画像を処理し、テキスト出力を返すことができ、200Kのコンテキストウィンドウを持っています。" }, "anthropic.claude-3-opus-20240229-v1:0": { "description": "Claude 3 OpusはAnthropicの最も強力なAIモデルで、高度に複雑なタスクにおいて最先端の性能を持っています。オープンエンドのプロンプトや未見のシナリオを処理でき、優れた流暢さと人間の理解能力を持っています。Claude 3 Opusは生成AIの可能性の最前線を示しています。Claude 3 Opusは画像を処理し、テキスト出力を返すことができ、200Kのコンテキストウィンドウを持っています。" }, "anthropic.claude-3-sonnet-20240229-v1:0": { "description": "AnthropicのClaude 3 Sonnetは、知能と速度の理想的なバランスを実現しており、特に企業のワークロードに適しています。競合他社よりも低価格で最大の効用を提供し、信頼性が高く耐久性のある主力機として設計されており、スケール化されたAIデプロイメントに適しています。Claude 3 Sonnetは画像を処理し、テキスト出力を返すことができ、200Kのコンテキストウィンドウを持っています。" }, "anthropic.claude-instant-v1": { "description": "日常の対話、テキスト分析、要約、文書質問応答などの一連のタスクを処理できる、迅速で経済的かつ非常に能力のあるモデルです。" }, "anthropic.claude-v2": { "description": "Anthropicは、複雑な対話や創造的なコンテンツ生成から詳細な指示の遵守に至るまで、幅広いタスクで高い能力を発揮するモデルです。" }, "anthropic.claude-v2:1": { "description": "Claude 2の更新版で、コンテキストウィンドウが2倍になり、長文書やRAGコンテキストにおける信頼性、幻覚率、証拠に基づく正確性が改善されています。" }, "anthropic/claude-3-haiku": { "description": "Claude 3 HaikuはAnthropicの最も迅速でコンパクトなモデルで、ほぼ瞬時の応答を実現することを目的としています。迅速かつ正確な指向性能を備えています。" }, "anthropic/claude-3-opus": { "description": "Claude 3 Opusは、Anthropicが高度に複雑なタスクを処理するために開発した最も強力なモデルです。性能、知能、流暢さ、理解力において卓越したパフォーマンスを発揮します。" }, "anthropic/claude-3.5-haiku": { "description": "Claude 3.5 Haikuは、Anthropicの最も高速な次世代モデルです。Claude 3 Haikuと比較して、Claude 3.5 Haikuはすべてのスキルで向上しており、多くの知能ベンチマークテストで前世代の最大モデルClaude 3 Opusを超えています。" }, "anthropic/claude-3.5-sonnet": { "description": "Claude 3.5 SonnetはOpusを超える能力を提供し、Sonnetよりも速い速度を持ちながら、Sonnetと同じ価格を維持します。Sonnetは特にプログラミング、データサイエンス、視覚処理、代理タスクに優れています。" }, "anthropic/claude-3.7-sonnet": { "description": "Claude 3.7 Sonnetは、Anthropicがこれまでに開発した最も知能の高いモデルであり、市場で初めての混合推論モデルです。Claude 3.7 Sonnetは、ほぼ瞬時の応答や段階的な思考を生成することができ、ユーザーはこれらのプロセスを明確に見ることができます。Sonnetは特にプログラミング、データサイエンス、視覚処理、代理タスクに優れています。" }, "anthropic/claude-opus-4": { "description": "Claude Opus 4 は、Anthropic が高度に複雑なタスクを処理するために開発した最も強力なモデルです。性能、知能、流暢さ、理解力の面で卓越した能力を発揮します。" }, "anthropic/claude-sonnet-4": { "description": "Claude Sonnet 4 はほぼ即時の応答や段階的な思考の延長を生成でき、ユーザーはこれらのプロセスを明確に確認できます。API ユーザーはモデルの思考時間を細かく制御することも可能です。" }, "aya": { "description": "Aya 23は、Cohereが提供する多言語モデルであり、23の言語をサポートし、多様な言語アプリケーションを便利にします。" }, "aya:35b": { "description": "Aya 23は、Cohereが提供する多言語モデルであり、23の言語をサポートし、多様な言語アプリケーションを便利にします。" }, "baichuan/baichuan2-13b-chat": { "description": "Baichuan-13Bは百川智能が開発した130億パラメータを持つオープンソースの商用大規模言語モデルで、権威ある中国語と英語のベンチマークで同サイズの中で最良の結果を達成しています。" }, "c4ai-aya-expanse-32b": { "description": "Aya Expanseは、高性能な32B多言語モデルで、指示調整、データアービトラージ、好みのトレーニング、モデル統合の革新を通じて、単一言語モデルのパフォーマンスに挑戦します。23の言語をサポートしています。" }, "c4ai-aya-expanse-8b": { "description": "Aya Expanseは、高性能な8B多言語モデルで、指示調整、データアービトラージ、好みのトレーニング、モデル統合の革新を通じて、単一言語モデルのパフォーマンスに挑戦します。23の言語をサポートしています。" }, "c4ai-aya-vision-32b": { "description": "Aya Visionは、最先端のマルチモーダルモデルで、言語、テキスト、画像能力の複数の重要なベンチマークで優れたパフォーマンスを発揮します。23の言語をサポートしています。この320億パラメータのバージョンは、最先端の多言語パフォーマンスに焦点を当てています。" }, "c4ai-aya-vision-8b": { "description": "Aya Visionは、最先端のマルチモーダルモデルで、言語、テキスト、画像能力の複数の重要なベンチマークで優れたパフォーマンスを発揮します。この80億パラメータのバージョンは、低遅延と最適なパフォーマンスに焦点を当てています。" }, "charglm-3": { "description": "CharGLM-3はキャラクター演技と感情的な伴侶のために設計されており、超長期の多段階記憶と個別化された対話をサポートし、幅広い用途に適しています。" }, "charglm-4": { "description": "CharGLM-4はキャラクター演技と感情的な伴侶のために設計されており、超長期の多回記憶と個別化された対話をサポートし、幅広い応用があります。" }, "chatglm3": { "description": "ChatGLM3は、智譜AIと清華KEGラボが公開したクローズドソースモデルで、大量の中国語と英語の識別子の事前学習と人間の好みの調整学習を経ています。1世代目のモデルと比較して、MMLU、C-Eval、GSM8Kでそれぞれ16%、36%、280%の向上を達成し、中国語タスクランキングC-Evalで1位を獲得しました。知識量、推論能力、創造性が求められる場面、例えば広告文の作成、小説の執筆、知識系の執筆、コードの生成などに適しています。" }, "chatglm3-6b-base": { "description": "ChatGLM3-6b-base は、智譜が開発した ChatGLM シリーズの最新世代の 60 億パラメータのオープンソースの基本モデルです。" }, "chatgpt-4o-latest": { "description": "ChatGPT-4oは、リアルタイムで更新される動的モデルで、常に最新のバージョンを維持します。強力な言語理解と生成能力を組み合わせており、顧客サービス、教育、技術サポートなどの大規模なアプリケーションシナリオに適しています。" }, "claude-2.0": { "description": "Claude 2は、業界をリードする200Kトークンのコンテキスト、モデルの幻覚の発生率を大幅に低下させる、システムプロンプト、および新しいテスト機能:ツール呼び出しを含む、企業にとって重要な能力の進歩を提供します。" }, "claude-2.1": { "description": "Claude 2は、業界をリードする200Kトークンのコンテキスト、モデルの幻覚の発生率を大幅に低下させる、システムプロンプト、および新しいテスト機能:ツール呼び出しを含む、企業にとって重要な能力の進歩を提供します。" }, "claude-3-5-haiku-20241022": { "description": "Claude 3.5 Haikuは、Anthropicの最も高速な次世代モデルです。Claude 3 Haikuと比較して、Claude 3.5 Haikuはすべてのスキルで向上しており、多くの知能ベンチマークテストで前の世代の最大モデルであるClaude 3 Opusを超えています。" }, "claude-3-5-sonnet-20240620": { "description": "Claude 3.5 Sonnetは、Opusを超える能力とSonnetよりも速い速度を提供し、Sonnetと同じ価格を維持します。Sonnetは特にプログラミング、データサイエンス、視覚処理、エージェントタスクに優れています。" }, "claude-3-5-sonnet-20241022": { "description": "Claude 3.5 Sonnetは、Opusを超える能力とSonnetよりも速い速度を提供しつつ、Sonnetと同じ価格を維持します。Sonnetは特にプログラミング、データサイエンス、視覚処理、代理タスクに優れています。" }, "claude-3-7-sonnet-20250219": { "description": "Claude 3.7 Sonnetは、競合他社よりも低価格で最大の効用を提供し、信頼性が高く耐久性のある主力機として設計されています。スケール化されたAIデプロイメントに適しています。Claude 3.7 Sonnetは画像を処理し、テキスト出力を返すことができ、200Kのコンテキストウィンドウを持っています。" }, "claude-3-haiku-20240307": { "description": "Claude 3 Haikuは、Anthropicの最も速く、最もコンパクトなモデルであり、ほぼ瞬時の応答を実現することを目的としています。迅速かつ正確な指向性能を持っています。" }, "claude-3-opus-20240229": { "description": "Claude 3 Opusは、Anthropicが高度に複雑なタスクを処理するために開発した最も強力なモデルです。性能、知性、流暢さ、理解力において卓越したパフォーマンスを発揮します。" }, "claude-3-sonnet-20240229": { "description": "Claude 3 Sonnetは、企業のワークロードに理想的なバランスを提供し、より低価格で最大の効用を提供し、信頼性が高く、大規模な展開に適しています。" }, "claude-opus-4-20250514": { "description": "Claude Opus 4は、Anthropicが高度に複雑なタスクを処理するために開発した最も強力なモデルです。性能、知性、流暢さ、理解力において卓越したパフォーマンスを発揮します。" }, "claude-sonnet-4-20250514": { "description": "Claude 4 Sonnetは、ほぼ瞬時の応答や段階的な思考を生成でき、ユーザーはこれらのプロセスを明確に見ることができます。APIユーザーは、モデルの思考時間を詳細に制御することも可能です。" }, "codegeex-4": { "description": "CodeGeeX-4は強力なAIプログラミングアシスタントで、さまざまなプログラミング言語のインテリジェントな質問応答とコード補完をサポートし、開発効率を向上させます。" }, "codegeex4-all-9b": { "description": "CodeGeeX4-ALL-9Bは、多言語コード生成モデルで、コード補完と生成、コードインタープリター、ウェブ検索、関数呼び出し、リポジトリレベルのコードQ&Aを含む包括的な機能をサポートし、ソフトウェア開発のさまざまなシーンをカバーしています。パラメータが10B未満のトップクラスのコード生成モデルです。" }, "codegemma": { "description": "CodeGemmaは、さまざまなプログラミングタスクに特化した軽量言語モデルであり、迅速な反復と統合をサポートします。" }, "codegemma:2b": { "description": "CodeGemmaは、さまざまなプログラミングタスクに特化した軽量言語モデルであり、迅速な反復と統合をサポートします。" }, "codellama": { "description": "Code Llamaは、コード生成と議論に特化したLLMであり、広範なプログラミング言語のサポートを組み合わせて、開発者環境に適しています。" }, "codellama/CodeLlama-34b-Instruct-hf": { "description": "Code Llamaはコード生成と議論に特化したLLMで、幅広いプログラミング言語のサポートを組み合わせて、開発者環境に適しています。" }, "codellama:13b": { "description": "Code Llamaは、コード生成と議論に特化したLLMであり、広範なプログラミング言語のサポートを組み合わせて、開発者環境に適しています。" }, "codellama:34b": { "description": "Code Llamaは、コード生成と議論に特化したLLMであり、広範なプログラミング言語のサポートを組み合わせて、開発者環境に適しています。" }, "codellama:70b": { "description": "Code Llamaは、コード生成と議論に特化したLLMであり、広範なプログラミング言語のサポートを組み合わせて、開発者環境に適しています。" }, "codeqwen": { "description": "CodeQwen1.5は、大量のコードデータでトレーニングされた大規模言語モデルであり、複雑なプログラミングタスクを解決するために特化しています。" }, "codestral": { "description": "Codestralは、Mistral AIの初のコードモデルであり、コード生成タスクに優れたサポートを提供します。" }, "codestral-latest": { "description": "Codestralは、コード生成に特化した最先端の生成モデルであり、中間埋め込みやコード補完タスクを最適化しています。" }, "cognitivecomputations/dolphin-mixtral-8x22b": { "description": "Dolphin Mixtral 8x22Bは指示遵守、対話、プログラミングのために設計されたモデルです。" }, "cohere-command-r": { "description": "Command Rは、RAGとツール使用をターゲットにしたスケーラブルな生成モデルで、企業向けの生産規模のAIを実現します。" }, "cohere-command-r-plus": { "description": "Command R+は、企業グレードのワークロードに対応するために設計された最先端のRAG最適化モデルです。" }, "cohere/Cohere-command-r": { "description": "Command RはRAGやツール使用に特化した拡張可能な生成モデルで、企業が生産レベルのAIを実現できるよう設計されています。" }, "cohere/Cohere-command-r-plus": { "description": "Command R+は最先端のRAG最適化モデルで、企業レベルのワークロードに対応することを目的としています。" }, "command": { "description": "指示に従う対話モデルで、言語タスクにおいて高品質で信頼性が高く、私たちの基本生成モデルよりも長いコンテキスト長を持っています。" }, "command-a-03-2025": { "description": "Command Aは、ツールの使用、エージェント、検索強化生成(RAG)、および多言語アプリケーションシナリオにおいて優れたパフォーマンスを発揮する、これまでで最も強力なモデルです。Command Aは256Kのコンテキスト長を持ち、2つのGPUで動作し、Command R+ 08-2024と比較してスループットが150%向上しています。" }, "command-light": { "description": "より小型で高速なCommandバージョンで、ほぼ同じ強力さを持ちながら、より速い速度を提供します。" }, "command-light-nightly": { "description": "主要なバージョンリリース間の時間間隔を短縮するために、Commandモデルのナイトリーバージョンをリリースしました。command-lightシリーズでは、このバージョンはcommand-light-nightlyと呼ばれます。command-light-nightlyは最新で最も実験的であり(おそらく)不安定なバージョンです。ナイトリーバージョンは定期的に更新され、事前通知なしにリリースされるため、プロダクション環境での使用は推奨されません。" }, "command-nightly": { "description": "主要なバージョンリリース間の時間間隔を短縮するために、Commandモデルのナイトリーバージョンをリリースしました。Commandシリーズでは、このバージョンはcommand-cightlyと呼ばれます。command-nightlyは最新で最も実験的であり(おそらく)不安定なバージョンです。ナイトリーバージョンは定期的に更新され、事前通知なしにリリースされるため、プロダクション環境での使用は推奨されません。" }, "command-r": { "description": "Command Rは、対話と長いコンテキストタスクに最適化されたLLMであり、特に動的なインタラクションと知識管理に適しています。" }, "command-r-03-2024": { "description": "Command Rは、指示に従う対話モデルで、言語タスクにおいてより高い品質と信頼性を提供し、従来のモデルよりも長いコンテキスト長を持っています。コード生成、検索強化生成(RAG)、ツール使用、エージェントなどの複雑なワークフローに使用できます。" }, "command-r-08-2024": { "description": "command-r-08-2024はCommand Rモデルの更新版で、2024年8月にリリースされました。" }, "command-r-plus": { "description": "Command R+は、リアルな企業シーンと複雑なアプリケーションのために設計された高性能な大規模言語モデルです。" }, "command-r-plus-04-2024": { "description": "Command R+は、指示に従う対話モデルで、言語タスクにおいてより高い品質と信頼性を提供し、従来のモデルよりも長いコンテキスト長を持っています。複雑なRAGワークフローや多段階ツール使用に最適です。" }, "command-r-plus-08-2024": { "description": "Command R+は指示に従う対話モデルで、言語タスクにおいてより高い品質と信頼性を示し、従来のモデルに比べてより長いコンテキスト長を持っています。複雑なRAGワークフローや多段階のツール使用に最適です。" }, "command-r7b-12-2024": { "description": "command-r7b-12-2024は、小型で効率的な更新版で、2024年12月にリリースされました。RAG、ツール使用、エージェントなど、複雑な推論と多段階処理を必要とするタスクで優れたパフォーマンスを発揮します。" }, "compound-beta": { "description": "Compound-betaは複合AIシステムで、GroqCloudでサポートされている複数のオープン利用可能なモデルによって支えられ、ユーザーのクエリに応じてツールを賢く選択的に使用します。" }, "compound-beta-mini": { "description": "Compound-beta-miniは複合AIシステムで、GroqCloudでサポートされている公開利用可能なモデルによって支えられ、ユーザーのクエリに応じてツールを賢く選択的に使用します。" }, "dall-e-2": { "description": "第二世代DALL·Eモデル、よりリアルで正確な画像生成をサポートし、解像度は第一世代の4倍です" }, "dall-e-3": { "description": "最新のDALL·Eモデル、2023年11月にリリース。よりリアルで正確な画像生成をサポートし、詳細表現力が向上しています" }, "databricks/dbrx-instruct": { "description": "DBRX Instructは、高い信頼性の指示処理能力を提供し、多業界アプリケーションをサポートします。" }, "deepseek-ai/DeepSeek-R1": { "description": "DeepSeek-R1は、強化学習(RL)駆動の推論モデルであり、モデル内の繰り返しと可読性の問題を解決します。RLの前に、DeepSeek-R1はコールドスタートデータを導入し、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを発揮し、精巧に設計されたトレーニング手法によって全体的な効果を向上させました。" }, "deepseek-ai/DeepSeek-R1-0528": { "description": "DeepSeek R1は、増強された計算資源と後訓練過程で導入されたアルゴリズム最適化機構を活用し、その推論および推断能力の深さを著しく向上させました。本モデルは数学、プログラミング、一般論理などの各種ベンチマーク評価で優れた成績を示し、全体性能はO3やGemini 2.5 Proなどの先進モデルに近づいています。" }, "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B": { "description": "DeepSeek-R1-0528-Qwen3-8BはDeepSeek-R1-0528モデルの思考連鎖をQwen3 8B Baseに蒸留して得られたモデルです。オープンソースモデル中で最先端(SOTA)の性能を達成し、AIME 2024テストでQwen3 8Bを10%上回り、Qwen3-235B-thinkingの性能レベルに達しています。数学推論、プログラミング、汎用論理など複数のベンチマークで優れた成績を示し、Qwen3-8Bと同じアーキテクチャながらDeepSeek-R1-0528のトークナイザー設定を共有しています。" }, "deepseek-ai/DeepSeek-R1-Distill-Llama-70B": { "description": "DeepSeek-R1蒸留モデルで、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新しました。" }, "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B": { "description": "DeepSeek-R1蒸留モデルで、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新しました。" }, "deepseek-ai/DeepSeek-R1-Distill-Qwen-14B": { "description": "DeepSeek-R1蒸留モデルで、強化学習とコールドスタートデータを通じて推論性能を最適化し、オープンソースモデルがマルチタスクの基準を刷新しました。" }, "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B": { "description": "DeepSeek-R1-Distill-Qwen-32Bは、Qwen2.5-32Bに基づいて知識蒸留によって得られたモデルです。このモデルは、DeepSeek-R1が生成した80万の選りすぐりのサンプルを使用して微調整され、数学、プログラミング、推論などの複数の分野で卓越した性能を示しています。AIME 2024、MATH-500、GPQA Diamondなどの複数のベンチマークテストで優れた成績を収めており、特にMATH-500では94.3%の正確性を達成し、強力な数学的推論能力を示しています。" }, "deepseek-ai/DeepSeek-R1-Distill-Qwen-7B": { "description": "DeepSeek-R1-Distill-Qwen-7Bは、Qwen2.5-Math-7Bに基づいて知識蒸留によって得られたモデルです。このモデルは、DeepSeek-R1が生成した80万の選りすぐりのサンプルを使用して微調整され、優れた推論能力を示しています。複数のベンチマークテストで優れた成績を収めており、特にMATH-500では92.8%の正確性を達成し、AIME 2024では55.5%の合格率を達成し、CodeForcesでは1189のスコアを獲得し、7B規模のモデルとして強力な数学とプログラミング能力を示しています。" }, "deepseek-ai/DeepSeek-V2.5": { "description": "DeepSeek V2.5は以前のバージョンの優れた特徴を集約し、汎用性とコーディング能力を強化しました。" }, "deepseek-ai/DeepSeek-V3": { "description": "DeepSeek-V3は、6710億パラメータを持つ混合専門家(MoE)言語モデルであり、多頭潜在注意(MLA)とDeepSeekMoEアーキテクチャを採用し、補助損失なしの負荷バランス戦略を組み合わせて、推論とトレーニングの効率を最適化します。14.8兆の高品質トークンで事前トレーニングを行い、監視微調整と強化学習を経て、DeepSeek-V3は他のオープンソースモデルを超え、先進的なクローズドソースモデルに近づきました。" }, "deepseek-ai/deepseek-llm-67b-chat": { "description": "DeepSeek 67Bは、高い複雑性の対話のために訓練された先進的なモデルです。" }, "deepseek-ai/deepseek-r1": { "description": "最先端の効率的なLLMで、推論、数学、プログラミングに優れています。" }, "deepseek-ai/deepseek-vl2": { "description": "DeepSeek-VL2は、DeepSeekMoE-27Bに基づいて開発された混合専門家(MoE)視覚言語モデルであり、スパースアクティベーションのMoEアーキテクチャを採用し、わずか4.5Bパラメータを活性化することで卓越した性能を実現しています。このモデルは、視覚的質問応答、光学文字認識、文書/表/グラフ理解、視覚的定位などの複数のタスクで優れたパフォーマンスを発揮します。" }, "deepseek-chat": { "description": "一般的な対話能力と強力なコード処理能力を兼ね備えた新しいオープンソースモデルであり、元のChatモデルの対話能力とCoderモデルのコード処理能力を保持しつつ、人間の好みにより良く整合しています。さらに、DeepSeek-V2.5は、執筆タスクや指示に従う能力など、さまざまな面で大幅な向上を実現しました。" }, "deepseek-coder-33B-instruct": { "description": "DeepSeek Coder 33Bは、2兆のデータを基にトレーニングされたコード言語モデルで、そのうち87%がコード、13%が中英語です。モデルは16Kのウィンドウサイズと穴埋めタスクを導入し、プロジェクトレベルのコード補完とスニペット埋め機能を提供します。" }, "deepseek-coder-v2": { "description": "DeepSeek Coder V2は、オープンソースの混合エキスパートコードモデルであり、コードタスクにおいて優れた性能を発揮し、GPT4-Turboに匹敵します。" }, "deepseek-coder-v2:236b": { "description": "DeepSeek Coder V2は、オープンソースの混合エキスパートコードモデルであり、コードタスクにおいて優れた性能を発揮し、GPT4-Turboに匹敵します。" }, "deepseek-r1": { "description": "DeepSeek-R1は、強化学習(RL)駆動の推論モデルであり、モデル内の繰り返しと可読性の問題を解決します。RLの前に、DeepSeek-R1はコールドスタートデータを導入し、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを発揮し、精巧に設計されたトレーニング手法によって全体的な効果を向上させました。" }, "deepseek-r1-0528": { "description": "685B フルスペックモデルで、2025年5月28日にリリースされました。DeepSeek-R1 は後期トレーニング段階で大規模に強化学習技術を活用し、極めて少ないラベル付きデータでモデルの推論能力を大幅に向上させました。数学、コード、自然言語推論などのタスクで高い性能と強力な能力を持ちます。" }, "deepseek-r1-70b-fast-online": { "description": "DeepSeek R1 70Bファスト版で、リアルタイムのオンライン検索をサポートし、モデルのパフォーマンスを維持しながら、より速い応答速度を提供します。" }, "deepseek-r1-70b-online": { "description": "DeepSeek R1 70Bスタンダード版で、リアルタイムのオンライン検索をサポートし、最新情報が必要な対話やテキスト処理タスクに適しています。" }, "deepseek-r1-distill-llama": { "description": "deepseek-r1-distill-llama は、DeepSeek-R1 から Llama を蒸留したモデルです。" }, "deepseek-r1-distill-llama-70b": { "description": "DeepSeek R1——DeepSeekスイートの中でより大きく、より賢いモデル——がLlama 70Bアーキテクチャに蒸留されました。ベンチマークテストと人間評価に基づき、このモデルは元のLlama 70Bよりも賢く、特に数学と事実の正確性が求められるタスクで優れたパフォーマンスを示します。" }, "deepseek-r1-distill-llama-8b": { "description": "DeepSeek-R1-Distillシリーズモデルは、知識蒸留技術を通じて、DeepSeek-R1が生成したサンプルをQwen、Llamaなどのオープンソースモデルに微調整して得られたものです。" }, "deepseek-r1-distill-qianfan-llama-70b": { "description": "2025年2月14日に初めてリリースされ、千帆大モデル開発チームがLlama3_70Bをベースモデル(Built with Meta Llama)として蒸留したもので、蒸留データには千帆のコーパスも追加されています。" }, "deepseek-r1-distill-qianfan-llama-8b": { "description": "2025年2月14日に初めてリリースされ、千帆大モデル開発チームがLlama3_8Bをベースモデル(Built with Meta Llama)として蒸留したもので、蒸留データには千帆のコーパスも追加されています。" }, "deepseek-r1-distill-qwen": { "description": "deepseek-r1-distill-qwen は、Qwen をベースに DeepSeek-R1 から蒸留されたモデルです。" }, "deepseek-r1-distill-qwen-1.5b": { "description": "DeepSeek-R1-Distillシリーズモデルは、知識蒸留技術を通じて、DeepSeek-R1が生成したサンプルをQwen、Llamaなどのオープンソースモデルに微調整して得られたものです。" }, "deepseek-r1-distill-qwen-14b": { "description": "DeepSeek-R1-Distillシリーズモデルは、知識蒸留技術を通じて、DeepSeek-R1が生成したサンプルをQwen、Llamaなどのオープンソースモデルに微調整して得られたものです。" }, "deepseek-r1-distill-qwen-32b": { "description": "DeepSeek-R1-Distillシリーズモデルは、知識蒸留技術を通じて、DeepSeek-R1が生成したサンプルをQwen、Llamaなどのオープンソースモデルに微調整して得られたものです。" }, "deepseek-r1-distill-qwen-7b": { "description": "DeepSeek-R1-Distillシリーズモデルは、知識蒸留技術を通じて、DeepSeek-R1が生成したサンプルをQwen、Llamaなどのオープンソースモデルに微調整して得られたものです。" }, "deepseek-r1-fast-online": { "description": "DeepSeek R1フルファスト版で、リアルタイムのオンライン検索をサポートし、671Bパラメータの強力な能力とより速い応答速度を組み合わせています。" }, "deepseek-r1-online": { "description": "DeepSeek R1フルバージョンで、671Bパラメータを持ち、リアルタイムのオンライン検索をサポートし、より強力な理解と生成能力を備えています。" }, "deepseek-reasoner": { "description": "DeepSeekが提供する推論モデルです。最終的な回答を出力する前に、モデルは思考の連鎖を出力し、最終的な答えの正確性を高めます。" }, "deepseek-v2": { "description": "DeepSeek V2は、高効率なMixture-of-Experts言語モデルであり、経済的な処理ニーズに適しています。" }, "deepseek-v2:236b": { "description": "DeepSeek V2 236Bは、DeepSeekの設計コードモデルであり、強力なコード生成能力を提供します。" }, "deepseek-v3": { "description": "DeepSeek-V3は、杭州深度求索人工知能基礎技術研究有限公司が独自に開発したMoEモデルで、複数の評価で優れた成績を収め、主流のランキングでオープンソースモデルの首位に立っています。V3はV2.5モデルに比べて生成速度が3倍向上し、ユーザーにより迅速でスムーズな使用体験を提供します。" }, "deepseek-v3-0324": { "description": "DeepSeek-V3-0324は671BパラメータのMoEモデルであり、プログラミングと技術能力、文脈理解、長文処理において優れた性能を発揮します。" }, "deepseek/deepseek-chat-v3-0324": { "description": "DeepSeek V3は、685Bパラメータの専門的な混合モデルであり、DeepSeekチームのフラッグシップチャットモデルシリーズの最新のイテレーションです。\n\nこれは、[DeepSeek V3](/deepseek/deepseek-chat-v3)モデルを継承し、さまざまなタスクで優れたパフォーマンスを発揮します。" }, "deepseek/deepseek-chat-v3-0324:free": { "description": "DeepSeek V3は、685Bパラメータの専門的な混合モデルであり、DeepSeekチームのフラッグシップチャットモデルシリーズの最新のイテレーションです。\n\nこれは、[DeepSeek V3](/deepseek/deepseek-chat-v3)モデルを継承し、さまざまなタスクで優れたパフォーマンスを発揮します。" }, "deepseek/deepseek-r1": { "description": "DeepSeek-R1は、わずかなラベル付きデータしかない状況で、モデルの推論能力を大幅に向上させました。最終的な回答を出力する前に、モデルは思考の連鎖を出力し、最終的な答えの正確性を向上させます。" }, "deepseek/deepseek-r1-0528": { "description": "DeepSeek-R1は極めて少ないラベル付きデータでモデルの推論能力を大幅に向上させました。最終回答を出力する前に、モデルは思考の連鎖を出力し、最終答えの正確性を高めます。" }, "deepseek/deepseek-r1-0528:free": { "description": "DeepSeek-R1は極めて少ないラベル付きデータでモデルの推論能力を大幅に向上させました。最終回答を出力する前に、モデルは思考の連鎖を出力し、最終答えの正確性を高めます。" }, "deepseek/deepseek-r1-distill-llama-70b": { "description": "DeepSeek R1 Distill Llama 70BはLlama3.3 70Bに基づく大規模言語モデルで、DeepSeek R1の出力を微調整に利用し、大規模な最前線モデルと同等の競争力のある性能を実現しています。" }, "deepseek/deepseek-r1-distill-llama-8b": { "description": "DeepSeek R1 Distill Llama 8BはLlama-3.1-8B-Instructに基づく蒸留大言語モデルで、DeepSeek R1の出力を使用してトレーニングされています。" }, "deepseek/deepseek-r1-distill-qwen-14b": { "description": "DeepSeek R1 Distill Qwen 14BはQwen 2.5 14Bに基づく蒸留大言語モデルで、DeepSeek R1の出力を使用してトレーニングされています。このモデルは複数のベンチマークテストでOpenAIのo1-miniを超え、密なモデル(dense models)の最新技術の成果を達成しました。以下は一部のベンチマークテストの結果です:\nAIME 2024 pass@1: 69.7\nMATH-500 pass@1: 93.9\nCodeForces Rating: 1481\nこのモデルはDeepSeek R1の出力から微調整を行い、より大規模な最前線モデルと同等の競争力のある性能を示しています。" }, "deepseek/deepseek-r1-distill-qwen-32b": { "description": "DeepSeek R1 Distill Qwen 32BはQwen 2.5 32Bに基づく蒸留大言語モデルで、DeepSeek R1の出力を使用してトレーニングされています。このモデルは複数のベンチマークテストでOpenAIのo1-miniを超え、密なモデル(dense models)の最新技術の成果を達成しました。以下は一部のベンチマークテストの結果です:\nAIME 2024 pass@1: 72.6\nMATH-500 pass@1: 94.3\nCodeForces Rating: 1691\nこのモデルはDeepSeek R1の出力から微調整を行い、より大規模な最前線モデルと同等の競争力のある性能を示しています。" }, "deepseek/deepseek-r1/community": { "description": "DeepSeek R1はDeepSeekチームが発表した最新のオープンソースモデルで、特に数学、プログラミング、推論タスクにおいてOpenAIのo1モデルと同等の推論性能を持っています。" }, "deepseek/deepseek-r1:free": { "description": "DeepSeek-R1は、わずかなラベル付きデータしかない状況で、モデルの推論能力を大幅に向上させました。最終的な回答を出力する前に、モデルは思考の連鎖を出力し、最終的な答えの正確性を向上させます。" }, "deepseek/deepseek-v3": { "description": "DeepSeek-V3は推論速度において前のモデルに比べて大きなブレークスルーを達成しました。オープンソースモデルの中で1位にランクインし、世界の最先端のクローズドモデルと肩を並べることができます。DeepSeek-V3はマルチヘッド潜在注意(MLA)とDeepSeekMoEアーキテクチャを採用しており、これらのアーキテクチャはDeepSeek-V2で完全に検証されています。さらに、DeepSeek-V3は負荷分散のための補助的な非損失戦略を開発し、より強力な性能を得るためにマルチラベル予測トレーニング目標を設定しました。" }, "deepseek/deepseek-v3/community": { "description": "DeepSeek-V3は推論速度において前のモデルに比べて大きなブレークスルーを達成しました。オープンソースモデルの中で1位にランクインし、世界の最先端のクローズドモデルと肩を並べることができます。DeepSeek-V3はマルチヘッド潜在注意(MLA)とDeepSeekMoEアーキテクチャを採用しており、これらのアーキテクチャはDeepSeek-V2で完全に検証されています。さらに、DeepSeek-V3は負荷分散のための補助的な非損失戦略を開発し、より強力な性能を得るためにマルチラベル予測トレーニング目標を設定しました。" }, "deepseek_r1": { "description": "DeepSeek-R1は強化学習(RL)駆動の推論モデルで、モデル内の繰り返しと可読性の問題を解決しました。RLの前に、DeepSeek-R1はコールドスタートデータを導入し、推論性能をさらに最適化しました。数学、コード、推論タスクにおいてOpenAI-o1と同等のパフォーマンスを示し、精巧に設計された訓練方法によって全体的な効果を向上させました。" }, "deepseek_r1_distill_llama_70b": { "description": "DeepSeek-R1-Distill-Llama-70BはLlama-3.3-70B-Instructに基づき、蒸留訓練を通じて得られたモデルです。このモデルはDeepSeek-R1シリーズの一部であり、DeepSeek-R1が生成したサンプルを使用して微調整され、数学、プログラミング、推論などの複数の分野で優れた性能を示しています。" }, "deepseek_r1_distill_qwen_14b": { "description": "DeepSeek-R1-Distill-Qwen-14BはQwen2.5-14Bに基づき、知識蒸留を通じて得られたモデルです。このモデルはDeepSeek-R1が生成した80万の選りすぐりのサンプルを使用して微調整され、優れた推論能力を示しています。" }, "deepseek_r1_distill_qwen_32b": { "description": "DeepSeek-R1-Distill-Qwen-32BはQwen2.5-32Bに基づき、知識蒸留を通じて得られたモデルです。このモデルはDeepSeek-R1が生成した80万の選りすぐりのサンプルを使用して微調整され、数学、プログラミング、推論などの複数の分野で卓越した性能を示しています。" }, "doubao-1.5-lite-32k": { "description": "Doubao-1.5-liteは全く新しい世代の軽量版モデルで、極限の応答速度を実現し、効果と遅延の両方で世界トップレベルに達しています。" },