@lobehub/chat

Version:

Lobe Chat - an open-source, high-performance chatbot framework that supports speech synthesis, multimodal, and extensible Function Call plugin system. Supports one-click free deployment of your private ChatGPT/LLM web application.

github.com/lobehub/lobe-chat

lobehub/lobe-chat

34 lines (21 loc) • 1.79 kB

text/mdx

View Raw

--- title: 视觉模型使用指南 - 支持多模态交互的大语言模型 description: "了解如何在LobeChat中使用支持视觉识别功能的大语言模型，通过上传图片或拖拽图片到输入框进行交互，并选择带有\U0001F441️图标的模型进行图片内容交互。" tags: - 视觉模型 - 多模态交互 - 大语言模型 - 自定义模型配置 --- # 视觉模型使用指南当前支持视觉识别的大语言模型生态日益丰富。从 `gpt-4-vision` 开始，LobeChat 开始支持各类具有视觉识别能力的大语言模型，这使得 LobeChat 具备了多模态交互的能力。 <Video alt={'视觉模型使用'} src={'https://github.com/user-attachments/assets/1c6b4975-bfc3-4470-a934-558ff7a16941'} /> ## 图片输入如果你当前使用的模型支持视觉识别功能，您可以通过上传文件或直接将图片拖入输入框的方式输入图片内容。模型会自动识别图片内容，并根据您的提示词给出反馈。 <Image alt={'图片输入'} src={'https://github.com/user-attachments/assets/e6836560-8b05-4382-b761-d7624da4b0f1'} /> ## 视觉模型在模型列表中，模型名称后面带有`👁️`图标表示该模型支持视觉识别功能。选择该模型后即可发送图片内容。 <Image alt={'视觉模型'} src={'https://github.com/user-attachments/assets/fa07a326-04c8-4744-bb93-cef715d1d71f'} /> ## 自定义模型配置如果您需要添加当前列表中没有的自定义模型，并且该模型明确支持视觉识别功能，您可以在`自定义模型配置`中开启`视觉识别`功能，使该模型能够与图片进行交互。 <Image alt={'自定义模型配置'} src={'https://github.com/user-attachments/assets/c24718cc-402b-4298-b046-8b4aee610cbc'} />