xfyun-sdk

# 科大讯飞语音识别 SDK [![npm version](https://img.shields.io/npm/v/xfyun-sdk.svg)](https://www.npmjs.com/package/xfyun-sdk) [![npm downloads](https://img.shields.io/npm/dm/xfyun-sdk.svg)](https://www.npmjs.com/package/xfyun-sdk) [![license](https://img.shields.io/npm/l/xfyun-sdk.svg)](https://github.com/agions/xfyun-sdk/blob/main/LICENSE) 科大讯飞语音识别 SDK，支持浏览器中实时语音听写功能。基于科大讯飞开放平台 WebAPI 开发，提供了简单易用的接口和 React 组件。 ## 特性 - 🎯 实时语音识别 - ⚡️ 支持 React 组件集成 - 📦 TypeScript 支持 - 🌐 浏览器环境支持 - ⚙️ 自定义配置 - 🔥 热词识别 - 🔊 音量检测 - ⚠️ 错误处理 - 🎧 事件监听 ## 安装 ```bash npm install xfyun-sdk # 或者 yarn add xfyun-sdk ``` ## 快速开始 ### 基础用法 ```typescript import { XfyunASR } from 'xfyun-sdk'; // 创建识别器实例 const recognizer = new XfyunASR({ appId: 'your_app_id', apiKey: 'your_api_key', apiSecret: 'your_api_secret', language: 'zh_cn', accent: 'mandarin', vadEos: 3000 }, { onRecognitionResult: (text) => { console.log('识别结果:', text); }, onError: (error) => { console.error('错误:', error); } }); // 开始识别 await recognizer.start(); // 停止识别 recognizer.stop(); ``` ### React 组件使用 ```typescript import { SpeechRecognizer } from 'xfyun-sdk'; function App() { return ( <SpeechRecognizer appId="your_app_id" apiKey="your_api_key" apiSecret="your_api_secret" onResult={(text) => console.log('识别结果:', text)} onError={(error) => console.error('错误:', error)} /> ); } ``` ## API 文档 ### XfyunASR 类 #### 构造函数选项 | 参数 | 类型 | 必填 | 默认值 | 说明 | |------|------|------|--------|------| | appId | string | 是 | - | 科大讯飞开放平台应用 ID | | apiKey | string | 是 | - | 科大讯飞开放平台 API Key | | apiSecret | string | 是 | - | 科大讯飞开放平台 API Secret | | language | 'zh_cn' \| 'en_us' | 否 | 'zh_cn' | 识别语言 | | domain | 'iat' \| 'medical' \| 'assistant' | 否 | 'iat' | 识别领域 | | accent | 'mandarin' \| 'cantonese' | 否 | 'mandarin' | 方言 | | vadEos | number | 否 | 3000 | 静默检测时间（毫秒） | | maxAudioSize | number | 否 | 1024 * 1024 | 最大音频大小（字节） | | autoStart | boolean | 否 | false | 是否自动开始识别 | | hotWords | string[] | 否 | - | 热词列表 | | audioFormat | string | 否 | 'audio/L16;rate=16000' | 音频格式 | #### 方法 | 方法名 | 说明 | 参数 | 返回值 | |--------|------|------|--------| | start | 开始识别 | - | Promise<void> | | stop | 停止识别 | - | void | | getResult | 获取识别结果 | - | string | | getState | 获取当前状态 | - | RecognizerState | | clearResult | 清除识别结果 | - | void | #### 事件 | 事件名 | 说明 | 回调参数 | |--------|------|----------| | start | 开始识别时触发 | - | | stop | 停止识别时触发 | - | | result | 识别结果时触发 | text: string | | error | 发生错误时触发 | error: XfyunError | | process | 处理中时触发 | volume: number | | stateChange | 状态改变时触发 | state: RecognizerState | ### SpeechRecognizer 组件 #### Props | 属性 | 类型 | 必填 | 默认值 | 说明 | |------|------|------|--------|------| | appId | string | 是 | - | 科大讯飞开放平台应用 ID | | apiKey | string | 是 | - | 科大讯飞开放平台 API Key | | apiSecret | string | 是 | - | 科大讯飞开放平台 API Secret | | onStart | () => void | 否 | - | 开始识别回调 | | onStop | () => void | 否 | - | 停止识别回调 | | onResult | (text: string) => void | 否 | - | 识别结果回调 | | onError | (error: XfyunError) => void | 否 | - | 错误回调 | | onProcess | (volume: number) => void | 否 | - | 处理中回调 | | onStateChange | (state: RecognizerState) => void | 否 | - | 状态改变回调 | ## 常见问题与解决方案 ### 1. 识别结果为空 **问题描述**: 语音识别过程正常，但没有返回识别结果或结果始终为空。 **可能原因**: - API参数配置错误 - WebSocket连接异常 - 音频数据格式不匹配 - 麦克风权限或设置问题 **解决方案**: - 确认您的 AppID、APIKey 和 APISecret 正确无误 - 检查浏览器控制台日志，查看是否有连接错误 - 尝试增加 `vadEos` 参数值（例如5000ms），避免过早结束识别 - 确保使用16000Hz采样率的音频 - 在安静环境中测试，减少背景噪音干扰 - 检查麦克风权限是否已授予 - 尝试使用不同的浏览器测试 ### 2. 授权错误 **问题描述**: 出现"认证失败"或"签名错误"相关的错误信息。 **可能原因**: - API密钥信息不正确 - 签名生成算法错误 - URL编码问题 **解决方案**: - 仔细检查AppID、APIKey和APISecret是否与科大讯飞控制台一致 - 确保密钥没有多余的空格或特殊字符 - 更新SDK到最新版本，修复可能存在的签名问题 - 检查系统时间是否准确，时间差异可能导致签名失效 ### 3. 浏览器兼容性问题 **问题描述**: 在某些浏览器中无法正常工作。 **可能原因**: - 浏览器不支持WebSocket - 浏览器的麦克风访问机制不同 - MediaRecorder API兼容性问题 **解决方案**: - 使用推荐的浏览器：Chrome 70+、Firefox 75+、Safari 12.1+、Edge 79+ - 检查浏览器是否启用了HTTPS（某些浏览器需要HTTPS才能访问麦克风） - 在调用`start()`方法前确保已获得用户授权 - 添加浏览器特性检测逻辑，提供降级处理方案 ### 4. WebSocket连接问题 **问题描述**: WebSocket无法连接或频繁断开。 **可能原因**: - 网络问题 - 防火墙或代理设置 - WebSocket URL格式错误 **解决方案**: - 检查网络连接稳定性 - 确保防火墙未阻止WebSocket连接 - 检查控制台是否有CORS相关错误 - 增加重连机制，在连接断开后自动重新连接 - 使用开发者工具的Network面板监控WebSocket通信 ### 5. 性能与资源问题 **问题描述**: 使用SDK时CPU占用高或出现卡顿。 **可能原因**: - 音频处理消耗资源 - 数据发送频率过高 - 内存泄漏 **解决方案**: - 适当调整音频采样率和质量 - 优化数据发送频率，避免过于频繁地发送小数据包 - 在不需要时及时调用`stop()`方法释放资源 - 确保在组件卸载时正确清理资源 ## 示例查看 [examples](./examples) 目录获取更多示例： - [React 示例](./examples/react-demo) - [HTML 示例](./examples/html) ## 浏览器兼容性 - Chrome 70+ - Firefox 75+ - Safari 12.1+ - Edge 79+ ## 注意事项 1. 首次使用时需要允许浏览器访问麦克风 2. 确保网络连接稳定 3. 建议在安静的环境中使用 4. 需要有效的科大讯飞开放平台账号和 API 密钥 ## 更新日志查看 [CHANGELOG.md](./CHANGELOG.md) 了解详细更新内容。 ## 许可证 MIT License - 查看 [LICENSE](./LICENSE) 文件了解详情。 ## 贡献欢迎提交 Issue 和 Pull Request！查看 [CONTRIBUTING.md](./CONTRIBUTING.md) 了解如何参与贡献。