快速入门

本指南涵盖了Hume AI的所有功能:
- 入门 — 创建账户和基本设置
- 如何使用 Octave TTS — 根据文本提示生成富有表现力的声音
- 如何使用同理心语音界面(EVI) — 构建实时对话式人工智能代理
- 如何使用表达式测量 API — 从语音和视频中检测情绪
- 如何使用对话语调 — 创建自然的语音交互
- 如何使用 TTS Creator Studio — 使用脚本设计自定义语音角色
- 如何使用自定义语音角色 — 根据提示或录音构建独特的AI语音
- 如何使用多模态分析 — 分析音频、视频和文本中的情绪
所需时间: 每部影片 5 分钟
本指南还包含以下内容: 专业提示 | 常见错误 | 故障排除 | 定价 | 替代方案
为什么信任本指南
我使用 Hume AI 已经超过 6 个月了,并且测试了本文介绍的所有功能。这篇 Hume AI 使用指南文章源于真实的实践经验,而非营销宣传或厂商截图。

Hume AI是目前最强大的语音人工智能和情绪检测工具之一。
但大多数用户仅仅触及了它功能的冰山一角。
本指南将向您展示如何使用所有主要功能。
一步一步教你,附带截图和专业技巧。
休谟人工智能教程
本 Hume AI 完整教程将一步一步地引导您了解每个功能,从初始设置到高级技巧,让您成为高级用户。

休谟人工智能
创造富有表现力的人工智能 声音 能够理解情感和语境。Hume AI 的 Octave TTS 可生成 11 种语言的类人语音,延迟低于 200 毫秒。每月 10,000 个字符的免费试用。
Hume AI 入门
使用任何功能之前,请先完成此一次性设置。
大约需要3分钟。
请先观看这段简短的概述:
现在让我们一步一步来。
第一步:创建您的帐户
前往 Hume AI 的网站.
点击右上角的“注册”。
请输入您的电子邮件地址并创建密码。
您也可以使用 Google 或 GitHub 账号注册。
✓ 检查点: 检查你的 收件箱 请发送确认邮件。
步骤二:访问平台控制面板
Hume AI 是一个基于网络的平台——无需下载。
使用您的新帐户登录 app.hume.ai。
这就是仪表盘的样子:

✓ 检查点: 您应该可以看到带有 Octave TTS 和 EVI 选项的主仪表板。
步骤 3:获取您的 API 密钥
点击侧边栏中的“设置”,然后点击“API 密钥”。
点击“创建 API 密钥”并将其复制到安全的地方。
您需要它来进行 API 访问和 SDK 设置。
新用户注册即可获得 20 美元免费额度。
✅ 完成: 您已准备好使用以下任何功能。
如何使用 Hume AI Octave TTS
Octave TTS 让你转动 文本 变得富有表现力,有情感表达能力。
以下是使用步骤。
观看 Octave TTS 的实际应用:

现在让我们逐一分析每个步骤。
步骤 1:打开 TTS Playground
前往 Hume AI 平台,点击“文本转语音”。
这开启了 Octave TTS 的应用领域。
步骤二:选择语音并输入文本
从 100 多种预设音色中选择,或者创建自定义音色。
在输入框中输入或粘贴文本。
在提示语中添加“激动地说话”之类的情感指示。
这就是它的样子:

✓ 检查点: 你应该能看到已选择语音并应用了情感设置的文本。
步骤 3:生成并下载音频
点击“生成”按钮创建您的音频。
Octave 可在 200 毫秒内生成语音。
点击“下载”按钮保存音频文件。
✅ 结果: 你用纯文本创建了富有表现力、能感知情感的语音。
💡 专业提示: 为了获得最佳的情感效果,请使用“恐惧地低语”或“充满自信地温暖说话”等自然语言描述。Octave 能够理解上下文,因此详细的提示语可以生成更优质的语音。
如何使用 Hume AI 同理心语音界面 (EVI)
同理心语音界面(EVI) 让您能够构建具有类似人类同理心的实时对话式人工智能代理。
以下是使用步骤。
观看同理心语音界面的实际应用:

现在让我们逐一分析每个步骤。
步骤 1:导航至 EVI 设置
点击平台侧边栏中的“同理心语音界面”。
选择“创建配置”以开始新的 EVI 设置。
步骤 2:配置您的语音代理
为您的经纪人选择一个声音形象。
设置系统提示以定义个性和行为。
EVI能够检测用户声音中的情绪并调整响应。
✓ 检查点: 您应该可以看到您的 EVI 配置,其中语音和提示设置已激活。
步骤 3:测试您的语音代理
点击麦克风按钮即可开始实时对话。
自然地说话,并倾听对方的同理心回应。
EVI能够感知你的情绪基调并实时进行调整。
✅ 结果: 你已经构建了一个能够实时检测和回应情绪的对话式人工智能代理。
💡 专业提示: 使用 EVI 的对话历史记录功能来分析过去的互动,并随着时间的推移微调代理的回复。
如何使用 Hume AI 表情测量 API
表达式测量 API 可从语音、面部和文本中检测超过 25 种不同的情绪。
以下是使用步骤。
查看表达式测量 API 的实际应用:

现在让我们逐一分析每个步骤。
步骤 1:选择您的分析类型
请选择您要分析的音频、视频、图像或文本。
每种类型都能检测到不同的情绪信号。
步骤二:上传或串流您的媒体
上传文件进行批量处理,或使用流式 API 进行实时分析。
批量 API 可处理大量录制的媒体。
流媒体 API 适用于实时音频和视频流。
✓ 检查点: 您应该可以看到媒体文件已上传或流媒体已连接。
步骤 3:回顾情绪结果
API会返回每个片段的详细情感评分。
结果包括喜悦、悲伤、愤怒和惊讶等情绪。
您可以在平台仪表盘中查看结果。
✅ 结果: 您已对音频、视频或文本中的情绪进行了分析,并进行了详细评分。
💡 专业提示: 如果您不需要面部表情数据,请选择“仅音频”分析(价格为每分钟 0.0639 美元),而不是“视频带音频”分析(价格为每分钟 0.0828 美元)。这样可以节省大约 20% 的费用。
如何使用 Hume AI 对话语音
对话语调 让您能够为应用程序创建自然的双向语音交互, 游戏.
以下是使用步骤。
观看对话语音的实际应用:

现在让我们逐一分析每个步骤。
步骤 1:设置语音配置
进入语音设置部分,创建一个新的配置。
描述人物性格、说话风格和情感范围。
步骤 2:通过 WebSocket API 连接
使用 WebSocket 流媒体端点进行实时语音交互。
Hume 为 TypeScript、Python 和 .NET 提供 SDK。
该连接支持会话中语音切换。
✓ 检查点: 您的 WebSocket 连接应处于活动状态并进行音频流传输。
步骤 3:测试对话流程
对着麦克风说话,听人工智能的回应。
语音会根据你的情绪实时调整。
使用 Octave 2 时,响应延迟低于 200 毫秒。
✅ 结果: 您已构建出具有情感感知能力的实时对话语音体验。
💡 专业提示: 使用会话中语音切换功能,可以在对话过程中切换角色,而无需重新连接 WebSocket。
如何使用 Hume AI TTS Creator Studio
TTS Creator Studio 允许您创建包含多个角色和场景的长篇音频项目。
以下是使用步骤。
观看 TTS Creator Studio 的实际演示:

现在让我们逐一分析每个步骤。
步骤 1:创建新项目
点击侧边栏中的“项目”,然后选择“新建项目”。
给项目命名并选择内容类型。
步骤二:为角色分配配音
使用脚本编辑器添加对话。
为剧本中的每个角色指定不同的配音。
Octave 使每个声音在整个项目中保持一致。
✓ 检查点: 每个角色都应该有独特的配音,并准备好相应的台词。
步骤 3:生成并导出音频
点击“全部生成”为整个脚本创建音频。
该平台会自动将长文本分段。
满意后导出最终音频。
✅ 结果: 你制作了一个多角色音频项目,其中所有角色的声音都保持一致。
💡 专业提示: 对于有声读物,可以像“悄悄地低语”一样,为每行添加情感指示,使场景栩栩如生。
如何使用 Hume AI 自定义语音角色
自定义语音角色 可让您根据文本提示或最短 5 秒的录音创建独特的 AI 语音。
以下是使用步骤。
第一步:选择你的创作方式
前往“语音”并点击“创建语音”。
选择文字提示或语音提示。
第二步:设计或克隆你的声音
对于文字提示,请详细描述声音。
可以尝试这样描述:“一位和蔼可亲、40岁左右的英国男士,冷静而深思熟虑。”
如需克隆,请上传至少 5 秒钟的清晰音频录音。
✓ 检查点: 你的声音形象应该会出现在声音库中。
步骤 3:测试并保存您的声音
输入一个例句,然后点击“生成”进行预览。
调整描述,直到声音与你的画面相符。
保存此语音,以便在所有项目中使用。
✅ 结果: 您已为所有项目创建了一个可重复使用的自定义语音角色。
💡 专业提示: 在描述声音时,不仅要包含外貌特征,还要包含性格特征。“讽刺幽默”和“开朗热情”的效果截然不同。
如何使用 Hume AI 多模态分析
多模态分析 可同时分析音频、视频和文本中的情绪。
以下是使用步骤。
第一步:选择输入源
选择要分析的模态:声音、面部或语言。
您可以结合多个信息来源,获得更深入的见解。
步骤二:上传您的媒体文件
上传包含音频和视频数据的视频文件。
该API同时处理面部表情、语调和口语。
✓ 检查点: 上传文件时,请启用所有选定的上传模式。
步骤 3:查看综合情绪数据
查看所有输入源的统一情绪时间线。
比较面部表情与声音情绪线索的匹配程度。
导出数据以供您自己的应用程序使用。
✅ 结果: 您已完成结合语音、面部和文本数据的全多模态情感分析。
💡 专业提示: 多模态分析能够捕捉到单源分析无法捕捉到的情绪。平静的语气搭配紧张的面部表情,比单纯的音频更能揭示压力。
Hume AI 专业技巧和快捷方式
经过 6 个多月的 Hume AI 测试,以下是我总结的最佳建议。
键盘快捷键
| 行动 | 捷径 |
|---|---|
| 生成音频 | Ctrl + Enter |
| 播放/暂停预览 | 空格键 |
| 切换语音 | Ctrl + Shift + V |
| 开放语音库 | Ctrl + L |
大多数人错过的隐藏功能
- 语音转换 API: 在保持精确的时间和发音的同时,将一种声音替换成另一种声音——非常适合无需重新录制即可进行配音。
- 音素编辑: 在音素级别调整发音,以修正自定义名称或添加特定单词的重音。
- 跨语言口音预测: 克隆一种语言的声音,Octave 2 就能预测说另一种语言时的自然口音。
休谟人工智能常见错误及避免方法
错误一:使用通用语气 描述离子
❌ 错误: 输入“男声”或“女声”,并期待获得良好的结果。
✅ 右图: 使用详细的描述,例如“一位自信的35岁美国女性热情地说话。”
错误二:忽略超额成本
❌ 错误: 运行高容量发电系统而不检查使用限制。
✅ 右图: 在账单控制面板中监控使用情况,并在产生超额费用之前升级您的套餐。
错误三:将免费方案用于商业项目
❌ 错误: 将免费层级制作的音频发布到商业内容中。
✅ 右图: 升级到至少入门级套餐(每月 3 美元)即可获得商业许可权。
休谟人工智能故障排除
问题:音频生成的声音听起来平淡或机械。
原因: 您的文本输入缺乏 Octave 可以解读的情感背景。
使固定: 在提示语中添加情感描述,例如“用热情和紧迫的语气说话”。另外,尝试在文本中添加标点符号和自然的停顿。
问题: 语音克隆 听起来不像原版
原因: 源音频录音有背景噪音或时长过短。
使固定: 为获得最佳效果,请使用至少 15 秒的干净录音。上传前请去除背景音乐或噪音。
问题:API密钥返回“未授权”错误
原因: 您的 API 密钥已过期、无效,或者您的帐户没有剩余积分。
使固定: 从“设置”页面生成新的 API 密钥。查看您的账单控制面板,确保您的帐户有有效余额。
📌 笔记: 如果以上方法均无法解决您的问题,请联系 Hume AI 支持部门,邮箱地址为 billing@hume.ai。
什么是休谟人工智能?
休谟人工智能 是一个语音人工智能和情感检测平台,能够生成富有表现力的语音并分析人类情感。
你可以把它想象成一个永不疲倦的配音演员——一个真正理解自己所说每个字背后的情感的配音演员。
观看这段快速概览:
它包含以下主要特点:
- Octave TTS: 首个基于LLM智能的文本转语音模型,可生成11种语言的情感感知语音。
- 同理心语音界面(EVI): 能够检测并回应用户情绪的实时对话式人工智能。
- 表达式测量 API: 可从语音、面部表情和文本中检测 25 种以上的情绪。
- 对话语音: 为应用程序、游戏和虚拟助手提供低延迟语音交互。
- TTS Creator Studio: 包含剧本编辑和配音分配的多角色音频制作。
- 自定义语音角色: 根据文本提示或最短 5 秒的录音创建独特的语音。
- 多模态分析: 对音频、视频和文本输入进行综合情感分析。
如需完整评测,请参阅我们的 休谟人工智能评论.

休谟人工智能定价
以下是 Hume AI 在 2026 年的成本:
| 计划 | 价格 | 最适合 |
|---|---|---|
| 自由的 | $0 | 测试功能,每月处理 10,000 个字符。 |
| 起动机 | $3 | 需要商业许可的业余爱好者 |
| 创作者 | $14 | 拥有无限语音克隆功能的内容创作者 |
| 专业版 | $70 | 专业工作室和机构 |
| 规模 | $200 | 大批量生产团队 |
| 商业 | $500 | 具有高级需求的企业团队 |
| 企业 | 联系销售 | 提供定制部署和专属支持 |
免费试用: 是的——免费套餐包含每月 10,000 个 TTS 字符和 5 分钟 EVI 通话时长。
退款保证: 虽然没有正式的保证,但您可以随时取消。

💰 性价比最高: Creator(每月 14 美元)——包含无限语音克隆、商业许可和每月 140,000 个字符。
休谟人工智能与替代方案
Hume AI 的表现如何?以下是竞争格局:
| 工具 | 最适合 | 价格 | 等级 |
|---|---|---|---|
| 休谟人工智能 | 情感语音人工智能 | 每月 0-500 美元 | ⭐ 4.2 |
| ElevenLabs | 顶级语音质量(4.7 MOS) | 每月 0 美元至 82.50 美元 | ⭐ 4.7 |
| Murf AI | 企业视频工作流程 | 每月 19 美元至 199 美元 | ⭐ 4.3 |
| Speechify | 个人文本转语音 | 每月 0 至 29 美元 | ⭐ 4.2 |
| 描述 | 一体化音频/视频编辑 | 每月 0 至 50 美元 | ⭐ 4.5 |
| 播放 ht | 对话式人工智能语音 | 每月 0 至 49 美元 | ⭐ 4.1 |
| Lovo AI | 多语言语音内容 | 每月 24 至 75 美元 | ⭐ 4.0 |
| TTSOpenAI | 开发者 API 集成 | 按次付费 | ⭐ 4.3 |
快速精选:
- 综合最佳: ElevenLabs——语音质量评分最高,生成速度最快,仅需75毫秒
- 最佳预算: Hume AI — 免费版,另有每月 3 美元的商业许可入门版。
- 最适合初学者: Speechify——界面简洁,无需任何技术设置
- 最适合情感人工智能: Hume AI——唯一内置情绪检测和同理心回应的语音平台
🎯 Hume AI 替代方案
正在寻找 Hume AI 的替代方案?以下是一些最佳选择:
- 🚀 TTSOpenAI: 由 OpenAI 的语音模型提供支持的、对开发者友好的按需付费 TTS API,可快速集成。
- 🎨 Murf AI: 专业配音工作室,拥有 200 多种声音、30 多种语言以及内置功能 视频编辑器 适用于团队。
- 👶 Speechify: 一款适合初学者使用的文本转语音应用程序,可在任何设备上用自然语音朗读任何文本。
- ⚡ 描述: 集音频和视频编辑于一体的软件,具备AI语音克隆、转录等功能。 播客 编辑工具。
- 🌟 ElevenLabs: 业界领先的语音质量,支持 32 种语言,生成速度最快,语音库内容丰富。
- 💰 播放 ht: 价格亲民的AI语音平台,具备对话式语音模型和易于使用的开发者API。
- 🧠 Lovo AI: AI语音生成器 拥有 100 多种语言的 500 多种声音,以及内置的视频创作功能。
- 🎯 列表号: 一款面向播客创作者的文本转语音工具,具备音频嵌入和分发功能。
- 🔧 Podcastle: 具备AI语音生成和背景噪音消除功能的播客录制和编辑平台。
- 💼 DupDub: 经济实惠的AI配音工具,拥有300多种声音 社交媒体 以及营销视频。
- 🏢 WellSaid Labs: 企业级语音平台,提供品牌一致的语音,适用于企业培训和营销。
- 📊 重音器: 一键式 AI 配音生成器,拥有 100 多种声音,专注于简单、快速的音频创作。
- 🔒 ReadSpeaker: 提供企业级TTS服务,采用定制化定价,服务于教育和无障碍机构。
- ⭐ 自然阅读器: 支持个人和专业文本转语音功能,可上传文档并支持 Chrome 扩展程序。
- 🔥 改变: 语音转换平台,可实时改变你的声音,适用于创意和专业用途。
- 🎨 Speechelo: 一次性购买的配音工具,可将文本转换为带有情感控制的自然语音。
完整列表请参见我们的 休谟人工智能替代方案 指导。
⚔️ Hume AI 对比
以下是Hume AI与各竞争对手的对比:
- Hume AI 对比 TTSOpenAI: Hume AI 在情感控制和语音设计方面胜出。TTSOpenAI 在 API 定价简单和开发速度方面胜出。
- 休谟人工智能 vs 默夫 人工智能: Murf AI 在企业视频工作流程方面胜出。Hume AI 在情感语音生成和自定义角色方面胜出。
- Hume AI 对比 Speechify: Speechify 更适合日常个人使用。Hume AI 则更适合开发者构建能够感知情绪的语音应用。
- 休谟人工智能 vs 描述: Descript 作为一款全能编辑器胜出。Hume AI 则凭借其具有情感深度的专用语音 AI 脱颖而出。
- Hume AI 对阵 ElevenLabs: ElevenLabs 在原始语音质量和速度方面胜出。Hume AI 在情感理解和同理心语音功能方面胜出。
- 休谟人工智能 vs Play ht: Play ht 在对话式语音定价方面胜出。Hume AI 在情感检测和多模态分析方面胜出。
- Hume AI 对比 Lovo AI: Lovo AI 在语言多样性方面胜出。Hume AI 在语音表现力和情感语调控制方面胜出。
- Hume AI vs Listnr: Listnr 在播客分发方面胜出。Hume AI 在语音质量和情感驱动型语音方面胜出。
- Hume AI vs Podcastle: Podcastle 在播客编辑方面胜出。Hume AI 在富有表现力的语音生成和 API 访问方面胜出。
- Hume AI vs DupDub: DupDub胜在价格实惠。Hume AI胜在语音真实感和情感表达能力。
- Hume AI 对阵 WellSaid Labs: WellSaid Labs凭借企业级一致性胜出。Hume AI凭借情感表达和语音克隆胜出。
- Hume AI vs Revoicer: Revoicer胜在一键快速配音。Hume AI胜在细腻的情感表达。
- Hume AI 对比 ReadSpeaker: ReadSpeaker 在无障碍访问和教育领域胜出。Hume AI 则凭借其创意语音设计和强大的 API 功能脱颖而出。
- Hume AI vs NaturalReader: NaturalReader 在简单的文档阅读方面胜出。Hume AI 在富有表现力的内容创作方面胜出。
- 休谟人工智能 vs 变异人工智能: Altered 在实时语音转换方面胜出。Hume AI 在文本转语音质量和情感 AI 方面胜出。
- Hume AI vs Speechelo: Speechelo在一次性定价方面胜出。Hume AI在所有质量和功能指标上都胜出。
立即开始使用 Hume AI
你已经学会了如何使用Hume AI的每一项主要功能:
- ✅ Octave TTS
- ✅ 同理心语音界面 (EVI)
- ✅ 表达式测量 API
- ✅ 对话语音
- ✅ TTS Creator Studio
- ✅ 自定义语音角色
- ✅ 多模态分析
下一步: 选择一项功能,立即试用。
大多数人都是从 Octave TTS 开始的。
只需不到5分钟。
常见问题解答
如何使用 Hume 进行文本转语音?
在 app.hume.ai 注册一个免费的 Hume AI 账号。打开 TTS 演示区,选择一个语音或根据文本提示创建语音,输入文本,然后点击“生成”。您可以添加“语气温暖”等情感指令来控制语调。完成后下载音频文件。
Hume AI 的用途是什么?
Hume AI 用于生成富有表现力的 AI 语音、构建具有同理心的语音代理,以及从音频、视频和文本中检测情绪。常见应用场景包括有声读物旁白、播客配音、客服代理、视频游戏角色以及用于研究的情感分析。
Hume AI 的价格是多少?
Hume AI 提供每月 10,000 个字符的免费套餐。付费套餐起价分别为:入门版 3 美元/月,创作版 14 美元/月,专业版 70 美元/月,扩展版 200 美元/月,以及企业版 500 美元/月。企业版套餐价格另议。所有付费套餐均包含商业许可。
Hume AI 安全吗?
是的,Hume AI是一家合法公司,拥有雄厚的风险投资支持。它由前谷歌研究员Alan Cowen于2021年创立。该平台包含语音克隆的伦理保障措施,企业版方案还提供符合SOC 2、GDPR和HIPAA标准的合规功能。
Hume 和 ElevenLabs 有什么区别?
ElevenLabs 专注于纯净的语音质量和速度,其语音生成速度最快(75毫秒),支持 32 种语言。Hume AI 则专注于情感理解——其 Octave 模型能够解读语境和情感,从而提供更细腻的语音。选择 ElevenLabs,享受纯净的语音质量;选择 Hume AI,打造具有情感感知能力的语音应用。













