Her-v2 进化方案:构建24小时AI伴侣系统
从ASR-LLM-TTS到ASR-Agents-TTS的演进之路
项目愿景:打造一个真正的24小时AI伴侣,不仅能对话,更能理解你的生活、记住你的故事、感知你的情绪、融入你的社交网络。
🎯 核心设计哲学
拟人化的三个层次
第一层:感知拟人
不仅听到你说什么,更要理解你"怎么说"——通过多维度VAD和情感识别,感知你的语气、情绪、意图,就像一个真正在倾听的朋友。
第二层:记忆拟人
不是机械的数据库检索,而是像人类一样——有些事情记得很清楚,有些会慢慢淡忘,有些会在特定情境下突然想起。通过A-MEM系统构建互联的知识网络。
第三层:互动拟人
不是被动响应,而是主动关心——早上的问候、天气变化的提醒、察觉到你情绪低落时的安慰、甚至适时的幽默吐槽,让AI成为生活的一部分而非工具。
人机交互的终极目标
低延迟:端到端<1.5s,让对话自然流畅
高智能:通过Agents架构实现复杂任务处理
强记忆:构建用户社交网络,理解关系脉络
情感共鸣:识别并响应情绪变化
环境感知:被动监听,智能介入
📐 系统架构设计
整体架构:ASR-Agents-TTS
┌─────────────────────────────────────────────────────────────┐
│ Android/嵌入式客户端 │
│ [后台服务] → [音频流] → [智能VAD] → [触发决策] │
└────────────────────────┬────────────────────────────────────┘
│ WebSocket/gRPC
┌────────────────────────┴────────────────────────────────────┐
│ P2P穿透服务端 (个人Server) │
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ 智能VAD决策引擎 │ │
│ │ 静音检测 + 分贝分析 + 人声判断 + 语义完整性 + 声纹 │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ │ │
│ ┌──────────────────▼───────────────────────────────────┐ │
│ │ ASR系统 │ │
│ │ SenseVoice (多语言+情感+VAD) → 实时转录 → 对话 or 自言自语 │ │
│ └──────────────────┬───────────────────────────────────┘ │
│ │ │
│ ┌──────────────────▼───────────────────────────────────┐ │
│ │ Master Agent (协调器) │ │
│ │ Qwen2.5-7B / gpt-oss:20b │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────┐ │ │
│ │ │ Agents生态系统 │ │ │
│ │ │ │ │ │
│ │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │
│ │ │ │ Memory │ │ Emotion │ │ Context │ │ │ │
│ │ │ │ Agent │ │ Agent │ │ Agent │ │ │ │
│ │ │ └────┬─────┘ └────┬─────┘ └────┬─────┘ │ │ │
│ │ │ │ │ │ │ │ │
│ │ │ ┌────▼─────┐ ┌────▼─────┐ ┌────▼─────┐ │ │ │
│ │ │ │ Dialog │ │ Tool │ │ Social │ │ │ │
│ │ │ │ Agent │ │ Agent │ │ Agent │ │ │ │
│ │ │ └──────────┘ └──────────┘ └──────────┘ │ │ │
│ │ │ │ │ │
│ │ └─────────────────────────────────────────────────┘ │ │
│ │ │ │ │
│ │ ┌────────┴────────┐ │ │
│ │ │ │ │ │
│ │ [本地决策] [云端API] │ │
│ │ 简单任务快速响应 复杂推理/工具调用 │ │
│ └─────────────────┬───────────────────────────────────┘ │
│ │ │
│ ┌─────────────────▼───────────────────────────────────┐ │
│ │ 记忆人格系统 (核心) │ │
│ │ 向量语义匹配-元数据匹配-多模态记忆融合(尝试) │ │
│ │ ChromaDB(向量) + Neo4j(图) + PostgreSQL(结构化) │ │
│ └────────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ TTS系统 │ │
│ │ GPT-SoVITS / Index-TTS → 情感化语音合成 │ │
│ └──────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────┘