一键录音或VAD自动检测人声,Opus编码缓存到PSRAM
单击GPIO0按钮开始,再次单击停止,操作直觉化
检测到人声自动开始,静音3秒自动停止,零操作负担
音频通过WebSocket上传至FunASR服务,实时转写为文本
同一员工30分钟内的多次录音自动归为同一会话,完整还原拜访场景
合并后的文本通过路由系统分发至4个专业Agent,并行产出分析报告
自动提取对话要点、关键信息、待办事项,生成结构化会议纪要。
评估话术规范性、需求挖掘深度、异议处理能力,给出评分与改进建议。
识别购买信号、判断决策阶段、分析客户痛点,输出意向等级与跟进策略。
分析产品匹配度、竞争力对比,推荐最佳产品组合方案。
默认模式,显示员工信息,支持录音与智能分析
保留完整AI聊天机器人功能,语音唤醒智能对话
三模态加权融合,端侧提取特征、服务端分析,隐私优先不上传图像
FACS微表情AU分析,端侧提取不上传图像
F0基频/能量/语速/叹气检测,旁路提取不阻塞
LLM语义分析,提取情绪标签与效价/唤醒度
融合结果 → 结构化心理干预 · CBT认知行为疗法 · ACT接纳承诺疗法 · 危机检测与干预 · 大五人格画像
AU特征在ESP32端侧提取后立即销毁图像帧,不上传任何图像数据。声学特征仅传输数值参数,文本经ASR转写后加密传输。