今日记录：热点数据内容总结与语音合成

在

每日一记

2026年3月20日
0
40 words

今日主要围绕两项功能开发，分别是热点数据内容总结、语音合成工具部署，两者均为数字人播报视频搭建的核心支撑，全程围绕“落地产出”展开，重点攻克技术难点，确保流程可复用以及上下串联。

热点数据内容总结

基于已有的技术栈（Ollama qwen3:8b本地模型、阿里千问API），明确了不同文本长度的适配方案。简单实验确定小文本与长文本的划分界线，即中文≤1500字（≤800token）的小文本，直接用本地qwen3:8b总结，无需调用云端API；超过该界线的中长、超长文本，采用“本地模型分段粗提+阿里千问API合并精总”的模式，兼顾成本与总结准确性。同时，编写了Token计数工具，可快速判断文本长度，自动匹配对应总结方案，提升效率。

该主题的关键难点主要有两点：一是本地模型的上下文窗口限制，qwen3:8b默认num_ctx为2048，若不控制单段文本长度，易出现总结丢信息、跑偏的问题，需精准控制分段token数；二是模型参数适配，需将temperature调至0.1左右，才能保证热点数据总结的客观性和精准性，避免出现冗余或偏离核心数据的情况。

语音合成

核心目标是为数字人播报提供自然、稳定的语音输出，作为数字人播报视频搭建的核心环节，重点测试并对比了多种方案，最终形成可行的部署路径。最终确定了适配Mac M4设备的语音合成方案，即阿里开源的CosyVoice本地模型，通过web UI的前置测试，到代码源仓库的代码适配，最后实现脚本化的“文案→语音”一键转换，适配数字人播报的需求；梳理出CosyVoice的正确安装流程，解决依赖安装难题，从之前使用venv环境隔离演变到conda，适配AI特定场景的复杂依赖（多语言隔离）。

该主题的关键难点更为突出，也是今日实践的主要卡点：一是工具依赖安装的规范性，最初尝试通过pip安装cosypython包时反复报错，后确认该包并非公开PyPI包，CosyVoice需通过克隆源码、安装依赖、源码编译的方式部署，直接pip安装无法成功；二是环境跟隔离性调试，CosyVoice部署环境依赖复杂，简单的venv只能对python隔离，而CosyVoice作为相对较复杂的语音模型，同时也会对底层C有依赖性要求，需要部署conda整体隔离，初次调试耗时较长；三是语音合成的音色问题，系统预置音色比较普通，通过测试不同模型复刻音频的效果，最终确定了一个音色相对较好的版本，但实际离预期还有差距，后续希望能进一步再完善。

针对上述难点，已形成对应的解决方案：热点数据总结方面，通过Token计数工具控制文本长度，调整模型参数，确保总结精准；语音合成方面，采用CosyVoice工具实现快速落地，简化部署流程，同时梳理CosyVoice的标准安装步骤，为后续优化语音效果预留空间。

后续计划

网页数据进一步清洗，刨除多余信息。只保留跟主题相关的内容，其他内容不需要总结，这需要根据不同网站的内容结构做调整，考虑引入大模型做判断
数字人的驱动实现，初步调研为LivePortrait，需要进一步测试以及功能适配
数字人形象的确定
语音质量的提升：理想音色，说话加上语气和感情
功能串联后，需要进行内容的选择与文案优化，目前的热点数据还是比较多，需要确定分类，以及最终对播报文案做优化（提示词与方法工具需要调研）

热点数据内容总结

语音合成

后续计划

发表回复取消回复

作者