今日记录：构建数据收集处理模块，打造AI热点播报视频第一步

在

每日一记

2026年3月19日
0
21 words

今日一整天，我的核心精力都投入到了数据收集处理能力的构建迭代中。从排查现有功能的痛点、补充缺失的实用功能，到探索新的使用场景，全程一步一个脚印，踩过坑、解过惑，虽有波折，但每完成一个小目标，都能收获满满的成就感。特此整理今日的成长与感悟，清晰记录下这段深耕过程中的重点与进展。

今日核心：围绕数据收集处理的全流程优化

我的数据收集处理模块需要搭建在Mac本地，整体的核心作用是自动爬取指定网站的热点资讯内容、提取纯文字、通过AI完成自动总结，最终存储归档，为后续播报提供主题内容。今日的所有操作都围绕“完善功能、解决痛点、提升实用性”这一核心，具体完成了以下几件事，每一步都贴合实际使用需求：

解决资讯总结的数据冗余痛点——剥离HTML/CSS样式，提取纯净文字。此前爬取的网页正文，始终夹杂着大量HTML标签和CSS样式代码，不仅影响后续AI总结的精准度，还会导致检索时冗余信息过多。最终通过BeautifulSoup结合正则表达式的方法，彻底剥离了所有无关标签和inline样式，确保存入数据库的每一份内容都是干净、可用的纯文字。
调研AI资讯搜索的可行平台，解决热点数据选取难题。最初计划尝试使用立刻AI获取热点数据，但多次访问均失败。经过排查，确认是该平台域名失效或服务调整导致无法访问，随后快速整理了多种替代方案，最终优先选择了开源可本地部署的newsnow和TrendRadar，提供对包括国内知乎、抖音、B站、微博等主流平台以及国外知名网站的数据热点聚合能力。通过查询参考文档和阅读源码的处理流程以及部署实操，成功获取了今天各时段的热点数据，并验证了通过此流程获取的热点内容的可用性。
调研视频总结的可行性，以解决视频网站的数据总结问题。通过了解得知，目前视频总结技术已非常成熟，在Mac本地即可通过“Whisper语音转文字+Ollama本地大模型总结”的组合，实现“视频→文字→总结→入库”的全流程自动化，为后续将视频类资讯纳入模块、丰富信息收集维度做出前置调研。
掌握SQLite数据的直观查看方法，提升数据管理效率。此前存入数据库的数据，都通过代码脚本查询处理，操作繁琐且不够直观。

今日感悟

今日一整天都在与代码、工具、数据打交道，偶尔会因为一个小细节卡壳，但通过豆包AI辅助基本都能迅速解决，AI的确扩展了每个人解决问题的能力和速度。其实构建数据能力的过程，就像是在慢慢打磨一个属于自己的“信息窗口”，每解决一个难点、每补充一个功能，这个“窗口”就变得更高效、视野更宽广，也更贴合我的使用需求。

同时也深刻体会到，遇到问题时，与其纠结于一个失效的方案（比如无法访问的立刻AI），不如及时调整方向，主动寻找替代路径。尤其是开源工具，不仅免费可用，还能根据自身需求灵活调整，非常适合个人使用。后续计划将视频总结功能集成到现有的模块中，进一步完善热点内容处理的多样性，也希望通过持续的优化迭代，让信息收集和管理变得更轻松、更高效，也能让每个人离有效信息更近，获取更便利。

后续计划

前面提到的视频总结流程
根据热点内容生图
数字人播报
图生视频（本地效果比较差，大概率初期需要降级）

今日核心：围绕数据收集处理的全流程优化

今日感悟

后续计划

发表回复取消回复

作者

今日记录：热点数据内容总结与语音合成