×

今日一整天,我的核心精力都投入到了数据收集处理能力的构建迭代中。从排查现有功能的痛点、补充缺失的实用功能,到探索新的使用场景,全程一步一个脚印,踩过坑、解过惑,虽有波折,但每完成一个小目标,都能收获满满的成就感。特此整理今日的成长与感悟,清晰记录下这段深耕过程中的重点与进展。

今日核心:围绕数据收集处理的全流程优化

我的数据收集处理模块需要搭建在Mac本地,整体的核心作用是自动爬取指定网站的热点资讯内容、提取纯文字、通过AI完成自动总结,最终存储归档,为后续播报提供主题内容。今日的所有操作都围绕“完善功能、解决痛点、提升实用性”这一核心,具体完成了以下几件事,每一步都贴合实际使用需求:

  1. 解决资讯总结的数据冗余痛点——剥离HTML/CSS样式,提取纯净文字。此前爬取的网页正文,始终夹杂着大量HTML标签和CSS样式代码,不仅影响后续AI总结的精准度,还会导致检索时冗余信息过多。最终通过BeautifulSoup结合正则表达式的方法,彻底剥离了所有无关标签和inline样式,确保存入数据库的每一份内容都是干净、可用的纯文字。
  2. 调研AI资讯搜索的可行平台,解决热点数据选取难题。最初计划尝试使用立刻AI获取热点数据,但多次访问均失败。经过排查,确认是该平台域名失效或服务调整导致无法访问,随后快速整理了多种替代方案,最终优先选择了开源可本地部署的newsnowTrendRadar,提供对包括国内知乎、抖音、B站、微博等主流平台以及国外知名网站的数据热点聚合能力。 通过查询参考文档和阅读源码的处理流程以及部署实操,成功获取了今天各时段的热点数据,并验证了通过此流程获取的热点内容的可用性。
  3. 调研视频总结的可行性,以解决视频网站的数据总结问题。通过了解得知,目前视频总结技术已非常成熟,在Mac本地即可通过“Whisper语音转文字+Ollama本地大模型总结”的组合,实现“视频→文字→总结→入库”的全流程自动化,为后续将视频类资讯纳入模块、丰富信息收集维度做出前置调研。
  4. 掌握SQLite数据的直观查看方法,提升数据管理效率。此前存入数据库的数据,都通过代码脚本查询处理,操作繁琐且不够直观。

今日感悟

今日一整天都在与代码、工具、数据打交道,偶尔会因为一个小细节卡壳, 但通过豆包AI辅助基本都能迅速解决,AI的确扩展了每个人解决问题的能力和速度。其实构建数据能力的过程,就像是在慢慢打磨一个属于自己的“信息窗口”,每解决一个难点、每补充一个功能,这个“窗口”就变得更高效、视野更宽广,也更贴合我的使用需求。

同时也深刻体会到,遇到问题时,与其纠结于一个失效的方案(比如无法访问的立刻AI),不如及时调整方向,主动寻找替代路径。尤其是开源工具,不仅免费可用,还能根据自身需求灵活调整,非常适合个人使用。后续计划将视频总结功能集成到现有的模块中,进一步完善热点内容处理的多样性,也希望通过持续的优化迭代,让信息收集和管理变得更轻松、更高效,也能让每个人离有效信息更近,获取更便利。

后续计划

  1. 前面提到的视频总结流程
  2. 根据热点内容生图
  3. 数字人播报
  4. 图生视频(本地效果比较差,大概率初期需要降级)

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

作者

k17853138736@gmail.com

相关文章

今日记录:热点数据内容总结与语音合成

今日主要围绕两项功能开发,分别是热点数据内容...

读出全部