收藏技术教学

发表于 2023-11-28 更新于 2025-11-25 本文字数： 756 阅读时长 ≈ 3 分钟

原帖：
https://x.com/zheshe155/status/1729499841615499320

@nyanyanyanyamii
每次和朋友聊天提到某个作品的时候，都会感觉“可能在某个地方转发/点赞/保存过”，但怎么找也找不到……（当然有的大费周章之后找到了）
是时候建立良好的收藏体系了，但是平台不同要怎么分类这种(;´Д`)好麻烦哦…

@zheshe155
其实只需要建一个数据表就可以，表内设置（平台，链接，附件，备注，创建时间，更新时间）这几个字段
然后（平台）这个字段要设置一个数据表，存放这个平台的api接口基础信息（主要是方便json等数据校对）
（链接）这个字段要设置两个数据表，一个是链接存放该链接不同时期的快照，另一个是链接内容

@zheshe155
数据表，里面要设置对应每条链接的内容的媒体类型，关联的附件id（相当于链接的明细项，我们说图文并茂，意思就是一条链接会对应多条链接内容，比如一篇文章里面有1段文字2条视频3张图片4条评论，那么这里链接就是1，对应的链接内容就是10，关联的附件id也是10）

@zheshe155
附件数据表当中就是存放不同存储中心当中实际的资源存储位置（可以是映射位置），比如我在这里有一个链接下对应的第3个视频，这个视频我要把它存到5个地方，那这个时候我肯定是只写一个保存动作，然后根据附件对应的存储位置自己存储。

@zheshe155
表设计好之后，剩下的就是数据采集的过程，这个可以读写通过浏览记录来实现，但其实最好还是root一下然后用tcpdump获取一下网络数据包，用gpt写点代码筛出有用的部分，也可以通过爬虫之类的，把一些更细粒度的内容也一并搜索出来。

@zheshe155
比较难的部分其实是在怎么根据不同快照的内容变化（评论区的变化、作者内容的修改）来自动地去计算出下一步的数据获取策略，比如说原来的新闻里是一审判决死刑，现在追加了二审维持原判的时候，我心里是知道应该去搜索关于这起案件的审理过程的信息的，但是又不想专门写东西去实现这个，想弄成声明的。

@nyanyanyanyamii
感觉很有道理，但存起来果然还是太麻烦了……不同平台链接访问的效果也不一定好(;´Д`)可能最终会归于全变成附件

@zheshe155
那你也可以用这个https://blog.archive.org/2017/01/13/wayback-machine-chrome-extension-now-available/
只存页面就可以，主要是移动端的你得想办法收集起来存一下