收藏技术教学

原帖:
https://x.com/zheshe155/status/1729499841615499320

@nyanyanyanyamii
每次和朋友聊天提到某个作品的时候,都会感觉“可能在某个地方转发/点赞/保存过”,但怎么找也找不到……(当然有的大费周章之后找到了)
是时候建立良好的收藏体系了,但是平台不同要怎么分类这种(;´Д`)好麻烦哦…

@zheshe155
其实只需要建一个数据表就可以,表内设置(平台,链接,附件,备注,创建时间,更新时间)这几个字段
然后(平台)这个字段要设置一个数据表,存放这个平台的api接口基础信息(主要是方便json等数据校对)
(链接)这个字段要设置两个数据表,一个是链接存放该链接不同时期的快照,另一个是链接内容

@zheshe155
数据表,里面要设置对应每条链接的内容的媒体类型,关联的附件id(相当于链接的明细项,我们说图文并茂,意思就是一条链接会对应多条链接内容,比如一篇文章里面有1段文字2条视频3张图片4条评论,那么这里链接就是1,对应的链接内容就是10,关联的附件id也是10)

@zheshe155
附件数据表当中就是存放不同存储中心当中实际的资源存储位置(可以是映射位置),比如我在这里有一个链接下对应的第3个视频,这个视频我要把它存到5个地方,那这个时候我肯定是只写一个保存动作,然后根据附件对应的存储位置自己存储。

@zheshe155
表设计好之后,剩下的就是数据采集的过程,这个可以读写通过浏览记录来实现,但其实最好还是root一下然后用tcpdump获取一下网络数据包,用gpt写点代码筛出有用的部分,也可以通过爬虫之类的,把一些更细粒度的内容也一并搜索出来。

@zheshe155
比较难的部分其实是在怎么根据不同快照的内容变化(评论区的变化、作者内容的修改)来自动地去计算出下一步的数据获取策略,比如说原来的新闻里是一审判决死刑,现在追加了二审维持原判的时候,我心里是知道应该去搜索关于这起案件的审理过程的信息的,但是又不想专门写东西去实现这个,想弄成声明的。

@nyanyanyanyamii
感觉很有道理,但存起来果然还是太麻烦了……不同平台链接访问的效果也不一定好(;´Д`)可能最终会归于全变成附件

@zheshe155
那你也可以用这个https://blog.archive.org/2017/01/13/wayback-machine-chrome-extension-now-available/
只存页面就可以,主要是移动端的你得想办法收集起来存一下