推文整理介绍
原帖:https://web.archive.org/web/20220316091825/https://twitter.com/ultramarine471/status/1496479610649088009https://web.archive.org/web/20220316091846/https://twitter.com/ultramarine471/status/1497408508639444992
基本上没分析出当时在想什么。
这个只是对推文的整理,主要为了回顾下过去的发言。 想自己尝试的话也挺简单的,因为我不是专业学计算机的,所以下面就简单介绍下土方法。 有更专业的方法也可以各显神通,按你们的习惯来。
首先我们用这个https://web.archive.org/web/20220315175419/https://www.allmytweets.net/connect/登录,这边我预设了该网站的可信性,有疑虑的可以先不用。 我这边用我的来示范下。
然后页面从头到尾拖动几下,确保完全加载(我这边量不大是可以一次加载好,太大了的话就得多拖几下) 然后按f12,在最上面那个<html>处右键,然后选择复制元素
然后就是最有挑战性的一点,要把特定的内容从源文件纷繁的文段中筛选出来,这个时候就要了解下网页标签的概念,从网页中提取内容,可以分成“文段内找寻特定标签”和“(在找到的)标签内查看内容详情”两步。
会xpath提取的,或者hawk之类前端提取小工具的都可以用,这个是从网页的角度来看的,但今天我们用的就是正则表达式,比较麻烦但会了就很通用,并且学一点皮毛就可以了,简单的大家都会,复杂的大家都不会,所以要有自信。
没弄出来,妈的…… (你们先用<li>(.*?)</li>把主单元匹配出来,然后ctrl+shift+l复制到另一个文件里,然后再用各种办法试着筛一下)
一套正则匹配全套markup真的是智力竞技……
https://web.archive.org/web/20220316091911/https://github.com/everettjf/vscode-filter-line/blob/master/demo/log2json/.vscode/filterline.json
什么叫珠玉在前啊。 模式肯定要能支持自创和修改才是好模式,并且还要根据现有的情况进行修改,而不是搞正则这种智力闯关。
应该可以。
- 复制主单元
- 把主单元复制出来后,再用这个
<li>(.*?)<a.*href="(.*?)"> <span class="grey">(.*?)</span>.*</a></li> - $1,$2,$3分别代表第一、二、三个(.*?)占据的内容 在这里$1,$2,$3分别是正文、网址和日期
- 可以随意排列的,要是想“日期、正文、网址”就可以“$3sep$1sep$2”
大概就是这样,不过各位还是掌握好markup各自的解析规则比较好,也可以两种都学。
明天看看能不能发一下这个推文整理的流程文档或者视频。 小事还是要仔细做的,毕竟大事也轮不到我做。
糊了一下,随便看看 https://web.archive.org/web/20220316091934/https://drive.google.com/file/d/1DWejhdWoGpSyg_rJyNxWJpF8VrSTzdUY/view https://web.archive.org/web/20220316091957/https://twitter.com/ultramarine471/status/1496525936484917277
应该把随文图片也给一下。 https://web.archive.org/web/20220316092005/https://drive.google.com/file/d/1ygbiijiZj56fdZZSRH-CB5FDKOCV4E7Z/view
具体见:https://web.archive.org/web/20220316092014/https://github.com/Linkeer365/get_tweets/tree/main/tweets_organization
弄了sqlite,现在情况会好一点。
用pycharm里的数据库工具来按列filter+可视化的,其他的我也不会,日期我也懒得处理。
注意到上面有个 compare with 按钮,应该是以后有多个表就可以放在一起比较。
@2Lmwx 导出自己推文的话其实官方提供请求存档的功能,从邮件里的链接下载下来后推文以 JSON 的形式储存在 data/tweets.js 里
谢谢你hh,但我这边已经等了快一个月了还没有消息来着……
我换个邮箱再申请看看吧,有官方的渠道肯定更好来着。
@2Lmwx 你再进那个页面看看?可能有重新发送链接的选项。一个月以后应该都可以请求新的存档了
貌似被清了,总之再发了一封过去hh