尝试了三个库

  1. nghuyong/WeiboSpider
    • 要cookie
    • 图片只能抓到第一张,且不能下载。
    • 能抓取评论
    • 不好用
  2. dataabc/weiboSpider
    • 要cookie
    • 能自动下载全部图片、视频
    • 不能抓取评论
  3. dataabc/weibo-crawler
    • cookie可选。cookie失效后可能抓不全(添不添加cookie的区别)
    • 不能配置抓取间隔,用cookie的话可能cookie可能会容易失效或被封号。
    • 其他同第2个

综上,选择同时用第二个和第三个(不填cookie),第二个间隔12分钟,第三个间隔6分钟。

*/12 * * * * cd ~/weibo/weibo-spider && python -m weibo_spider
*/6 * * * * cd ~/weibo/weibo-crawler && python weibo.py

存在的问题:

  • 可能封ip
  • 可能封号
  • cookie失效后更新(如何检测cookie是否有效)1
  • 不能抓评论
  • 发布后重新编辑的会怎么处理?
    • 第二种记录的时间精确到分钟,所以重新编辑的微博会抓不到。
    • 第三种记录的时间精确到天,所以有可能可以重复抓到。会直接更新?

  1. todo: 自动更新cookie。 ↩︎