爬虫踩过的坑

起源于简书在Twitter、豆瓣、微博上的活动

写在前面

只要还玩爬虫,就会一直更新这篇文章

selenium

  • 浏览器渲染差异
    如果用Edge驱动打开网址,分析的时候也用Edge分析
    如果用Chrome驱动打开网址,分析的时候也用Chrome分析
    爬取简书微博信息的时候,用的是Edge驱动打开网址,用Chrome来分析网页结构编写正则,死活匹配不上,然后…..

Edge

Chrome

Tweepy

默认返回的发推时间是格林威治标准时间,爬取简书推特信息的时候,没有进行时间处理,直接分析后发现0~5点十分活跃….这明显违背常理

stackoverflow上的说明更详细

您的支持将鼓励我继续创作!