开学前的瞎折腾第二弹,爬取博客数据,分析作者喜好。
在写这个的时候,突然想起来开学的英文单词怎么说来?百度翻译居然是open school,我自己瞎翻译的school start,话说正确的翻译应该是啥。
然后还是闲的没事开始写起了爬虫,恩,记得是上Web编程课的时候没兴趣听,自己开始在下面瞎鼓捣爬虫技术,当时爬了几个小例子但是也没搞太明白,不如实战一下。
回归正题,本文收录内容:使用爬虫爬取我自己的博客,当然给出最通用的爬虫分析和程序,内容如下:
- 博客的主要发表时间
- 博客的数量,标题;
- 标签的数量种类,用户偏好等
- 使用
matplotlib
粗暴的绘图分析一下
因不蒜子暂时没有开放第三方的API,所以没办法爬取每篇博客的访问量,分析博主哪类文章写的比较受欢迎,等不蒜子开放API后再来完善此工作。
注意,以下python程序最好在jupyter lab
中运行,写一句看一句,而且后面的程序还会用到前面的变量。