豆瓣TOP250电影分析

如果你想学习可视化,可以看看Python爬虫后的可视化教程目录

或许你也想学习爬虫,可以看看简单网站爬虫的所有技能

如果你只想消遣一下,那么看看这篇文章应该也能达到目的,请随意阅读

爬虫概述

这次爬取28万数据,受到了很大的挫折,没有遇到技术上的难题,但是自己的疏忽,爬虫28万数据的过程重复了2次。绝大部分技术问题都可以在网站爬虫系列中找到。这次讲讲自己的疏忽:

  1. 对网站不熟悉,第一次使用了很严格的正则(这个需要有点网页结构敏感性),爬取了大约28万条数据。然后分析剩下没有爬取的网页结构,改写之前的正则表达式,直接运行代码,而没有用几个测试网址测试,结果发现正则表达式不完善,少爬取了4000多条记录。测试很重要啊
  2. 代码中构建字典时,本来想{‘usernae’:username, ‘username_url’:username_url},结果写成了{‘username‘:username, ‘username‘:username_url},存入MongoDB中,再导出csv文件后发现….

爬取了如下数据:

  • 电影网址
  • 电影评价数
  • 电影评分
  • 电影的详细信息如导演、类型、制作国家、时长等
  • 影评数
  • 写影评的用户名和用户主页地址(这个数据对以后学习推荐系统至关重要)
  • 影评评分
  • 写影评的具体时间

没有爬取具体的影评内容,因为和将来要学习的内容关系不大

(爬取的时间距离当前时间越长,那么本文分析的结果参考意义越小

可视化工具

Tableau:大数据时代的梵高

这次不使用PowerBI,因为不想调整PowerBI的配色,而且PowerBI不区分用户名的大小写(Echo和echo,PowerBI认为是一样的)。

纵使Tableau是“梵高”,但是不要紧张,我们不用它来画向日葵,仅仅利用它的优势来画“小鸡啄米图”

(如果你是学生,那么请尽量使用正版的Tableau。看看官方说明,通过英语邮件的方式和官方沟通,获取激活码)

制作国家分布(地图)

美国有143部电影,文化输出大国
豆瓣电影中的制作国家/地区有中国大陆、香港、台湾等划分方式,正好可以看看祖国各个地区的影视差别。

(注:一部电影可能有多个制作国家/地区)

电影详细信息

电影时长

最长的电影:乱世佳人,238分钟
最短的电影:萤火之森,45分钟

电影种类

先看个有趣的图

再看看详细的条形图

(注:每部电影可能有多个种类)

电影拍摄年份

top250电影中2011年初映的电影最多

总体评分—评论数

肖申克的救赎评论数和总体评分均最高

总体评分—影评数

大家很喜欢写少年派的奇幻漂流的影评,可惜这部电影我没有看过,:(

最热门的用户名

豆瓣有注销机制,热门的用户名是“[已注销]”出现2511次,“已注销”出现73次
未注销的用户中最热门的用户名是echo和Echo,这个单词有什么深意?

同一个用户名(不同用户)出现2次以上的范围如图

用户——影评数

排名第一的用户写了241条影评,真是活跃的不行啊。但是大多数的用户只写了一条影评。

(注:盒须图中删除了一些较大的数字)

影评数随时间变化趋势

其实这是可以联动的,不同年份的情况,都可以很清楚的知道

每部电影的影评数和影评评分

绝大多数影评者对电影的评分分布在range(10, 60, 10)之间(Python基本语法,:),[10, 20, 30, 40, 50]),少数影评者对电影没有评分。

每部电影的影评数随年份的变化和每部电影的评价分布情况,在Tableau中可以做成一个仪表盘,让它们都联动起来

谢谢每位读者的阅读
电视剧—天下第一

欢迎提出批评和建议

您的支持将鼓励我继续创作!