高考吧分析

爬虫过程概述

高考吧是一个大型贴吧,关注人数2406811,帖子总数200多万,花了5天时间爬取所有帖子的链接、标题、回复数、发帖时间,发帖用户和用户等级,总计2016964条记录。

对爬取的过程稍作说明:

  • 爬取链接数:2417386
  • 去重后的链接数:2026735
  • 爬取成功的链接数:2016964
  • 被隐藏或删除的链接数:9771(如http://tieba.baidu.com/p/4858811200)
  • 爬取所用的程序语言:Python
  • 数据处理:Python+PowerBI+Excel(注:Python+Excel+PowerPivot运行缓慢,经常无响应,故弃之)

说实话,这也是我第一次爬取记录超过200万,数据文件达到238M,与高考吧管理人员交流后,发现自己可以爬取更多的用户信息比如用户性别等。

数据处理采用了PowerBI,如果有更好的工具,欢迎交流。

(注:此数据为2017年3月中旬的数据,与现在的数据有差异)

贴吧概况

发帖人数占比与中考吧相同,0回复率更高一点,高考吧的友好程度更低。经统计,发帖用户中会员人数占发帖总人数的0.02%,大概学生更愿意花钱买书吧。。。

年月周时发帖量

年发帖量

2013年发帖量最高,2016年发帖量环比下降超过50%,这一点和中考吧极其相似,高考吧发帖量近几年下降明显,但是发帖量的数量级依然可以让人侧目,不是小贴吧能够相提并论的。

月发帖量

6月份高考,发帖量也最高

周发帖量

周末发帖量显著增加,不是很明白这一现象,高中应该没有周末吧,但是与高考吧的同学交流,并不是所有的学校都没有周末的。

时发帖量

晚上10点发帖量最高,好像熬夜特征挺明显的,在下面会对熬夜这一问题做深入分析。

用户等级分布

低等级用户占比较小,用户对贴吧依赖度较高

十大热帖

热帖反映了用户最关心的问题,有什么比看热帖更带劲的事情吗?

(注:热帖的详细网址需要加http://tieba.baidu.com,如http://tieba.baidu.com/p/2240661399,下同)

2013年十大热帖

跟踪每年的热帖,及时发现用户兴趣点的变化,2013年作为最活跃的年份,帖子回复数的量级也不同一般年份

2016年十大热帖

近几年的活跃低谷年份—2016年,热帖回复数的最大值比2013年热帖的最小值要小得多,这届的吧友不行?开玩笑的,:)

十大活跃用户

找到活跃用户,然后可以做什么呢?追踪活跃用户的发言,维护活跃用户体系,我好像在说运营

2013年十大活跃用户

江山代有才人出,各领风骚数百年

2016年十大活跃用户

深入分析2013年发帖情况

分析2013年每天的发帖量情况,3、4、5、6和7月的发帖量较大,特别是6月考完和出分的那段时间。

分析3、4、5、6和7月份的发帖时间,3、4和5月份中熬夜发帖人数占比较大,但是逐月减小,到了6月份后,熬夜比例减少一半左右,说明大部分人有好的考试习惯嘛。不能只看时发帖量的大趋势,要保持深挖数据的好习惯

贴吧关键词

200多万个标题做成词云

总结

从高考吧的分析上来看,高考学生关心的内容和喜欢的内容形式,与中考吧类似。近年来,高考吧的发帖量不断下降,与百度贴吧活跃度走低的大环境密切相关,贴吧作为一个社区平台,社交功能做的并不好,对增强用户粘性很不利。

节选


暴露一下年龄
十八岁的天空

十八岁的天空-裴佩

您的支持将鼓励我继续创作!