关于爱情—某豆瓣小组

Let’s go

豆瓣中搜索爱情,排名第一的小组除了爱情我还有好多事要做,呃,好像是的,反正我也是单身


爬虫概述

除了爱情我还有好多事要做豆瓣小组(下面简称为小组)关注人数为255740人,爬取小组的所有帖子创建时间、发帖用户、回复数、发帖用户加入豆瓣时间、发帖用户常居地、注销用户注销时间等信息,主要分析用户行为习惯。值得强调的是小组的用户并不能代表豆瓣网,这次分析仅仅针对于这个特殊的小组

  • 爬虫中遇到的特殊情况

    • 爬取帖子时
    • 爬取用户信息时
  • 爬虫后用到的数据分析工具:PowerBI+Excel

注:数据为3月下旬爬取的,与现在的数据会有差异)

小组概况

小组发帖人数占比6.3%,工具类印象笔记豆瓣小组发帖人数占比仅为3%,可能感情类的小组发帖的积极度较高,但是发帖人数占比都太低了。0回复率为22%,也相对偏高,用户友好度较低。

发帖量统计

年发帖量

2013年是小组最“辉煌”的一年,也是一个分水岭,自此以后,小组发帖量一直走低,这一点在工具类印象笔记豆瓣小组也有相似的表现

月发帖量

各个月份发帖量数量级没有差别,这一点和具有特殊时间点的社区不同如高考吧不同,8月份后的发帖量一直处于一年中较低水平,可能季节有关吧,冬天寒冷冻住了你们的热情,:)

周发帖量

这是一个令人惊讶的现象,为什么一周中星期一的发帖量最高,这个和之前我分析的所有社区不同,一般不是周六周日活跃么?
tips:别等周末有时间了才去发帖,要周一就去啊,才有人注意到你(斜眼笑)

时发帖量

晚上是一天的活跃时段,身体虚弱、熬不了夜的朋友是交不到“朋友”的,:)

十大热帖

没有比看热帖更划得来的事情了。看看排名第一和第二的帖子,总觉得这个小组女生较多。在小组关键词分析中,会多一条佐证,精彩分析还在后面呢。

注:完整网址的例子如https://www.douban.com/group/topic/38677382/
所以需要花点时间拼接一下图片中的地址)

小组关键词

  • 十大活跃用户
    总少不了北上广的用户,湖南籍的用户发帖193个,有时间去看看你发的帖子,:),到底是关于什么的。

注:为了保护用户隐私,对用户名和具体地域进行模糊化处理)

分水岭—2013年

2013年中,最活跃的月份是3、4、5和6月,这个和整体趋势一致

4个月的时发帖量情况说明一点,熬夜倾向严重。感情重要,身体也重要啊,就算失恋了,寄希望于网恋也是不靠谱的…..(等等,你先加下我的微信,我的微信是××××××)

小组关键词

  • 爱情
  • 喜欢
  • 男朋友
  • 分手
  • 男人
  • 恋爱
  • ……..

女生一般发帖提男朋友,男生一般发帖提女朋友,那么这个词云是不是一个小组中女生偏多的佐证呢?

用户地域分布

可能你心里OS:十大活跃用户的地域分布根本不能说明什么,那都是特殊情况!
那么看看你家乡的人数占比?
第一梯队:北京,广东,江苏,浙江
小组用户也有宝岛台湾的哟

注:过滤掉了常居地在外国的情况)


一点开胃菜

爬取小组用户加入豆瓣的时间和注销用户的注销时间,怎么能浪费,继续一点开胃的分析,为什么这是开胃的菜?因为量小,好看,会引起食欲,但是不能多得。

2010年前(含2010年)注册的用户称为元老级用户,发帖总人数中元老级用户占比11%,小组发帖用户加入豆瓣的时间集中在了2012年和2013年

2012年,2013年确实有点特殊,应该是大趋势使然
豆瓣简介-转自百度百科.png

豆瓣有注销机制,分析注销用户的注销时间分布,如果我有更多的数据,那么可以做更多的用户运营相关分析

  • 按年份分布

  • 按月份分布

开胃菜吃完了,总觉得不够。数据分析也一样,这些数据实在太少了,能做的工作不多,有点遗憾。

您的支持将鼓励我继续创作!