数据已经基本采集完毕了,26万+的用户产生了10万+帖子和120万+的回复。这个数据量刚刚好,不至于太多而导致pandas处理太慢,也不至于太少导致我觉得没意思。

首先拿论坛用户的地区和行业分布情况来练手,这个问题比较简单,通过它来学习pandas的基本用法。

和上一篇一样,下面的内容同样可以打开jupyter nbviewer来访问

关于数据

严格来说,这个统计只涉及了8、9万的论坛用户,因为地区和行业是论坛用户自由选择填写的,而填写这些内容的用户大概占了总用户数的1/3。所以本文所有结论都基于下面两个假设:

  1. 愿意在该论坛中填写个人信息的人,在不同地区,不同行业所占的比例大致相同
  2. 所有填写了个人信息的人,都是诚实的

有了两个假设,本文也许就能严谨到大概能够堵住某博士的嘴的程度了吧 ╮(╯▽╰)╭