元旦以来股市猛涨,一派欣欣向荣的景象,忽然某天突发奇想,如果收集了集思录论坛上的数据,能不能对买卖有指导作用呢?同时还能学习使用一下pandas,万一发现了什么不得了的秘密,那岂不是….嘿嘿。

说干就干,目前论坛发帖已经采集完毕,用户数据还在采集中。一个很自然的想法就冒出来了,从论坛发帖内容能判断当前热点么?

思路很简单,对论坛帖子的内容进行分词,然后计算单词权重,权重越高则说明热度越大,最后结果可以使用时髦的标签云来展示。下面就在已有数据的基础上,一步一步进行探索。

顺便说一下,ipython notebook真是个好东西,现在已经改名叫jupyter notebook了,这篇文章就是从这个jupyter notebook里直接导出的。

如果下面内容载入太慢的话,在jupyter nbviewer上看也是一样的

虽然这个文本分析是如此简单,不过似乎还是能反映出一些问题的,
我也查看了一些其他时间段生成的图,人肉对比了论坛数据,发现

  • 当前的热点(市场的或是集思录的)在论坛上确会有较为密集的讨论
  • 牛市时较多的出现倾向于利好的词,熊市时较多出现倾向于利空的词,其他时候更多的出现热点事件,比如16年底,特朗普就非常抢眼

当然这种民科研究局限也是很大的,标签云虽然好看,不过只是提供了一种直观感受,很难去定量。这种程度的分析能够大体上反映当下热点,但是显然是不足以指导投资的。作为一名韭菜,终极目标当然是不用很麻烦很累就可以赚大钱,以此为目标,从本篇开始,我会沿着这条歪路继续探索新的玩法。