『从未说出口的秘密』词云分析

Table of Contents

前言

无意间发现知乎上这个问题,想知道大家都有怎样的经历和故事,所以决定爬取这个问题下所有的回答内容,通过词云展示所有回答中关键词的词频。

你有什么从未说出口的秘密可以分享?

步骤

  • 爬取该回答下 9000+ 个回答的内容存储到文件

  • 由于知乎的回答中包含富文本,需要用正则对存储在文件中的回答内容中的 html 标签去除

  • 回答基本都是中文,使用 Jieba 对回答进行分词,分词的同时,需要将一些分词是停词的去除,比如使用 fwwdn/sensitive-stop-words 停词表

  • 使用 WordCloud 生成回答内容的词云

结果

同时也爬取了另一个回答:

你有哪些秘密只能匿名说出来

总结

从两张图中不难发现所有人的秘密中,一部分是关于亲密关系,如友情,爱情、亲情,相关的词频很高,甚至可以浮想这些关系中有多少是假性亲密关系。另一部分是生活关系,如工作、师生、同学关系相关的词频也不低。最后还有一部分秘密关于是『自己』。

人们常说,要明白多少道理,才能过好这一生?其实还有,要隐藏多少秘密,才能过好这一生?