9.1.5.1 LDA主题抽取效果
对2016—2018三年的LDA模型抽取前面10个主题数,在每个主题下进一步抽取权重最大的前7主题词汇。部分结果汇总如表9-2所示。
表9-2 LDA模型2016年主题抽取结果
从模型主题抽取结果可以看出,主题词聚类效果比较明显。可以得到2016年比较明显的话题有:无人自动驾驶(主题1)、智慧城市(主题2)、大数据(主题3)、人工智能理论知识(主题4)、智能语音产品(主题6)、程序与机器(主题6)、虚拟现实和增强现实技术(主题7)、游戏(主题8)、机器智能(主题9),谷歌Tensorflow(主题10)。虽然有些主题不是很清晰,但还是可以通过人工对主题词进行判别,从而分析得出主题的大概主旨,整体上可以看出2016年数据的LDA模型的主题聚类效果相对好。经过对全部的主题分析得出,全部16个主题中有14个主题含义比较明显。
2017年部分主题抽取结果如表9-3所示。
表9-3 LDA模型2017年主题抽取结果
从以上结果可以看到,10个主题中有大部分主题信息是比较明显的。比较明显的主题有:人工智能知识理论(主题1),企业行业技术(主题2),编程技术(主题3),无人零售(主题4),机器学习相关知识(主题6),机器人(主题7)。可以看出抽取的10个主题中有6个效果比较明显。进而对全部的24个主题进行分析,得出其中一共有18个主题都被有效提取。
2018年的部分结果如表9-4所示。
表9-4 LDA模型2018年主题抽取结果
可以看出,2018年的主题提取效果也比较明显。人工根据主题词提取主题大意:智能机器的发展(主题1),大数据(主题3),中美论文研究对比(主题4),行业岗位情况(主题5,主题6),编程技术(主题7),人类文明发展(主题9),人工智能相关知识理论(主题10)。进而对全部的22个主题进行分析,得出其中一共有19个主题都被有效提取。
9.1.5.2 Kmeans主题抽取效果
对2016—2018三年的Kmeans聚类抽取前面10个主题数,在每个主题下再根据TF-IDF值进一步抽取权重最大的前7主题词汇,得到最终结果汇总。
2016—2018三年主题抽取结果如表9-5,表9-6,表9-7所示。
表9-5 Kmeans模型2016年主题抽取表(www.daowen.com)
表9-6 Kmeans模型2017年主题抽取表
表9-7 Kmeans模型2018年主题抽取表
可以从表9-5至表9-7得出,Kmeans在主题抽取上效果明显不佳,三年抽取的主题除了少数几个可以识别出来(2016年的主题2、主题6,2017年的主题3、主题6、主题表7,2018年的主题2、主题3、主题10),其余的均比较难以判断其主题大意,说明Kmeans在问答社区主题抽取上效果不如LDA主题模型。
9.1.5.3 模型效果对比总结
2016—2018年的数据可以看出,LDA模型的大部分主题信息比较明显,2016年16个主题中有14个、2017年24个主题中有18个、2018年有22个主题中有19个主题提取结果都被有效识别。说明LDA模型对问答社区文本主题聚类效果良好,能够准确地提取并识别出问答社区的文本主题信息。
Kmeans聚类在主题提取上明显不如LDA模型。综合来看,Kmeans主题提取的效率比较低,不适合直接应用于文本主题的抽取。
根据LDA模型的结果,可以归纳得出总结知乎用户对人工智能的关注重点有:
人工智能相关理论知识:知乎用户对这部分的话题关注持续性比较高,包括机器学习、神经网络、深度学习、算法、模型和数学都有很高的关注度,这些领域都是人工智能的相关知识。这说明知乎用户热衷在社区讨论这些知识,这跟知乎人工智能的话题设置结构有一定关系。其次,这也跟知乎用户普遍的年轻化和相对高学历存在一定关系。
智能设备方面:由3年的结果综合来看,用户热衷讨论智能产品比较多的有智能语音产品比如Siri、小爱同学、小冰等。其次还有虚拟现实技术(VR)等。
无人驾驶相关:这部分包括对无人驾驶技术、无人驾驶汽车、安全事故、无人驾驶涉及的公司如百度、谷歌等。
机器人相关:包括机器人与人类职业、工作,机器人与行业、社会这些相关话题都具有相对高热度。
谷歌阿尔法狗:谷歌阿尔法狗在知乎话题数量和关注度都比较高。2016年阿尔法狗战胜围棋冠军李世石,可以看出在这一时期这部分的主题比较明显,2017年的主题中也能看出还是有部分讨论到阿尔法狗的内容。
还有比如智能机器对人类职业的影响,人工智能对社会的影响,智能医疗等都有不少的关注度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。