理论教育 谷歌预测流感趋势:大数据助力疾病控制

谷歌预测流感趋势:大数据助力疾病控制

时间:2023-06-09 理论教育 版权反馈
【摘要】:“谷歌流感趋势”的第一次成功预测,似乎打开了利用大数据预测流感等传染病疫情传播的未来之窗。2011年1月,“谷歌流感趋势”的预测基本和美国疾病控制与预防防中心的数据相吻合,差异较小。这导致了媒体、学术界对“谷歌流感趋势”系统发起了猛烈的批评。“谷歌流感趋势”的最初版本是一种大数据和小数据的结合。

谷歌预测流感趋势:大数据助力疾病控制

在美国,季节性流感是一个重大的公共卫生安全问题。每年的秋冬季是流感高发季,并在12月到次年2月达到峰值,每年会造成数千万人的感染以及大量病人的死亡。对此,谷歌的工程师们很早就注意到,每当到了流感季节,与流感相关的检索会大量增加。这就让他们意识到,与流感相关的检索可能与流感疫情之间存在一种潜在的联系。于是,谷歌的工程师们着手研究和设计了一种利用检索数据来分析流感趋势的工具。

2009年甲型H1N1流感病毒肆虐,在短时间内迅速传播。在甲型H1N1流感暴发的前几周,也就是2009年2月,谷歌的六位工程师杰里米·金斯伯格(Jeremy Ginsberg)、马修·H.莫赫比(Matthew H.Mohebbi)、拉詹·S.帕特尔(Rajan S.Patel)、林内特·布拉默(Lynnette Brammer)、马克·S.斯莫林斯基尔(Mark S.Smolinski1)和拉里·布里连特(Larry Brilliant)联合在《自然》杂志上发表了《利用搜索引擎查询数据检测禽流感流行趋势》(Detecting influenza epidemics using search engine query data)一文,介绍了谷歌利用检索数据来预测流感趋势的工具“谷歌流感趋势”(Google Flu Trends,GFT)。谷歌的工程师们希望通过设定的算法,对流感疫情进行预测,从而判断哪些地区可能出现了流感疫情,并预测未来一段时间内不同地区的感染风险,协助公共卫生部门及时发布流感预警信息。

事实上,“谷歌流感趋势”项目已于2008年启动,其逻辑原理十分简单。首先,工程师们通过对2003年至2008年间数千亿个网络检索日志记录进行检索,并计算5000万个最常见的检索查询的每周时间序列。接着,他们将检索的词条进行处理分析后,与美国疾病控制与预防中心(CDC)的流感实际数据进行对比,发现了45个检索词条的组合,并在此基础上创建了一个预测模型,对流感疫情进行预测。谷歌每周都会将“谷歌流感趋势”预测的结果和美国疾病控制与预防中心的监测结果进行对比,以评估其时效性和准确性。结果显示,在对2007年至2008年流感季的预测中,“谷歌流感趋势”预测结果和美国疾病控制与预防中心实际数据的相关性高达96%,准确性之高让人惊叹。

具体来看,与传统的监测手段相比,“谷歌流感趋势”的预警明显更加高效,它的预测仅仅需要一天甚至是几个小时,远远高于美国疾病控制与预防中心。美国疾病控制与预防中心从收集流感数据到发布流感预警,通常需要两周的时间,而这两周对于流感疫情的控制是十分关键的“黄金时间”,发布预警的时间越晚,疫情产生的后果就越严重。而且,从地域分布上看,“谷歌流感趋势”的预测和美国疾病控制与预防中心的预测结果高度吻合,“谷歌流感趋势”的登场似乎十分成功。

“谷歌流感趋势”的第一次成功预测,似乎打开了利用大数据预测流感等传染病疫情传播的未来之窗。由此,“谷歌流感趋势”系统也在法国、德国日本、加拿大、俄罗斯等29个国家和地区有所使用,而且其对传染病疫情的预测扩展到对第二种疾病——登革热的预测。“谷歌流感趋势”对登革热的监控预测在巴西、印度、阿根廷、墨西哥等10个国家和地区有所使用。此后,“谷歌流感趋势”的预测模型分别在2009年、2013年和2014年进行了三次更新,但是,这些更新并没有带来更加准确的预测结果。

图4-1展现了“谷歌流感趋势”和美国疾病控制与预防中心数据之间预测结果的对比情况。2011年1月,“谷歌流感趋势”的预测基本和美国疾病控制与预防防中心的数据相吻合,差异较小。到了2012年1月,“谷歌流感趋势”的预测和美国疾病控制与预防中心数据之间的差异明显有起伏。到了2013年,“谷歌流感趋势”明显过高地预计了流感趋势,其预测的结果接近美国疾病控制与预防中心实际数据的两倍。这导致了媒体、学术界对“谷歌流感趋势”系统发起了猛烈的批评。(www.daowen.com)

图4-1 “谷歌流感趋势”流感预测“翻车”[1]

2014年3月14日,《科学》杂志发表了哈佛大学、美国东北大学四位学者合写的《谷歌流感启示录:大数据分析中的陷阱》(The parable of Google Flu:Traps in big data analysis)一文,对“谷歌流感趋势”预测失灵的问题进行了深入剖析。该文指出,造成“谷歌流感趋势”失灵的原因有两点:大数据傲慢(Big Data Hubris)和算法动态(Algorithm Dynamics)。

大数据傲慢是一种隐喻,即认为大数据是一个传统的数据收集和分析的替代品,而不是补充。在很多文献中我们都看到了大数据巨大的科学潜力。然而,数据的数量并不意味着我们可以忽略测量的基础性问题和构造数据中的有效性和可靠性及相互依赖关系。核心挑战是,许多大数据颇受瞩目,但生成这些大数据的工具并不是为了给科学分析提供有效的、可靠的数据而设计的。“谷歌流感趋势”的最初版本是一种大数据和小数据的结合。从本质上讲,该方法是在5亿个搜索条目中找到最佳匹配,以适应1152个数据点。所谓匹配的搜索词和预测流感在结构上是不相关的,所以利用这些数据无法正确地预测流感的可能性相当高[2]。数据规模的“大”并不等同于准确性高、质量高,真实数据的可靠性和有效性是大数据分析所无法取代的,大量不可靠样本的分析结果可能也无法同完全真实有效的小样本分析结果相提并论。

算法动态是指那些工程师为改善商业服务以及消费者在使用其检索服务过程而产生的变化。“谷歌流感趋势”模型受到谷歌自身检索算法和用户检索行为变化的影响,例如,2013年媒体对于流感的广泛报道引发了民众的恐慌,在短时间内用户检索流感信息的数量迅速增加,这也就影响了“谷歌流感趋势”的预测结果。由于谷歌的检索算法在不断地变化,因此想要重现“谷歌流感趋势”的原始算法十分困难,即便是谷歌提供了“谷歌关联”的功能,但是这个功能也没有利用“谷歌流感趋势”最初使用过的45个检索词条。

除了大数据傲慢和算法动态以外,学者们也担心这背后的“操纵”问题。谷歌搜索引擎有可能会为了实现自身的经济利益或政治利益,对数据本身进行操纵。就像谷歌检索的数据会受到媒体的影响一样,企业也有可能会利用数据来影响其用户。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈