理论教育 如何避免大数据预测模型的失灵:谷歌流感趋势案例分析

如何避免大数据预测模型的失灵:谷歌流感趋势案例分析

时间:2023-06-09 理论教育 版权反馈
【摘要】:虽然“谷歌流感趋势”预测失灵了,但是“谷歌流感趋势”仍然是一种大数据技术预测疫情的重要案例,它为大数据应用于公共卫生领域提供了重要的启示。在数据与模型算法适配度极低的情况下,在进行算法训练时将会明显带来反复优化、测试结果不稳定等问题,甚至使得大数据预测模型完全不可用。

如何避免大数据预测模型的失灵:谷歌流感趋势案例分析

虽然“谷歌流感趋势”预测失灵了,但是“谷歌流感趋势”仍然是一种大数据技术预测疫情的重要案例,它为大数据应用于公共卫生领域提供了重要的启示。正如维克托·迈尔-舍恩伯格和肯尼思·库克耶在《大数据时代》一书中对“谷歌流感趋势”评价的那样,“这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和复活,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会有一种更好的预测工具,以预防流感的传播”[3]。

第一,“谷歌流感趋势”提供了一种利用大数据预测传染病的方法,开启了大数据预测传染病的先例,并启发了更多的大数据公共安全应用。又比如,2019年12月31日,加拿大蓝点公司(Bluedot)比世界卫生组织早一天向其客户发出新冠肺炎疫情的警告。它利用数十亿条飞行路线和数亿个移动设备的匿名汇总数据来预测疾病在本地和全球的扩散,具体有航班信息、气象信息、卫生系统信息、动物昆虫信息等,几乎能够实时地检测出150多种不同病原体、毒素和综合征的暴发[4]。因此,我们有理由相信,随着新型预测工具的升级发展,人类利用科技应对公共安全风险的能力也会不断提高。

第二,大数据预测模型中数据有效性与数据质量至关重要。从“谷歌流感趋势”的案例中可以看出,虽然“谷歌流感趋势”利用了谷歌的海量数据,但是这些数据可能遭受污染,反而导致了“谷歌流感趋势”预测失灵。可见,一旦数据源头出现了问题,将可能直接影响到数据分析结果的准确、合理。具体来看,数据污染产生的原因可能包括训练数据集规模过小、多样性或代表性不足、异构化严重、数据集标注质量过低、缺乏标准化的数据治理程序、数据投毒攻击等。在数据与模型算法适配度极低的情况下,在进行算法训练时将会明显带来反复优化、测试结果不稳定等问题,甚至使得大数据预测模型完全不可用。因此,大数据分析应当建立在高质量的数据基础之上,必须从数据本身抓起,密切关注数据质量的变化。(www.daowen.com)

第三,可靠的算法模型更能够输出稳定、合理的计算结果。一种好的算法模型是充分发挥大数据在卫生健康、社会安全、灾害治理等领域中价值的重要支撑。“谷歌流感趋势”预测的偏差与自身的算法存在很大的关系,在算法设计之初,并没有完全考虑数据、舆论、媒体等方面的因素,这就为后续算法的升级埋下了隐患,即便是经过多次升级调整,预测的结果却与实际数据的偏差越来越大。因此,从算法的设计之初,就应当综合考虑社会发展、数字技术的变化等影响因素,开发出更加符合公共安全要求的数据分析模型,从而持续提供可靠的分析。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈