大数据的价值只有放在具体的企业环境中才有评价的意义,换句话说,大数据价值的判断是带有主观性的,这就不可避免的涉及人这一要素在大数据价值发挥的整个过程中的影响。
在医疗行业大数据项目中,很多情况下由于无法验证有效性、敏感性和特异性,所以即使得出了100个结果趋势,却没有几个是有临床参考意义的,就是说即使看起来是那么一回事,能反过来指导临床吗?因为医疗是非常特殊的行业。所以单独强调大数据是一种很片面、盲目的做法。
(1)大数据收集过程中的主观和惯性
利用相关性来评价有效性这一路径的有效性尚存争议。理论上来说,只要有超大样本和很多变量,我们都可能找到无厘头式的相关性,它完全符合统计方法的严格要求,但两者之间是个什么关系呢?只要我们对着一堆足够多的数据进行反复研究,进行不同模型的尝试,成千上万次后,一定会找到统计学意义上成立的相关性。这就是常见的大数据分析所犯的一个人为的错误——由相关性去论证因果关系。
这样就使得从业者在使用大数据时会面对各种各样无厘头的决策问题,如何改善这一环境以及如何更好地寻找解决方案则是依靠数据分析所不能获得的或者说是低效率的。比如可用大数据监测流行病,但人们往往会忽略一个事实:大数据是根据所收集到的海量数据与目前医学领域中已有的传统疾病进行对照研究、数据分析等一系列工作,所以其通常很难预测未知的新疾病,像SARS、甲型H1N1流感和现在的埃博拉病毒等。2014年卫计委发言人就曾提到:“中国面临传统流行病威胁持续存在、新发流行病不断出现的严峻形势”。所以我们要对大数据的疾病预测能力有客观地评估,从系统上来说,想预测黑天鹅,这本身就是一个“mission impossible”的哲学命题!(www.daowen.com)
(2)统计学也是存在偏差的
统计学是通过统计规律证明或者说明事情大约是什么样子,但是它从来不会给出绝对的结论。它是通过对数据的收集、整理和分析,来推断问题背后的本质现象。
统计学的失灵也是在预料中的事情,实际环境中不能达到理论或者实验室中的条件,因而获得的数据也会出现偏差,这些都是在利用统计学的时候所不得不面对的弊端。
举一个例子来说,谷歌虽然在2009年的流感预测上做出了漂亮的成绩,但是在2013年初,谷歌流感趋势预测被媒体大量批评,原因就在于其数据总是大幅偏高于真实的流感数据。因为在进行数据分析的时候,我们需要尽可能地利用各种统计分析方法来剔除系统误差。但是在谷歌流感案例中因为它无法剔除残差的“自相关性”以及季节性(因为到了换季时节容易感冒,所以即使我没有生病,那时也会去进行相关的检索),也就是前文中提到的“大数据反作用于大数据”,所以导致它的分析结果出现系统性误差。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。