一些学者对于大数据风控的有效性问题进行了研究。王强[1]指出了当前个人大数据征信的问题:一是数据的真实性,二是数据收集的法律障碍,三是坏账的不可预测性的问题[2]。甚至有作者认为大数据风控是无效的,陈宇[3]援引各种证据认为大数据风控是无效的。总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面。
数据的质量问题
当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,数据包括社交数据和交易数据两个方面。
一是社交数据的真实性问题。美国P2P公司Lending Club和Facebook合作获取社交数据,中国宜信[4]也曾大费周折地收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%。
二是交易数据的真实性问题。当前许多电商平台的刷单现象非常严重,这将导致交易数据严重失真。随着网购的火爆,有关电商平台刷单的报道屡见报端。电商刷单有两种方式:一种是商家找所谓的消费者进行刷单。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。另一种是快递公司发空包,但快递公司并未完成配送,而是帮助商家完成平台上的物流信息。
大数据风控的理论有效性问题
从信息技术(IT)层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。
一是金融信用与社会信用的相关性不确定。目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人社交圈子的真伪,也就是说互联网的数据很难还原用户现实中的信息。(www.daowen.com)
二是大数据对于“黑天鹅”事件的滞后性。在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响[5]。例如,2008年美国次贷危机后产生了一种“策略性违约”行为,即贷款主体本身有能力还款,但是其在房价远低于贷款总额的时候,重新购买一套房子,并对之前的房贷断供,以此方法进行“套利”。虽然此类违约者会因此有不良信用记录,但是这对信用报告的影响有限,因为违约者其他的债务仍按期偿还。而大数据对这种突变事件的预测能力则非常有限。
大数据收集和使用的制度问题
在数据收集和使用的过程中也面临着合法使用的问题。如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题,这些泄露的数据大量流入数据黑市,造成了用户安全、企业安全甚至国家安全方面的连锁反应。数据的收集和使用在很多时候都没有征得数据生产主体的同意,这导致了数据的滥用和隐私的泄露。
近年来,个人数据泄露事件频频发生,因个人数据泄露而造成损失的新闻屡见报端。猎豹移动安全实验室发布的《2015年上半年移动安全报告》显示,截至2015年上半年,猎豹共监测到496起数据泄露事件,影响超过544万人。2015年10月19日,乌云网发布消息称,网易的用户数据库疑似泄露[6]。
数据安全也将越来越多地将企业推向风口浪尖。上海汉均信息技术有限公司发布的《2005—2014年全球泄密事件分析报告》显示,十年间,在全球泄密事件中,我国泄密事件数量占比为58.5%,其中高频发地域主要是东部沿海经济较发达、产业格局以高技术含量为主的一二线城市(见图2)。威瑞森(Verizon)发布的《2015年数据泄露调查报告》覆盖95个国家,其中有61个国家出现了安全问题,涉及79790个安全事件(security incident),超过2000(2122)个确认的数据泄露(data breach)事件。
图2 2005—2014年国内外数据泄密情况
资料来源:上海汉均信息技术有限公司《2005—2014年全球泄密事件分析报告》。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。