2009年,包括美国哈佛大学教授拉泽尔在内的15名顶级学者在《Science》杂志上提出了“计算社会科学”的概念。计算社会科学(Computational social science)是在社会科学中采用计算机运算方法的一个学术分支,通过建立模型、模拟、运算来分析社会现象,包括计算经济学、计算社会学、自动媒体分析等等,研究专注在透过模拟、建模、网络分析、媒体分析等观察社会与行为关系及互动。大数据时代,越来越多的人类活动在互联网上留下了痕迹,产生了关于人类行为的大规模数据,这些数据为社会研究提供了可能,通过对这些行为数据的分析,就可以获得人类行为和社会过程的模式。计算社会科学就是将计算和算法工具应用于人类行为的大规模数据的研究分析。目前,计算社会科学领域涉及的研究方法主要有:自动信息提取系统、社交网络分析、社会地理信息系统、复杂性建模和社会仿真模型。如同天文望远镜能帮助我们更真实地理解宇宙,计算社会科学则是利用先进的、日益强大的计算技术工具帮助我们分析一些超越传统学科分析范围的社会问题。
当前,我们在网络空间里的活动越来越多,百度、微信、邮件和手机已经成为人们联系和获取信息的主要方法,这些信息获取行为都会在互联网上留下印记;信用卡、公交卡记录了人们的消费支出和空间轨迹;车载摄像机能够记录行车状况;公共场所安装的监控可以实时监控公众行为。在我们日常生活中,网络虚拟空间的生活所占比重越来越大,而且虚拟与现实空间的融合越来越深入,虚拟空间能够记录下我们现实生活的种种数据印记,通过对这些数据的分析,能够改变科学研究的进程与方法,甚至改变我们对社会的理解。过去,关于人类社会活动的研究还主要依赖于某一特定时段个人填写的调查数据,而信息网络技术发展带来的海量数据,能够彻底改变这一现象。借助大数据我们可以研究人们之间的关系如何随时间、空间而变化,帮助我们思考一系列人类互动行为而导致的社会的问题。我们还能够考察宏观的社会网络,观察它如何随着时间演变。同样,我们也可借助大数据来研究城乡要素关系,观察劳动力、土地、资本等要素在城乡之间是如何流动的,为什么要如此流动,背后隐含的规律是什么,趋势是什么,问题的症结在何处,进而对如何改进和优化城乡之间要素的流动提出对策。
2.城乡要素大数据应用支撑环境
在城乡各要素的互动中会产生海量的数据,把城乡大数据转化为可用于决策的知识,需要具备以下几个方面的条件基础:
(1)城乡互动要素过程的数据化。要能够实时采集城乡要素互动中产生的大量数据,并且这些数据应有一定质量保障,这就要求与城乡互动要素相关的工作业务如人流、物流、信息流等基本实现数字化。通过大数据平台的支撑,逐步实现所有城乡互动行为线上化,并且能够对每个阶段、过程、环节都可以进行实时分析,为大数据分析和应用奠定数据基础。需要指出的是关键数据的重要性,如果某些关键要素的互动是线下操作,或者系统无法准确及时地收集到这些网下数据,那么,即使数据量够大,缺乏关键数据或数据不准确,也会给城乡大数据处理和应用带来很大的困难。
(2)大数据处理技术。其包括城乡要素数据的收集、传输、存储、计算和数据展示等一系列技术。城乡要素互动产生的数据包括结构化数据,也包括相当一部分非结构化数据。设计城乡要素大数据应用时,首先需要明确大数据的应用场景,要从数据的实时性和一致性两个维度来考察。大数据分析结果要求是秒级的还是离线的?对数据的一致性有什么样的具体要求?是否要求100%一致等等。对于实时数据、离线数据,都要考虑完整的解决方案。传统的数据处理,往往是事后进行的,而城乡要素的互动是动态的,要求大数据能够实时反映城乡之间要素的动态状况。这就要求把城乡互动看作是以数据作为开始,把数据的应用贯穿于城乡要素互动的过程中,并且以数据为终点的一个动态的过程。
(3)大数据人才。要实现城乡大数据的价值至少需要三类关键人才:进行大数据资深分析型人才、精通使用大数据分析的管理者、实现大数据的技术支持人才。此外,由于大数据涵盖内容广泛,所需的高端专业人才不仅包括程序员和数据库工程师,同时也需要农业、人口、地理、生态、数学和统计方面的专家,甚至社会网络学和社会行为心理学方面的专家等。
3.城乡要素大数据研究的思路
通过大数据优化城乡要素交换关系,研究的思路大体分为两个阶段:首先,分析影响城乡要素合理流动的障碍和症结,这部分在本研究的第一章已经有了深入的论述;其次,在去除政府行政性的政策等因素外,对症下药,考察这些障碍和症结如何通过信息网络技术有效地去除,如何结合大数据的最新发展有效地去解决这些问题。比如,以城乡资本交换的研究为例。在市场经济条件下,资本是经济社会持续稳定发展的必要条件,振兴乡村经济、加大农村基础设施建设等都需要大量的资金投入。改革开放四十多年来,虽然城市二、三产业积累了大量资本,但由于资本的逐利特性以及农业天然的弱质性和低效性,“资本难下乡”仍是制约乡村经济社会发展的主要瓶颈。资本难下乡这是表象,表象背后的主要症结是什么?为什么多数金融服务机构不愿意下乡,这是由于资本的逐利特性决定的,在这种逐利特性导向下,金融服务机构亲近城市疏远农村也是合乎情理的。问题主要症结是农村不具备传统金融发展的条件与环境:大量分散的农户和农村中小企业,交易规模小,缺少担保与抵押,信用信息缺乏,交易风险较高,这些是不容回避的客观事实,因此,要通过大数据优化城乡资本流动,就需要通过大数据技术与方法将分散的农户和农村中小企业汇聚起来,形成虚拟环境下的规模效应;对于缺少担保与抵押、信用信息缺乏等问题,就要采取通过分析个人或企业网络行为和历史数据,有效去解决农村征信建设问题。
长期以来,农村征信体系不完善一直是摆在农村金融中的一个难点,农村信贷市场信息不对称现象突出。尽管在各项政策的影响下,农村地区获得贷款支持的农户数量有所增加,但农户的信贷渗透率仍处于较低水平。由于农村地区征信体系不健全,银行与农户贷款者之间存在着信息不对称的风险因素,无法准确把握贷款者的资信状况,导致融资成交受阻。而大数据能够改变风险管理的方式,精准定位诚信比较高的用户,提高资金配置效率。大数据不仅包括结构化数据,也包括非结构化数据,其信息来源是非常广泛的,因此能更好地衡量客户的信用水平,解决金融业的信息不对称等问题。例如,腾讯征信数据来源主要是社交网络上的海量信息,如用户的支付、社交、游戏等网上行为,借此为用户建立基于互联网信息的征信;电商平台(阿里、京东、苏宁等)征信数据来源主要是大量的网上购物者和平台商户及供应商的交易数据、退换货数据、评价等,对这些数据进行分析,能够比较准确的衡量个人以及企业的信用等级,从而降低信息收集、线下审核和风险管理的成本。
互联网金融机构利用大数据挖掘技术,通过互联网用户行为数据,能够建立新的客户关系网络,结合当前及历史数据评估客户的行为,预测未来行为趋势,及时动态地调整客户的风险等级,做到对客户信用水平的精细化管理。金融机构也能够通过对不同客户的不同金融活动,针对不同风险点实施相应的控制措施,及时获取、挖掘有效的风险预警信息,及时发现经营中存在的问题,从而增强识别风险的能力,加强金融机构的风险管理水平和风险方法能力。在互联网金融背景下,资金供需方均可通过互联网搭建的P2P平台和大数据,以较低的经济成本和时间成本,快速便捷地获得双方所需的信息,进而在短时间内了解资金供需双方的需求,促使双方短时间内达成交易,提高资金的配置效率。因此,与传统金融机构相比,互联网金融在缓解金融市场信息不对称、规避风险上更具优势,有利于推动城乡资本的合理流动与优化。互联网金融机构可以利用大数据分析农村客户融资和投资、借贷款规模与线上和线下的借贷及交易行为,得出析农村客户的资信状况,将贷款发放给那些资信优良的借款者,减少客户违约事件的发生,降低借贷风险。传统的商业银行等金融机构在追求利润最大化的目标下,对于农村地区的小规模的融资收益甚微,因此更愿意将贷款发放给大客户,使得农村地区获得银行贷款相对较难。互联网金融具有边际成本降低和边际收益递增的优势,其运营模式在风险识别、信息筛选和销售购买渠道等方面均可实现对小微农业和农户融资与投资的支持,满足小微农业和农户融资与投资需求。
4.城乡要素互动数据平台
在可靠的数据源和数据处理技术基础上,能够以大数据为基础构建城乡要素互动数据平台。这个平台的构建过程可分为四个方面:
一是数据采集与展示。通过大数据技术准确、及时还原业务,也就是及时、准确地采集城乡互动中运行的各种数据,并按照不同层次需求展示出来。其中,对于城乡要素互动的图形化展示非常重要,应运用计算机图形学和图像处理技术,将数据转换为图形或图像并进行交互处理,将抽象的城乡要素互动数据表现成为可见的图形或图像,帮助发现数据中隐藏的内在规律。(www.daowen.com)
二是互动效果评估。通过大数据对城乡互动效果进行评估。城乡要素互动的效果如何、进展到何种程度,应该有一个计算和衡量的尺度。首先应建立描述城乡互动效果的各项指标表体系,然后结合城乡互动大数据,对进行城乡互动工作业务进行评估,还可以利用互联网灰度测试的方法进行流程优化的评估,这些方法可以让我们对城乡要素互动有更深刻的理解。同时,利用实时数据对城乡互动绩效进行排名,可对不同省区起到很好的比较和激励作用。
三是互动趋势预测。预测一直是大数据应用的核心,也是最有价值的地方。在对城乡要素互动进行实时监控和准确评估后,可利用大数据对互动趋势进行预测。通过大数据可以预测城乡互动中的趋势、潜在问题,或者设定某一目标并结合现有数据对未来目标的达成情况进行预测,将会发生哪些方面的问题,以及应该采取何种措施等。大数据的预测很多是利用数据之间的相关性,预测的准确度是一个重要衡量指标。对于城乡互动而言,如果能够提前进行资源要素量的预测,那么,对于协调城乡之间的资源以及资源调度就非常有意义,不仅能够促进城乡更好地互动,而且能够避免资源的浪费。
四是智能决策。依托大数据进行智能决策,这在很大程度上依赖于预测的准确性和实际城乡互动工作对准确性的包容度。当前比较实际的方式依然是采用人机结合,利用大数据和人工智能技术,为政府提供辅助决策,让决策更为合理。目前基于大数据的深度学习技术,以及人工智能领域方面的研究都取得了突破,从而也为城乡互动中的大数据智能决策提供了非常大的发展空间。
5.城乡一体化发展评估
城乡融合发展是一个动态的、不断发展的历史过程,因此城乡要素的互动也是一个过程。科学地分析和反映城乡融合中不同发展阶段的基本特征及动态变化规律,进而确定合适的发展战略、选择正确的工作重点和政策措施,无疑需要一套科学的指标体系对城乡一体化进行量化评估。城乡要素互动的效果如何,城乡融合发展到一个什么程度,应该有一个衡量或测定的尺度、标准或办法。城乡要素互动的目的是促进城乡融合,城乡融合的终极目的是促进城乡一体化,城乡要素互动与城乡融合是手段与过程。发达国家城乡关系一般经历城乡分隔、城乡联系、城乡融合、城乡一体化四个阶段,城乡一体化是最终目标。因此,城乡一体化程度是反映城乡关系度与融合度的重要指标,也是衡量城镇化发展质量的指标之一。城乡一体化是将工业与农业、城市与乡村、城镇居民与农村居民作为一个整体来谋划与研究,通过体制改革和政策调整,实现城乡劳动力、土地、资本、技术与资源的相互融合与统一,由于城乡一体化涉及经济、社会、文化、生态等多个方面,过去30多年的研究形成了诸多不同的理论与观点,诸如系统发展论、要素融合论、失衡纠正论等等,但至今仍没有一个统一理论,也没有一个统一的指标体系。
在城乡融合指标体系的设定上,应充分考虑系统性、可比性和可行性等原则,从城乡融合发展的发展程度、差异程度和协调程度几个主要方面考虑评估指标体系的设计。通过对有关研究的梳理,本研究认为应该从城乡经济发展、社会发展、生活水平等方面来衡量城乡一体化水平。
(1)城乡经济发展。包括第一、二、三次产业产值所占比重,人均增加值和二、三产业增加值在农村增加值中所占比重、城乡收入比等。城乡现代化发展程度可用现代化发展综合指数来进行测评,城市化发展水平可用城市化率来测定,市场化水平可用农、林、牧、渔业商品率和农村居民总收入中现金收入的比重两个指标来测评,城乡经济综合发展水平可用人均GDP来评定。在城乡发展的差异度方面,城乡劳动生产率差异系数可反映农业和非农业两部门劳动生产率水平差异,在一定程度上反映了城乡经济一体化程度。三次产业边际收益差异可用第一产业边际收益与全社会边际收益的比例和一、二、三产业边际收益标准差系数两个指标来测评;城乡工业边际收益差异可用规模以上农村工业每万元资金实现利税与全社会规模以上工业企业每万元资金实现利税的比例来测评;三次产业能耗差异可用第二产业每万元生产总值消耗能源与全社会每万元生产总值消耗能源的比例来测定;三次产业排污差异可用第二产业每万元生产总值排出的三污与全社会每万元生产总值排出三污的比例来测评;等等。
(2)城乡社会发展。城镇化是推动城乡一体化发展的动力,能够从空间上综合反映城乡一体化水平,通常用城镇化率(即城镇人口占总人口比重)作为衡量城镇化的重要指标。衡量城乡社会发展应包括二、三产业从业人员在从业人员总数中所占比重、千人拥有医生数量、养老保险覆盖率、合作医疗覆盖率、地区内中小学数量等;还应包括人均年电力消耗量、清洁能源普及率、公厕覆盖率、公路密度、人均带宽等城乡基础设施建设对比等情况。城乡居民养老保障差异可用农村居民养老保险参保率与城镇居民养老保险参保率之比例来评定。城乡居民参加医疗保障差异可用农村居民医疗保险参保率与城镇居民医疗保险参保率之比例来测定。在城乡基础设施和社会环境差异指标方面:城乡有线电视覆盖差异可用农村家庭有线电视覆盖率与城镇家庭有线电视覆盖率之比例来测评;城乡安全饮用水差异可用农村自来水覆盖率与城镇自来水覆盖率之比例来测评;城乡环境差异可用农村生活垃圾无害化处理率与城镇生活垃圾无害化处理率之比例来测定;等等。
(3)城乡生活水平。包括吃、穿、用、住等消费水平和教育、科学、文化、体育、卫生等方面的消费水平。其中,城乡居民收入差距指数和城乡居民恩格尔系数(食品支出总额占个人消费支出总额的比重)是衡量城乡生活差距的两项重要指标。城乡居民总体社会福利水平差异可用城乡居民社会福利指数比来测评。社会福利指数=居民收入×(1-基尼系数);城乡居民收入增加差异可用农村居民收入增加幅度与城镇居民可支配收入增加幅度的比例来测评;城乡居民消费水平差异可用农村居民人均消费支出与城镇居民人均消费支出的比例来测评;城乡居民消费档次差异可用城镇居民恩格尔系数与农村居民恩格尔系数的比例来测定;等等。
6.开发利用大数据应注意的问题
互联网虽然降低了数据收集的成本,解决了地域限制等问题,但现阶段大数据应用仍处于发展初期,在收集和提供有关高质量动态数据方面,还存在一些问题。其中,大数据的代表性是讨论较多的问题,变量与统计模型选择问题、数据公开涉及的保密与隐私问题也是大数据应用中无法回避的。
(1)样本代表性问题。由于大数据的采集不依赖随机抽样,因此数据的代表性也是一个值得研究的问题。互联网上的数据是大数据的主要来源,但是传统的方式和渠道并未完全被取代,而这些渠道产生的信息和数据并不包含大数据中,因此,大数据并不表示全部数据。当前的研究通常采用两种方法来解决大数据样本代表性问题:一是将大数据与调查数据做比较,互为补充;二是将大数据的结构与大型问卷调查数据或普查数据的结构进行对比,进而判断大数据的代表性。
(2)变量与模型选择问题。传统问卷调查数据的收集过程是按照科学研究的方法进行的,即先提出理论假设,再收集数据。因此,问卷调查数据涉及的变量完全符合研究计划的要求。相比之下,目前基于互联网大数据涉及的有关变量则是既定的。比如,与城乡劳动力流动有关的网站招聘而言,网站招聘广告数据包含用工方基本信息、空缺岗位基本信息以及任职资格要求信息(如学历要求、工作经验要求、所需技能名称与等级等);求职者数据包含性别、年龄、学历、工作经验、技能、个人意愿和岗位及地区等信息。此外,在不同的求职招聘网站上,变量的特征也不同,有的网站公布交易的绝对数,而有的网站则根据交易量公布交易排名。在这种情况下,研究者不仅要在变量选择方面更加慎重,而且在使用数据之前,要对变量的含义、内容等进行深入分析,以保证变量满足研究要求。
(3)商业秘密及个人隐私问题。在互联网时代,人们在网络上的检索、交易等行为会被网站记录下来,这些记录不仅能够揭示人们在日常生活中所做的行为选择和逻辑决策,而且其中的一些记录在使用上是开放的。此外,基于网络的大数据的收集不同于问卷调查,不需要事先得到被访者的许可,这都使得大数据的收集和使用会触及商业秘密和个人隐私问题。这一问题如何处理?一方面,需要建立互联网背景下的大数据收集和使用监管体制。例如,保护隐私的责任由个体转移到数据使用者,即数据使用者负有保护商业秘密和个人隐私的责任。另一方面,在数据使用过程中,尽量对涉及秘密与隐私的内容进行处理。例如,当个体姓名、联系方式等信息不是研究的核心内容时,应在数据应用中予以删除。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。