定性评价法是指凭借专家个人判断的一种主观评价方法。该方法简单易行,不必进行复杂的运算,但评价的人为因素影响过大,评价结果往往不够精确。目前,在信息分析成果的评价过程中主要使用的定性评价方法有:同行评议法、德尔菲法、专家定性判断法、因素分析法、调查研究法等。
4.4.1.1 同行评议法
同行评议法最早可追溯到1416年威尼斯共和国的专利审查办法。在300多年前英国皇家学会成立之初,它明确地将同行评议方法用在论文评审中。目前在我国,同行评议法已经被公认为一种最基本的科研评价方法,普遍应用于科研立项评审、科研成果鉴定、学位和职称评定、学术期刊论文评审和科研机构绩效评估等科研评价活动中。
(1)同行评议的内涵。
一般认为,同行评议法是指相关领域评议专家采用统一的评价标准,通过通信评议、调查评议等方式,对项目成果的研究价值、研究方案、操作可行性等作出独立的判断和评价。由于评价报告是由同行专家作出的,其评价结果对相关实施部门有重要的参考意义。
(2)同行评议法的形式。
同行评议有许多形式,从评价实施的形式上划分,同行评议法主要有通信评议、调查评议、会议评议等三种形式。其中,通信评议是指评价机构把待评成果寄送给评议专家,专家独立做出书面判断,然后将评议意见在规定的时间内反馈给评价机构;调查评议是指对研究成果的研究过程进行考查,或者对成果在实践应用方面的成效进行现场调研,从而形成评审意见;会议评议是指评价机构先把待评成果送递评议专家审阅,然后再请专家在指定的时间和地点参加专家评审会,通过讨论和交流,形成集体评审意见。为了清晰地认识同行评议法的各种具体形式,我们对其进行了优缺点的对比,如表4.1所示。
表4.1 通信评议、调查评议和会议评议的优缺点对比表
总的来说,通信评议、会议评议和调查评议由于组织形式的不同,适用的领域也有所不同,通信评议几乎适用于所有的科研项目评审,也适用于文献形式的科研成果鉴定;会议评议较适用于项目的集中评审、重大项目和有争议项目的评审。调查评议则适用于研究机构的评估和资金投入较大的重大研究项目的评审等。在实践中,也常常根据需要采用组合评议,如先通信评议,再会议评议;或先调查评议,再会议评议,等等。
(3)同行评议法的优缺点。
同行评议法能够在世界各国广泛应用,成为一种被人们普遍接受的评价工具,自然有自身的独特优势。实践证明,在科学评价中,尽管同行评议方法由于其主观性而有某些不足和缺陷,[13]但仍然不失为一种实用的好方法。当然,任何事物都具有两面性,同行评议法也存在一些缺点。
同行评议法有两大优势。首先,同行评议法动用了从事同一领域的那些有专长的受人尊敬的成员担任科学研究成果的鉴定人,在一定程度上保证了评价的质量和科学责任;其次,同行评议法允许本专业、领域的同事们进行自由的交流意见和建议,信息的交换和碰撞促进了科学的进步,并搭建了畅通的学科交流平台。尽管在实际运用同行评议法时,可以结合定性评价和定量评价对科研成果进行综合评价,在一定程度上能客观反映科研成果的实际水平,但这种方法也存在其固有的缺点和局限性。[14]
同行评议法的缺点在于:一是由于同行评议是一个主观过程,基本上依赖评议者的看法和过去的经验,因此,评议的主观性决定了经验的局限性和个人的偏见渗入评议过程,从而有违科学规则;二是由于同行评议方法本身要求保密,尤其是对于评议者来讲,给予他们自身极大权力和自由的同时,还要求对评议过程严加保密,这往往给实际工作带来了问题。
因此,我们在使用同行评议法来评价信息分析成果时,必须清楚地认识其优缺点,在实践过程中发挥优势,结合其他方法避免其不足之处,最终实现科学的评价。
(4)同行评议法的新进展。
同行评议是依据相关领域的若干专家组建的评判团队来评价项目成果的一个过程,主要实现评价其质量水平的目的,另外,评判专家对其评价项目提出适合的评价标准和评价体系,从而指导项目评价工作和提升项目工作质量。美国国会进行的一项调查报告曾指出:“同行评议是进行打分评审时常用的方法,其他方法只是偶尔作为证实的手段而采用。”[15]
评价活动的发展促进同行评议法的改进和完善,但是项目成果逐渐复杂化,评议专家也不再局限为某一领域的专家,而是由多学科领域的专家共同组成。然而,随着网络技术的迅速发展和普及,同行评议的工作有了新的技术手段,借助网络技术开展同行评议工作已经成为实践工作的现实需要,因此,实施网络同行评议是在网络环境下同行评议的一种重要方式,并且在国内外已经逐步试行。在此趋势下,我国国家自然科学基金项目、教育部等各类项目也都开始实行网上申报和评审。
网络同行评议的实施方式有三种:第一,最简单可行的就是通过电子邮箱进行;第二,开发并建立网络同行评议系统,专家获取登录信息后远程进行评审;第三,通过网络视频会议模拟现场评审。相比较而言,前两种方式有较好的安全性和保密性,评价工作不受地理限制,并且可以方便地请境外专家评审,后一种方式则能更好地实现专家之间对项目评价意见的沟通和交流。
总的来说,网络环境为同行评议法的实施提供了便利,不再拘泥于现场办公和纸质材料的传递,缩短了评议周期并提高了工作效率,比如评议工作能够方便查询实时评议过程和结果、能够全程监控评议过程的进行等,同时,提高了同行评议的公开、公正的程度。
同行评议法应用案例
同行评议法在英国RAE的应用[16]
一、RAE简介
20世纪初以来,英国高校科研经费拨款一直秉承双重资助体制。高校科研经费拨款分为两部分:(1)研究委员会分配的科研项目和研究生培养经费。(2)高等教育拨款机构分配的一般科研经费,用于资助大学科研人员和辅助人员的时间(工资)、科研活动所需的实验室、图书馆、计算中心等基础设施和设备、科研活动的日常开支和管理服务成本等。20世纪80年代中期以前,一般科研经费主要以增量拨款的原则,根据科研活动量协商确定拨款数额,然后以大宗拨款的形式拨付给大学,由大学自主支配。1986年以后,高等教育拨款机构改革拨款原则和方式,采取绩效拨款原则,根据高校科研活动的质量和数量,按公式有选择性地分配一般科研经费。
高校科研活动的质量根据定期进行的科研评价活动(Research Assessment Exercise,RAE)衡量。RAE以学科专业为评价单位,由高校各系自愿单独或联合提交评价申请,采取同行专家会议评审的方式定期举行,于1986年、1989年、1992年、1996年、2001年和2008年进行了6次。RAE的主要目标、原则、内容和同行评议方式总体上持续性大于变化,然而其整体运行管理却不断改进,以更好地实现其评价目标。2014年底,英国官方发布了科研卓越框架(Research Excellence Framework,REF),取代了RAE。
二、RAE运行管理的特征和改革
RAE运行管理的特征和改进措施主要体现在管理团队的专业化、不断改进同行评议方式的一致性、不断改进结论的客观性及对成本效益的关注等4个方面。
(一)专业化的RAE管理团队
RAE的实施依靠两大团队:负责管理和服务的管理团队和负责具体评价工作的同行评议小组。RAE管理团队由英国3个高等教育经费委员会(英格兰、苏格兰、威尔士)和北爱尔兰教育部组建,为最高管理和服务机构,负责总体原则和政策的制定,整体运行的协调和管理(包括评价小组成员的提名和任命),以及评价过程的具体管理和服务,包括评价活动间隔期间的调研和咨询工作、活动期间的评价申请和资料的管理、评价小组的协调和服务、国际评价专家的服务等方面。管理团队的结构相对比较稳定(如图4.2所示),但是其人数却随着RAE活动规模的扩大和管理的细化而不断增加,比如从2001年起,RAE管理团队负责为所有评价小组聘请短期的全职评价小组秘书。各评价单位提交的研究成果均由研究成果系统操作人员收录、核对,并委托专业的咨询公司对研究成果的真实性进行检验。在RAE管理团队的管理和服务工作不断完善的同时,其规模的扩大和复杂性的增加却不可避免地对RAE的整体成本和效率形成压力。RAE管理团队的优势在于大力借助咨询公司(开展研究成果检验)和高校(提供评价小组秘书)等机构分担其阶段性的工作量,以控制其自身的规模并增加灵活性。
图4.2 2001年RAE管理团队结构
(二)评价小组结构和工作机制改革——提高同行评议过程的一致性和结论的可比性
在核心的评价操作方面,专家评价小组负责制定具体的评价标准细则和工作方式,开展评价活动,形成评价结果。尊重高校知识集中于基层组织的特性,RAE的评价管理主要采取自下而上的协商式机制。所有机制,包括原则、政策和操作性文件,均由评价小组或相应委托单位起草,在咨询利益相关群体之后,由管理团队批准公布成为正式有约束力的机制文件。其中广泛的公开咨询是整个过程的润滑剂,既提供了信息、意见和建议的沟通协商渠道,又起到决策合法化的作用。评价标准和工作方式之间的一致性是不同学科专业之间同行评议结果可比性的保障基础。RAE评价结果可比性的提高主要依靠评价小组结构改革和各组评价标准和工作方式的改革。
1.评价小组结构改革
2001年之前,RAE一直采用单层的评价小组结构,坚持以专业为基础划分评价单位,一个评价小组一般负责一个评价单位,少数评价小组负责多个申请数量不多、且专业相近的评价单位。为了增强不同评价小组之间的一致性,2001年在评价小组的基础上增设了5个象征性的评价小组联席会议,代表5大类学科,由各评价小组的主席出席,讨论和协调各评价小组之间评价标准细则和工作方式上的差异。但是由于这一联席会议缺乏法定权力,无法有效影响各评价小组的具体决定和行为。
2008年,根据专业相近的原则,RAE建立了一个包括评价小组和大组的双层评价结构(见图4.3)。67个评价小组负责制定67个评价单位的评价标准细则和工作方式,并向评价大组建议每份评价申请的评级。15个评价大组负责审批小组制定的评价标准细则和工作方式、决定小组建议的评级,并与其他评价大组保持良好的沟通和合作关系。评价大组的成员包括主席(由相关领域的专业评价人士担任)、各评价小组主席、国际专家和观察员。这一双层评价结构大大增强了相近专业之间在定义、解读评价标准细则和工作方式上的一致性。
2.工作机制——评价标准细则和工作方式改革
从1996年开始,管理机制的核心——各评价小组的评价标准细则和工作方式不断改进以提高其透明度和可比性。虽然采用统一的绝对评价标准,然而高校对1989年和1992年RAE过程批评最集中的一点就是不了解各评价小组应用评价标准的具体方法。因此从1996年开始,评价小组提前一年左右公开各自评价标准的细则和具体工作方式,给予高校和各系充分的时间根据评价标准细则准备评价资料。2001年,评价小组公布的评价标准细则和工作方式包括评价单位的描述、评价单位的范围、交叉学科和联合评价申请的处理方法、科研成果证据的定义和处理方法、工作方式(包括评价标准细则的定义)等几个部分。其中最重要的莫过于科研成果证据的定义和处理方法以及工作方式的描述,而这两部分由于专业特征表现出的差异也最突出。各评价小组对评价标准中“国际卓越水平”的定义和解释仍然比较模糊。
图4.3 2008年双层评价结构图
2008年评价大组和小组的双层结构则强调了相近专业之间评价标准细则和工作方式的一致性,即从起草到内容构成和定稿的协调性。评价标准细则突出体现了各小组由于专业特征依然存在的一些具体差异,不过工作方式中都明确规定评价大组保持各小组评价活动一致性的措施。
总体上,RAE追求的是在评价标准细则和工作方式的一致性和差异性之间维持着恰当的平衡,也就是说,评价标准和方式在反映一个共同的基本框架的同时允许评价小组在一定范围内进行调整,以适应各专业的特殊性。虽然不同评价小组的评价标准和工作方式之间仍然有一定差异,但高等教育经费委员会认为这些差异仍然在同一标准框架之内,主要是由不同专业的评价特征和要求决定的,这也在一定程度上体现了不同评价小组的偏好。
各评价小组的具体评价程序一般在评价细则中提前公布,虽然它们有一定的差异,但是大多数接近表4.2所描述的程序。
表4.2 2001年评价小组的评价程序
(三)同行评议客观性的保障措施
RAE主要从三个方面提高同行评议的客观性。
1.评价小组成员的代表性
同行评议过程中专家的代表性直接影响整体评价的客观性。评价小组成员的代表性是指其构成是否反映了研究活动和人员在不同类型学校、性别、年龄(职业生涯周期)和族裔等方面的分布特征,及其选择过程是否公平、公开。评价小组的主席和成员名单一般在RAE申请指南公布之前确定,通常为评价申请截止日期前2年。评价小组的主席一般由上一届评价小组成员选出,经RAE管理团队批准后产生。评价小组的成员首先由高校、专业协会、学会和科研成果的使用单位(研究委员会、企业、政府部门和非政府组织等)推荐。其选择标准参考了他们在相关专业领域的经验和地位(年龄和职业生涯周期分布)对相关专业领域科研模式和科研人员的了解和成员的背景(性别、所属高校类型和地区分布、科研成果使用单位的代表性等)。国际同行专家的意见在同行评议过程中不仅能检验国际标准的应用是否恰当,也有助于保证国内专家客观地评价研究成果的国际卓越水平。RAE从1996年开始由评价小组自主决定征求国际同行专家的意见,2001年征求国际同行专家意见的数量大幅度上升。到2008年,国际专家直接成为评价大组的成员之一。
2.评价标准应用的规范性
RAE虽然采取了统一的绝对评价标准,但是各评价小组的具体解读和应用,依然因学科专业的不同而存在一定的差异。RAE管理团队一方面要求各评价小组制定和公布评价标准细则和工作方式,以增加透明度,另一方面逐步规范评价等级的具体构成。以2008年为例,评价等级的构成包括三大块:研究成果、研究环境和声誉指标。除了研究成果完全依靠专家的同行评价衡量之外,研究环境和声誉指标都或多或少地运用到量化指标。量化信息的运用旨在为主观的同行评议提供客观的评价参考信息。
以G大组(工程类)为例,该组规定下属6个小组的2008年质量评级构成分别为:研究成果50%、研究环境20%、声誉指标30%。研究环境的一半,即10%按博士研究生的授予数量衡量,其余的按利用内外资源支持基础设施或设备等其他证据衡量。声誉指标包括研究拨款和合同收入等外部研究收入(研究人员数量按全日制等量计算,即将兼职研究人员按工作量或工作时间折算为全日制的研究人员)。
3.量化指标的客观依据
RAE管理团队提供各类标准数据分析结果和评价小组要求的特殊数据分析,为同行专家评议提供客观的依据(见表4.3)。
表4.3 RAE数据分析举例
(四)RAE的成本效益
RAE的平稳开展依靠后勤管理和保障工作的不断完善,包括评价秘书的配置,研究活动信息的提交、存储和传输,评价数据分析服务,外部专家建议的处理等。如为了监督和保障评价小组遵守整体的标准化等级评价框架和指导原则,以及评价小组自己制定的评价标准细则和工作方式,每一个评价小组都配备了一名秘书,其主要职能之一就是咨询和监督评价程序的完善和诚实。2008年,每个评价大组配备一名评价秘书和一名秘书助理,提供评价规则和程序的指导和建议,帮助评价大组和小组规划和管理他们的工作,协调会议日程安排,参加每次会议,准备会议日程和相关文件及会议记录,准备报告和反馈。评价秘书还将向RAE管理团队报告评价大组和小组的工作进展情况。
然而,在后勤保障工作逐步完善的同时,成本也在逐步增加。RAE的成本包括高等教育经费委员会和高校等参与单位支出的直接经济和管理成本以及间接机会成本,比如高校学术人员为参与评价活动而放弃其他活动所导致的收益损失。1996年RAE的直接运行成本(operating expenditure)大约为3032600英镑;而2001年RAE的实际直接运行成本是5100950英镑,比1996年增加了68%。高等教育经费委员会认为2001年RAE较高的成本主要是由评价程序的改进导致的,比如评价小组成员查阅的科研成果的数量大幅度增加。2001年RAE首次为评价小组邀请的咨询专家支付费用,而且大多数评价小组就5级和5∗级的候选申请广泛征求海外国际专家的意见。2001年评价小组成员中科研成果使用者的比例大幅度增加,不同评价小组之间相互征求意见,以及由此增加的评价会议次数都导致了RAE成本的增加。2008年RAE由于前期改革的咨询工作、评价结构的改革和评价服务的提升,如评价秘书和助理的聘用、特殊数据分析服务等,导致RAE总成本陡增至4700万英镑,平摊至每所高校为612828英镑,平摊至每个被评研究人员为1127英镑(见表4.4)。
表4.4 2008年RAE总成本构成
高校和学者普遍认为RAE的运行管理成本远远高于高校和各系能够因此而获得的收益。RAE对高校的一般科研经费影响幅度一般在10%之内,主要原因是高校各系的经费有增加也有减少,到了校级增减就相互抵消了。这与高校为RAE付出的经济和管理成本不成比例。不同层次的大学,如老牌大学和1992年后升格的新大学的一般科研经费,也没有因为RAE出现较大的变化。但RAE结果对系这一层次的一般科研经费的影响较大。英格兰高等教育经费委员会的分析显示,在1996年RAE结果的影响下,系级一般科研经费的整体变化幅度接近55%,而只是由于科研评级变化直接导致的一般科研经费变化幅度高达到19%。这一分析表明RAE对高校和各系的一般科研经费的影响很大,可是仍然无法平息高校对于英国RAE的成本高于欧洲其他国家的指责。
然而英格兰高等教育经费委员会驳斥了高校对RAE成本高、效率低的批评。它指出1996年RAE的直接成本大约为300万英镑,加上间接成本大约总计380万英镑,而这只占直接根据RAE结果分配的一般科研经费总量的0.8%,这比研究委员会按竞标方式分配科研经费的成本要低得多。更重要的是,RAE结果不仅决定一般科研经费的分配,还具有明显影响研究人员申请其他科研经费的外部效应。
尽管RAE的运行管理经过多年的完善,其科学性和效率不断提高,但是它复杂的过程和高成本不仅在国内争议颇多,而且使得多数国家在采纳类似规模和形式的科研评价方式时望而却步。与英国高等教育体制和管理体制一脉相承的澳大利亚在选择高校科研绩效评价方式时就明确因其复杂性和高成本放弃同行评议,转而采取定量的绩效指标评价方式。
三、总结
英国的RAE在国际上获得很高的评价,尤其是管理和服务团队的专业化和灵活性,以及改进同行评议方式一致性和客观性的措施。
专业化的管理团队是提升管理效率和执行力度的组织保障。许多国家的科研评价活动的管理都依赖政府部门或专业协会等学术机构,缺乏专业化的管理服务经验以及人力资源。RAE的经验表明,运行管理过程中的专业化服务工作可以借助咨询公司和高校的专业经验和人力资源以控制规模和成本。咨询公司能够提供专业的数据处理和分析服务,减轻同行评议过程中的相关专业服务和人员配置的压力。高校相关科研管理和服务人员已经对评价活动和内容有相应的了解,抽调一二位参与服务工作一方面能够减轻人员配置的压力,更重要的是能同时增进高校对评价活动过程的了解和参与。
同行评议过程一致性与结论可比性的保障依靠组织架构与工作机制。科研评价政策和活动通常跨学科、跨领域开展。如何使科研活动方式与产出形式差异显著的不同学科领域之间的评价结论具有一定的一致性和可比性,是同行评议科研评价方式的一大挑战。RAE通过改进同行评议专家组的架构和协调机制,以及国际同行的选择性参评,加强不同学科领域之间的协调与比较。不同学科评价小组的评价标准细则和工作方式在统一的评价等级框架内拟定,而且其操作过程具体化规定以及透明度不断提高。RAE评价小组的工作程序高度一致,在专业化管理团队的服务和督促之下,规范性大为提高。同行评议专家的组织架构与工作机制的不断改进是提高评价过程的一致性与结论的可比性的主要途径。
同行评议的效度和信度取决于专家的代表性与评价的公开性。同行评议结论的准确性和客观性不仅是评价管理的挑战更是评价方式合法性的基础。RAE通过不断改进专家提名和任命的选择程序和过程,以及专家身份和评价结论的公开程度来保证同行评议的效度和信度。同行评议专家的身份与结论公开方式是关键。许多国家和地方则采取专家匿名评审、相对公开专家个别和集体评价结论的方式,虽然RAE采取公开专家的个人身份,但只公开最终的集体评价结论。RAE的方式注重通过评价过程的公开,促进评价结论的公平。
成本效益分析直接影响科研评价整体合法性。英国RAE运行管理的分析表明,科研评价政策的影响和效益评价必须与政策目标和实施情况结合进行。政策分析只关注政策活动的起源和影响,却忽略实施过程的运行管理,容易走入一个“黑箱”误区。政策制定过程中如若忽略政策实施的可行性,比如成本和效率等,也容易导致政策执行失利。
4.4.1.2 德尔菲法
德尔菲(Delphi)法最早出现于20世纪50年代末期。1964年美国兰德公司的赫尔墨和戈登发表了“长远预测研究报告”,首次将德尔菲法用于技术预测中。[17]当时美国政府组织了一批专家,要求他们站在苏军战略决策者的角度,最优地选择未来大战中将被轰炸的美国目标,为美军决策人员提供参考。德尔菲法是一种广为适用的预测和评价方法,除用于技术预测外,它还广泛应用于政策制定、经营管理、方案评估、成果评价等。
对于参与评价的专家来讲,其在评价过程中往往较多地受到社会、政治、经济等因素的影响。虽然如此,由于德尔菲法是建立在相关领域专家的专业知识、工作经验、智慧技能的基础上的,因此,该方法特别适合于缺少信息资料和数据的情况下进行评价。事实上,实践也证明采用该方法进行评价,可以较好地揭示项目成果的内容特征和固有规律。
(1)德尔菲法的特点。
①匿名性。
在德尔菲法的实施过程中,专家们彼此不知道其他有哪些人参加预测,他们是在完全匿名的情况下交流思想的,即所谓的“背靠背”的方式。受邀参加评价的专家之间互不见面和联系,可以不受任何干扰独立地对调查表所提问题发表自己的意见,或者参考前一轮的评价结果修改自己的意见。由于采取匿名的方式,专家们根本不必担心这会有损于自己的威望。
②反馈性。
由于采用匿名的方式,受邀专家之间互不见面和联系,因此,仅靠一轮调查,专家意见往往比较分散,且不能相互启发,共同提高。专家从反馈回来的问题调查表上了解到其他专家的判断意见,以及专家们对特定观点同意或反对的理由,在参考他人看法后各自作出新的判断。这样反复多轮之后,专家们考虑问题的角度就会比较全面,判断值趋于收敛,意见逐渐一致。
③统计性。
为了科学地综合专家们的评价意见和定量地表示评价的结果,德尔菲法采用统计方法对专家意见进行处理,其结果往往以概率的形式出现。这些结果既可反映专家意见的集中程度,又可反映专家意见的离散程度。为了便于对专家意见进行统计处理,在调查表设计时一般采用表格化、符号化、数字化的设计方法。(www.daowen.com)
除了上述特点外,德尔菲法由于通常采用函询的方式征求专家意见,因而比较容易通过控制调查面,使受邀专家具有代表性。此外,专家也有充分的时间思考和进行调查研究,以保证专家意见充分、可靠。
(2)德尔菲法征询意见的过程。
德尔菲法是集中专家意见和智慧的一种方法,所以实施德尔菲法首先要确定专家组的人选。首先按照课题设计的知识领域选择、确定专家;专家人数的多少,可根据课题涉及面的大小而定,一般不超过20人。在确定专家组后,一般要进行四轮专家调查咨询,如图4.4所示。
图4.4 德尔菲法的工作流程
①成立评价领导小组。
这个小组的主要任务是对信息分析成果评价工作进行组织和指导,包括明确评价目标,选择参加评价的专家,编制调查表进行反馈调查,对各轮征询回收的专家意见进行汇总整理、统计分析与评价,编写和提交评价报告。
该小组的成员主要由信息分析人员构成。其中,专家的任务是对被评价的信息分析成果提出正确的意见和有价值的判断。专家的选择是否恰当直接关系到德尔菲法应用的成败。
②编制调查表。
调查表是获取专家意见的工具,是进行信息分析的基础。调查表设计的好坏,直接关系到评价的效果。在制表前,设计人员应对课题及其相关背景情况进行调查,以保证提问的针对性和有效性。
③四轮调查反馈。
经典的德尔菲法一般包含以下四轮征询调查,且在调查过程中包含着轮间反馈。
第一轮调查:发给专家的调查表不带任何框框,只提出要评价的问题。专家可以各种形式回答有关提问,提出应评价的事件。组织者要对回收的调查表进行汇总整理,归并相同的事件,剔除次要的、分散的事件,并用准确的术语制定出事件一览表。该表可在第二轮调查时作为调查表反馈给专家。
第二轮调查:请专家对第一轮提出的各种事件发生的时间、空间、规模大小等做出具体的评价,并说明理由。组织者要对这一轮回收的调查表进行汇总整理,统计出专家总体意见的概率分布。
第三轮调查:将第二轮的统计结果连同据此修订的调查表再发给专家,请专家再次做出具体评价,并充分陈述理由。组织者同样要对这一轮回收的调查表进行汇总整理、统计分析,以备作第四轮的反馈材料。
第四轮调查:将第三轮的统计结果连同据此修订的调查表再发给专家,请专家再次做出具体评价,并在必要时做出详细、充分的论证。在第四轮调查结束后,组织者依然要将回收的调查表进行汇总整理、统计分析,并寻找出收敛程度较高的专家意见。
上述四轮调查不是简单的重复,而是一种螺旋上升的过程。每循环和反馈一次,专家都吸收了新的信息,并对评价对象有了更深刻、更全面的认识,评价结果的精确性也逐轮提高。
④编写和提交评价报告。
专家意见收敛后,组织者应将最终的统计分析结果作进一步加工,形成正式的评价报告,并通过适当的信息传递渠道将其提交给有关部门。
(3)德尔菲法的新进展。
德尔菲法起源于技术预测领域。在最初的预测咨询中,一般只设定预测主题,而不设预测事件,通过四轮匿名性和反馈性的咨询,对预测结果做出统计归纳和判断。具有这些特点的德尔菲法被称为经典德尔菲法。德尔菲法适用于那些缺少情报资料和历史数据,而又较多地受社会的、政治的、人为的因素影响的课题。它既是一种预测方法,又是一种评价方法。
不过经典德尔菲法的侧重点是预测,因为在进行相对重要性之类的评估时,往往也是预测性质的评估,即对未来可能事件的估计比较。具体来说,德尔菲法主要有以下五个方面的用途:①对达到某一目标的条件、途径、手段及它们的相对重要程度作出估计;②对未来事件实现的时间进行概率估计;③对某一产品方案在总体方案中所占的最佳比重作出概率估计;④对研究对象的动向和在未来某个时间所能达到的状况、性能等作出估计;⑤对方案、技术、产品等作出评价,或对若干备选方案、技术、产品评价出相对名次,选出最优者。[18]
随着应用范围的扩大,德尔菲法在实践中根据具体情况的特殊性得到了许多改进,产生了许多派生的变形德尔菲法。事实上,在信息分析成果评价实践中,应用较多的是各种变形德尔菲法,经典德尔菲法用的反而较少。一般来说,变形德尔菲法有如下几种形式:
第一,缩减咨询调查的轮次,在德尔菲法的咨询过程中,如果专家意见收敛较快,则可以减少咨询轮次,提前结束咨询活动,这样可以缩短咨询时间,提高工作效率。
第二,部分问卷取消匿名性,尤其是在有些跨专业的咨询活动中,为了使咨询专家了解其他领域的专家的看法,可以在问卷发放的过程中部分取消匿名性,公开不同领域的专家的意见,这样有利于专家形成综合判断。
第三,对收集回来的专家的评价意见进行选择性反馈,比如说,在反馈上一轮的结果时,只向专家公布统计得到的上下四分位数而不公布中位数,这样就可以避免专家盲目地或下意识地向中位数靠拢的倾向,这样有助于专家进行独立思考。
德尔菲法应用案例
德尔菲法在社科成果评奖中的应用[19]
一、引言
社科成果评奖,是对哲学社会科学(以下简称“社科”)研究成果进行客观评价的重要方式,是对社会科学研究的一种鞭策和激励。社科成果评奖的关键是确定科学的评价标准和选择科学的评价方法。其中从评奖方法来看,尽管国际、国内不尽相同,而可供选择的方法(包括定性和定量方法)也有多种,包括信息集结法、专家打分法、专家咨询法(德尔菲法)、贝叶斯概率法、模糊评价法等。其中,德尔菲法是一种切实可行、具有广泛推广价值的评奖方法。德尔菲法又称专家咨询法,是由组织者就拟定的问题设计评价表,通过函件采用匿名的方式分别向选定的专家组成员进行多次反复的征询调查,从而获得评价结果的一种方式,是一种科学、客观的专家意见征询方式。
二、德尔菲法应用于社科成果评奖中的背景分析
(一)德尔菲法及其应用特点
德尔菲法是美国兰德公司(Rand Corporation)在20世纪40年代末首先使用的一种评价方法,是以古希腊城市德尔菲(Delphi)命名的规定程序专家调查法,德尔菲法作为一种独特的专家意见评价方法,它具有以下特点:
1.匿名性。德尔菲法采用匿名函询方式征求意见,对被选择参与评审的专家完全保密,不公开其姓名、职务、职称;另一方面,评审专家对于自己所评审作品的作者、单位也是不知情的,对参评的其他专家情况也不知晓,避免了同行“权威”的相互影响。这样,可以使评审专家给予被评作品客观评价,使专家个人意见得以充分发挥,而不受外部因素的干扰。
2.反馈性。德尔菲法通过反复征询专家意见,收集反馈信息,在整理意见的基础上再反馈给各位专家,既有利于各位专家各抒己见,又能让全体专家知道全部意见的倾向及持不同意见的理由等,有助于互相启迪,最大限度地发挥专家的智慧。
3.收敛性。德尔菲法通过“专家意见形成—统计反馈—意见调整”这样一个多次与专家交互的循环过程,使分散的意见逐次收敛在协调一致的结果上,充分发挥了信息反馈和信息控制的作用。基于这一“统计—反馈”过程的潜在暗示作用,可能会使专家将自己的意见向有利于统计结果的方向调整,从而使得专家的评审意见具有收敛性的特征。
(二)德尔菲法应用于社科成果评奖应遵循的原则
德尔菲法运用于社科成果评奖,关键在于对评奖评审专家的选择以及建立一个科学的、客观的综合评价指标体系。在此过程中,应遵循以下原则:
1.科学性原则。首先,要选择合适的评审专家,避免“外行评内行”的现象;其次,要根据社科学术研究的特点和规律,尽可能从相关要素中选择那些最能体现社科学术研究本质、实力的衡量指标,且各项指标要具有相对的独立性,同一层次的指标不应具有明显的包含关系。
2.系统性原则。基于社科研究本身的复杂性,要求评价指标具有足够的涵盖面,尽可能将反映社科学术研究水平的主要要素囊括在内,以系统、真实、全面地反映社科学术研究成果的全貌和各个层面的基本特征。但评价指标体系又不是单个指标的简单堆砌和松散集合,必须根据各指标的内在逻辑关系进行系统整合与集成,形成一个有机的评价系统。
3.导向性原则。指标体系的设计要适应当前的国际社科学术研究发展的范式与趋势,符合国家社科学术发展的战略和科研政策。在对社科研究成果进行系统、全面评价的基础上,还要通过权重系数的不同,体现各指标在评价指标体系中的相对重要程度。
4.可行性原则。理论上讲,我们尽可能设计出一个能包容全面而庞大的指标群和复杂的指标树的指标体系,对社科学术研究成果做出全方位、多层次、多视角的评价。评价指标越多,对事物的刻画越精细,评奖的准确性也就越高。但实际操作中,必须考虑到人力、物力、财力等多方面的因素,而且过于庞大而复杂的指标体系对于评审专家来说,难免会失去重点和顾此失彼,所以,在指标的设计上要科学合理,尽量选择那些重要的、有代表性的指标,以简化指标体系,突出评价的可操作性。
5.最优化原则。社科学术研究成果的评奖,旨在对少数的优秀作品给予奖励,所以,在成果评奖评价中,要坚持量少质优的“金字塔”原则,评选出社科学术研究成果中的精华部分。
三、德尔菲法在社科成果评奖中的具体操作
(一)德尔菲法在社科成果评奖中的操作程序
德尔菲法运用于社科成果评奖,应遵照一定的操作程序(见图4.5)。
图4.5 德尔菲法社科成果评奖程序表
从图4.5可知德尔菲法用于社科评奖的基本步骤包括:
(1)根据评奖的要求匿名随机选择7~9名责任心强、水平高的专家。
(2)组织者根据社科成果评奖的具体情况确定评奖内容、评奖指标,制定函询评奖表。
(3)将评奖表寄送各位评审专家。
(4)组织者收回评奖表,整理分析汇总评审结果。
(5)将有较大争议的评审表及意见整理分析后反馈给各位评审专家,专家在参考整体意见后做出调整,再次反馈给评奖组织者。
(6)在最后一次整理评奖专家意见的基础上,通过公证,确定评奖结果。
对于社科学术论文评奖专家的选择与组织,应遵循以下原则要求:一是要尽量扩大选择专家的范围,评奖专家不止在省内找,还可以扩展到省外,甚至到国外。选择专家的范围宽了,不仅可以避免参评人员透过各种渠道影响评奖结果的公正性,另外,还可以提高评奖专家的层次。专家的层次高了,特别是省外、国外专家的参与,人情因素相对少,学术视野宽,评奖结果的公正性、准确性也会高一些。二是要注意评审专家年龄(老、中、青)的搭配,使参评成果既能受到一些有着时间积累、经验老到的专家的审视,又能受到一些后起之秀、得到同行认可的青年专家的评阅,促使社科成果评奖既能经受时间的检验,又不失活力。在专家职称职务上也要有所选择,不能单以职务高低定评奖专家,应有若干名“群众专家”(即纯学术专家,没有行政职务)。最后,随着社科学术研究的发展,学科之间的交叉也越来越多,各专业的领域界线实际上已经相互突破,在评奖专家的选择上可以遵循“小同行为主、相邻行业专家参与”的评价方法。
(二)评价指标体系的设计
社会科学研究是一项复杂且影响深远的工作,对社科成果的评奖评价,是一项十分复杂的基础工程,不能单纯采用一个或几个指标来进行评奖评价,必须建立一套科学、完备并且可以定量化的指标体系。社会科学研究分不同的类型,不同分支间既有联系又有区别。在充分考虑社科学术论文评奖评价的要求与特点,借鉴国内外相关专家研究成果的基础上,我们建立了由2个模块(一级指标)、7个评价项目(二级指标)和23个具体的评奖指标构成的指标体系(见表4.5)。在指标体系的建立过程中,遵循了指标层次性、完备性和可行性的原则。
表4.5 评奖指标体系
续表
(三)建立综合评估模型
社科成果评估模型是评价指标与评价目标之间逻辑关系的数学表达式,某指标的数值越大,说明评审专家对评估对象的评价越高,该社科成果研究的贡献也就越大。根据以上我们所建立的评奖评估指标体系,建立数学评估模型对社科成果进行量化评估,从而成为对社科成果进行奖励的参考标准。
在评估指标体系中,一级评价模型(Ui),是建立在二级评奖(Uij)项目,着眼于具体的评价指标(Uijk)(i=1,2;j=1,…,4;k=1,…,5)上的。我们设计的评价方法为:
1.一级评价指标的得分,即
2.设二级评价指标作为因素构成因素集U=(U11,U12,U13,U14,U21,U22,U23),设有M个评审专家。专家依据第三级(Uijk)具体评价指标及给出的一个[0,1]上的权重,对各因素进行打分。如表4.6所示:
表4.6 因素集与权重及评定得分的关系
在表4.6中,二级指标Uij与一级指标ui一样,均采取百分制,同时按指标的重要性给出权重。如u11在u1中的权重假设为0.3,实际评分为85分,则u11对u1的实际贡献分值(权重分)为25.5分。
3.设专家针对三级指标uijk的原始打分为aijk二级评价指标的总得分为aij,则aij=wijk·aijk(i=1,2;j=1,…,4,k=1,…,5),对M个专家对各因素集的评分amij进行汇总排列如表4.7所示:
表4.7 专家评分排序表
①把aMij按照顺序进行排列,取其中位数作为指标Uij的最后得分。
②评审对象V的最后得分。
四、结论
伴随着社会科学研究的不断深化和发展,对社科成果评奖的科学性和准确性也在不断提出新的更高的要求,社科成果评奖的方法也在不断创新和完善中。德尔菲法作为一种科学的专家意见评价法,最先运用于新产品的市场预测,取得了良好的效果,随着其自身的不断完善,目前已经被广泛地运用于经济、社会领域等多方面的评价。将德尔菲法运用于社科成果的评奖中,有助于对社科成果进行科学、客观、公正的评价。
1.充分运用德尔菲法匿名性特征,使社科评奖免于受到外部非学术因素的影响,并通过对争议性对象进行反复多次的反馈,得到科学准确的专家意见。
2.针对目前社科成果评奖评估所存在的问题——无科学全面的评价标准,设计科学、全面的评价指标体系,作为专家评价的参考标准,并建立评估模型以实施对社科成果的量化评估,可以增强社科评奖的准确性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。