理论教育 全面覆盖的项目评价方法

全面覆盖的项目评价方法

时间:2023-06-04 理论教育 版权反馈
【摘要】:项目评价有项目前评价和项目后评价两类,本节以科研项目为例介绍大数据在项目前评价中的应用,并分析其对项目后评价的影响。仅国家自然科学基金委员会2013年度资助的项目就达3.5万余项,数量庞大的项目为查重工作带来很大挑战。3)项目相似性判别方法单一。一旦项目更换标题,该方法就会失效。项目后评价的变化项目的目标是使各利益相关方满意,项目后评价也应该主要考虑项目满足利益相关方需求的情况如何。


全面覆盖的项目评价方法

项目评价有项目前评价和项目后评价两类,本节以科研项目为例介绍大数据在项目前评价中的应用,并分析其对项目后评价的影响。

(1)项目前评价的变化

为推动科技创新,我国不断加大对科研的资助规模和强度,科技项目的数量和经费在近年均得到显著提升,形成多层次的国家科技计划资助体系,随之而来的重复立项问题日趋严重。据统计,我国科研项目重复率达40%,另外60%中与国外重复约占30%以上[16]。对科研项目的前评价成为项目立项的重要依据。

项目重复立项的主要原因有[17]

1)项目数量呈现逐年快速增长的态势。仅国家自然科学基金委员会2013年度资助的项目就达3.5万余项,数量庞大的项目为查重工作带来很大挑战。此外,基础科学研究具有创新性、不确定性、学科交叉融合等特点,不同学科领域的新观点、新概念和新知识不断涌现,科研项目管理人员需要越来越多的专业知识才能准确判断项目的相似性,这也给项目查重工作带来很大的困难。

2)项目信息公开、共享和整合程度较低。科技计划的项目信息和实施情况主要分散掌握在各计划主管部门内部,对外开放和共享的程度低,各计划之间的项目信息无法进行有效整合。如国家自然科学基金在立项审查时只能在该基金资助的项目范围内进行重复性检测,而几乎无法与其他科技计划项目进行联合检测和查重。

3)项目相似性判别方法单一。目前科研重复立项检测主要通过比对项目标题或者比对项目申请书的内容进行甄别。前者只是进行简单的关键词匹配,将项目标题中包含指定关键词集的项目定义为相似项目。一旦项目更换标题,该方法就会失效。后者能够较准确地发现相关/相似的项目,但算法实现难度较大,并且项目申请书因涉密或保护知识产权等原因一般不对外公开,很难从公开渠道获取这些信息,因此该方法只适用于在单个计划主管部门内部实现项目查重。

针对这些情况,有学者提出了科技项目查重解决方法②:(www.daowen.com)

其基本思路是从海量数据中挖掘出与项目查重紧密相关的研究内容、负责人和承担单位等信息,采用多源信息整合技术对上述信息进行整合并判定项目的相似度。为加速海量数据的挖掘,研究者采用Hadoop分布式技术提高项目查重的计算速度。技术模型由任务解析、大数据文件、项目相似度判别模型、分布式调度和结果展示等五部分组成。任务解析模块在收到用户的查询请求后将其解析和翻译为机器可执行的指令,并提交给分布式调度模块执行;分布式调度模块负责利用Hadoop框架管理和调度计算机集群系统协同完成项目查重任务;大数据文件模块存储了与项目查重相关的海量数据,是该模型的数据基础;项目相似度判别模型通过综合关键词、负责人和承担单位等因素计算项目与查询条件的相似度;结果展示模块则通过可视化等手段将查询结果反馈给用户。

该查重模型所处理的数据对象包括五类:项目信息、论文题录、关键词、负责人和承担单位。通过对上述网状数据进行加工处理,提取出与项目查重密切相关的元数据描述:项目ID是项目的唯一标识,是实现各类数据之间关联的纽带;关键词集是一组用于描述项目研究内容的术语,是对研究内容的凝练和概括。

该模型使用的数据来源于两部分:一部分来自于项目标题,可通过自动切分词技术获取;另一部分则来源于由项目资助所发表论文的关键词,可通过论文的资金资助信息建立项目ID与论文关键词的关联关系。由于项目数量和论文数量都十分庞大,关键词集的构建首先通过文本智能挖掘和抽取技术完成,然后辅以人工校验的方式保证数据的准确性;负责人信息则直接从项目信息数据库中抽取,但由于更名、重组、简称、全称混用等因素,负责人和承担单位身份的唯一性识别仍然是尚未得到有效解决的难题。

项目的相似度判别模型分别计算研究内容、负责人和承担单位三方面的相似度,并对上述结果进行加权整合得到项目最终的相似度。其中,项目的研究内容由一组关键词进行描述,因此其相似性转化为检索词集合与项目关键词集合之间的相似性。项目负责人和承担单位存在的重复性直接通过检索词匹配的方式计算,即如果两个项目的负责人或承担单位相同,则存在重复立项问题的可能性较高。三个维度的匹配度计算完成后,通过加权的方式进行整合,最终得到与检索条件匹配度由高到低排序的项目集合。

(2)项目后评价的变化

项目的目标是使各利益相关方满意,项目后评价也应该主要考虑项目满足利益相关方需求的情况如何。其中硬性的指标例如时间、成本、质量等容易测量,而项目团队成员的满意程度、顾客的感知等很难测定。通过问卷等形式进行调查往往误差较大,而且被调查者很难说出自身的真实感受。通过大数据的分析能够为“软性”指标的评价提供帮助。

项目后评价的另一个难题是项目的很多效果需要多年以后才能体现出来。大数据能够通过两种途径在一定程度上解决该问题:一是基于过程数据的分析,对项目的整体情况进行评价,判断经过时间检验才能体现的特征,例如大楼的质量;二是通过对现阶段多种数据的采集,以外部环境数据为参考,预测项目产出物多年后的特征。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈