理论教育 数据获取与样本构建的分析介绍

数据获取与样本构建的分析介绍

时间:2023-05-26 理论教育 版权反馈
【摘要】:表3.7变量选取与定义续表对淘宝众筹平台进行数据采集及样本构建的流程如下。得益于淘宝众筹平台的设计规则, 爬虫程序可以成功获取“筹资时长” 变量, 这为爬虫周期的确定带来了极大的便利。删除其中不属于奖励型众筹的项目, 选取距离众筹结束剩余2 天以内的项目, 样本剩余1 727项。表3.8各类型项目数据量与成败比例最终样本中, 众筹成功的项目共有336 项, 失败项目24 项, 众筹成功率为93%。

数据获取与样本构建的分析介绍

由于淘宝众筹平台与京东众筹平台存在着一定的差异, 结合淘宝众筹平台的特点, 我们选取了如下变量对淘宝众筹展开研究。 变量选取与定义如表3.7 所示。

表3.7 变量选取与定义

续表

对淘宝众筹平台进行数据采集及样本构建的流程如下。

第一步: 预爬取, 确定爬虫周期。

得益于淘宝众筹平台的设计规则, 爬虫程序可以成功获取“筹资时长” 变量, 这为爬虫周期的确定带来了极大的便利。 预爬取过程首先采集了平台项目列表页(https:/ /www.taobao.com/markets/hi/list) 上, 显示“筹款成功” 的项目数据共8 115 项, 计算得到项目的平均筹资时长为30 天, 并以此作为爬虫周期。(www.daowen.com)

第二步: 正式爬取, 获得临近结束的项目数据。

数据采集时间为2017 年9 月2 日至2017 年10 月2 日共计30 天, 爬虫程序只抓取处于“筹款中” 状态的项目, 30 天内共得到数据6 960 项, 涵盖平台上的全部项目类型。 删除其中不属于奖励型众筹的项目, 选取距离众筹结束剩余2 天以内的项目, 样本剩余1 727项。

第三步: 数据缩减。

按项目ID 进行除重, 并删除有信息缺失的项目, 最终剩余样本360 项。 各类型项目数据量与成败比例如表3.8 所示。

表3.8 各类型项目数据量与成败比例

最终样本中, 众筹成功的项目共有336 项, 失败项目24 项, 众筹成功率为93%。 按项目类型计算众筹成功率, 可以发现, 样本中科技、 设计类项目数量最多; 动漫、 食品类项目的筹资成功率较高; 书籍类项目因数据量较小, 不对其做过多讨论。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈