3.2.2.1 数据获取
结合上节中总结的常见影响因素, 以及京东众筹网站上项目的基本特征, 我们选择了如下变量对京东众筹进行研究, 变量选取与定义如表3.1 所示。
表3.1 变量选取与定义
京东众筹项目数据的获取过程可以划分为以下三个步骤。
第一步: 预爬取, 确定爬虫周期。
受限于京东众筹平台的设计规则, 项目详情页中只显示筹资截止时间, 而将起始时间隐去, “筹资时长” 这一变量无法获取。 因此, 在构建研究样本前, 我们预先抓取了项目列表页(https:/ /z.jd.com/bigger/search.html) 中, 筹资状态显示为“项目成功” 的前35 页上的项目数据, 删除“筹无穷” 和类别为“公益” 的项目后, 共获得537 项有效数据。 然后, 采用手动确定起始时间的方式,从项目进展、 话题、 图片介绍板块中寻找关于起始时间的信息, 最终成功计算得到了501 个项目的筹资时长。 结果显示, 501 个项目的平均筹资时长为40.25 天,这与京东众筹平台项目发起方学习手册中给出的30 ~45 天的建议时长相吻合,因而选择40 天作为爬虫周期。
第二步: 正式爬取, 每日爬取“众筹中” 的项目数据。
通过编写Python 爬虫程序, 在2017 年9 月2 日至10 月12 日共计40 天时间内, 爬取京东众筹平台上筹资状态为“众筹中” 的项目数据。 爬虫程序每日返回的数据量约有680 项, 40 天内共获得25 385 项数据。 爬取项目的类型包括科技、 家电、 美食、 设计、 娱乐、 出版6 类, 排除了不符合奖励型众筹这一设定的公益类和其他类项目。 数据内容涵盖项目详情页上可见的全部内容, 包括筹资进度信息、 项目介绍信息、 发起方信息、 回报菜单信息等。
第三步: 数据缩减, 获得临近结束的项目数据。(www.daowen.com)
依据“剩余时间” 字段, 从每日获得的“众筹中” 的数据中, 筛选出距离筹资结束剩余2 天以内的项目数据, 每日数据中约有32 项符合要求, 40 天内共获得1 340 项可用数据。 我们认为, 尚处于筹资中的众筹项目, 各项数据指标尚不稳定, 而筹资结束后又会出现众筹失败支持者退款的现象, 因此距离筹资结束剩余两天以内的项目数据, 更能反映真实的筹资状态。 此外, 选取40 天作为爬虫的周期, 可以保证在一个完整的筹资期间内, 尽可能全面地覆盖到平台上的正在筹资的项目, 保证了样本的完整度和可靠性。
3.2.2.2 样本构建
受限于京东众筹平台的运作规则, 众筹项目一旦失败, 其网址将被隐去, 平台上不再显示关于失败项目的任何信息。 因此, 获得失败项目的数据变得极为困难。 可以发现, 在京东众筹平台, 临近结束的项目仍会在项目列表页显示, 收集这类项目数据可满足研究需要。 得益于网站的运作规则, 爬虫程序采集到的数据集较为全面。
具体的样本构建过程如下。 首先, 对汇总后得到的1 340 项数据进行除重,剔除被重复爬取的项目, 剩余样本773 项。 其次, 删除样本中链接失效、 部分数据缺失的项目, 剩余样本768 项。 最后, 删除筹资时长超过90 天(筹无穷项目)、 回报档数超过25 档的项目, 最终样本量为714 项。 需要说明的是, 筹资时间过长、 档数过多的项目没有遵循京东众筹平台的推荐做法, 将这些项目从样本中剔除, 一方面有助于控制数据的偏差, 另一方面也能够排除极端值对样本的干扰。
最终用来进行分析的样本中, 筹资成功的项目共有575 项, 失败项目139项, 样本的众筹成功率为80.39%, 与京东众筹平台的整体情况(约80%) 较为接近。 按项目类型计算样本量与众筹成功率可以发现, 样本中科技类与设计类项目数量较多, 其他类别项目数量较少, 这与平台的实际情况相符。 京东众筹平台上的科技类项目数量最为庞大, 已有4 288 个项目实现“项目成功”; 出版类项目数量最少, 仅有265 个项目实现“项目成功”。 此外, 样本中美食类项目成功率最高, 娱乐类项目失败率最高, 可见美食类项目最受大众投资者欢迎, 而娱乐类项目较难获得成功。 样本中的家电类与科技类项目存在重合的部分, 除重过程中家电类项目数据有所损失, 实际上京东众筹平台的家电类项目数量仅次于美食类, 是平台上的第四大项目类型。 各类型项目数据量与成败比例如表3.2 所示。
表3.2 各类型项目数据量与成败比例
续表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。