理论教育 数据来源与预处理的优化技巧

数据来源与预处理的优化技巧

时间:2023-05-26 理论教育 版权反馈
【摘要】:为通过探索抢券程度来预测消费者的购物意向,进一步探索和验证抢券决策行为模型,本研究分两个时间段采集数据:①采集“双十一”期间京东购物券的抢购数据。②采集“双十二”期间京东购物券的抢购数据。首先,确定采集时间为2018年12月12日至12月13日,共采集到5 754条原始数据;其次,进行数据预处理:删除使用条件为空白、券状态和图片广告空白的记录,保留了5 425条有效数据;对衍生信息进行标注并赋值;计算折率。

数据来源与预处理的优化技巧

(1)数据来源。本研究采集的数据来源网址为https://a.jd.com,该页面将优惠券分为家用电器、食品饮料、服饰穿戴、电脑数码等十多个类型。采用火车浏览器软件开发版进行目标网站数据采集,它是一款可视化采集软件,也是一款网络爬虫工具软件(http://www.locoyposter.com)。首先,我们编写数据采集脚本程序,不断测试并验证采集脚本程序和数据;其次,通过测试后,制定采集计划,添加到采集任务项目管理器,分阶段完成数据采集。

(2)数据预处理。为通过探索抢券程度来预测消费者的购物意向,进一步探索和验证抢券决策行为模型,本研究分两个时间段采集数据:

①采集“双十一”期间京东购物券的抢购数据。首先,确定采集时间为2018年11月10日至11月11日,主要采集购物券值、使用条件、抢券程度、商品类别以及图片广告等信息,涵盖了19个品类,共采集了5 519个商品的优惠券信息;其次,进行数据预处理:删除缺失项或者与本研究无关记录,保留5 237条记录;根据优惠券上的图片广告信息衍生出商家的身份和品牌特征,对其进行标注并赋值,身份特征分为5个等级:官方旗舰店、旗舰店、专营店、专卖店分别赋值为5、4、3、2,其他商家赋值为1。对具有品牌特征和不具备品牌特征的优惠券分别赋值为1和0;将购物券的面值与使用条件作比值,命名为折率,表示购物券的优惠力度。(www.daowen.com)

②采集“双十二”期间京东购物券的抢购数据。首先,确定采集时间为2018年12月12日至12月13日,共采集到5 754条原始数据;其次,进行数据预处理:删除使用条件为空白、券状态和图片广告空白的记录,保留了5 425条有效数据;对衍生信息进行标注并赋值;计算折率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈