理论教育 多元回归模型参数估计结果优化

多元回归模型参数估计结果优化

时间:2023-06-01 理论教育 版权反馈
【摘要】:表6-2手机的样本数据统计量续表续表表6-3数码相机的样本数据统计量续表表6-4笔记本电脑的样本数据统计量续表3.模型的参数估计结果统计使用两阶段最小二乘法,对产品评论的文本信息与产品销量的关系进行回归分析,并且估计多元回归模型的参数值。

多元回归模型参数估计结果优化

1.回归分析工具

回归分析的核心是模型构建、数据收集、模型估计、模型检验和模型运用等。目前可以进行回归分析的软件工具很多,包括Eviews、Excel、SPSS、SAS和STATA等。Eviews具有数据处理、作图、统计分析、建模分析、预测和模拟等多种功能,既是经济、金融、保险、管理、商务等领域中各类研究的必备工具,还能在自然科学、社会科学、人文科学等各个领域中进行定量研究。Eviews是专业的计量经济学软件,线性回归的输出结果较其他软件更为完整,输出形式也比较整齐和美观。因此,本章选择Eviews软件作为回归分析的工具。

2.样本数据收集与统计

(1)样本数据的来源

本章仍然以亚马逊网站(http://www.amazon.cn/product-reviews/)为样本数据的来源。选择亚马逊网站的主要原因有:第一,亚马逊网站为全球知名的电子商务网站,其知名度和口碑都得到大众的一致认可;第二,亚马逊网站从1995年就开始为消费者提供发表产品评论的功能;第三,亚马逊网站上的产品评论相对较长,信息量相对较为丰富;第四,亚马逊网站针对每条评论提供有用性评价;第五,亚马逊网站还提供实时的产品销量排行榜。

(2)样本数据的收集

本实验仍然以手机数码相机笔记本电脑三类产品为研究对象,从亚马逊网站上自动地爬取这三类产品的评论数据与产品销售信息,形成面板数据集。主要采用两种方式来获取样本数据,分别是利用网络爬虫程序获取产品评论信息,以及利用亚马逊网络服务(Amazon Web Services,AWS)提供的API接口自动提取产品的相关信息,包括产品价格、销量排名和发布时间等。

网络爬虫通过网页的链接地址来寻找网页(详见附录A)。它首先从亚马逊网站的某一个评论页面开始,读取页面中的内容,依次找到在网页中的其他链接地址;然后通过这些链接地址寻找下一个评论网页;如此循环往复,直到将起始网页所在网站的所有网页都抓取完毕为止。获取的评论数据包括产品ID、产品评论、星级评分、评论标题、评论时间、评论有用性评价等,如图6-5所示。

图6-5 网络爬虫获取的评论数据(示例)

3.样本数据的处理

(1)产品评论的文本信息

利用细粒度情感分析技术对手机、数码相机和笔记本电脑在一定时段内收集的评论进行挖掘,并且将挖掘结果转换为产品评价矩阵(详见6.2.2节)。也就是说,将评论以产品评价矩阵的形式代入销量的回归模型中。

以手机评论为例:“外观时尚,屏幕大而清晰,就是体积有点小,携带不方便”,对产品评论的处理过程如图6-6所示。

图6-6 产品评论的处理过程

(2)产品销量与产品评论的数值信息

①销量:因为亚马逊没有公开产品的具体销售量,所以本书无法直接获取产品的销量数据。然而,亚马逊提供了产品销售排行榜,列出了近24小时内前100个产品的销量排名,这些排名间接地反映了其销售量。现有不少相关研究都利用销量排名替代实际的销量数据[112,116,193,195]。例如,Li和Hitt[116]的研究发现,在销量和销量排名分别取自然对数之后,二者呈线性相关,所以对销量排名进行线性变换后得到销量的近似值。Chevalier和Goolsbee[195]进一步探讨了销量和销量排名之间的线性关系,并指出排名数据服从帕累托分布。因此,本书也用产品的销量排名替代其实际销售额。

②星级评分:消费者在亚马逊上发布产品评论的时候,首先被要求对该产品进行星级评分(范围从1星到5星,5星为最高评分),然后再撰写具体的文字评论。从这个角度看,产品的星级评分在一定程度上反映了产品评论的整体情感极性,进而影响不同产品属性的评价。

③评论数量:亚马逊网站会实时地统计每一个产品获得的评论总数。由于每个产品在不同时期获得的评论数量较大,所以需要对评论数量取自然对数,以控制变量的取值范围。

④评论平均长度:以字数来衡量评论的长度,手机和数码相机评论的平均长度比较接近,约为100字/条,而笔记本电脑评论的平均长度约为300字/条。因此将评论长度除以100,以控制该变量的取值大小。

⑤有用评论的数量:亚马逊网站为每条评论提供有用性评价。首先以认为该评论有用的人数占总人数的比例来衡量评论的有用性;然后通过计算每个时段内的评论有用性均值,将大于均值的评论作为有用评论;最后统计出有用评论的数量。

⑥产品年龄:根据现有相关研究的处理方式[191],本实验从亚马逊上自动提取产品的发布时间,以此计算产品年龄。

⑦受欢迎程度:以产品在亚马逊提供的热门排行榜中的排名来衡量。

4.样本数据的统计结果

本实验的面板数据在横截面上包含三种产品类别,分别是手机、数码相机和笔记本电脑,并且每个产品类别的产品数量分别为:90、77和85;在时间序列上,以月为单位进行观测,包括2013年4月到2014年3月,共12个月。

对于手机、数码相机和笔记本电脑,提取到的产品属性数目分别为:kopt(手机)=15、kopt(数码相机)=11和kopt(笔记本电脑)=10(产品属性数目的确定方法详见6.2.2节)。通过对产品评论的相关数据进行处理,三类产品的所有样本数据统计结果如表6-2至表6-4所列。

表6-2 手机的样本数据统计量

续 表

续 表

表6-3 数码相机的样本数据统计量

续 表

(www.daowen.com)

表6-4 笔记本电脑的样本数据统计量

续 表

3.模型的参数估计结果统计

使用两阶段最小二乘法(TSLS),对产品评论的文本信息与产品销量的关系进行回归分析,并且估计多元回归模型的参数值。此外,还采用F检验方法,验证产品评论的文本信息是否对产品销量具有显著的影响。结果如表6-5至表6-7所列。

表6-5 手机销量模型的参数估计结果

续 表

续 表

***表示显著性水平为1%

表6-6 数码相机销量模型的参数估计结果

续 表

续 表

***表示显著性水平为1%

表6-7 笔记本电脑销量模型的参数估计结果

续 表

***表示显著性水平为1%

根据表6-5和表6-6的结果,不难看出对于手机和数码相机这两类产品,评论的文本信息中存在二次项,使得它们与被解释变量之间存在非线性关系。因此,对于这两类产品,通过求解二次项在各个时期的均值,对其进行偏效应分析[124],结果如表6-8和表6-9所列。

表6-8 手机销量模型的偏效应分析结果

*,**,***分别表示显著性水平为10%、5%和1%

表6-9 数码相机销量模型的偏效应分析结果

续 表

*,**,***分别表示显著性水平为10%、5%和1%

产品销量越高,其销售排名越靠前,排名的数值也就越小。所以在回归模型中,带有负值系数的解释变量与产品销量正相关,而带有正值系数的解释变量与产品销量负相关

此外,由于模型中加入了很多控制变量,所以可能会产生多重共线性问题。因此,本书对相关变量采用中心化的方法进行处理,以消除潜在的多重共线性,并且还同时计算了方差膨胀因子。所有的VIF值都在5以下,表明该模型的多重共线性被控制在可接受的范围内。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈