参数回归模型是一类可以通过结构化表达式和参数集表示的模型。与参数回归模型相对的是非参数回归模型,该模型扩展了参数回归模型的应用范围,其局限性是,当解释变量较多时,容易出现所谓的“维数灾难”,比如方差的急剧增大。介于参数回归模型与非参数回归模型之间的就是半参数回归模型。半参数回归模型含有参数部分和非参数部分,既保持了参数模型的可解释性,又具有非参数模型的变通性。有关半参数模型的理论进展和应用见Ruppert(2003)的著作,本书研究的半参数回归模型包括:
(1)部分线性模型
其中Y是反应变量,X是p维协变量,β是一个未知的p维的参数向量,T∈R是解释变量,g(·)是定义在R上的未知的光滑函数,ε是模型误差。
(2)部分线性测量误差模型
其中协变量X有测量误差,我们仅能观察到它的替代变量W,η是均值为0的测量误差,独立同分布且与(X,T,ε)独立。
(3)变系数模型
其中α0(U)和α(U)=(α1(U),…,αp(U))T是变量U的未知函数。
由样本到总体的推断称之为统计推断。英国统计学家R.A.费希尔认为常用的统计推断包括:抽样分布、参数估计、假设检验。其中假设检验是由K.Pearson于20世纪初提出的,之后由费希尔进行细化,最终由Neyman和E.Pearson给出了较完整的假设检验理论。假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的一种统计推断方法,其原理是先对总体某项或某几项作出假设,然后根据样本对假设作出接受或拒绝的判断。(www.daowen.com)
在生存分析、医学统计、民意调查、可靠性与寿命试验等许多实际问题中,经常会遇到不完全数据,主要包括数据缺失、数据截断、数据删失等。如何科学地利用这些不完全的数据进行正确的统计推断,挖掘更多有用的信息,是统计学的一个重要的研究方向。
本书主要研究不完全数据中的缺失数据和左截断数据。缺失数据在临床试验、社会调查研究等领域中是非常常见且是不可避免的,例如临床试验中受试者因缺乏疗效提前退出试验而造成数据缺失;再比如社会调查研究中由于机器的损坏、调查员信息录入失误、一些抽样的单位不愿意提供需要的信息、投资者不能成功搜集到正确的信息、有限的财政预算使得只有一部分数据可观测等原因造成数据缺失。即缺失数据是现有数据集中某个或某些属性的值是不完全的。最初在含有缺失数据的数据分析中,缺失机制的作用在很大程度上被忽略。数据缺失机制描述的是缺失数据与数据集中变量值之间的关系,其概念最早是由Rubin在1976年提出。不完全数据的缺失机制对于处理数据是非常重要的,因为缺失机制描述了数据之间的似然函数关系,这就导致缺失数据的处理方法强烈依赖于这些机制。Little和Rubin(1987)根据缺失数据产生的机制和原因,把缺失数据分成三类:完全随机缺失(missing completely at random,MCAR),指的是数据的缺失是完全随机的,不依赖于任何不完全变量或完全变量,如家庭地址缺失、测量设备出故障导致某些值缺失;在实际问题中满足这种假设的数据比较少,故这是一种很强的假定;随机缺失(missing at random,MAR),数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量,如财务数据缺失情况与企业的大小有关;这是统计分析中常见的一种假设;非随机缺失(missing not at random,MNAR),指的是数据的缺失与不完全变量自身的取值有关,如高收入人群不愿意提供家庭收入,这种缺失机制下研究问题相对要复杂一些。近年来,也有许多学者对研究随机场的概率、分析和几何性质产生了极大兴趣。随机场广泛应用于各种科学领域的随机模型中,如图像处理、地质统计学和空间统计学中,陈和肖(2019)研究一类在空间中具有各向异性的随机场,得到了一些新结果,这些结果对研究样本函数的粗糙程度和分形性质也是十分有用的,本文所涉及的缺失数据主要是随机缺失情形。从数据缺失的位置来分,可分为反应变量缺失和协变量缺失。本书涉及的是反应变量缺失。数据缺失在许多领域中都是一个很复杂的问题,对数据分析来说,缺失值的存在会造成诸多影响。比如使得系统损失了大量的有用信息;系统中所表现的不确定性更加显著;系统中蕴含的确定性成分更难把握,等等。如果对这些缺失数据不采取任何补救措施,将会严重影响统计方法的分析效率。
截止到目前,已经有许多统计学家研究反应变量缺失时的统计推断理论。例如,Wang和Rao(2002)在反应变量缺失时基于调整的经验似然方法研究线性模型的反应变量的均值问题。Qin等人(2008)在反应变量缺失时基于分数线性回归插补方法构造边缘参数的置信区间。Tang和Qin(2012)在反应变量缺失时探索估计方程的使用并得出了有效的统计推断理论。Zhao等人(2013)基于不可忽略的反应变量缺失,讨论均值函数的经验似然推断。另外,Zou等人(2015)和Chown(2016)研究了数据缺失情形下的估计问题;Sun等人(2009),Xu和Zhu(2013),Cotos等人(2016)研究了数据缺失情形下的假设检验问题。在第二章中,假定反应变量Y是随机缺失的(MAR)。若Y缺失,则令δ=0;反之令δ=1。随机缺失的假设意味着:在给定X和T的条件下,δ和Y是条件独立的,即
其中Δ(X,T)称为选择概率函数。
经验似然方法最早是由Owen(1988)在完全样本下提出的一种非参数统计推断方法,研究独立同分布样本的均值向量。随后Owen(1990,1991)利用该方法构造置信区间并将其应用到线性回归模型的统计推断。Qin和Lawless(1994)把经验似然和估计方程联系起来,探索关于参数联合信息的方法,并得出参数的经验似然估计与参数似然估计有类似的性质。王启华(2004)在介绍经验似然方法的基础上,进一步介绍了该方法在总体均值推断、线性模型推断、分位数推断、估计方程推断等几种统计推断中的应用,还介绍了该方法在不完全数据中的应用。经验似然方法有类似于构造置信区间的Bootstrap(参见Hall(1992))的抽样特性,和经典的或现代的一些统计方法相比有很多优点(参见Hall(1990)),比如:利用经验似然方法构造置信区间有域保持性、变换不变性、置信域的形状可由数据自行决定、Bartlett纠偏性以及无须构造轴统计量等优点。值得一提的是,大多数应用经验似然方法研究均值的假设检验,讨论的是一个单点的假设检验,参见Xue(2009)和Zhao等人(2013)。然而,在很多情况下,均值有许多不规则的信息。例如,若均值落在一个区间,此时需要检验均值是否在边界上。尽管经典的正态逼近方法已经很成熟,但是当区间信息很难合并成均值的估计时这似乎不太适用。当感兴趣的参数满足不等式集时,ElBarmi(1996)引入经验似然比方法讨论相应的假设检验问题,该方法可应用到单边的假设检验,但是无法检验双边假设和复合假设。近年来,Chen和Shi(2011)基于经验似然比方法,检验包括双边情况的受各种不等式约束的总体均值的假设检验问题,并且证明了在完全数据情况下,经验似然比检验统计量的极限分布是一个加权的卡方分布。然而,在反应变量随机缺失情况下,受各种不等式约束的均值的假设检验问题还没有人研究过。因此,本书第二章,见Xu等人(2017),将在这一框架,同时假设含有辅助信息情况下来研究这一系列的假设检验问题。
测量误差数据广泛存在于经济学、医学、工程学等各个领域,例如,血压、尿氯化钠水平和接触污染物的测量都会产生测量误差数据。对这些带有测量误差的数据进行分析时,如果忽略了测量误差,最后得到的结果往往是有偏甚至是不相合的估计。为此,人们须用相应的测量误差模型来处理实际问题。比如Fuller(1981),Carroll等人(1995),Liang等人(1999),Wang(1999),You等人(2006),Fan等人(2016),Feng和Xue(2014),Fan等人(2013)以及De和Lewbel(2016)。然而,以上提到的这些测量误差模型的文献主要讨论估计问题。Sun等人(2015)在协变量有测量误差且已知一些辅助信息的条件下,研究了部分线性模型的模型检验问题。Xu等人(2012)在反应变量随机缺失时,基于拟合优度检验方法,探讨了部分线性模型中的非参数部分是否是一个参数函数的检验问题。据我们所知,还没有文献涉及反应变量缺失时测量误差模型中非参数部分的假设检验问题。部分线性回归模型最早由Engle等人(1986)在研究用电量和气候变化的关系时提出,该模型可降低参数模型误判的风险,同时也能避免非参数模型的缺点。一般地,部分线性模型的形式见式(1.1.1)。因此,基于模型(1.1.2),本书第三章,见Xu等人(2017),将考虑缺失数据下的部分线性测量误差模型的非参数检验问题。为了克服测量误差带来的偏差,借助二次条件矩方法,我们提出了两个纠偏的检验统计量,获得了检验统计量的极限零分布以及检验的p值。通过比较p值,我们发现提出的两个检验统计量有类似的理论性质。同时,我们提出的检验可以以局部光滑方法中的最优速度识别出备择假设。最后通过模拟研究来演示提出的检验方法的表现,并将提出的方法应用到ACTG 175的数据研究中。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。