在工程界和生物医学界,人们很早就在研究各种各样的与寿命、存活时间或者失效时间有关的寿命数据的统计分析方法。左截断数据就是一类特殊的寿命数据类型。其定义为一些动物个体并非在初始时间(出生或孵化)而是在某个时间(年龄)延滞之后才进入调查取样范围而收集到的一类寿命数据。比如在临床试验中,由于输血错误导致病人获得艾滋病;病人从输血到发病这段潜伏期的数据无法获得,于是潜伏期的数据就被左截断了。再比如Klein和Moeschberger(2003)调查退休社区老年居民死亡时间,过早死亡的人被排除在研究之外,只有那些活得足够长进入退休社区的人的数据可以获得,此时,寿命被容许进入退休社区的年龄左截断了。还有王江峰等人(2015)关于左截断数据给出的例子,假如想了解过去住过医院里的心脏发病人出院后在家里采取某种治疗方法的存活时间,设开始研究的时间为心脏病发作时间,只有那些幸存度过住院那段时间的病人才能列入研究,而那些死于医院的病人无法进行研究,因为观察不到任何数据,这样观察的数据就是左截断数据。
左截断数据最初出现在天文学、经济学等领域,见Woodroofe(1985)。然后扩展到流行病学、人口统计学、可靠性测试和精算等领域。对左截断数据模型,已经有很多文献涉及。例如,在原始样本独立的情形下,Gürler等人(1993)获得了分位数函数的Bahadur类型的表示形式及其渐近正态性。Ould-和Lemdani(2006)将这个结果推广到观察样本为混合的情形,构造了回归函数的非参数核估计量,并获得了估计量的一致强相合性以及渐近性质。Liang和-Álvarezz(2012)在相依假设下,基于经验似然方法,构造了条件分位数的置信区间。特别地,当观察样本是平稳α混合序列时,经验似然比渐近服从自由度为1的卡方分布。此外,他们还对条件分位数进行了检验,获得了检验统计量的渐近功效。Liang和Liu(2013)对左截断右删失模型,基于条件分布函数的广义乘积限估计量,构造条件密度函数的核估计量。在观察样本为平稳α混合序列下,建立了估计量的渐近正态性。王江峰等人(2015)在左截断数据下,利用局部多项式方法,研究了误差具有异方差结构的非参数回归模型,构造了回归函数的复合分位数回归估计,并得到了该估计的渐近正态性结果。Liang和Baek(2016)对左截断模型,基于局部多项式光滑化的思想,构造了条件密度函数的NW型估计量和局部线性估计量,在观察样本是平稳α混合序列下,获得了提出的估计量的渐近正态性。Guessoum和Hamrani(2017)在相依数据情形下,研究了回归函数的核估计,在实的紧集上获得了估计量的一致强相合性。
分位数回归是给定协变量X,估计响应变量Y条件分位数的一个基本方法。该方法不仅可以度量协变量在分布中心的影响,还可以度量在分布上尾和下尾的影响,与最小二乘方法相比,具有独特的优势。分位数回归模型最早由Koenker和Bassett(1978)提出,该模型可在选定的分位点的集合中对协变量的影响给出一个更全面的评价。众所周知,分位数回归已被广泛地应用到许多领域,比如异方差的识别、环境模型、金融和经济研究、生存分析和医学参考图,有关分位数应用的综合概述见Yu等人(2003)。自从Koenker(1978)引入分位数方法以来,分位数回归已经成为估计条件分位数的一个强大的工具。分位数本身可在无矩条件下定义,与以前仅仅绘制条件均值相比,通过绘制若干个条件分位数,可对数据有更深的理解。由于R软件中有许多分位数回归的统计软件包已被广泛使用,因此,分位数回归的计算也容易处理,这些都是分位数回归方法被广泛使用的潜在原因。
分位数回归的统计推断已激发了许多学者的研究兴趣。例如,Yu和Jones(1998)基于核加权讨论了非参数回归的分位数估计;Honda(2004)研究了变系数分位数回归模型的系数估计问题;Neocleous和Portnoy(2009)考虑了右删失生存数据下部分线性模型的分位数估计;Kai等人(2010)提出一个新的非参数回归技术,称之为局部复合分位数光滑方法,来改进局部多项式回归,并且给出了估计量的大样本性质;Lv等人(2014,2015)研究了单指标模型和部分线性单指标模型的分位数回归;Andriyana和Gijbels(2017)在误差是异方差结构下研究了变系数模型的分位数回归问题,给出条件分位数函数以及异方差函数的估计,同时用模拟研究进行验证;Kim(2017)研究了变系数模型的条件分位数,借助多项式样条,提出了条件分位数的估计量,获得了估计量的渐近性质;同时还对模型进行了评价,即检验变系数是否是常数,给出了检验统计量的零分布的渐近结果。(www.daowen.com)
然而,以上提到的这些文章都是在完全数据的框架下得到的。在许多领域如可靠性,生存分析,天文学和经济学领域,会经常碰到左截断数据。左截断数据分析已经引起许多研究学者和专家的注意。例如,Woodroofe(1985)基于极大似然方法来估计左截断数据的分布函数;He和Yang(1998)对随机截断模型的截断率进行了估计;He和Yang(2003)在左截断数据下,对线性回归模型的回归参数进行了估计,构造了一个加权的最小二乘估计量;Ould-Saïd和Lemdani(2006)在随机截断数据下,获得了非参数回归函数估计量的渐近性质;Liang和Liu(2013)基于条件分布函数的广义乘积限估计量,给出了左截断和右删失模型的条件密度函数的核估计量;Liang和Baek(2016)获得了左截断模型的条件密度函数的N-W型和局部线性估计量。在左截断右删失数据中,当截断变量服从均匀分布时,左截断右删失数据变成长度偏差右删失数据。马慧娟等人(2015)基于长度偏差右删失数据,提出复合估计方程方法来解决长度偏差右删失数据下的分位数回归问题,用经验过程和随机积分的技巧建立了所提出估计量的一致相合性和弱收敛性。有关左截断的统计推断进一步可参见Stute和Wang(2008),Lemdani等人(2009),Wang等人(2013)。据我们所知,目前只有少量文献涉及左截断模型的分位数回归,例如,Zhou(2011)研究了随机左截断数据下线性分位数回归模型,并且在一定的条件下,获得了未知参数估计量的几乎必然收敛性及渐近正态性。但是关于左截断数据下部分线性模型的分位数回归问题的研究将更加复杂但也更具有实用性。受Zhou(2011)的启发,本书第四章,见Xu等人(2019),研究左截断数据下部分线性分位数回归模型的估计,进一步,我们也考虑了模型中的变量选择问题。其内容包括:首先,基于随机数的权重,且权重由分布函数T的乘积限估计量决定,我们提出了三阶段估计方法且建立了参数与非参数的估计量的渐近性质。结果表明,在第二阶段与第三阶段获得的参数与非参数部分的分位数估计量比在第一阶段获得的初始估计量更有效。其次,为了增强可预测性且选出重要的变量,我们提出了一个加权的惩罚估计量。结果表明,在一些常规条件下,我们提出的加权惩罚估计量具有oracle性质。进一步,把我们提出的方法与最小二乘方法(least square,LS),完全样本方法(omniscient)以及naive方法(将截断的样本完全丢弃)进行对比,结果发现完全样本方法表现最好,我们提出的方法优于naive方法,且在有异常值时,我们提出的方法比最小二乘方法更稳健。
Hastie和Tibshirani(1993)提出的变系数模型对回归系数的动态变化具有较强的灵活性和较强的鲁棒性,可以避免维数灾难。因此,人们致力于探索其估计和相关推理问题。Honda(2004)通过估计系数对变系数模型的条件分位数进行了估计;Kim(2007)研究了变系数模型的条件分位数且提出了一种基于多项式样条的估计和评估方法。值得指出的是,当变系数模型中的数据出现截断时,文献中没有分位数回归的结果。另外,用分位数回归方法进行估计时,效率会随分位数取值的变化而波动。为了结合不同分位点的信息,Zou和Yuan(2008)首次提出了综合多处分位数的复合分位数回归方法,并用此方法估计线性回归模型的回归系数。由于该方法比较充分地处理了数据的整体信息,因此该方法可改进分位数估计的有效性。随后有很多学者致力于把复合分位数方法应用到各种模型,比如Kai等人(2010)是把复合分位数方法应用到非参数回归模型;Kai等人(2011)把复合分位数方法应用到半参数变系数部分线性模型;Guo等人(2012)把复合分位数方法应用到误差是异方差结构的变系数模型;Jiang等人(2013,2016)把复合分位数方法应用到单指标模型。本书第五章,见Xu等人(2018,2019),研究变系数模型在数据截断时的分位数回归理论。为了提高估计的有效性,我们还进一步研究了非参数函数估计的加权复合分位数回归估计方法。此外,与参数估计相比,假设检验在分位数回归中较少受到关注。因此更进一步,我们提出了一个基于Bootstrap的检验程序,用来检验变系数分位数回归模型中的非参数函数是否是某一个具体的函数形式。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。