POT模型中包含3个未知参数,即阈值μ,形状参数ξ和尺度参数σ。Öztekin(2005)给出了三参数的联合估计方法。然而实际中更加常用的方法则是两参数方法,即首先得到阈值μ的估计值,并在此基础上利用式(3.6)通过极大似然估计方法求得ξ和σ的极大似然估计值。在两参数方法中,阈值是一个关键的参数。阈值选择过大会使得超过阈值以上的数据过少而导致估计误差偏大,而阈值选择过小会使得估计数据集中于分布的中部从而导致估计不准确。
众多学者对如何选择合适的阈值进行了研究。Loretan and Phillips(1994)通过仿真的方法指出阈值的选择应使得尾部样本数目不超过样本总规模的10%,Davison and Smith(1990)提出了超额期望图法,Danielsson and Vries(1997),Danielsson et al.(2001)提出了二次子样试算法,Goorbergh(1999)提出了残差平方最小化方法,Patie(2000)提出采用峰值法确定阈值,李强(2001)提出利用拟合优度法来选择阈值,Reiss and Thomas(2001)则建议采用Hill图法确定阈值。
上述各种方法中,二次子样试算法和Hill图法是应用比较普遍的2种方法(Dowd, 2002)。二次子样试算法是一种量化的方法,Dowd(2002)指出这种方法在选择阈值时需要较大的样本数量(样本量至少为1500个),并且可能会忽视样本中某些相关有用信息。而Hill图法尽管可以充分地利用样本数据所包含的信息,但是这种方法是通过主观判断而不是以量化的方式确定阈值。
本节我们在Hill图法的基础上,提出一种可量化实现的阈值选择方法。这种方法的优点是一方面它继承了Hill图法简单直观并且可以充分利用样本信息的优点,另一方面它是一种量化的方法,可以方便地通过计算机程序实现。
令X(1)≤…≤X(n)为X1,…, Xn的顺序统计量,则尾部指数的Hill统计量(Hill 1975)定义为
Hill图指的是由点(k, H(k))构成的曲线。由于存在极端事件,在k较小的区域H(k)的波动会比较大。而随着k的增大,H(k)曲线会趋向于平稳。Reiss and Thomas(2001)选择Hill图中由不稳定区域到稳定区域的转折点作为最优的阈值。
在采用Hill图选择阈值时,一个首先需要解决的问题是如何拟和Hill图的稳定区域。Dacorogna et al.(1995)证明几乎所有的厚尾分布都二阶近似服从以下分布函数:
其中α, β>0, a, b∈R。Dacorogna et al.(1995)指出,对于上述分布函数类,对给定的k,Hill估计量的期望和方差近似为:
同时Huisman et al.(1997)和Huisman et al.(1998)指出,对于某些厚尾分布,如学生t分布、帕累托分布或Burr分布,当k小于某一值κ2(κ2≤n/2)时,H(k)和k近似有线性关系。这表明在式(3.9)中,β近似等于α。因此对于一般的厚尾分布,稳定区域可以通过一条直线来进行拟和。
然而当k较小的时候,由于数据可能发生极端变动,H(k)的波动会比较大。Reiss and Thomas(2001)选择由不稳定区域到稳定区域的转折点作为最优的阈值,Loretan and Phillips(1994)通过模拟仿真的方法指出阈值的选择不应使尾部样本数目超过总样本规模的10%。
通过以上文献分析,我们可以得到如下结论:令κ1=[n/10], κ2=[n/2],则当κ1≤k≤κ2时,H(k)处于稳定区域,并且此时H(k)和k之间近似有线性关系。故我们可以通过下述线性模型得到Hill图稳定区域的拟和直线:
或(www.daowen.com)
其中Z为以下(κ2-κ1+1)×2维矩阵
由式(3.10)可知ε(k)不具有条件同方差,故由式(3.10),令(κ2-κ1+1)×(κ2-κ1+1)维权重矩阵W为
故此时β的加权最小二乘估计为
在确定了Hill图稳定区域的拟和曲线之后,通过判断尾部指数H(k)与拟和直线之间的偏离程度就可以确定稳定区域的起点。具体步骤如下:
(2)我们用e(k)在稳定区域的样本标准差来代表Hill图与拟和曲线在稳定区域的平均偏离幅度:
在本章我们令λ=1.96,相当于正态分布下95%的概率置信水平。此时阈值可通过下式计算得到:
在得到阈值μ的基础上,参数ξ和σ的估计值可以采用极大似然估计法求出。设Y服从广义帕累托分布,由式(3.5)和式(3.6)可得Y的概率密度函数为:
通过极大化该似然函数,我们便可求出参数ξ和σ的极大似然估计值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。