1896年Pearson指出,如果用传统的方法来计算比例数据的相关系数,则会出现伪相关[1]。例如,当x与y之间的相关系数r(x,y)=0时,r(x/(x+y),y/(x+y))有可能不为零,此时x/(x+y)与y/(x+y)之间的相关性称为伪相关。由于成分数据对应的比例数据具有常数和约束,因此相应的统计分析可能存在困难。但是很多研究人员忽视了这个问题。
直到1960年,地质学家Chayes发现经典的多元统计分析方法不适用于成分数据[2]。当成分数据的D个成分间满足x 1+x 2+…+x D=c时,有
则
-cov(x 1,x 1)=cov(x 1,x 2)+cov(x 1,x 3)+…+cov(x 1,x D)
由于cov(x 1,x 1)≥0,所以cov(x 1,x 2),cov(x 1,x 3),…,cov(x 1,x D)中会出现负相关。因此成分数据分析存在困难,需要进一步探索[3]。
成分数据被广泛地应用在很多学科的研究中,例如,岩石中的地理化学成分[4],不同深度的北极湖泊沉积物成分,家庭预算模式,牛奶的成分结构,统计学家的时间预算分配,经济学中的投票选举比例,环境科学中的化学元素浓度等[5]。20世纪80年代,Aitchison意识到成分数据研究关注的是成分间的相对信息,而非绝对的成分值,因此可以通过成分间的比率来研究成分数据[6,7,8,9]。由于成分间比率的方差和协方差很难计算,为了解决这个问题,对数比率变换被广泛地应用在成分数据分析中。对数比率变换将成分数据从单形上映射到实数空间,进而可以用经典的统计方法来分析实数空间上的数据。Aitchison提出了两种对数比率变换,记为非对称对数比率(alr)变换和对称对数比率(clr)变换,这两种变换分别是非对称和对称的。alr变换是非等距的。clr变换虽然是等距的,但是变换后数据求和为零。
成分数据所在的样本空间为单形[10,11]。类似于实数空间上的加法和数乘运算,在单形上定义扰动运算和幂运算,可以得到向量空间。在向量空间上定义度量结构,即内积、范数、距离,可以得到欧几里得向量空间[12,13]。单形上的代数几何结构叫做Aitchison几何结构,对应的内积、范数、距离分别叫做Aitchison内积、Aitchison范数、Aitchison距离[14]。类似于实数空间,单形上可以定义正交基,正交基上表示的坐标为等距对数比率(ilr)坐标,即2003年Egozcue等提出的ilr变换[15]。ilr变换是等距的,相比于alr变换和clr变换,ilr变换被广泛地应用在成分数据分析中。由于单形上的正交基不唯一,所以ilr变换有很多种形式。顺序二进制划分方法可以确定ilr变换的形式[16]。2015年,Filzmoser等提出了ilr坐标的稳健版本,在这些坐标中,每个成分根据它们在统计分析中的重要性有其对应的权重[17]。
成分数据分析可以在R软件中实现,常用的程序包有compositions,robCompositions和zCompositions,见图书Analyzing Compositional Data with R[18]。成分数据系统的研究见四本图书:The Statistical Analysis of Compositional Data[19]、《成分数据统计分析引论》[20]、Compositional Data Analysis:Theory and Applications[21]和Modeling and Analysis of Compositional Data[22]。在最后一本书中,成分数据的定义被进行了推广,不需要有常数和约束,只需含有相对信息。在这本书中,成分数据基本知识的定义如下。
定义1.1.1(D个部分的成分数据) 当且仅当所有的成分x i(i=1,2,…,D)是严格正实数且仅含有相对信息时,向量x=(x 1,x 2,…,x D)T是一个含有D个部分的成分数据。
相对信息指的是成分数据仅有的信息反映在成分间的比率中,而与每个成分的绝对数据是无关的。如果成分数据的每个成分乘以相同的正常数,则成分间的比率是不变的。因此成分数据可以看成是等价类,这个类里面的成分数据含有相同的信息,都可以通过适合的尺度因子表示为相同的比例向量。
定义1.1.2(闭合运算) 对于任意的向量x=(x 1,x 2,…,x D)T∈通过闭合运算,它可以表示为
其中常数k>0。
闭合运算就是对初始向量乘以合适的尺度因子,使得闭合后的成分和为常数k。对于任意的两个向量x,y∈,如果C(x)=C(y),则x和y是成分等价的。为了方便,本书考虑的成分数据是含有常数和k的比例向量。(www.daowen.com)
定义1.1.3(样本空间) 成分数据的样本空间是单形,
常数和k是任意的正实数,它依赖于测量的单位,通常取1或100。当k=1时,成分数据是比例数据。当k=100时,成分数据是百分比数据。
定义1.1.4(子成分) 对于成分数据x=(x 1,x 2,…,x D)T∈S D,如果选取指标集I={i 1,i 2,…,i s}⊂{1,2,…,D},则含有s个部分的子成分x I定义为
x I=C(x i 1,x i 2,…,x is)T
定义1.1.5(置换后的成分数据) 对于成分数据x=(x 1,x 2,…,x D)T∈S D,如果将第l个成分x l置换到第1个成分,则置换后的成分数据x(l)定义为
x(l)=(x l,x 1,…,x l-1,x l+1,…,x D)T
事实上,x(l)=P D,l x,其中P D,l为置换矩阵。
成分数据分析应当满足以下条件:
(1)尺度不变性:给定上的函数f(·),对于任意的正实数λ∈ℝ+和任意的成分数据x∈S D,如果f(λx)=f(x),则函数f(·)是尺度不变的。即函数f(·)对于所有成分等价的向量能得出相同的结果。
(2)置换不变性:给定上的函数f(·),对于任意的成分数据x∈S D和置换后的成分数据x(l)∈S D(定义1.1.5),如果f(x(l))=f(x),则函数f(·)是置换不变的。即函数f(·)对于所有置换后的成分数据能得出相同的结果。
(3)子成分一致性:①对于任意两个成分数据x,y∈S D,两个子成分x S与y S之间的距离小于或等于原始成分x与y之间的距离。②任意的子成分满足尺度不变性,即子成分任意成分间的比率等于原始成分的对应比率。
近年来,成分数据被应用在经济、生物、代谢组学等领域中,例如经济学中的市场份额[23],生物学中的肠道微生物成分[24,25,26],代谢组学中的代谢物成分[27,28,29]。在成分数据特有的度量空间下研究回归分析成为本书的重要研究内容,这对阐释经济学现象、研究生化指标与代谢物之间的相互依赖关系具有重要意义。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。