GLM|CH1. Introduction

我正在阅读的是 An Introduction to Generalized Linear Models 的第三版。

据前言所述,这本书最初是为了使本科生(比如我)或是其他领域的研究者(比如我)对统计模型 (statistical modeling)理论框架概念范畴建立起一个统一的认识。

在第二版中,新增了 nominalordinal 逻辑回归(logistic regression)生存分析(survival analysis)纵向聚类数据分析(analysis of longitudinal and clustered data)。这些内容通常需要依赖数值法(numerical methods)、可视化数值优化(visualizing numerical optimization)和图像法(graphical methods)等手段进行数据探索和模型拟合校验。(对于这些概念我现在完全一头雾水)

而第三版则包含了三个新的章节,专门阐述贝叶斯分析(Bayesian analysis)。贝叶斯理论的建立其实远远早于经典理论的发展期,但直到最近才叶斯方法的实践才逐渐成为可能。而这便要归功于马尔科夫链蒙特卡罗方法(Markov chain Monte Carlo methods)的出现(将在13章阐述)。贝叶斯方法相较于经典理论,提供了更多的显著性上的优势,并为解决复杂问题提供了可能。

本书第一章的介绍部分,提供了简单易懂的概念说明,并对需要具备的基本能力进行了一一罗列。对于我这样的民科统计学学习者来说,是一份非常完整而具体的学习清单(也因此,有些统计概念的中文翻译肯定会有出入,需要指正)。

1.1 背景/Background

如上所述,本书起初被设计为一本一般线性模型的入门读物;同时它也提供了对许多常见统计技术的统一框架。此外对统计模型的思想也有所涉及。

这里作者已经假设读者具备了一些基本常用的经典统计学原则和方法。

具体来说可以包括:

  • 对以下罗列的概念有清晰的认识:
    • 估计/estimation
    • 样本分布/sampling distribution
    • 假设检验/hypothesis testing
  • 具有以下方法的实践经验:
    • 学生t检验/t-test
    • 多因素方差分析/analysis of variance
    • 简单线性回归/simple linear regression
    • 卡方检验/chi-squared test
    • 矩阵代数/matrix algebra
    • 微积分/calculus
  • 能够进行统计计算的设备、编程语言、工具包。比如作者采用的一些方法将通过stata, R, S-PLUS, SASGenstat来实现。

1.2 范畴/Scope

本书提及的统计方法往往涉及不同分组中的对象(subjects or objects)在某些度量(measurements)上的关系。这些度量可以是身高、体重、年龄、男女,或是不同种植条件下农作物的产量等。其中我们将一些涉及本质、起因的度量称为解释变量(explanatory variables)预测变量(predictor variables) 或者 自变量(independent variable);而那些会随着上述度量的变化而跟着发生变化的度量则被称为响应(response), 结果 (outcome) 或是**相关变量 (dependent variable)**。

这里的响应被认为是一种随机变量(random variables)。而解释变量通常被认为是一种非随机的度量,或者称为观察值。比如那些可以在实验设计中可以进行控制或固定的度量。

响应解释变量可以通过以下**尺度(scales)**进行测量:

  1. 定类尺度/Nominal classifications: 诸如,红、绿、蓝;是、否、未知、无效。再具体一些,其中的二进制(binary), 双歧(dichotomous)或者二项式(binomial)变量各自都只有两种分类(categories),如:男、女;生、死等。那些超过两种分类的变量被称为多叉分枝(polychotomous), 多歧(polytomous) 或者**多项(multinomial)**。
  2. 定序尺度/Ordinal classifications: 在分类间存在某些自然排序或先后次序的变量。如:少年,壮年,老年;舒张压分组( ≤ 70, 71–90, 91–110, 111–130, ≥ 131 mmHg)等等。
  3. 连续尺度/ Continuous measurements, 是一类在理论上可以落在给定连续范围中任意位置的变量。如:体重,长度,实践。这些尺度包括定距尺度( interval scale)定比尺度( ratio scale),后者有明确定义的0值。举例来说,“直到发生特定事件的时间点”就是一类连续变量,诸如“某电子元件发生故障”;从某一已知时间点开始计算,直到发生上述事件的这一段时间被称为**故障时间(failure time)**。

定类和定序数据有时会被称为**分类变量(categorical variables)或者离散变量(discrete variables)。其中每一类观察值的出现频次(counts)频率(frequencies)通常会被记录下来。对于连续变量来说,每一个独立的观察值都会进行记录,并且通常会用定量(quantitative)来描述这个过程。对于分类变量的记录过程则用定性(qualitative)**来描述。

一个可定性的解释变量被称为一个**因子(factor),而该因子下的分类被称为水平(levels)。而一个可定量的解释变量有时会被称为协变量(covariate)**。

前文提到解释变量通常是能够在实验设计中进行控制或固定的变量,但有时候一些解释变量因为种种原因无法固定,它们不为实验者所操控,但又会影响试验结果,这些变量称为协变量。按我的理解,虽然协变量无法在实验中进行固定,但仍可以通过一些统计技术进行控制(百度百科)。

统计分析的方法往往取决于响应变量与解释变量所属计量尺度的具体类型。

本书主要关心的是那些只涉及一个响应变量的统计学方法。在不同对象上测量得到的响应通常被认为是统计学意义上相互独立的随机变量。在第11章及后续章节中,当谈论相关数据(correlated data)时,这个条件会被放宽。

表1.1展示了每个章节主要涉及的统计分析方法以及这些方法所涉及的不同响应变量类型和解释变量类型。最后三章阐述的是利用贝叶斯方法在经典方法上的延伸。

Chapter 1

第一章(本章)汇总罗列了贯穿全书的统计学理论。第二章至第五章涵盖了后续章节中涉及的理论框架。随后的章节则重点阐述了相应方法在具体数据中的分析应用。

Table 1.1 Major methods of statistical analysis
Response(chapter) Explanatory variables Methods
Continuous (Chapter 6) Binary t-test
Nominal, >2 categories Analysis of variance
Ordinal Analysis of variance
Continuous Multiple regression
Nominal & some continuous Analysis of covariance
Categorical & continuous Multiple regression
Binary (Chapter 7) Categorical Contigency tables; Logistic regression
Continuous Logistic, probit & other dose-response models
Categorical & continuous Logistic regres
Nominal with > 2 categories (Chapters 8 & 9) Nominal Contingency tables
Categorical & continuous Nominal logistic
Ordinal (Chapter 8) Categorical & continuous Ordinal logistic regression
Counts (Chapter 9) Categorical Log-linear models
Categorical & continuous Poisson regression
Failure Times (Chapter 10) Categorical & continuous Survival analysis (parametric)
Correlated responses (Chapter 11) Categorical & continuous Generalized estimating equations Multilevel models

Chapter 2

第二章对经典统计或频率统计造模中的主要思想进行了拓展。这些造模过程主要包含四个步骤:

  1. 将模型划分为两部,分别做出指定:连接响应和解释变量的等式;响应变量的概率分布。
  2. 估计模型中涉及的未知常量参数。
  3. 校验模型对真实数据的拟合程度
  4. 进行推论;例如,计算置信区间并对参数的假设进行检验

Chapter 3 & 4

随后三个章节提供了理论背景。第三章阐述了指数家族的分布,包括了一般(Normal)泊松(Poisson)二项(Binomial)分布。同时也涵盖了一般线性模型(由Nelder和Wedderburn于1972年定义)。而**线性回归(linear regression)和许多其他模型都是一般线性模型的特殊形式。第四章则阐述了经典估计(classical estimation)模型拟合(model fitting)**的相关方法。

Chapter 5

第五章概述了应用于一般线性模型的统计推论中**频率论(frequentist)**的方法。大部分这类方法都基于模型描述数据集的好坏程度。例如,假设检验首先需要指定替代模型(一个与零假设相应,其他的与一般假设相应)。随后计算检验统计量用于评价每个模型对数据拟合的好坏程度,并进行比较。一般来说与零假设相应的模型会相对简单,因此当零假设相应模型的拟合程度与另一个更复杂的模型拟合程度相仿时,通常会首选较为简约的模型。

Chapter 6

第六章的内容主要关于**多重线性回归(multiple linear regression)方差分析(analyis of variance, ANOVA)。当问题涉及一个连续的响应变量和多个连续解释变量时,回归通常是一种标准方法。ANOVA通常用于解决一个连续响应变量和分类解释变量之间的问题。协方差分析(Analysis of covariance)用于至少有一种连续解释变量的情况。不过现在已经可以用一套计算工具来应付上述各种情况下的问题了。像多重回归(multiple regression)或者一般线性模型(general linear model)**就是用于分析涉及一个连续响应变量和多个解释变量之间关系的方法。

Chapter 7

第七章阐述了分析二进制响应数据的方法。这一类最常见的就是逻辑回归(logistic regression)了。当响应和解释变量可能是分类或连续变量时,通常会采用这种方法。关联响应变量到单一连续变量,诸如**剂量(dose)等一类问题的方法也有提到;这一类还包括概率分析(probit analysis)**,一种最初用于在生物测定领域专门分析剂量效应的方法。

Chapter 8

第八章中,逻辑回归将被一般化为涵盖超过两分类的响应变量(多重逻辑回归, nominal , multinomial , polytomous or polychotomous logistic regression )或者定序分类变量(定序逻辑回归,ordinal logistic regression)的方法。

Chapter 9

第九章主要关注**计数数据(count data)。计数本身可能是列联表(contigency table)中的频率,或是事件发生的频数。诸如交通事故需要与一些已知变量进行关联,像是摩托车的注册数量或是司机的驾驶距离等。这些关联的造模方法通常基于假设计数分布满足泊松分布,至少需要大致满足。这些方法包括泊松回归(Poisson regression)对数-线性模型(log-linear models)**。

Chapter 10

**生存分析(Survival analysis)**是在故障事件数据分析中经常出现的概念。第十章对此类参数方法在一般线性模型中的应用进行了阐述。尽管故障时间类的数据的概率分布有时候并不属于指数家族。

Chapter 11

一般线性模型被拓展延伸到不仅限于独立随机响应变量的关系中。诸如对同一个对象进行了反复测量或者测量对象的获取来源有所关联(比如说聚类抽样)。广义估计方程(generalized estimating equatoins, GEEs) 即可将此类具有技术重复的数据应用在一般线性模型上。这些方法将在第十一章进行概述。另外关于相关性数据,诸如**多层次建模(multilevel modelling)**的方法也会在此阐述。多层次建模用于处理带有一些随机变量的参数的情况。这种建模能够同时处理常量效应和随机效应(mixed models),并且更佳接近贝叶斯方法在统计分析中的应用思路。

Chapter 12

第十二章开始将会介绍有关贝叶斯分析的概念和方法,并主要关注经典/概率论与贝叶斯方法之间的关联。此外还介绍了用于拟合贝叶斯模型的软件WinBugs

Chapter 13

贝叶斯模型通常需要基于马科夫链的计算密集型方法,并用基于随机数的技术来进行模拟。此类方法将在第十三章进行阐述。这一章会引用一些上述章节中的例子,通过**马尔可夫连锁蒙特卡罗(Markov chain Monte Carlo, MCMC)**的机制进行计算,并论证这些结果如何实现加佳丰富的统计推论。

Chapter 14

第十四章包含了多个上述章节中的例子,但采用贝叶斯方法进行分析。通过这些例子既阐述了概念上的问题又展示了实践的具体方法,包括如何估计,模型拟合以及模型间的比较。

1.3 符号/Notation

作者非常细心地将本书涉及的统计学术语和符号用法进行了了梳理。记录如下:

  • 随机变量/random variables:大写斜体;$Y_1,Y_2,…,Y_n$
  • 实际观察值/observed values:小写斜体;$y_1,y_2,…,y_n$

例如,观察值$y_1,y_2,…,y_n$被认为是随机变量$Y_1,Y_2,…,Y_n$的实现(realizations)。

  • 参数/parameters:希腊字母;
  • 估计量,估计值/estimators, estimates;
    • 偶尔也会用$\widehat{\ }$符号来表示。

例如,参数$\beta$是估计量,它通过估计值$\widehat{\beta}$或$b$进行估计。有时候出于简便,上下文提及,或者传统等原因会有一些简化或固定的表达方式。

  • 向量/vectors:黑体小写;
  • 矩阵/matrices:黑体大写;

例如,$\bf y$代表一组观察值向量
$$
\begin{bmatrix}
y_{1} \
\vdots \
y_{n}
\end{bmatrix}
$$
或者一组随机变量的向量
$$
\begin{bmatrix}
Y_{1} \
\vdots \
Y_{n}
\end{bmatrix}
$$
, $\bf \beta$ 作为参数向量而 $\bf X$ 则是一个矩阵。上标$^T$表示一个矩阵转置或是一个列向量写成了行向量,例如,$y=[Y_1,…,Y_n]^T$ 。

  • 一个连续随机变量$Y$的概率密度函数可以简单看作概率函数,写作
    $$
    f(y;\theta),
    $$
    此处$\theta$表示该分布的参数。

  • 用dot($\cdot$)表示乘法,bars($\bar{}$)表示均值。例如:
    $$
    \bar{y}=\frac 1 N\sum_{i=1}^N y_i=\frac 1 N y \cdot.
    $$

  • 期望/expected value:$E(Y)$

  • 方差/variance:$var(Y)$

其中$Y$为随机变量。假设随机变量$Y_1,…,Y_n$相互独立并且$E(Y_i)=\mu, var(Y_i)={\sigma_i}^2, i=1,…,n$。令随机变量$W$为$Y_i$的线性组合(linear combination),
$$
W=a_1Y_1+a_2Y_2+…+a_nY_n \tag{$1.1$}
$$
其中$a_i$是常量。继而$W$的期望值为
$$
E(W)=a_1\mu_1+a_2\mu_2+…+a_n\mu_n \tag{$1.2$}
$$
其方差为
$$
{\rm var}(W)=a_1^2\sigma_1^2+a_2^2\sigma_2^2+…+a_n^2\sigma_n^2 \tag{$1.3$}
$$

1.4 分布/Distributions

本书中用于估计和统计检验的采样分布基本都基于**正态分布(Normal distribution)。这是因为很多分布都是从正态分布派生出来的;而另一些往往能够通过中央极限定理( Central Limit Theorem)**将大样本分布渐近至正态分布。本节主要定义和命规范i了与分布相关的概念,顺带还交代了各种分布之间的关系。(超细心!)

1.4.1 正态分布/Normal distributions

  1. 如果随机变量$Y$服从正态分布,具有均值$\mu$和方差$\sigma^2$,那么它的**概率密度函数(probability density function)**为

    $$
    f(y;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac 1 2(\frac{y-\mu}{\sigma})^2]
    $$

    一般直接表示为$Y\sim N(\mu,\sigma^2)$。

  2. 当$\mu=0$,$\sigma^2=1$,$Y\sim N(0,1)$时,我们称之为**标准正态分布(standard Normal distribution)**。

  3. 令$Y_1,…,Y_n$表示正态分布随机变量并服从$Y_i\sim N(\mu_i,\sigma_i^2), i=1,…,n$,并且$Y_i$与$Y_j$之间的协方差表示为

    $$
    {\rm cov}(Y_i,Y_j)=\rho_{ij}\sigma_i\sigma_j
    $$

    其中$\rho_{ij}$为$Y_i$与$Y_j$之间的相关系数(correlation coefficient)。$Y_i$的联合分布称为多变量正态分布( multivariate Normal distribution),其中${\bf \mu}=[\mu_1,…,\mu_n]^T$,其方差-协方差矩阵(variance-covariance matrix)$\bf V$拥有对角线元素(diagonal elements)$\sigma_i^2$和非对角线元素(non-diagonal elements)$\rho_{ij}\sigma_i\sigma_j$,其中$i\ne j$。一般写作$y\sim {\rm MVN}({\bf\mu,V})$,其中${\bf y}=[Y_1,…,Y_n]^T$。

  4. 假设随机变量$Y_1,…,Y_n$互相独立并且服从正态分布$Y_i\sim N(\mu_i,\sigma_i^2),for i=1,…,n$。若:

    $$
    W=a_1Y_1+a_2Y_2+…+a_nY_n
    $$

    其中$a_i$均为常量,那么$W$也将服从正态分布:

    $$
    W=\sum_{i=1}^n{a_iY_i\sim{\rm N}\Bigg(\sum_{i=1}^n{a_i\mu_i},\sum_{i=1}^n{a_i^2\sigma_i^2}\Bigg)}
    $$

    上式可由等式(1.2)与(1.3)推导得到。

1.4.2 卡方分布/Chi-squared distribution

  1. 若一个中心卡方分布(central chi-squared distribution)有$n$的自由度(degrees of freedom) ,可以将之定义为$n$个独立随机变量$Z_1,…,Z_n$的平方和,其中每个随机变量都服从标准正态分布。记作:

    $$
    X^2=\sum_{i=1}^n{Z_i^2\sim \chi^2(n)}
    $$

    在矩阵符号中,如果${\bf z}=[Z_1,…,Z_n]^T$,那么${\bf z}^T{\bf z}=\sum_{i=1}^n Z_i^2$。于是$X^2={\bf z}^T{\bf z}\sim \chi^2(n)$。

  2. 若$X^2$服从分布$\chi^2(n)$,那么它的期望值${\rm E}(X^2)=n$,并且方差为${\rm var}(X^2)=2n$。

  3. 若$Y_1,…,Y_n$相互独立,是服从正态分布的随机变量,且有$Y_i\sim {\rm N}(\mu_i,\sigma_i^2)$,那么有:

    $$
    X^2=\sum_{i=1}^n\Bigg(\frac{Y_i-\mu_i} {\sigma_i}\Bigg)^2 \sim \chi^2(n) \tag{1.4}
    $$

    因为每个变量$Z_i=(Y_i-\mu_i)/\sigma_i$都服从标准分布${\rm N}(0,1)$。

  4. 指定$Z_1,…,Z_n$为相互独立的随机变量,其中每个都服从分布${\rm N}(0,1)$ 。同时令$Y_i=Z_i+\mu_i$且至少有一个$\mu_i$为非零值。那么有:

    $$
    \sum Y_i^2=\sum(Z_i+\mu_i)^2=\sum Z_i^2+2\sum Z_i\mu_i+\sum \mu_i^2
    $$

    该分布拥有均值$n+\lambda$ 和方差$2n+4\lambda$,其中$\lambda=\sum \mu_i^2$。

  5. 假设$Y_i$是一列对‘相互独立’没有要求的变量,并且向量${\bf y}=[Y_1,…,Y_n]^T$具有多**重正态分布(Mltivariate Normal distribution): ${\bf y}\sim {\rm MVN}(\mu,{\bf V})$,其中它的方差-协方差矩阵${\bf V}$具有非奇异(non-singular)性,它的反函数(inverse)**是${\bf V}^{-1}$。因此有:

    $$
    X^2=(\boldsymbol{y- \mu})^T {\bf V}^{-1}({\boldsymbol{y- \mu}})\sim\chi^2(n)\tag{1.5}
    $$

  6. 推广到一般情况,如果${\bf y}\sim{\rm MVN}(\boldsymbol \mu,{\bf V})$,那么随机变量${\bf y}^T{\bf V}^{-1}{\bf y}$服从**非中心卡方分布(non-central chi-squared distribution)**:$\chi^2(n,\lambda)$,其中$\lambda =\boldsymbol \mu^T{\bf V}^{-1} \boldsymbol \mu$。

  7. 若$X_1^2,…,X_m^2$是$m$个相互独立的随机变量并服从卡方分布 $X_i^2\sim \chi^2(n_i,\lambda_i)$,并且它可能为非中心的。那么他们的加和同样也服从卡方分布:具有自由度$\sum n_i$ 和非中心性参数$\sum \lambda_i$:

    $$
    \sum_{i=1}^mX_i^2\sim\chi^2\Bigg(\sum_{i=1}^mn_i,\sum_{i=1}^m\lambda_i\Bigg)
    $$

    这也被叫做卡方分布的**再生特性( reproductive property)**。

  8. 令$\bf y\sim \rm MVN(\boldsymbol{\mu},\bf V)$,其中$\bf y$有$n$个元素但每组$Y_i$并非相互独立,因此$\bf V$的线性相互独立列数(或行数)$k$会比$n$要小。并且$\bf V$具有**奇异性(singular)**,其反函数的定义也不唯一。这里将$\bf V^-$指定为$\bf V$的一个广义性反函数(也就是说,它俩之间的关系满足等式$\bf VV^-V=V$)。于是随机变量$\bf y^{\it T}V^-y$服从非中心卡方分布,具有自由度$k$和非中心性参数$\lambda=\boldsymbol {\mu^{\it T}{\bf V}^-\mu}$。
    关于卡方分布的更多属性细节可以参阅 Rao (1973, Chapter 3)。

  9. 指定$\bf y_i,…,yn$为相互独立随机的向量,它们每个都具有长度$p$和分布${\bf y_n}\sim \rm MVN(\bf 0,V)$。于是${\bf S}=\sum\nolimits_{i=i}^n{\bf y}i{\bf y}i^T$是一个$p\times p$随机矩阵,它服从**威沙特分布(Wishart distribution)**:${\rm W}({\bf V},n)$。这个分布能够被用于推断斜方差矩阵$\bf V$, 因为$\bf S$与$\bf V$具有成比例关系。当$p=1$时,$Y_i$将成为服从$Y_i\sim \bf N(0,\sigma^2)$的相互独立随机变量,因此$Z_i=Yi/\sigma\sim\rm N(0,1)$。于是${\bf S}=\sum\nolimits_{i=1}^nY_i^2=\sigma^2\sum\nolimits_{i=1}^nZ_i^2$,由此可得${\bf S}/\sigma^2\sim\chi^2(n)$。综上,威沙特分布可以看作是卡方分布的一般形式。

1.4.3 t分布/t-distribution

拥有自由度$n$的**t-分布(t-distribution)**可以定义为两个相互独立随机变量的比值。其分子服从标准正态分布,分母则是一个中心卡方随机变量预期自由度之商的开平方,用公式表示为:
$$
T=\frac{Z}{(X^2/n)^{1/2}}\tag{1.6}
$$
其中$Z\sim\rm N(0,1), X^2\sim\chi^2(n)$并且$Z$与$X^2$相互独立。可以记为$T\sim{\rm t}(n)$。

1.4.4 F分布/F-distribution

  1. 具有自由度$n$和$m$的中心**F-分布(central F-distribution)**定义为两个相互独立的中心卡方随机变量与其各自自由度比值的比值,用公式说明:
    $$
    F={\frac{X_1^2}{n}}\Bigg/{\frac{X_2^2}{m}}\tag{1.7}
    $$
    其中$X_1^2\sim\chi^2(n)$,$X_2^2\sim\chi^2(m)$,$X_1^2$与$X_2^2$相互独立,记为$F\sim{\rm F}(n,m)$。

  2. t-分布与F-分布可以由等式$(1.6)$的平方与等式$(1.7)$得出
    $$
    T^2={\frac{Z^2}{1}}\Bigg/{\frac{X_2^2}{m}}\sim{\rm F}(1,n)\tag{1.8}
    $$
    也就是说,一个服从t-分布的随机变量的平方其实是一个特殊的F-分布:$F(1,n)$。

  3. d非中心F-分布(non-central F-distribution)被定义为两个随机变量与其各自自由度的比值的比值,其中位于分子的变量服从非中心的卡方分布,而位于分母的变量服从中心卡方分布,以公式表示为:
    $$
    F={\frac{X_1^2}{n}}\Bigg/{\frac{X_2^2}{m}}
    $$
    其中$X1^2\sim\chi^2(n,\lambda), \lambda=\boldsymbol {\mu}^{\it T}{\bf V}^-\mu$,$X_2^2\sim\chi^2(m)$, 并且$X_1^2$与$X_2^2$相互独立。在自由度相同的情况下,非中心F-分布的均值要大于中心F-分布的均值。

$$
F={\frac{X_1^2}{n}}\Bigg/{\frac{X_2^2}{m}}
$$

1.4.5 上述分布之间的关系/Some relationships between distributions

作者总结了上述各种分布之间的数学关系,并在后续章节中进行了补充。图1.1 展示了这部书中绝大多数涉及到的分布。其中虚线表示具有渐近关系,而实现则可以进行相互变换。*Leemis(1986)*对下图关系做了更详细的描述。

Fig 1.1

1.5 二次形/Quadratic forms

  1. **二次形(quadratic form)**是一类二次多项式,其中每一项都是2次项。(是线性代数中的重要概念)。例如,$y_1^2+y_2^2$和$2y_1^2+y_2^2+3y_1y_2$为二次型,但像$y_1^2+y_2^2+2y_1$或是$y_1^2+3y_2^2+2$就不是。

  2. 指定$\bf A$为一个对称矩阵

    $$
    \left[\matrix{
    a_{11} & a_{12}& … & a_{1n} \cr
    a_{21} & a_{22}& … & a_{2n} \cr
    \vdots & & \ddots & \vdots \cr
    a_{n1} & a_{n2}& … & a_{nn}
    } \right ]
    $$

    其中 $a_{ij}=a_{ji}$;表达式${\bf y}^T{\bf Ay}=\sum\nolimits_i\sum\nolimits_ja_{ij}y_iy_j$是$y_i$的一个二次型。表达式${\boldsymbol{\rm y- \mu}}^T{\bf V}^{-1}(\boldsymbol{\rm y- \mu})$是$(y_i-\mu_i)$的一个二次型,但却不是$yi$的。

  3. 3当$\bf y$不全为零时,若${\bf y}^T{\bf Ay}>0$总是成立,那么二次型${\bf y}^T{\bf Ay}$和矩阵$\bf A$被称为**正定(positive definite)**。对于正定的充分条件可以定义为令所有顶子(determinants):$\vert A_i\vert =a_{ii}, \vert A_2\vert =\left\vert \matrix{a_{11} & a_{12}\cr a_{21} & a_{22}}\right\vert , \vert A_3\vert =\left\vert \matrix{a_{11} & a_{12} &a_{13}\cr a_{21} & a_{22}& a_{23}\cr a_{31} & a_{32} &a_{33}}\right\vert , \dots, \vert A_n\vert =\rm det$ 全为正。

  4. $\bf A$的秩也被称为自由度,对应二次型可以写作$Q={\bf y}^T\bf Ay$。

  5. 5假如$Y_1,…,Y_n$是相互独立的随机变量,它们每个都服从正态分布${\bf N}(0,\sigma^2)$。令$Q=\sum\nolimits_{i=1}^nY_i^2$ 且$Q_1,…,Q_k$为$Y_i$的二次型:

    $$
    Q=Q_1+…+Q_k,
    $$

    其中$Q_i$有$m_i$的自由度($i=1,…,k$)。那么$Q_1,…,Q_k$也是相互独立的随机变量,并且$Q_1/\sigma^2\vert\sim\chi^2(m_1), Q_2/\sigma^2\vert\sim\chi^2(m_2), …, Q_k/\sigma^2\vert\sim\chi^2(m_k)$, 当且仅当:

    $$
    m_1+m_2+…+m_k=n.
    $$

    上述即是科克伦定理(Cochran’s theorem); 相应论证可见 Hogg, McKean, and Craig (2005)。

  6. 科克伦定理的一个推导是:两个相互独立随机变量:$X_1^2\sim\chi^2(m)$和$X_2^2\sim\chi^2(k)$,它们的之间的差服从卡方分布:

    $$
    X^2=X_1^2-X_2^2\sim\chi^2(m-k)
    $$

    当$X^2\ge 0$且$m > k$。

1.6 估计/Estimation

1.6.1 最大似然估计/Maximum likelihood estimation

将$y=[Y_1,…,Y_n]^T$指定为随机向量并且$Y_i$的联结概率密度函数为
$$
f(\bf y;\boldsymbol\theta)
$$
其中参数向量$\boldsymbol\theta=[\theta_1,…,\theta_p]^T$。

似然函数(likelihood function) $L(\bf y;\boldsymbol \theta)$在代数上与联合概率密度函数是一样的,但在符号上的侧重有所偏差。对于随机变量来说,$\boldsymbol\theta$是固定的。由于$L$是定义在随机向量$\bf y$之上的,它本身也是一个随机变量。当$\Omega$作为所有参数向量$\boldsymbol\theta$可能值的集合时,它就被称为**参数空间(parameter space)**。对某个$\theta$的最大似然估计即是找出值$\widehat\theta$, 使得似然函数最大化,也就是:
$$
L(\boldsymbol{\widehat\theta};{\bf y}) \ge L(\boldsymbol{\theta};\bf y)
$$
对于所有$\boldsymbol\theta$ in $\Omega$。

同样的,$\widehat\theta$也是对数似然函数(log-likelihood function) $l(\boldsymbol{\theta;y})$的最大值

$$
l(\boldsymbol{\theta;y})=\log L(\boldsymbol{\theta;y})
$$
对于所有 $\theta$ 属于 $\Omega$。

通常对数似然函数要比似然函数相对容易求解。

估计量$\widehat\theta$往往通过对对数似然函数求微分得到:
$$
\frac{\partial l(\boldsymbol\theta;\bf y)}{\partial\theta_j}=0, {\rm for~} j=1,…,p\tag{1.9}
$$

有时候需要进一步检验上述解确实对应于$l(\boldsymbol{\theta;y})$的最大值:
$$
\frac{\partial^2l(\boldsymbol\theta;\bf y)}{\partial\theta_j\partial\theta_k}
$$

在$\boldsymbol{\theta=\widehat\theta}$时为负。例如,若$\theta$仅有一个元素,就意味着需要确保下式成立

$$
\left[\frac{\partial^2l(\theta;y)}{\partial\theta^2}\right]_{\theta=\hat\theta}<0
$$

除此之外,还需要检查是否有$\boldsymbol\theta$在参数空间$\Omega$边缘满足$l(\boldsymbol{\theta;y})$的局部最大解。当左右局部最大解都经过确认,$\boldsymbol{\hat\theta}$仍为最大值,那么它才是最大似然估计值。(本书中大部分模型考虑的仅仅是1个最大值,并且它对应于等式$\partial l/\partial\theta_j=0, j=1,…,p$的解。)

最大似然估计的一个重要属性是,若$g(\boldsymbol{\theta})$为参数$\boldsymbol\theta$的任意函数,那么$g(\boldsymbol{\theta})$的最大似然估计值就是$g(\boldsymbol{\hat\theta})$。有时候这被称为最大似然估计的**不变性(invariance property)**。因此,有时我们可以利用不变性来寻找目标参数的一个便于计算的函数来进行最大似然估计址值的求解。

原则上,当$g(\boldsymbol\theta)$能够直接得到时,我们没有必要通过求导的方式来来解决等式(1.9)。在实际应用中,数值**近似值(numerical approximation)**对于一般线性模型来说非常重要。

最大似然估计的其他属性包括一致性(consistency), 充分性(sufficiency), **渐近效率(asymptotic efficiency)渐近正态性(asymptotic normality)**。

1.6.2 示例:泊松分布/Example: Poisson distribution

令$Y_1,…,Y_n$为相互独立的随机变量并且$Y_i$服从泊松分布(Poisson distritbution)
$$
f(y;\theta)=\frac{\theta^{y_i}e^{-\theta}}{y_i!}, y_i=0,1,2,…
$$
其中参数$\theta$是固定的。它们的联合分布是
$$
\eqalign{f(Y_1,…,y_n;\theta)=\prod_{i=1}^nf(y_i;\theta)&=\frac{\theta^{y_1}e^{-\theta}}{y_1!} \times \frac{\theta^{y_2}e^{-\theta}}{y_2!}\times\dots\times\frac{\theta^{y_ n}e^{-\theta}}{y_n!} \
&=\frac{\theta^{\sum{y_i}}e^{-n\theta}}{y_1!y_2!\dots y_n!}.
}
$$
同时这也是似然函数$L(\theta;y_1,…,y_n)$。因此很容易用对数似然函数表示:
$$
l(\theta;y_1,…,y_n)=\log L(\theta;y_1,…,y_n)=(\sum y_i) \log\theta-n\theta-\sum(\log y_i!).
$$
通过一下公式找出最大似然估计值$\hat\theta$
$$
\frac{dl}{d\theta}=\frac{1}{\theta}\sum{y_i-n}
$$
当等式为0时得解:
$$
\hat\theta=\sum{y_i/n}=\bar y.
$$
由于$d^2l/d\theta^2=-\sum{y_i/\theta^2}<0$, 当$\theta=\hat\theta, l$达到最大值。也就是说,$\bar y$为最大似然估计值。

1.6.3 最小二乘估计/Least Squares Estimation

令$Y_1,…,Y_n$为相互独立的随机变量并且分别具有期望值$\mu_1,…,mu_n$。假设$\mu_i$是需要估计的参数向量$\boldsymbol\beta=[\beta_1,…,\beta_p]^T$的函数,那么
$$
E(Y_i)=\mu_i(\boldsymbol\beta).
$$
最小二乘法的最简单形式是找出估计$\boldsymbol{\hat\beta}$,能够使得下式最小:
$$
S=\sum[Y_i-\mu_i(\boldsymbol\beta)]^2.
$$
通常$\boldsymbol{\hat\beta}$是通过对S求微分得到的:
$$
\frac{\partial S}{\partial\beta_j}=0, j=1,…,p.
$$
当然对上式进行检查依然是必要的。

假设$Y_i$有不全相同的方差$\sigma_i^2$,那么它或许拥有最小的加权方差和:
$$
S=\sum{w_i}[Y_i-\mu_i(\boldsymbol{\beta})]^2,
$$
其中权重是$w_i=(\sigma_i^2)^{-1}$。通过这种方法可以发现,方差越大的观察值,对估计值的影响也越小。

推广到更一般的情况,令$\bf y=[Y_1,…,Y_n]^T$为具有平均值$\boldsymbol{\mu}=[\mu1,…,\mu_n]^T$和协方差-方差矩阵$\bf V$的随机变量,那么**加权最小二乘估计(weighted least squares estimator)**可以通过求下式的最小值得到:
$$
S=(\boldsymbol{y-\mu})^T{\bf V}^-1(\boldsymbol{y-\mu}).
$$

1.6.4 关于估计的评论/Comments on estimation

  1. 最大似然分布和最小二乘法分布上有一个重要的区别在于,后者的运用不需要对响应变量$Y_i$的分布做出假设,也就不需要进行期望值和方差-写方差结构的判断;而前者需要制定$Y_i$的联合函数分布。
  2. 在大多数情况下,最大似然估计和最小二乘估计都是相同的。
  3. 通常数值法相比微积分算法更便于获得参数估计值。下一节描述了相关方法。

1.6.5 示例:热带气旋/Tropical cyclones

表1.2 展示了1956年7月(季度1)到1968年九月(季度13)期间澳大利亚东北部发生热带气旋的数量。

Table 1.2 Numbers of tropical cyclones in 13 successive seasons.

Season 1 2 3 4 5 6 7 8 9 10 11 12 13
No. of cyclones 6 5 4 6 6 3 12 7 4 2 6 7 4

令$Y_i$作为在季度$i$中发生热带气旋的数量($i=1,…,13$)。假设$Y_i$是服从泊松分布的独立随机变量,带有参数$\theta$。从1.6.2节的示例可知,$\hat\theta=\bar y=72/13=5.538$。通过数值计算可以得到对数似然函数的最大$]theta$:
$$
l_i=y_i\log\theta-\theta-\log y_i!.
$$
对数似然函数是以下项的加和:
$$
l=\sum_{i=1}^{13}{l_i}=\sum_{i=1}^{13}{(y_i\log\theta-\theta-\log y_i!)} .
$$
可以看出只有括号中 的前两项与$\theta$有关,之后的$\sum\log Y_i!$是一个常数项。为了画出对数似然函数与$\theta$的关系,可以对每个$y_i$计算$(y_i\log\theta-\theta)$,然后得到$l^*=\sum{(y_i\log\theta-\theta)}$。图1.2展示了$l^*$对应$\theta$的关系。

Fig 1.2

显然最大值应在$\theta=5$与$\theta=6$之间。这也算是抛砖引玉地给出了一个获得$\hat\theta$的过程方法。相应用对分法求解罗列在了表1.3中。经过7个步骤后我可以将值确定在$\hat\theta\backsimeq5.54$

Table 1.3 Successive approximations to the maximum likelihood estimate of the mean number of cyclones per season.

$k$ $\theta^{(k)}$ $l^*$
1 5 50.878
2 6 51.007
3 5.5 51.242
4 5.75 51.192
5 5.625 51.235
6 5625 51.243
7 5.5313 51.24354
8 5.5469 51.24352
9 5.5391 51.24360
10 5.5352 51.24359

部分翻译自己都感觉不太靠谱,等学习完相应内容后再做改正。