设$X_1,\dots,X_n$是从总体X中抽取容量为n的一个样本。如果由此样本构造一个函数$T(X_1,\dots,X_n)$,不依赖于任何参数,则称函数$T(X_1,\dots,X_n)$是一个统计量。
设$X_1,X_2,\dots,X_n$是从总体X中抽取的一个样本,则
$$ \bar{X}=\frac{1}{n}\sum_{i=1}^n X_i \
S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 $$
都是统计量。而$\sum_{i=1}^n[X_i-E(X)]^2,[X_i-E(X)]/D(X)$都不是统计量。因为E(X)和D(X)都依赖于总体分布的未知参数。
统计量是样本的一个函数。由样本构造具体的统计量,实际是对样本所含的总体信息按某种要求进行加工处理,吧分散在样本中的信息集中到统计量的取值上。
统计量在统计学的地位相当于随机变量在概率论中的地位
- 样本均值
- 样本方差
- 样本变异系数
- 样本k阶矩
它反映出总体k阶矩的信息。$m_1=\bar{X}$是样本均值。
- k阶中心矩
它反映总体k阶中心矩的信息
- 样本偏度
反映总体偏斜信息,反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜性。
如果X~$N(\mu,\sigma^2)$, 则偏度$\alpha_3=0$
- 样本峰度
反映总体峰度信息,反映了密度函数曲线在众数附近“峰”的尖度。
如果X~$N(\mu,\sigma^2)$, 的峰度$\alpha_4=0$
t表示样本均值经标准化后的新随机变量。随着自由度增大,t分布趋于正态分布。当正态总体未知,小样本条件下对总体均值的估计和检验要用t分布。
设总体服从一般正态分布,则
$$
Z=\frac{X-\mu}{\sigma}N(0,1)
$$
令$Y=Z^2$,则Y服从自由度为1的$\chi^2$分布,即$Y\chi^2(1)$。对于n个独立变量$Y_i$,随机变量$Y=\sum_{i=1}^n Y_i^2$的分布具有n个自由度的$\chi^2$分布,记为$Y~\chi^2(n)$
- 变量始终为正
- 形状取决于其自由度大小,通常形状为不对称的右偏分布,但随自由度增大逐渐趋于对称
- 期望值$E(\chi^2)=n$, 方差$D(X)=2n$,n为自由度
- 可加性。U+V~$\chi^2(n_1)+\chi^2(n_2)$
F分布是两个$\chi^2$之比。设U~$\chi^2(n_1)$, V~$\chi^2(n_2)$,U和V相互独立,则F=$\frac{U/n_1}{V/n_2}$,记为F~$F(n_1,n_2)$
F分布用于比较不同总体的方差是否有显著差异。