【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。

【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html

完成本模块后,您应该能够:

  • 在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
  • 找到双变量情况下两个目标变量的联合分布。

1 引言

在本章中,我们考虑在给定一个分布已知的随机变量 $X$ 和一个函数 $u(\cdot)$ 的情况下,某个随机变量 $Y = u(X)$ 的概率分布。在几种可用的技术中,重点考虑三种:

  • 变量变化法
  • 分布函数法(仅适用于连续型随机变量)
  • 矩生成函数法

在这种情况下,一个重要的概念是_一对一变换_。

定义 7.1(一对一变换) 给定范围空间分别为 $R_X$ 和 $R_Y$ 的随机变量 $X$ 和 $Y$,函数 $u$ 是一个一对一变换(或映射)如果对于每个 $x\in R_X$ 恰好对应一个 $y\in R_Y$。

当 $Y = u(X)$ 为一对一变换时,逆函数唯一定义;也就是说,$X$ 可以唯一地写成 $Y$。当 $X$ 的分布已知时考虑 $Y$ 的分布时,这一点很重要。

2 变量变化法

对于一对一变换(例如 $Y = 1 - X$ 或 $Y = \exp(X)$),变量变化法相对简单。如果变换不是一对一的,则需要格外小心。下面给出了示例。离散和连续的情况被分开考虑。

2.1 离散型随机变量

2.1.1 单变量情况

设 $X$ 是概率函数为 $p_X(x)$ 的离散型随机变量。令 $R_X$ 表示 $p_X(x) > 0$ 的离散点集。令 $y = u(x)$ 定义了一个将 $R_X$ 映射到 $R_Y$ 的 _一对一变换_,即一组离散点,在每个离散点处,变换后的变量 $Y$ 具有非零概率。如果我们根据 $y$ 对 $y = u(x)$ 求解 $x$,比如 $x = w(y)$,那么对于每个 $y \in R_Y$,我们有 $x = w(y) \in R_X$ 中。

示例 7.1(一对一变换) 给定

$$
p_X(x) =
\begin{cases}
x/15 & \text{for $x = 1, 2, 3, 4, 5$};\
0 & \text{elsewhere}.
\end{cases}
$$

要找到 $Y$ 的概率函数,其中 $Y = 2X + 1$,首先要看 $R_X = {1, 2, 3, 4, 5}$。因此 $R_Y = {3, 5, 7, 9, 11}$ ,映射 $y = 2x + 1 = u(x)$ 是一对一的。现在

$$
\Pr(Y = y)
= \Pr(2X + 1 = y)
= \Pr\left(X = \frac{y - 1}{2}\right)
= \frac{y - 1}{30}.
$$

所以 $Y$ 的概率函数是
$$
\Pr(Y = y)
= \begin{cases}
(y - 1)/30 & \text{for $y = 3, 5, 7, 9, 11$};\
0 & \text{elsewhere}.
\end{cases}
$$

(注意:这个概率函数中的概率加起来为 $1$。)

当 $Y = u(X)$ 是一对一映射时,上述过程的通用形式可以表示为:

$$
\Pr(Y = y)
= \Pr\big(u(X) = y\big)
= \Pr\big(X = u^{-1} (y)\big)
= p_X\big(u^{-1}(y)\big), \quad\text{for $y\in R_Y$}.
$$

示例 7.2(一对一变换) 让 $X$ 服从的概率函数为二项分布

$$
p_X(x) = \begin{cases}
\binom{3}{x}(0.2)^x (0.8)^{3 - x} & \text{for $x = 0, 1, 2, 3$};\
0 & \text{otherwise}.
\end{cases}
$$

要找到 $Y = X^2$ 的概率函数,首先请注意 $Y = X^2$ 通常 不是 一对一变换,但在这里 $X$ 仅对 $x = 0、1、2、3$ 具有非零概率。

变换 $y = u(x) = x^2$, $R_X = { x \mid x = 0, 1, 2, 3 }$ 映射到 $R_Y = {y \mid y = 0, 1 , 4, 9}$。逆函数是 $x = w(y) = \sqrt{y}$,因此 $Y$ 的概率函数是

$$
p_Y(y) = p_X(\sqrt{y})
= \begin{cases}
\binom{3}{\sqrt{y}}(0.2)^{\sqrt{y}} (0.8)^{3 - \sqrt{y}} & \text{for $y = 0, 1, 4, 9$}\
0 & \text{otherwise}.
\end{cases}
$$

现在考虑函数 $u$ 不是 一对一的情况。

示例 7.3(不是一对一变换) 假设 $\Pr(X = x)$ 与示例 7.1, 并定义 $Y = |X - 3|$。由于 $R_Y = {0, 1, 2}$ 映射不是一对一的:如果 $X = 3$ 则事件 $Y = 0$ 发生,如果 $X= 2$ 或 $X = 4$ 则事件 $Y = 1$ 发生,如果 $X = 1$ 或 $X = 5$,则事件 $Y = 2$ 发生。因此,$R_Y { 0, 1, 2}$。

要找到 $Y$ 的概率分布:

$$
\begin{align*}
\Pr(Y = 0)
&= \Pr(X = 3) = 3/15 = \frac{1}{5};\
\Pr(Y = 1)
&= \Pr(X = 2 \text{ or } 4) = \frac{2}{15} + \frac{4}{15} = \frac{2}{5};\
\Pr(Y = 2)
&= \Pr(X = 1 \text{ or } 5) = \frac{1}{15} + \frac{5}{15} = \frac{2}{5}.
\end{align*}
$$

$Y$ 的概率函数是

$$
p_Y(y) =
\begin{cases}
1/5 & \text{for $y = 0$};\
2/5 & \text{for $y = 1$};\
2/5 & \text{for $y = 2$};\
0 & \text{elsewhere}.
\end{cases}
$$

2.1.2 双变量情况

双变量情况类似于单变量情况。我们在二维点集 $R^2_X$ 上定义了两个离散型随机变量 $X_1$ 和 $X_2$ 的联合概率函数 $p_{X_1, X_2}(x_1, x_2)$, 其中 $p(x_1 , x_2) > 0$。现在有两个 _一对一的变换_:

$$
y_1 = u_1( x_1, x_2)\qquad\text{and}\qquad y_2 = u_2( x_1, x_2)
$$

将 $R^2_X$ 映射到 $R^2_Y$($p(y_1, y_2) > 0$ 的二维点集)。两个逆函数是

$$
x_1 = w_1( y_1, y_2)\qquad\text{and}\qquad x_2 = w_2( y_1, y_2)
$$

那么新的(变换后的)随机变量的联合概率函数是

$$
p_{Y_1, Y_2}(y_1, y_2) =
\begin{cases}
p_{X_1, X_2}\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) & \text{where $(y_1, y_2)\in R^2_Y$};\
0 & \text{elsewhere}.
\end{cases}
$$

示例 7.4(双变量变换) 让两个离散型随机变量 $X_1$ 和 $X_2$ 具有表 7.1。

表 7.1:双变量概率函数

$x_2 = 0$ $x_2 = 1$ $x_2 = 2$
$x_1 = -1$ $0.3$ $0.1$ $0.1$
$x_1 = +1$ $0.2$ $0.2$ $0.1$

考虑两个一对一的变换

$$
Y_1 = X_1 + X_2 \qquad\text{and}\qquad Y_2 = 2 X_1.
$$

$Y_1$ 和 $Y_2$ 的联合概率函数可以通过注意 $(x_1, x_2)$ 对映射到 $y_1, y_2$ 空间中的位置来找到:

$(x_1,x_2)$ $\mapsto$ $(y_1,y_2)$
$(-1, 0)$ $\mapsto$ $(-1, -2)$
$(-1, 1)$ $\mapsto$ $(0, -2)$
$(-1, 2)$ $\mapsto$ $(1, -2)$
$(1, 0)$ $\mapsto$ $(1, 2)$
$(1, 1)$ $\mapsto$ $(2, 2)$
$(1, 2)$ $\mapsto$ $(3, 2)$

然后可以如表 7.2 所示构建联合概率函数。

表 7.2:$Y_1$ 和 $Y_2$ 的联合概率函数

$y_1 = -1$ $y_2 = 0$ $y_3 = 1$ $y_4 = 2$ $y_5 = 3$
$y_2 = -2$ $0.3$ $0.1$ $0.1$ $0.0$ $0.0$
$y_2 = +2$ $0.0$ $0.0$ $0.2$ $0.2$ $0.1$

有时,给出了两个随机变量的联合概率函数,但只需要_一个_新的随机变量。在这种情况下,使用第二个(虚拟)变换,通常非常简单。

示例 7.5(双变量变换) 设 $X_1$ 和 $X_2$ 是两个独立的随机变量,联合概率函数
$$
p_{X_1, X_2}(x_1, x_2) =
\frac{\mu_1^{x_1} \mu_x^{x_2} \exp( -\mu_1 - \mu_2 )}{x_1!, x_2!}
\quad\text{for $x_1$ and $x_2 = 0, 1, 2, \dots$}
$$

这是两个独立泊松随机变量的联合概率函数。假设我们希望找到 $Y_1 = X_1 + X_2$ 的概率函数。

我们可以考虑两个一对一的变换:

$$
\begin{align*}
y_1 &= x_1 + x_2 = u_1(x_1, x_2)\
y_2 &= x_2 = u_2(x_1, x_2)
\end{align*}
$$

它将 $R^2_X$ 中的点映射到

$$
R^2_Y = \left{ (y_1, y_2)\mid y_1 = 0, 1, 2, \dots; y_2 = 0, 1, 2, \dots, y_1\right}.
$$

$Y_2$ 是一个虚拟变换,非常简单。可以选择任何第二个变换(因为它不是直接感兴趣的),因此选择一个简单的。

逆函数是

$$
\begin{align*}
x_1 &= y_1 - y_2 = w_1(y_1, y_2)\
x_2 &= y_2 = w_2(y_2)
\end{align*}
$$

通过重新排列原始变换。那么 $Y_1$ 和 $Y_2$ 的 联合 概率函数是

$$
\begin{align*}
p_{Y_1, Y_2}(y_1, y_2)
&= p_{X_1, X_2}(x_1, x_2)\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) \
&= \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)! y_2!}\quad
\text{for $(y_1, y_2)\in R^2_Y$}.
\end{align*}
$$

回想一下,我们只求 $Y_1$ 的概率函数,所以我们需要找到 $p_{Y_1, Y_2}(y_1, y_2)$ 的边缘概率函数。 $Y_1$ 的边缘概率函数是

$$
p_{Y_1}(y_1) = \sum_{y_2 = 0}^{y_1} p_{Y_1, Y_2}(y_1, y_2)
= \sum_{y_2 = 0}^{y_1} \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)!, y_2!},
$$

这相当于

$$
p_{Y_1}(y_1) =
\begin{cases}
\displaystyle{\frac{(\mu_1 + \mu_2)^{y_1}\exp\big[-(\mu_1 + \mu_2)\big]}{y_1!}} & \text{for $y_1 = 0, 1, 2, \dots$}\
0 & \text{otherwise}.
\end{cases}
$$

这是均值为 $\mu_1 + \mu_2$ 的泊松随机变量的概率函数。因此 $Y_1 \sim \text{Pois}(\lambda = \mu_1 + \mu_2)$。

2.2 连续型随机变量

2.2.1 单变量情况

定理 7.1(变量变化定理) 如果对于 $x\in R_X$,$X$ 有概率密度函数 $f_X(x)$,并且 $u$ 是 $x \in R_X$ 中的一个一对一函数,则随机变量 $Y = u(X)$ 具有概率密度函数

$$
f_Y(y) = f_X(x) \left|\frac{dx}{dy}\right|
$$

其中公式右侧为 $y$ 的函数。$\left|dx/dy\right|$ 项被称为 _变换的雅可比_,符号 $|\cdot|$ 表示绝对值。

_证明_:令逆函数为 $X = w(Y)$ 使得 $w(y) = u^{-1}(x)$。

案例 1: $y = u(x)$ 是一个严格 递增 函数(图 7.1)如果 $a < y < b$ 那么 $w(a) < x < w(b)$ 并且 $\Pr(a < Y < b) = \Pr\big(w(a) < X <w(b) \big)$,所以

$$
{\int^b_a f_Y(y),dy
=\int^{w(b)}_{w(a)}f_X(x),dx
=\int^b_af\big( w(y)\big)\frac{dx}{dy},,dy}
$$

因此,$\displaystyle {f_Y(y) = f_X\big( w(y) \big)\frac{dx}{dy}}$,其中 $w(y) = u^{-1}(x)$。

Fig01-A monotone increasing transformation function (left panel) and decreasing function (right panel).

图 7.1:单调递增变换函数(左图)和递减函数(右图)。

案例 2: $y = u(x)$ 是 $x$ 的严格 递减 函数(图 7.1 右图).如果 $a < y < b$ 那么 $w(b) < x < w(a)$ 并且 $\Pr(a < Y < b) = \Pr\big(w(b) < X < w(a) \big)$, 所以,

$$
\begin{align*}
\int^b_a f_Y(y),dy & = \int^{w(a)}_{w(b)}f_X(x),dx\
& = \int^a_bf_X(x)\frac{dx}{dy},,dy\
& = - \int ^b_a f_X(x)\frac{dx}{dy},dy.
\end{align*}
$$

因此 $f_Y(y) = -f_X\left( w(y) \right)\displaystyle{\frac{dx}{dy}}$。但是 $dx/dy$ 在递减函数的情况下是负的,所以一般来说

$$
f_Y(y) = f_X(x)\left|\frac{dx}{dy} \right|.
$$

$w’(y) = dx/dy$ 的绝对值称为 _变换的雅可比矩阵_。

示例 7.6(对数变换) 让 $X$ 的概率密度函数由下式给出

$$
f_X(x) =
\begin{cases}
1 & \text{for $0 < x < 1$};\
0 & \text{elsewhere}.
\end{cases}
$$

考虑变换 $Y = -2\log X$(其中 $\log$ 指以 $e$ 为底的对数,或 _自然对数_)。变换是一对一的,逆变换是

$$
X = \exp( -Y/2) = w(Y)
$$

从空间 $R_X = {x \mid 0 < x < 1}$ 映射到空间 $R_y = {y \mid 0 < y < \infty}$。然后

$$
w’(y) = \frac{d}{dy} \exp(-y/2) = -\frac{1}{2}\exp(-y/2),
$$

所以 变换的雅可比 $|w’(y)| = \exp(-y/2)/2$。 $Y = -2\log X$ 的概率密度函数是

$$
\begin{align*}
f_Y(y)
&= f_X{w(y)} |w’(y)| \
&= f_X{\exp(-y/2)} \exp(-y/2)/2 \
&= \frac{1}{2}\exp(-y/2)\quad\text{for $y > 0$}
\end{align*}
$$

即 $Y \sim \text{Exp}(2)$。

示例 7.7(平方根变换) 考虑随机变量 $X$,概率密度函数$f_X(x) = e^{-x}$ for $x \geq 0$。要找到 $Y = \sqrt{X}$ 的概率密度函数,首先看到 $y = \sqrt{x}$ 是 $x \geq 0$ 的严格递增函数(图 7.2)。

The square-root transformation

图 7.2:平方根变换

逆关系是 $x = y^2$,$dx/dy = |2y| = 2y$。 $Y$ 的概率密度函数是

$$
\begin{align*}
f_Y(y)
&= f_X(x)\left|\frac{dx}{dy}\right|\
&= 2y e^{-y^2}\quad \text{for $y\geq0$}.
\end{align*}
$$

示例 7.8(Tan 变换) 让随机变量 $X$ 均匀分布在 $[-\pi/2, \pi/2]$ 上。找到 $Y = \tan X$ 的分布(图 7.3)。

The tan transformation

图 7.3:tan 变换

对于映射 $y = \tan x$,我们看到 $R_Y = { y\mid -\infty <y<\infty}$。该映射是一对一的,因此 $x = \tan^{-1}y$,$dx/dy = 1/(1 + y^2)$。因此

$$
f_Y(y)
= f_X(x)\left|\frac{dx}{dy}\right|
= \frac{1}{\pi(1 + y^2)}.
$$

这是 _Cauchy 分布_。

下面这个例子考虑了函数 $u$ 不是一对一的情况,使用定理 7.1 的修改。

示例 7.9(非一对一变换) 给定一个服从 $N(0, 1)$ 分布的随机变量 $Z$,找出 $Y = \frac{1}{2}Z^2$ 的概率分布。

A transformation not 1:1

图 7.4:非一对一变换

关系 $y = u(z) = \frac{1}{2}z^2$ 在 $(-\infty, \infty )$ 中不增加或严格减少,所以定理 7.1 不能直接应用。相反,细分 $z$ 和 $y$ 的范围,以便在每个部分中关系是单调的。然后:

$$
f_Z(z) =
\frac{1}{\sqrt{2\pi}},e^{-\frac{1}{2} z^2}\quad\text{for $-\infty < z < \infty$}.
$$

逆关系 $z = u^{-1}(y)$ 是 $z = \pm \sqrt{2y}$。对于给定的 $y$ 值,可能有两个 $z$ 值。在 $-\infty < z < 0$ 范围内,则 $y$ 和 $z$ 单调相关。类似地,对于 $0 < z <\infty$,$y$ 和 $z$ 是单调相关的。因此(见图 7.4),

$$
\Pr(a < Y <b) = \Pr(-\sqrt{2b} < Z < -\sqrt{2a},) + \Pr(\sqrt{2a} < Z < \sqrt{2b},).
$$

右边的两项相等,因为 $Z$ 的分布关于 $0$ 对称。因此 $\Pr(a < Y < b) = 2\Pr(\sqrt{2a} < Z < \sqrt{2b},)$,并且

$$
\begin{align*}
f_Y(y)
&= 2f_Z(z)\left| \frac{dz}{dy}\right|\
&= 2\frac{1}{\sqrt{2\pi}}e^{-y}\frac{1}{\sqrt{2y}};
\end{align*}
$$

也就是,

$$
f_Y(y)
= e^{-y}y^{-\frac{1}{2}} / \sqrt{\pi}\quad\text{for $0 < y < \infty$}.
$$

此概率密度函数是一个 gamma 分布,参数 $\alpha = 1/2$ 、$\beta = 1$。由此得出,如果 $X$ 为 $N(\mu,\sigma^2)$,则 $Y = \frac{1}{2} (X - \mu )^2 / \sigma^2$ 的概率密度函数为$\text{Gamma}(\alpha = 1/2,\beta = 1)$ 从那时起 $(X - \mu)\sigma$ 分布为 $N(0, 1)$。

请注意,如果 $Y = u(Z)$ 和 $Z$ 的概率密度函数关于同一点对称。

3 分布函数法

此方法仅适用于连续随机变量。

有两个基本步骤:
(1) 找到变换变量的 _分布函数(累积密度函数)_。
(2) 微分求 _概率密度函数_。

使用示例可以最好地演示该过程。

示例 7.10(分布函数法) 考虑具有如下概率密度函数的随机变量 $X$

$$
f_X(x) = \begin{cases}
x/4 & \text{for $1 < x < 3$};\
0 & \text{elsewhere}.
\end{cases}
$$

要找到随机变量 $Y$ 的概率密度函数,其中 $Y = X^2$,首先要看 $1 < y < 9$。 $Y$ 的分布函数是

$$
\begin{align*}
F_Y(y)
&= \Pr(Y\le y) \qquad\text{(by definition)}\
&= \Pr(X^2 \le y) \qquad\text{(since $Y = X^2$)}\
&= \Pr(X\le \sqrt{y},).
\end{align*}
$$

最后一步并不是微不足道的,而是至关重要的。有时,需要更加小心(如下一个示例所示)。在这种情况下,$X$ 和 $Y$ 在定义了 $X$ 的区域上存在一对一的关系(即具有正概率);参见图 7.5。

当 $X$ 定义为从 $1$ 到 $3$ 时,变换 $Y = X^2$。较粗的线对应于应用变换的区域。请注意,如果 $Y < y$,则 $2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}$

Figure7.5

图 7.5:当 $X$ 定义为从 $1$ 到 $3$ 时,变换 $Y = X^2$。较粗的线对应于应用变换的区域。请注意,如果 $Y < y$,则 $2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}$。

然后继续如下:

$$
\begin{align*}
F_Y(y)
&=\Pr( X\le \sqrt{y},) \
&= F_X\big(\sqrt{y},\big) \qquad\text{(by definition of $F_X(x)$)} \
&= \int_1^{\sqrt{y}} (x/4) ,dx \
&= (y - 1)/8
\end{align*}
$$

上式满足对于 $1 < y < 9$,在其他地方为零。这是 $Y$ 的 _分布函数_;进而得到概率密度函数:

$$
f_Y(y)
= \frac{d}{dy} (y - 1)/8
= \begin{cases}
1/8 & \text{for $1 < y < 9$};\
0 & \text{elsewhere}.
\end{cases}
$$

请注意定义 $Y$ 的范围;因为 $1 < x < 3$,所以 $1 < y < 9$。

示例 7.11(变换) 考虑与前面示例相同的随机变量 $X$,但变换 $Y = (X - 2)^2 + 1$ (图 7.6)。

Figure06

图 7.6:当 $X$ 定义为从 $1$ 到 $3$ 时,变换 $Y = (X - 2)^2 + 1$。较粗的线对应于应用变换的区域。请注意,如果 $Y < y$,则 $2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}$。

在这种情况下,变换不是一对一变换。像以前一样找到 $Y$ 的分布函数:

$$
\begin{align*}
F_Y(y)
&= \Pr(Y\le y) \qquad\text{(by definition)}\
&= \Pr\big( (X - 2)^2 + 1 \le y\big)
\end{align*}
$$

因为 $Y = (X - 2)^2 + 1$。从图 7.6,每当 $(X - 2)^2 + 1 < y$ 对于某个值 $y$,则$X$ 必须在 $2 - \sqrt{y - 1}$ 到 $2 + \sqrt{y - 1}$ 范围内。所以:

$$
\begin{align*}
F_Y(y)
&= \Pr\big( (X - 2)^2 + 1 \le y\big) \
&= \Pr\left( 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} \right)\
&= \int_{2-\sqrt{y - 1}}^{2 + \sqrt{y - 1}} x/4,dx \
&= \left.\frac{1}{8} x^2\right|_{2 - \sqrt{y - 1}}^{2 + \sqrt{y - 1}} \
&= \frac{1}{8} \left[ \left(2 + \sqrt{y - 1}\right)^2 - \left(2 - \sqrt{y - 1}\right)^2\right] \
&= \sqrt{y - 1}.
\end{align*}
$$

同样,这是分布函数;所以

$$
f_Y(y) = \begin{cases}
\frac{1}{2\sqrt{y - 1}} & \text{for $1 < y < 2$};\
0 & \text{elsewhere}.
\end{cases}
$$

示例 7.12 (变换) 在此重复示例 7.9, 但使用分布函数。 给定 $Z$ 分布为 $N(0, 1)$,我们寻求 $Y = \frac{1}{2} Z^2$ 的概率分布。首先,

$$
f_Z(z)
= (2\pi )^{-\frac 12},e^{-z^2/2}\quad\text{for $z\in (-\infty ,,\infty )$}.
$$

设 $Y$ 有概率密度函数$f_Y(y)$ 和 df $F_Y(y)$。然后

$$
\begin{align*}
F_Y(y)
= \Pr(Y\leq y)
&= \Pr\left(\frac{1}{2}Z^2\leq y\right)\
&= \Pr(Z^2\leq 2y)\
& = \Pr(-\sqrt{2y}\leq Z\leq \sqrt{2y},)\
& = F_Z(\sqrt{2y},) - F_Z(-\sqrt{2y},)
\end{align*}
$$

其中 $F_Z$ 是 $Z$ 的 df。 因此像以前一样:

$$
\begin{align*}
f_Y(y)
= F_Y’(y)
&= F_Z’(\sqrt{2y},)-F_Z’(-\sqrt{2y},)\
&= \frac{\sqrt{2}}{2\sqrt{y}}f_Z(\sqrt{2y},) - \frac{\sqrt{2}}{-
2\sqrt{y}}f_Z(-\sqrt{2y},)\[2mm]
&= \frac{1}{\sqrt{2y}}[f_Z(\sqrt{2y},) + f_Z(-\sqrt{2y},)]\
&= \frac{1}{2y} \left[ \frac{1}{\sqrt{2\pi}},e^{-y}+\frac{1}{\sqrt{2\pi}},e^{-y}\right]\
&= \frac{e^{-y}y^{-\frac{1}{2}}}{\sqrt{\pi}}
\end{align*}
$$

需要注意确保逻辑上遵循这些步骤,图 7.5 和图 7.6 的做法受到鼓励。 此外,制作出来的函数应该是概率密度函数;检查是否是这种情况。

4 矩生成函数法

矩生成函数 (mgf) 方法可用于查找 $n$ 个独立随机变量的线性组合的分布。该方法本质上涉及在给定独立 $X_1, X_2, \dots, X_n$ 的联合分布时计算变换变量 $Y = u(X_1, X_2, \dots, X_n)$ 的矩生成函数。

矩生成函数方法依赖于此观察:由于随机变量的矩生成函数(如果存在)完全指定了随机变量的分布,那么如果两个随机变量具有相同的矩生成函数,则它们必须具有相同的分布。

下面演示了变换 $Y = X_1 + X_2 + \cdots X_n$,但同样的原理也适用于其他线性组合。

考虑 $n$ 个 独立随机变量 $X_1, X_2, \dots, X_n$ 和矩生成函数 $M_{X_1}(t)$, $M_{X_2}(t)$, $\dots$, $M_{X_n}( t)$,并考虑变换 $Y = X_1 + X_2 + \cdots X_n$。由于 $X_i$ 是独立的,$f_{X_1,X_2\dots X_n}(x_1, x_2, \dots, x_n) = f_{X_1}(x_1).f_{X_2}(x_2)\dots f_{X_n} (x_n)$。所以,根据矩生成函数的定义,

$$
\begin{align*}
M_Y(t)
&= \text{E}(\exp(tY)) \
&= \text{E}(\exp[t(X_1 + X_2 + \cdots X_n)]) \
&= \int!!!\int!!!\cdots!!!\int \exp[t(x_1 + x_2 + \cdots x_n)] f(x_1, x_2, \dots x_n),dx_n\dots dx_2, dx_1 \
&= \int!!!\int!!!\cdots!!!\int \exp(tx_1) f(x_1) \exp(t{x_2}) f(x_2)\dots \exp(t{x_n})f(x_n) ,dx_n\dots dx_2, dx_1 \
&= \int \exp(t x_1) f(x_1),dx_1 \int \exp(t{x_2}) f(x_2),dx_2 \dots \int \exp(t{x_n})f(x_n),dx_n \
&= M_{X_1}(t) M_{X_2}(t)\dots M_{X_n}(t) \
&= \prod_{i = 1}^n M_{X_i}(t).
\end{align*}
$$

($\prod$ 是项乘积的符号,与 $\sum$ 是项求和的符号相同。)以上结果也适用于离散变量,其中求和代替积分。

这个结果如下: 如果$X_1, X_2, \dots, X_n$是独立的随机变量并且$Y = X_1 + X_2 + \dots + X_n$,那么$Y$的矩生成函数是

$$
M_Y(t) = \prod_{i = 1}^n M_{X_i}(t)
$$

其中 $M_{X_i}(t)$ 是 $X_i$ 在 $t$ 的矩生成函数,且 $i = 1, 2, \dots, n$。

示例 7.13(用于变换的矩生成函数方法) 假设 $X_i \sim \text{Pois}(\lambda_i)$,其中 $i = 1, 2, \dots, n$。那么, $Y = X_1 + X_2 + \dots + X_n$ 的分布是什么?

由于 $X_i$ 服从参数为 $\lambda_i$ 的泊松分布,$X_i$ 的矩生成函数为

$$
M_{X_i}(t) = \exp[ \lambda_i(e^t - 1)].
$$

$Y = X_1 + X_2 + \cdots X_n$ 的矩生成函数是

$$
\begin{align*}
M_Y(t)
&= \prod_{i = 1}^n \exp[ \lambda_i(e^t - 1)] \
&= \exp[ \lambda_1(e^t - 1)] \exp[ \lambda_2(e^t - 1)] \dots \exp[ \lambda_n(e^t - 1)] \
&= \exp\left[ (e^t - 1)\sum_{i = 1}^n \lambda_i\right].
\end{align*}
$$

使用 $\Lambda = \sum_{i = 1}^n \lambda_i$,$Y$ 的矩生成函数是

$$
M_Y(t) = \exp\left[ (e^t - 1)\Lambda \right],
$$

这是均值为 $\Lambda = \sum_{i = 1}^n \lambda_i$ 的泊松分布的矩生成函数。这意味着$n$个独立泊松分布之和也是泊松分布,其均值是各个泊松均值之和。

5 卡方分布

示例 7.9 和 示例 7.12 产生了卡方分布,这是统计理论中的一个重要模型(定理 8)。

定义 7.2(卡方分布) 具有概率密度函数的连续随机变量 $X$

$$
\begin{equation}
f_X(x)
= \frac{x^{(\nu/2) - 1}e^{-x/2}}{2^{\nu/2}\Gamma(\nu/2)}\quad\text{for $x > 0$}
\end{equation}
$$

据说具有参数 $\nu > 0$ 的 _卡方分布_。参数 $\nu$ 称为 _自由度_。我们写 $X \sim \chi^2(\nu)$。

$\chi^2$-分布的一些图如图 7.7 所示。

卡方是 $\alpha = \nu/2$ 和 $\beta = 2$ 时伽马分布的特例。这意味着可以从伽马分布的性质中获得卡方分布的性质。

卡方分布

图 7.7:一些 $\chi^2$-分布

卡方的基本性质直接遵循伽马分布的基本性质。

定理 7.2(卡方分布的性质) 如果 $X \sim \chi^2(\nu)$ 那么

  • $\text{E}(X) = \nu$.
  • $\text{var}(X) = 2\nu$.
  • $M_X(t) = (1 - 2t)^{-\nu/2}$.

定理 7.3(1 自由度的卡方分布) 如果 $Z \sim N(0, 1)$ 则 $Z^2$ 具有一个自由度的卡方分布。

卡方分布的一个有用性质是:如果若干随机变量都服从卡方分布,则这些独立随机变量的总和也服从卡方分布。这个性质在下面的定理中给出,后面会用到。

定理 7.4(卡方分布) 如果 $Z_1, Z_2,\dots, Z_n$ 独立同分布 (iid) 为 $N(0, 1)$,则平方和 $S = \ sum_i Z_i^2$ 具有 $\chi^2(n)$ 分布。

证明_。由于 $S$ 是已知分布的线性组合,因此矩生成函数方法是合适的。由于 $Z_i \sim \chi^2(1)$,来自定理 7.2

$$
M_{Z_i}(t)
= (1 - 2t)^{-1/2}.
$$

$S = \sum_{i = 1}^n Z_i^2$ 有矩生成函数
$$
\begin{align*}
M_{S}(t)
&= \prod_{i = 1}^n (1 - 2t)^{-1/2}\
&= \left[(1 - 2t)^{-1/2}\right]^n
= (1 - 2t)^{-n/2},
\end{align*}
$$

这是 $\chi^2(n)$ 的矩生成函数。

如果没有计算机或表格,通常无法计算卡方概率。

R 中,卡方分布函数的形式为 [dpqr]chisq(df),其中 df${} = \nu$ 指的是自由度。

示例 7.14(卡方分布)变量 $X$ 服从自由度为 12 的卡方分布。确定 $X$ 的值,低于该值的分布占 90%。

我们寻找一个值 $c$ 使得 $\Pr(X < c) = F_X(c) = 0.90$ 其中 $X\sim\chi^2(12)$。在 R 中:

1
2
qchisq(0.9, df = 12)
#> [1] 18.54935

也就是说,大约 90% 的分布位于 18.549 以下。

练习

Suppose the pdf of $X$ is given by
$$
f_X(x) = \begin{cases}
x/2 & \text{$0 < x < 2$};\
0 & \text{otherwise}.
\end{cases}
$$

  1. Find the pdf of $Y = X^3$ using the change of variable method.
  2. Find the pdf of $Y = X^3$ using the distribution function method.

Exercise 7.1 The discrete bivariate random vector $(X_1, X_2)$ has the joint pf
$$
f_{X_1, X_2}(x_1, x_2) =
\begin{cases}
(2x_1+ x _2)/14 & \text{for $x_1 = 0, 1$ and $x_2 = 0, 1$};\
0 & \text{elsewhere}.
\end{cases}
$$

Consider the transformations

$$
\begin{align*}
Y_1 &= X_1 + X_2 \
Y_2 &= \phantom{X_1+{}} X_2
\end{align*}
$$

  1. Determine the joint pf of $(Y_1, Y_2)$. % Y1=1 Y1=2 Y1=3 %Y2=0 2/14 4/14 0 %Y2=1 0 3/14 5/14
  2. Deduce the distribution of $Y_1$. % 2/14 if Y1=1 % 7/14 (=3/14 + 4/14) if Y1=2 % 5/14 if Y1=3

Exercise 7.2 Consider $n$ random variables $X_i$ such that $X_i \sim \text{Gam}(\alpha_i, \beta)$.

Determine the distribution of $Y = \sum_{i = 1}^n X_i$.

Exercise 7.3 The random variable $X$ has pdf
$$
f_X(x) = \frac{1}{\pi(1 + x^2)}
$$
for $-\infty < x < \infty$. Find the pdf of $Y$ where $Y = X^2$.

Exercise 7.4 A random variable $X$ has distribution function
$$
F_X(x) =
\begin{cases}
0 & \text{for $x \le -0.5$};\
\frac{2x + 1}{2} & \text{for $-0.5 < x < 0.5$};\
1 & \text{for $x \ge 0.5$}.
\end{cases}
$$

  1. Find, and plot, the pdf of $X$. 1. Find the distribution function, $F_Y(y)$, of the random variable $Y = 4 - X^2$. 1. Hence find, and plot, the pdf of $Y$, $f_Y(y)$.

Exercise 7.5 Suppose a projectile is fired at an angle $\theta$ from the horizontal with velocity $v$. The horizontal distance that the projectile travels, $D$, is
$$
D = \frac{v^2}{g} \sin 2\theta,
$$
where $g$ is the acceleration due to gravity ($g\approx 9.8$m.s2).

  1. If $\theta$ is uniformly distributed over the range $(0, \pi/4)$, find the probability density function of $D$.
  2. Sketch the pdf of $D$ over a suitable range for $v = 12$ and using $g\approx 9.8$.

Exercise 7.6 Most computers have facilities to generate continuous uniform (pseudo-)random numbers between zero and one, say $X$.
When needed, exponential random numbers are obtained from $X$ using the transformation $Y = -\alpha\ln X$.

  1. Show that $Y$ has an exponential distribution and determine its parameters.
  2. Deduce the mean and variance of $Y$.

Exercise 7.7 Consider a random variable $W$ for which $\Pr(W = 2) = 1/6$, $\Pr(W = -2) = 1/3$ and $\Pr(W = 0) = 1/2$.

  1. Plot the probability function of $W$.
  2. Find the mean and variance of $W$.
  3. Determine the distribution of $V = W^2$.
  4. Find the distribution function of $W$.

Exercise 7.8 In a study to model the load on bridges,59 the researchers modelled the Gross Vehicle Weight (GVM, in kilonewtons) weight of smaller trucks $S$ using $S\sim N(390, 740$, and the weight of bigger trucks $B$ using $L\sim N(865, 142)$. The total load distribution $L$ was then modelled as $L = 0.24S + 0.76B$.

  1. Plot the distribution of $L$.
  2. Compute the mean and standard deviation of $L$.