随机变量的变换

【摘要】概率论的主要研究对象是随机变量及其分布，当随机变量经过某些变换或若干随机变量进行某种组合后，产生的新随机变量会具有什么性质是一个迷人的话题，本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法，其中变量变化法（也称变量变换法）是归一化流方法的支撑理论，累积分布函数法根据其名称显然只适用于连续型随机变量，矩生成法适用于多个独立随机变量的线性组合。

【原文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html

完成本模块后，您应该能够：

在给定原始变量分布的情况下，使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
找到双变量情况下两个目标变量的联合分布。

1 引言

在本章中，我们考虑在给定一个分布已知的随机变量 $X$ 和一个函数 $u(\cdot)$ 的情况下，某个随机变量 $Y = u(X)$ 的概率分布。在几种可用的技术中，重点考虑三种：

变量变化法
分布函数法（仅适用于连续型随机变量）
矩生成函数法

在这种情况下，一个重要的概念是_一对一变换_。

定义 7.1（一对一变换） 给定范围空间分别为 $R_X$ 和 $R_Y$ 的随机变量 $X$ 和 $Y$ ，函数 $u$ 是一个一对一变换（或映射）如果对于每个 $x\in R_X$ 恰好对应一个 $y\in R_Y$ 。

当 $Y = u(X)$ 为一对一变换时，逆函数唯一定义；也就是说， $X$ 可以唯一地写成 $Y$ 。当 $X$ 的分布已知时考虑 $Y$ 的分布时，这一点很重要。

2 变量变化法

对于一对一变换（例如 $Y = 1 - X$ 或 $Y = \exp(X)$ ），变量变化法相对简单。如果变换不是一对一的，则需要格外小心。下面给出了示例。离散和连续的情况被分开考虑。

2.1 离散型随机变量

2.1.1 单变量情况

设 $X$ 是概率函数为 $p_X(x)$ 的离散型随机变量。令 $R_X$ 表示 $p_X(x) > 0$ 的离散点集。令 $y = u(x)$ 定义了一个将 $R_X$ 映射到 $R_Y$ 的 一对一变换，即一组离散点，在每个离散点处，变换后的变量 $Y$ 具有非零概率。如果我们根据 $y$ 对 $y = u(x)$ 求解 $x$ ，比如 $x = w(y)$ ，那么对于每个 $y \in R_Y$ ，我们有 $x = w(y) \in R_X$ 中。

示例 7.1（一对一变换） 给定

p_X(x) = \begin{cases} x/15 & \text{for $x = 1, 2, 3, 4, 5$};\\ 0 & \text{elsewhere}. \end{cases}

要找到 $Y$ 的概率函数，其中 $Y = 2X + 1$ ，首先要看 $R_X = \{1, 2, 3, 4, 5\}$ 。因此 $R_Y = \{3, 5, 7, 9, 11\}$ ，映射 $y = 2x + 1 = u(x)$ 是一对一的。现在

\Pr(Y = y) = \Pr(2X + 1 = y) = \Pr\left(X = \frac{y - 1}{2}\right) = \frac{y - 1}{30}.

所以 $Y$ 的概率函数是

\Pr(Y = y) = \begin{cases} (y - 1)/30 & \text{for $y = 3, 5, 7, 9, 11$};\\ 0 & \text{elsewhere}. \end{cases}

（注意：这个概率函数中的概率加起来为 $1$ 。）

当 $Y = u(X)$ 是一对一映射时，上述过程的通用形式可以表示为：

\Pr(Y = y) = \Pr\big(u(X) = y\big) = \Pr\big(X = u^{-1} (y)\big) = p_X\big(u^{-1}(y)\big), \quad\text{for $y\in R_Y$}.

示例 7.2（一对一变换） 让 $X$ 服从的概率函数为二项分布

p_X(x) = \begin{cases} \binom{3}{x}(0.2)^x (0.8)^{3 - x} & \text{for $x = 0, 1, 2, 3$};\\ 0 & \text{otherwise}. \end{cases}

要找到 $Y = X^2$ 的概率函数，首先请注意 $Y = X^2$ 通常不是一对一变换，但在这里 $X$ 仅对 $x = 0、1、2、3$ 具有非零概率。

变换 $y = u(x) = x^2$ , $R_X = \{ x \mid x = 0, 1, 2, 3 \}$ 映射到 $R_Y = \{y \mid y = 0, 1 , 4, 9\}$ 。逆函数是 $x = w(y) = \sqrt{y}$ ，因此 $Y$ 的概率函数是

p_Y(y) = p_X(\sqrt{y}) = \begin{cases} \binom{3}{\sqrt{y}}(0.2)^{\sqrt{y}} (0.8)^{3 - \sqrt{y}} & \text{for $y = 0, 1, 4, 9$}\\ 0 & \text{otherwise}. \end{cases}

现在考虑函数 $u$ 不是一对一的情况。

示例 7.3（不是一对一变换） 假设 $\Pr(X = x)$ 与示例 7.1, 并定义 $Y = |X - 3|$ 。由于 $R_Y = \{0, 1, 2\}$ 映射不是一对一的：如果 $X = 3$ 则事件 $Y = 0$ 发生，如果 $X= 2$ 或 $X = 4$ 则事件 $Y = 1$ 发生，如果 $X = 1$ 或 $X = 5$ ，则事件 $Y = 2$ 发生。因此， $R_Y \{ 0, 1, 2\}$ 。

要找到 $Y$ 的概率分布：

\begin{align*} \Pr(Y = 0) &= \Pr(X = 3) = 3/15 = \frac{1}{5};\\ \Pr(Y = 1) &= \Pr(X = 2 \text{ or } 4) = \frac{2}{15} + \frac{4}{15} = \frac{2}{5};\\ \Pr(Y = 2) &= \Pr(X = 1 \text{ or } 5) = \frac{1}{15} + \frac{5}{15} = \frac{2}{5}. \end{align*}

$Y$ 的概率函数是

p_Y(y) = \begin{cases} 1/5 & \text{for $y = 0$};\\ 2/5 & \text{for $y = 1$};\\ 2/5 & \text{for $y = 2$};\\ 0 & \text{elsewhere}. \end{cases}

2.1.2 双变量情况

双变量情况类似于单变量情况。我们在二维点集 $R^2_X$ 上定义了两个离散型随机变量 $X_1$ 和 $X_2$ 的联合概率函数 $p_{X_1, X_2}(x_1, x_2)$ ，其中 $p(x_1 , x_2) > 0$ 。现在有两个 一对一的变换：

y_1 = u_1( x_1, x_2)\qquad\text{and}\qquad y_2 = u_2( x_1, x_2)

将 $R^2_X$ 映射到 $R^2_Y$ （ $p(y_1, y_2) > 0$ 的二维点集）。两个逆函数是

x_1 = w_1( y_1, y_2)\qquad\text{and}\qquad x_2 = w_2( y_1, y_2)

那么新的（变换后的）随机变量的联合概率函数是

p_{Y_1, Y_2}(y_1, y_2) = \begin{cases} p_{X_1, X_2}\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) & \text{where $(y_1, y_2)\in R^2_Y$};\\ 0 & \text{elsewhere}. \end{cases}

示例 7.4（双变量变换） 让两个离散型随机变量 $X_1$ 和 $X_2$ 具有表 7.1。

表 7.1：双变量概率函数

	$x_2 = 0$	$x_2 = 1$	$x_2 = 2$
$x_1 = -1$	$0.3$	$0.1$	$0.1$
$x_1 = +1$	$0.2$	$0.2$	$0.1$

考虑两个一对一的变换

Y_1 = X_1 + X_2 \qquad\text{and}\qquad Y_2 = 2 X_1.

$Y_1$ 和 $Y_2$ 的联合概率函数可以通过注意 $(x_1, x_2)$ 对映射到 $y_1, y_2$ 空间中的位置来找到：

$(x_1,x_2)$	$\mapsto$	$(y_1,y_2)$
$(-1, 0)$	$\mapsto$	$(-1, -2)$
$(-1, 1)$	$\mapsto$	$(0, -2)$
$(-1, 2)$	$\mapsto$	$(1, -2)$
$(1, 0)$	$\mapsto$	$(1, 2)$
$(1, 1)$	$\mapsto$	$(2, 2)$
$(1, 2)$	$\mapsto$	$(3, 2)$

然后可以如表 7.2 所示构建联合概率函数。

表 7.2： $Y_1$ 和 $Y_2$ 的联合概率函数

	$y_1 = -1$	$y_2 = 0$	$y_3 = 1$	$y_4 = 2$	$y_5 = 3$
$y_2 = -2$	$0.3$	$0.1$	$0.1$	$0.0$	$0.0$
$y_2 = +2$	$0.0$	$0.0$	$0.2$	$0.2$	$0.1$

有时，给出了两个随机变量的联合概率函数，但只需要_一个_新的随机变量。在这种情况下，使用第二个（虚拟）变换，通常非常简单。

示例 7.5（双变量变换） 设 $X_1$ 和 $X_2$ 是两个独立的随机变量，联合概率函数

p_{X_1, X_2}(x_1, x_2) = \frac{\mu_1^{x_1} \mu_x^{x_2} \exp( -\mu_1 - \mu_2 )}{x_1!\, x_2!} \quad\text{for $x_1$ and $x_2 = 0, 1, 2, \dots$}

这是两个独立泊松随机变量的联合概率函数。假设我们希望找到 $Y_1 = X_1 + X_2$ 的概率函数。

我们可以考虑两个一对一的变换：

\begin{align*} y_1 &= x_1 + x_2 = u_1(x_1, x_2)\\ y_2 &= x_2 = u_2(x_1, x_2) \end{align*}

它将 $R^2_X$ 中的点映射到

R^2_Y = \left\{ (y_1, y_2)\mid y_1 = 0, 1, 2, \dots; y_2 = 0, 1, 2, \dots, y_1\right\}.

$Y_2$ 是一个虚拟变换，非常简单。可以选择任何第二个变换（因为它不是直接感兴趣的），因此选择一个简单的。

逆函数是

\begin{align*} x_1 &= y_1 - y_2 = w_1(y_1, y_2)\\ x_2 &= y_2 = w_2(y_2) \end{align*}

通过重新排列原始变换。那么 $Y_1$ 和 $Y_2$ 的联合概率函数是

\begin{align*} p_{Y_1, Y_2}(y_1, y_2) &= p_{X_1, X_2}(x_1, x_2)\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) \\ &= \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)! y_2!}\quad \text{for $(y_1, y_2)\in R^2_Y$}. \end{align*}

回想一下，我们只求 $Y_1$ 的概率函数，所以我们需要找到 $p_{Y_1, Y_2}(y_1, y_2)$ 的边缘概率函数。 $Y_1$ 的边缘概率函数是

p_{Y_1}(y_1) = \sum_{y_2 = 0}^{y_1} p_{Y_1, Y_2}(y_1, y_2) = \sum_{y_2 = 0}^{y_1} \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)!\, y_2!},

这相当于

p_{Y_1}(y_1) = \begin{cases} \displaystyle{\frac{(\mu_1 + \mu_2)^{y_1}\exp\big[-(\mu_1 + \mu_2)\big]}{y_1!}} & \text{for $y_1 = 0, 1, 2, \dots$}\\ 0 & \text{otherwise}. \end{cases}

这是均值为 $\mu_1 + \mu_2$ 的泊松随机变量的概率函数。因此 $Y_1 \sim \text{Pois}(\lambda = \mu_1 + \mu_2)$ 。

2.2 连续型随机变量

2.2.1 单变量情况

定理 7.1（变量变化定理） 如果对于 $x\in R_X$ ， $X$ 有概率密度函数 $f_X(x)$ ，并且 $u$ 是 $x \in R_X$ 中的一个一对一函数，则随机变量 $Y = u(X)$ 具有概率密度函数

f_Y(y) = f_X(x) \left|\frac{dx}{dy}\right|

其中公式右侧为 $y$ 的函数。 $\left|dx/dy\right|$ 项被称为 变换的雅可比，符号 $|\cdot|$ 表示绝对值。

证明：令逆函数为 $X = w(Y)$ 使得 $w(y) = u^{-1}(x)$ 。

案例 1： $y = u(x)$ 是一个严格递增函数（图 7.1）如果 $a < y < b$ 那么 $w(a) < x < w(b)$ 并且 $\Pr(a < Y < b) = \Pr\big(w(a) < X <w(b) \big)$ ，所以

{\int^b_a f_Y(y)\,dy =\int^{w(b)}_{w(a)}f_X(x)\,dx =\int^b_af\big( w(y)\big)\frac{dx}{dy}\,\,dy}

因此， $\displaystyle {f_Y(y) = f_X\big( w(y) \big)\frac{dx}{dy}}$ ，其中 $w(y) = u^{-1}(x)$ 。

Fig01-A monotone increasing transformation function (left panel) and decreasing function (right panel).

图 7.1：单调递增变换函数（左图）和递减函数（右图）。

案例 2： $y = u(x)$ 是 $x$ 的严格递减函数（图 7.1 右图).如果 $a < y < b$ 那么 $w(b) < x < w(a)$ 并且 $\Pr(a < Y < b) = \Pr\big(w(b) < X < w(a) \big)$ , 所以,

\begin{align*} \int^b_a f_Y(y)\,dy & = \int^{w(a)}_{w(b)}f_X(x)\,dx\\ & = \int^a_bf_X(x)\frac{dx}{dy}\,\,dy\\ & = - \int ^b_a f_X(x)\frac{dx}{dy}\,dy. \end{align*}

因此 $f_Y(y) = -f_X\left( w(y) \right)\displaystyle{\frac{dx}{dy}}$ 。但是 $dx/dy$ 在递减函数的情况下是负的，所以一般来说

f_Y(y) = f_X(x)\left|\frac{dx}{dy} \right|.

$w'(y) = dx/dy$ 的绝对值称为 变换的雅可比矩阵。

示例 7.6（对数变换） 让 $X$ 的概率密度函数由下式给出

f_X(x) = \begin{cases} 1 & \text{for $0 < x < 1$};\\ 0 & \text{elsewhere}. \end{cases}

考虑变换 $Y = -2\log X$ （其中 $\log$ 指以 $e$ 为底的对数，或 自然对数）。变换是一对一的，逆变换是

X = \exp( -Y/2) = w(Y)

从空间 $R_X = \{x \mid 0 < x < 1\}$ 映射到空间 $R_y = \{y \mid 0 < y < \infty\}$ 。然后

w'(y) = \frac{d}{dy} \exp(-y/2) = -\frac{1}{2}\exp(-y/2),

所以 变换的雅可比 $|w'(y)| = \exp(-y/2)/2$ 。 $Y = -2\log X$ 的概率密度函数是

\begin{align*} f_Y(y) &= f_X\{w(y)\} |w'(y)| \\ &= f_X\{\exp(-y/2)\} \exp(-y/2)/2 \\ &= \frac{1}{2}\exp(-y/2)\quad\text{for $y > 0$} \end{align*}

即 $Y \sim \text{Exp}(2)$ 。

示例 7.7（平方根变换） 考虑随机变量 $X$ ，概率密度函数 $f_X(x) = e^{-x}$ for $x \geq 0$ 。要找到 $Y = \sqrt{X}$ 的概率密度函数，首先看到 $y = \sqrt{x}$ 是 $x \geq 0$ 的严格递增函数（图 7.2）。

The square-root transformation

图 7.2：平方根变换

逆关系是 $x = y^2$ ， $dx/dy = |2y| = 2y$ 。 $Y$ 的概率密度函数是

\begin{align*} f_Y(y) &= f_X(x)\left|\frac{dx}{dy}\right|\\ &= 2y e^{-y^2}\quad \text{for $y\geq0$}. \end{align*}

示例 7.8（Tan 变换） 让随机变量 $X$ 均匀分布在 $[-\pi/2, \pi/2]$ 上。找到 $Y = \tan X$ 的分布（图 7.3）。

The tan transformation

图 7.3：tan 变换

对于映射 $y = \tan x$ ，我们看到 $R_Y = \{ y\mid -\infty <y<\infty\}$ 。该映射是一对一的，因此 $x = \tan^{-1}y$ ， $dx/dy = 1/(1 + y^2)$ 。因此

f_Y(y) = f_X(x)\left|\frac{dx}{dy}\right| = \frac{1}{\pi(1 + y^2)}.

这是 Cauchy 分布。

下面这个例子考虑了函数 $u$ 不是一对一的情况，使用定理 7.1 的修改。

示例 7.9（非一对一变换） 给定一个服从 $N(0, 1)$ 分布的随机变量 $Z$ ，找出 $Y = \frac{1}{2}Z^2$ 的概率分布。

A transformation not 1:1

图 7.4：非一对一变换

关系 $y = u(z) = \frac{1}{2}z^2$ 在 $(-\infty, \infty )$ 中不增加或严格减少，所以定理 7.1 不能直接应用。相反，细分 $z$ 和 $y$ 的范围，以便在每个部分中关系是单调的。然后：

f_Z(z) = \frac{1}{\sqrt{2\pi}}\,e^{-\frac{1}{2} z^2}\quad\text{for $-\infty < z < \infty$}.

逆关系 $z = u^{-1}(y)$ 是 $z = \pm \sqrt{2y}$ 。对于给定的 $y$ 值，可能有两个 $z$ 值。在 $-\infty < z < 0$ 范围内，则 $y$ 和 $z$ 单调相关。类似地，对于 $0 < z <\infty$ ， $y$ 和 $z$ 是单调相关的。因此（见图 7.4），

\Pr(a < Y <b) = \Pr(-\sqrt{2b} < Z < -\sqrt{2a}\,) + \Pr(\sqrt{2a} < Z < \sqrt{2b}\,).

右边的两项相等，因为 $Z$ 的分布关于 $0$ 对称。因此 $\Pr(a < Y < b) = 2\Pr(\sqrt{2a} < Z < \sqrt{2b}\,)$ ，并且

\begin{align*} f_Y(y) &= 2f_Z(z)\left| \frac{dz}{dy}\right|\\ &= 2\frac{1}{\sqrt{2\pi}}e^{-y}\frac{1}{\sqrt{2y}}; \end{align*}

也就是，

f_Y(y) = e^{-y}y^{-\frac{1}{2}} / \sqrt{\pi}\quad\text{for $0 < y < \infty$}.

此概率密度函数是一个 gamma 分布，参数 $\alpha = 1/2$ 、 $\beta = 1$ 。由此得出，如果 $X$ 为 $N(\mu,\sigma^2)$ ，则 $Y = \frac{1}{2} (X - \mu )^2 / \sigma^2$ 的概率密度函数为 $\text{Gamma}(\alpha = 1/2,\beta = 1)$ 从那时起 $(X - \mu)\sigma$ 分布为 $N(0, 1)$ 。

请注意，如果 $Y = u(Z)$ 和 $Z$ 的概率密度函数关于同一点对称。

3 分布函数法

此方法仅适用于连续随机变量。

有两个基本步骤：
（1）找到变换变量的 分布函数（累积密度函数）。
（2）微分求 概率密度函数。

使用示例可以最好地演示该过程。

示例 7.10（分布函数法） 考虑具有如下概率密度函数的随机变量 $X$

f_X(x) = \begin{cases} x/4 & \text{for $1 < x < 3$};\\ 0 & \text{elsewhere}. \end{cases}

要找到随机变量 $Y$ 的概率密度函数，其中 $Y = X^2$ ，首先要看 $1 < y < 9$ 。 $Y$ 的分布函数是

\begin{align*} F_Y(y) &= \Pr(Y\le y) \qquad\text{(by definition)}\\ &= \Pr(X^2 \le y) \qquad\text{(since $Y = X^2$)}\\ &= \Pr(X\le \sqrt{y}\,). \end{align*}

最后一步并不是微不足道的，而是至关重要的。有时，需要更加小心（如下一个示例所示）。在这种情况下， $X$ 和 $Y$ 在定义了 $X$ 的区域上存在一对一的关系（即具有正概率）；参见图 7.5。

当 $X$ 定义为从 $1$ 到 $3$ 时，变换 $Y = X^2$ 。较粗的线对应于应用变换的区域。请注意，如果 $Y < y$ ，则 $2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}$

Figure7.5

图 7.5：当 $X$ 定义为从 $1$ 到 $3$ 时，变换 $Y = X^2$ 。较粗的线对应于应用变换的区域。请注意，如果 $Y < y$ ，则 $2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}$ 。

然后继续如下：

\begin{align*} F_Y(y) &=\Pr( X\le \sqrt{y}\,) \\ &= F_X\big(\sqrt{y}\,\big) \qquad\text{(by definition of $F_X(x)$)} \\ &= \int_1^{\sqrt{y}} (x/4) \,dx \\ &= (y - 1)/8 \end{align*}

上式满足对于 $1 < y < 9$ ，在其他地方为零。这是 $Y$ 的 分布函数；进而得到概率密度函数：

f_Y(y) = \frac{d}{dy} (y - 1)/8 = \begin{cases} 1/8 & \text{for $1 < y < 9$};\\ 0 & \text{elsewhere}. \end{cases}

请注意定义 $Y$ 的范围；因为 $1 < x < 3$ ，所以 $1 < y < 9$ 。

示例 7.11（变换） 考虑与前面示例相同的随机变量 $X$ ，但变换 $Y = (X - 2)^2 + 1$ (图 7.6)。

图 7.6：当 $X$ 定义为从 $1$ 到 $3$ 时，变换 $Y = (X - 2)^2 + 1$ 。较粗的线对应于应用变换的区域。请注意，如果 $Y < y$ ，则 $2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}$ 。

在这种情况下，变换不是一对一变换。像以前一样找到 $Y$ 的分布函数：

\begin{align*} F_Y(y) &= \Pr(Y\le y) \qquad\text{(by definition)}\\ &= \Pr\big( (X - 2)^2 + 1 \le y\big) \end{align*}

因为 $Y = (X - 2)^2 + 1$ 。从图 7.6，每当 $(X - 2)^2 + 1 < y$ 对于某个值 $y$ ，则 $X$ 必须在 $2 - \sqrt{y - 1}$ 到 $2 + \sqrt{y - 1}$ 范围内。所以：

\begin{align*} F_Y(y) &= \Pr\big( (X - 2)^2 + 1 \le y\big) \\ &= \Pr\left( 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} \right)\\ &= \int_{2-\sqrt{y - 1}}^{2 + \sqrt{y - 1}} x/4\,dx \\ &= \left.\frac{1}{8} x^2\right|_{2 - \sqrt{y - 1}}^{2 + \sqrt{y - 1}} \\ &= \frac{1}{8} \left[ \left(2 + \sqrt{y - 1}\right)^2 - \left(2 - \sqrt{y - 1}\right)^2\right] \\ &= \sqrt{y - 1}. \end{align*}

同样，这是分布函数；所以

f_Y(y) = \begin{cases} \frac{1}{2\sqrt{y - 1}} & \text{for $1 < y < 2$};\\ 0 & \text{elsewhere}. \end{cases}

示例 7.12 (变换) 在此重复示例 7.9，但使用分布函数。给定 $Z$ 分布为 $N(0, 1)$ ，我们寻求 $Y = \frac{1}{2} Z^2$ 的概率分布。首先，

f_Z(z) = (2\pi )^{-\frac 12}\,e^{-z^2/2}\quad\text{for $z\in (-\infty ,\,\infty )$}.

设 $Y$ 有概率密度函数 $f_Y(y)$ 和 df $F_Y(y)$ 。然后

\begin{align*} F_Y(y) = \Pr(Y\leq y) &= \Pr\left(\frac{1}{2}Z^2\leq y\right)\\ &= \Pr(Z^2\leq 2y)\\ & = \Pr(-\sqrt{2y}\leq Z\leq \sqrt{2y}\,)\\ & = F_Z(\sqrt{2y}\,) - F_Z(-\sqrt{2y}\,) \end{align*}

其中 $F_Z$ 是 $Z$ 的 df。因此像以前一样：

\begin{align*} f_Y(y) = F_Y'(y) &= F_Z'(\sqrt{2y}\,)-F_Z'(-\sqrt{2y}\,)\\ &= \frac{\sqrt{2}}{2\sqrt{y}}f_Z(\sqrt{2y}\,) - \frac{\sqrt{2}}{- 2\sqrt{y}}f_Z(-\sqrt{2y}\,)\\[2mm] &= \frac{1}{\sqrt{2y}}[f_Z(\sqrt{2y}\,) + f_Z(-\sqrt{2y}\,)]\\ &= \frac{1}{2y} \left[ \frac{1}{\sqrt{2\pi}}\,e^{-y}+\frac{1}{\sqrt{2\pi}}\,e^{-y}\right]\\ &= \frac{e^{-y}y^{-\frac{1}{2}}}{\sqrt{\pi}} \end{align*}

需要注意确保逻辑上遵循这些步骤，图 7.5 和图 7.6 的做法受到鼓励。此外，制作出来的函数应该是概率密度函数；检查是否是这种情况。

4 矩生成函数法

矩生成函数 (mgf) 方法可用于查找 $n$ 个独立随机变量的线性组合的分布。该方法本质上涉及在给定独立 $X_1, X_2, \dots, X_n$ 的联合分布时计算变换变量 $Y = u(X_1, X_2, \dots, X_n)$ 的矩生成函数。

矩生成函数方法依赖于此观察：由于随机变量的矩生成函数（如果存在）完全指定了随机变量的分布，那么如果两个随机变量具有相同的矩生成函数，则它们必须具有相同的分布。

下面演示了变换 $Y = X_1 + X_2 + \cdots X_n$ ，但同样的原理也适用于其他线性组合。

考虑 $n$ 个 独立随机变量 $X_1, X_2, \dots, X_n$ 和矩生成函数 $M_{X_1}(t)$ , $M_{X_2}(t)$ , $\dots$ , $M_{X_n}( t)$ ，并考虑变换 $Y = X_1 + X_2 + \cdots X_n$ 。由于 $X_i$ 是独立的， $f_{X_1,X_2\dots X_n}(x_1, x_2, \dots, x_n) = f_{X_1}(x_1).f_{X_2}(x_2)\dots f_{X_n} (x_n)$ 。所以，根据矩生成函数的定义，

\begin{align*} M_Y(t) &= \text{E}(\exp(tY)) \\ &= \text{E}(\exp[t(X_1 + X_2 + \cdots X_n)]) \\ &= \int\!\!\!\int\!\!\!\cdots\!\!\!\int \exp[t(x_1 + x_2 + \cdots x_n)] f(x_1, x_2, \dots x_n)\,dx_n\dots dx_2\, dx_1 \\ &= \int\!\!\!\int\!\!\!\cdots\!\!\!\int \exp(tx_1) f(x_1) \exp(t{x_2}) f(x_2)\dots \exp(t{x_n})f(x_n) \,dx_n\dots dx_2\, dx_1 \\ &= \int \exp(t x_1) f(x_1)\,dx_1 \int \exp(t{x_2}) f(x_2)\,dx_2 \dots \int \exp(t{x_n})f(x_n)\,dx_n \\ &= M_{X_1}(t) M_{X_2}(t)\dots M_{X_n}(t) \\ &= \prod_{i = 1}^n M_{X_i}(t). \end{align*}

( $\prod$ 是项乘积的符号，与 $\sum$ 是项求和的符号相同。)以上结果也适用于离散变量，其中求和代替积分。

这个结果如下：如果 $X_1, X_2, \dots, X_n$ 是独立的随机变量并且 $Y = X_1 + X_2 + \dots + X_n$ ，那么 $Y$ 的矩生成函数是

M_Y(t) = \prod_{i = 1}^n M_{X_i}(t)

其中 $M_{X_i}(t)$ 是 $X_i$ 在 $t$ 的矩生成函数，且 $i = 1, 2, \dots, n$ 。

示例 7.13（用于变换的矩生成函数方法） 假设 $X_i \sim \text{Pois}(\lambda_i)$ ，其中 $i = 1, 2, \dots, n$ 。那么， $Y = X_1 + X_2 + \dots + X_n$ 的分布是什么？

由于 $X_i$ 服从参数为 $\lambda_i$ 的泊松分布， $X_i$ 的矩生成函数为

M_{X_i}(t) = \exp[ \lambda_i(e^t - 1)].

$Y = X_1 + X_2 + \cdots X_n$ 的矩生成函数是

\begin{align*} M_Y(t) &= \prod_{i = 1}^n \exp[ \lambda_i(e^t - 1)] \\ &= \exp[ \lambda_1(e^t - 1)] \exp[ \lambda_2(e^t - 1)] \dots \exp[ \lambda_n(e^t - 1)] \\ &= \exp\left[ (e^t - 1)\sum_{i = 1}^n \lambda_i\right]. \end{align*}

使用 $\Lambda = \sum_{i = 1}^n \lambda_i$ ， $Y$ 的矩生成函数是

M_Y(t) = \exp\left[ (e^t - 1)\Lambda \right],

这是均值为 $\Lambda = \sum_{i = 1}^n \lambda_i$ 的泊松分布的矩生成函数。这意味着 $n$ 个独立泊松分布之和也是泊松分布，其均值是各个泊松均值之和。

5 卡方分布

示例 7.9 和示例 7.12 产生了卡方分布，这是统计理论中的一个重要模型（定理 8）。

定义 7.2（卡方分布） 具有概率密度函数的连续随机变量 $X$

\begin{equation} f_X(x) = \frac{x^{(\nu/2) - 1}e^{-x/2}}{2^{\nu/2}\Gamma(\nu/2)}\quad\text{for $x > 0$} \end{equation}

据说具有参数 $\nu > 0$ 的 卡方分布。参数 $\nu$ 称为 自由度。我们写 $X \sim \chi^2(\nu)$ 。

$\chi^2$ -分布的一些图如图 7.7 所示。

卡方是 $\alpha = \nu/2$ 和 $\beta = 2$ 时伽马分布的特例。这意味着可以从伽马分布的性质中获得卡方分布的性质。

卡方分布

图 7.7：一些 $\chi^2$ -分布

卡方的基本性质直接遵循伽马分布的基本性质。

定理 7.2（卡方分布的性质） 如果 $X \sim \chi^2(\nu)$ 那么

$\text{E}(X) = \nu$ .
$\text{var}(X) = 2\nu$ .
$M_X(t) = (1 - 2t)^{-\nu/2}$ .

定理 7.3（1 自由度的卡方分布） 如果 $Z \sim N(0, 1)$ 则 $Z^2$ 具有一个自由度的卡方分布。

卡方分布的一个有用性质是：如果若干随机变量都服从卡方分布，则这些独立随机变量的总和也服从卡方分布。这个性质在下面的定理中给出，后面会用到。

定理 7.4（卡方分布） 如果 $Z_1, Z_2,\dots, Z_n$ 独立同分布 (iid) 为 $N(0, 1)$ ，则平方和 $S = \ sum_i Z_i^2$ 具有 $\chi^2(n)$ 分布。

证明_。由于 $S$ 是已知分布的线性组合，因此矩生成函数方法是合适的。由于 $Z_i \sim \chi^2(1)$ ，来自定理 7.2

M_{Z_i}(t) = (1 - 2t)^{-1/2}.

$S = \sum_{i = 1}^n Z_i^2$ 有矩生成函数

\begin{align*} M_{S}(t) &= \prod_{i = 1}^n (1 - 2t)^{-1/2}\\ &= \left[(1 - 2t)^{-1/2}\right]^n = (1 - 2t)^{-n/2}, \end{align*}

这是 $\chi^2(n)$ 的矩生成函数。

如果没有计算机或表格，通常无法计算卡方概率。

在 R 中，卡方分布函数的形式为 [dpqr]chisq(df)，其中 df ${} = \nu$ 指的是自由度。

**示例 7.14（卡方分布）**变量 $X$ 服从自由度为 12 的卡方分布。确定 $X$ 的值，低于该值的分布占 90%。

我们寻找一个值 $c$ 使得 $\Pr(X < c) = F_X(c) = 0.90$ 其中 $X\sim\chi^2(12)$ 。在 R 中：

1 2	qchisq(0.9, df = 12) #> [1] 18.54935

也就是说，大约 90% 的分布位于 18.549 以下。

练习

Suppose the pdf of $X$ is given by

f_X(x) = \begin{cases} x/2 & \text{$0 < x < 2$};\\ 0 & \text{otherwise}. \end{cases}

Find the pdf of $Y = X^3$ using the change of variable method.
Find the pdf of $Y = X^3$ using the distribution function method.

Exercise 7.1 The discrete bivariate random vector $(X_1, X_2)$ has the joint pf

f_{X_1, X_2}(x_1, x_2) = \begin{cases} (2x_1+ x _2)/14 & \text{for $x_1 = 0, 1$ and $x_2 = 0, 1$};\\ 0 & \text{elsewhere}. \end{cases}

Consider the transformations

\begin{align*} Y_1 &= X_1 + X_2 \\ Y_2 &= \phantom{X_1+{}} X_2 \end{align*}

Determine the joint pf of $(Y_1, Y_2)$ . % Y1=1 Y1=2 Y1=3 %Y2=0 2/14 4/14 0 %Y2=1 0 3/14 5/14
Deduce the distribution of $Y_1$ . % 2/14 if Y1=1 % 7/14 (=3/14 + 4/14) if Y1=2 % 5/14 if Y1=3

Exercise 7.2 Consider $n$ random variables $X_i$ such that $X_i \sim \text{Gam}(\alpha_i, \beta)$ .

Determine the distribution of $Y = \sum_{i = 1}^n X_i$ .

Exercise 7.3 The random variable $X$ has pdf

f_X(x) = \frac{1}{\pi(1 + x^2)}

for $-\infty < x < \infty$ . Find the pdf of $Y$ where $Y = X^2$ .

Exercise 7.4 A random variable $X$ has distribution function

F_X(x) = \begin{cases} 0 & \text{for $x \le -0.5$};\\ \frac{2x + 1}{2} & \text{for $-0.5 < x < 0.5$};\\ 1 & \text{for $x \ge 0.5$}. \end{cases}

Find, and plot, the pdf of $X$ . 1. Find the distribution function, $F_Y(y)$ , of the random variable $Y = 4 - X^2$ . 1. Hence find, and plot, the pdf of $Y$ , $f_Y(y)$ .

Exercise 7.5 Suppose a projectile is fired at an angle $\theta$ from the horizontal with velocity $v$ . The horizontal distance that the projectile travels, $D$ , is

D = \frac{v^2}{g} \sin 2\theta,

where $g$ is the acceleration due to gravity ( $g\approx 9.8$ m.s²).

If $\theta$ is uniformly distributed over the range $(0, \pi/4)$ , find the probability density function of $D$ .
Sketch the pdf of $D$ over a suitable range for $v = 12$ and using $g\approx 9.8$ .

Exercise 7.6 Most computers have facilities to generate continuous uniform (pseudo-)random numbers between zero and one, say $X$ .
When needed, exponential random numbers are obtained from $X$ using the transformation $Y = -\alpha\ln X$ .

Show that $Y$ has an exponential distribution and determine its parameters.
Deduce the mean and variance of $Y$ .

Exercise 7.7 Consider a random variable $W$ for which $\Pr(W = 2) = 1/6$ , $\Pr(W = -2) = 1/3$ and $\Pr(W = 0) = 1/2$ .

Plot the probability function of $W$ .
Find the mean and variance of $W$ .
Determine the distribution of $V = W^2$ .
Find the distribution function of $W$ .

Exercise 7.8 In a study to model the load on bridges,⁵⁹ the researchers modelled the Gross Vehicle Weight (GVM, in kilonewtons) weight of smaller trucks $S$ using $S\sim N(390, 740$ , and the weight of bigger trucks $B$ using $L\sim N(865, 142)$ . The total load distribution $L$ was then modelled as $L = 0.24S + 0.76B$ .