【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。
【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html
完成本模块后,您应该能够:
在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
找到双变量情况下两个目标变量的联合分布。
1 引言
在本章中,我们考虑在给定一个分布已知的随机变量 X X X 和一个函数 u ( ⋅ ) u(\cdot) u ( ⋅ ) 的情况下,某个随机变量 Y = u ( X ) Y = u(X) Y = u ( X ) 的概率分布。在几种可用的技术中,重点考虑三种:
变量变化法
分布函数法(仅适用于连续型随机变量)
矩生成函数法
在这种情况下,一个重要的概念是_一对一变换_。
定义 7.1(一对一变换) 给定范围空间分别为 R X R_X R X 和 R Y R_Y R Y 的随机变量 X X X 和 Y Y Y ,函数 u u u 是一个一对一变换(或映射)如果对于每个 x ∈ R X x\in R_X x ∈ R X 恰好对应一个 y ∈ R Y y\in R_Y y ∈ R Y 。
当 Y = u ( X ) Y = u(X) Y = u ( X ) 为一对一变换时,逆函数唯一定义;也就是说,X X X 可以唯一地写成 Y Y Y 。当 X X X 的分布已知时考虑 Y Y Y 的分布时,这一点很重要。
2 变量变化法
对于一对一变换(例如 Y = 1 − X Y = 1 - X Y = 1 − X 或 Y = exp ( X ) Y = \exp(X) Y = exp ( X ) ),变量变化法相对简单。如果变换不是一对一的,则需要格外小心。下面给出了示例。离散和连续的情况被分开考虑。
2.1 离散型随机变量
2.1.1 单变量情况
设 X X X 是概率函数为 p X ( x ) p_X(x) p X ( x ) 的离散型随机变量。令 R X R_X R X 表示 p X ( x ) > 0 p_X(x) > 0 p X ( x ) > 0 的离散点集。令 y = u ( x ) y = u(x) y = u ( x ) 定义了一个将 R X R_X R X 映射到 R Y R_Y R Y 的 一对一变换 ,即一组离散点,在每个离散点处,变换后的变量 Y Y Y 具有非零概率。如果我们根据 y y y 对 y = u ( x ) y = u(x) y = u ( x ) 求解 x x x ,比如 x = w ( y ) x = w(y) x = w ( y ) ,那么对于每个 y ∈ R Y y \in R_Y y ∈ R Y ,我们有 x = w ( y ) ∈ R X x = w(y) \in R_X x = w ( y ) ∈ R X 中。
示例 7.1(一对一变换) 给定
p X ( x ) = { x / 15 for x = 1 , 2 , 3 , 4 , 5 ; 0 elsewhere . p_X(x) =
\begin{cases}
x/15 & \text{for $x = 1, 2, 3, 4, 5$};\\
0 & \text{elsewhere}.
\end{cases}
p X ( x ) = { x /15 0 for x = 1 , 2 , 3 , 4 , 5 ; elsewhere .
要找到 Y Y Y 的概率函数,其中 Y = 2 X + 1 Y = 2X + 1 Y = 2 X + 1 ,首先要看 R X = { 1 , 2 , 3 , 4 , 5 } R_X = \{1, 2, 3, 4, 5\} R X = { 1 , 2 , 3 , 4 , 5 } 。因此 R Y = { 3 , 5 , 7 , 9 , 11 } R_Y = \{3, 5, 7, 9, 11\} R Y = { 3 , 5 , 7 , 9 , 11 } ,映射 y = 2 x + 1 = u ( x ) y = 2x + 1 = u(x) y = 2 x + 1 = u ( x ) 是一对一的。现在
Pr ( Y = y ) = Pr ( 2 X + 1 = y ) = Pr ( X = y − 1 2 ) = y − 1 30 . \Pr(Y = y)
= \Pr(2X + 1 = y)
= \Pr\left(X = \frac{y - 1}{2}\right)
= \frac{y - 1}{30}.
Pr ( Y = y ) = Pr ( 2 X + 1 = y ) = Pr ( X = 2 y − 1 ) = 30 y − 1 .
所以 Y Y Y 的概率函数是
Pr ( Y = y ) = { ( y − 1 ) / 30 for y = 3 , 5 , 7 , 9 , 11 ; 0 elsewhere . \Pr(Y = y)
= \begin{cases}
(y - 1)/30 & \text{for $y = 3, 5, 7, 9, 11$};\\
0 & \text{elsewhere}.
\end{cases}
Pr ( Y = y ) = { ( y − 1 ) /30 0 for y = 3 , 5 , 7 , 9 , 11 ; elsewhere .
(注意:这个概率函数中的概率加起来为 1 1 1 。)
当 Y = u ( X ) Y = u(X) Y = u ( X ) 是一对一映射时,上述过程的通用形式可以表示为:
Pr ( Y = y ) = Pr ( u ( X ) = y ) = Pr ( X = u − 1 ( y ) ) = p X ( u − 1 ( y ) ) , for y ∈ R Y . \Pr(Y = y)
= \Pr\big(u(X) = y\big)
= \Pr\big(X = u^{-1} (y)\big)
= p_X\big(u^{-1}(y)\big), \quad\text{for $y\in R_Y$}.
Pr ( Y = y ) = Pr ( u ( X ) = y ) = Pr ( X = u − 1 ( y ) ) = p X ( u − 1 ( y ) ) , for y ∈ R Y .
示例 7.2(一对一变换) 让 X X X 服从的概率函数为二项分布
p X ( x ) = { ( 3 x ) ( 0.2 ) x ( 0.8 ) 3 − x for x = 0 , 1 , 2 , 3 ; 0 otherwise . p_X(x) = \begin{cases}
\binom{3}{x}(0.2)^x (0.8)^{3 - x} & \text{for $x = 0, 1, 2, 3$};\\
0 & \text{otherwise}.
\end{cases}
p X ( x ) = { ( x 3 ) ( 0.2 ) x ( 0.8 ) 3 − x 0 for x = 0 , 1 , 2 , 3 ; otherwise .
要找到 Y = X 2 Y = X^2 Y = X 2 的概率函数,首先请注意 Y = X 2 Y = X^2 Y = X 2 通常 不是 一对一变换,但在这里 X X X 仅对 x = 0 、 1 、 2 、 3 x = 0、1、2、3 x = 0 、 1 、 2 、 3 具有非零概率。
变换 y = u ( x ) = x 2 y = u(x) = x^2 y = u ( x ) = x 2 , R X = { x ∣ x = 0 , 1 , 2 , 3 } R_X = \{ x \mid x = 0, 1, 2, 3 \} R X = { x ∣ x = 0 , 1 , 2 , 3 } 映射到 R Y = { y ∣ y = 0 , 1 , 4 , 9 } R_Y = \{y \mid y = 0, 1 , 4, 9\} R Y = { y ∣ y = 0 , 1 , 4 , 9 } 。逆函数是 x = w ( y ) = y x = w(y) = \sqrt{y} x = w ( y ) = y ,因此 Y Y Y 的概率函数是
p Y ( y ) = p X ( y ) = { ( 3 y ) ( 0.2 ) y ( 0.8 ) 3 − y for y = 0 , 1 , 4 , 9 0 otherwise . p_Y(y) = p_X(\sqrt{y})
= \begin{cases}
\binom{3}{\sqrt{y}}(0.2)^{\sqrt{y}} (0.8)^{3 - \sqrt{y}} & \text{for $y = 0, 1, 4, 9$}\\
0 & \text{otherwise}.
\end{cases}
p Y ( y ) = p X ( y ) = { ( y 3 ) ( 0.2 ) y ( 0.8 ) 3 − y 0 for y = 0 , 1 , 4 , 9 otherwise .
现在考虑函数 u u u 不是 一对一的情况。
示例 7.3(不是一对一变换) 假设 Pr ( X = x ) \Pr(X = x) Pr ( X = x ) 与示例 7.1, 并定义 Y = ∣ X − 3 ∣ Y = |X - 3| Y = ∣ X − 3∣ 。由于 R Y = { 0 , 1 , 2 } R_Y = \{0, 1, 2\} R Y = { 0 , 1 , 2 } 映射不是一对一的:如果 X = 3 X = 3 X = 3 则事件 Y = 0 Y = 0 Y = 0 发生,如果 X = 2 X= 2 X = 2 或 X = 4 X = 4 X = 4 则事件 Y = 1 Y = 1 Y = 1 发生,如果 X = 1 X = 1 X = 1 或 X = 5 X = 5 X = 5 ,则事件 Y = 2 Y = 2 Y = 2 发生。因此,R Y { 0 , 1 , 2 } R_Y \{ 0, 1, 2\} R Y { 0 , 1 , 2 } 。
要找到 Y Y Y 的概率分布:
Pr ( Y = 0 ) = Pr ( X = 3 ) = 3 / 15 = 1 5 ; Pr ( Y = 1 ) = Pr ( X = 2 or 4 ) = 2 15 + 4 15 = 2 5 ; Pr ( Y = 2 ) = Pr ( X = 1 or 5 ) = 1 15 + 5 15 = 2 5 . \begin{align*}
\Pr(Y = 0)
&= \Pr(X = 3) = 3/15 = \frac{1}{5};\\
\Pr(Y = 1)
&= \Pr(X = 2 \text{ or } 4) = \frac{2}{15} + \frac{4}{15} = \frac{2}{5};\\
\Pr(Y = 2)
&= \Pr(X = 1 \text{ or } 5) = \frac{1}{15} + \frac{5}{15} = \frac{2}{5}.
\end{align*}
Pr ( Y = 0 ) Pr ( Y = 1 ) Pr ( Y = 2 ) = Pr ( X = 3 ) = 3/15 = 5 1 ; = Pr ( X = 2 or 4 ) = 15 2 + 15 4 = 5 2 ; = Pr ( X = 1 or 5 ) = 15 1 + 15 5 = 5 2 .
Y Y Y 的概率函数是
p Y ( y ) = { 1 / 5 for y = 0 ; 2 / 5 for y = 1 ; 2 / 5 for y = 2 ; 0 elsewhere . p_Y(y) =
\begin{cases}
1/5 & \text{for $y = 0$};\\
2/5 & \text{for $y = 1$};\\
2/5 & \text{for $y = 2$};\\
0 & \text{elsewhere}.
\end{cases}
p Y ( y ) = ⎩ ⎨ ⎧ 1/5 2/5 2/5 0 for y = 0 ; for y = 1 ; for y = 2 ; elsewhere .
2.1.2 双变量情况
双变量情况类似于单变量情况。我们在二维点集 R X 2 R^2_X R X 2 上定义了两个离散型随机变量 X 1 X_1 X 1 和 X 2 X_2 X 2 的联合概率函数 p X 1 , X 2 ( x 1 , x 2 ) p_{X_1, X_2}(x_1, x_2) p X 1 , X 2 ( x 1 , x 2 ) , 其中 p ( x 1 , x 2 ) > 0 p(x_1 , x_2) > 0 p ( x 1 , x 2 ) > 0 。现在有两个 一对一的变换 :
y 1 = u 1 ( x 1 , x 2 ) and y 2 = u 2 ( x 1 , x 2 ) y_1 = u_1( x_1, x_2)\qquad\text{and}\qquad y_2 = u_2( x_1, x_2)
y 1 = u 1 ( x 1 , x 2 ) and y 2 = u 2 ( x 1 , x 2 )
将 R X 2 R^2_X R X 2 映射到 R Y 2 R^2_Y R Y 2 (p ( y 1 , y 2 ) > 0 p(y_1, y_2) > 0 p ( y 1 , y 2 ) > 0 的二维点集)。两个逆函数是
x 1 = w 1 ( y 1 , y 2 ) and x 2 = w 2 ( y 1 , y 2 ) x_1 = w_1( y_1, y_2)\qquad\text{and}\qquad x_2 = w_2( y_1, y_2)
x 1 = w 1 ( y 1 , y 2 ) and x 2 = w 2 ( y 1 , y 2 )
那么新的(变换后的)随机变量的联合概率函数是
p Y 1 , Y 2 ( y 1 , y 2 ) = { p X 1 , X 2 ( w 1 ( y 1 , y 2 ) , w 2 ( y 1 , y 2 ) ) where ( y 1 , y 2 ) ∈ R Y 2 ; 0 elsewhere . p_{Y_1, Y_2}(y_1, y_2) =
\begin{cases}
p_{X_1, X_2}\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) & \text{where $(y_1, y_2)\in R^2_Y$};\\
0 & \text{elsewhere}.
\end{cases}
p Y 1 , Y 2 ( y 1 , y 2 ) = { p X 1 , X 2 ( w 1 ( y 1 , y 2 ) , w 2 ( y 1 , y 2 ) ) 0 where ( y 1 , y 2 ) ∈ R Y 2 ; elsewhere .
示例 7.4(双变量变换) 让两个离散型随机变量 X 1 X_1 X 1 和 X 2 X_2 X 2 具有表 7.1。
表 7.1:双变量概率函数
x 2 = 0 x_2 = 0 x 2 = 0
x 2 = 1 x_2 = 1 x 2 = 1
x 2 = 2 x_2 = 2 x 2 = 2
x 1 = − 1 x_1 = -1 x 1 = − 1
0.3 0.3 0.3
0.1 0.1 0.1
0.1 0.1 0.1
x 1 = + 1 x_1 = +1 x 1 = + 1
0.2 0.2 0.2
0.2 0.2 0.2
0.1 0.1 0.1
考虑两个一对一的变换
Y 1 = X 1 + X 2 and Y 2 = 2 X 1 . Y_1 = X_1 + X_2 \qquad\text{and}\qquad Y_2 = 2 X_1.
Y 1 = X 1 + X 2 and Y 2 = 2 X 1 .
Y 1 Y_1 Y 1 和 Y 2 Y_2 Y 2 的联合概率函数可以通过注意 ( x 1 , x 2 ) (x_1, x_2) ( x 1 , x 2 ) 对映射到 y 1 , y 2 y_1, y_2 y 1 , y 2 空间中的位置来找到:
( x 1 , x 2 ) (x_1,x_2) ( x 1 , x 2 )
↦ \mapsto ↦
( y 1 , y 2 ) (y_1,y_2) ( y 1 , y 2 )
( − 1 , 0 ) (-1, 0) ( − 1 , 0 )
↦ \mapsto ↦
( − 1 , − 2 ) (-1, -2) ( − 1 , − 2 )
( − 1 , 1 ) (-1, 1) ( − 1 , 1 )
↦ \mapsto ↦
( 0 , − 2 ) (0, -2) ( 0 , − 2 )
( − 1 , 2 ) (-1, 2) ( − 1 , 2 )
↦ \mapsto ↦
( 1 , − 2 ) (1, -2) ( 1 , − 2 )
( 1 , 0 ) (1, 0) ( 1 , 0 )
↦ \mapsto ↦
( 1 , 2 ) (1, 2) ( 1 , 2 )
( 1 , 1 ) (1, 1) ( 1 , 1 )
↦ \mapsto ↦
( 2 , 2 ) (2, 2) ( 2 , 2 )
( 1 , 2 ) (1, 2) ( 1 , 2 )
↦ \mapsto ↦
( 3 , 2 ) (3, 2) ( 3 , 2 )
然后可以如表 7.2 所示构建联合概率函数。
表 7.2:Y 1 Y_1 Y 1 和 Y 2 Y_2 Y 2 的联合概率函数
y 1 = − 1 y_1 = -1 y 1 = − 1
y 2 = 0 y_2 = 0 y 2 = 0
y 3 = 1 y_3 = 1 y 3 = 1
y 4 = 2 y_4 = 2 y 4 = 2
y 5 = 3 y_5 = 3 y 5 = 3
y 2 = − 2 y_2 = -2 y 2 = − 2
0.3 0.3 0.3
0.1 0.1 0.1
0.1 0.1 0.1
0.0 0.0 0.0
0.0 0.0 0.0
y 2 = + 2 y_2 = +2 y 2 = + 2
0.0 0.0 0.0
0.0 0.0 0.0
0.2 0.2 0.2
0.2 0.2 0.2
0.1 0.1 0.1
有时,给出了两个随机变量的联合概率函数,但只需要_一个_新的随机变量。在这种情况下,使用第二个(虚拟)变换,通常非常简单。
示例 7.5(双变量变换) 设 X 1 X_1 X 1 和 X 2 X_2 X 2 是两个独立的随机变量,联合概率函数
p X 1 , X 2 ( x 1 , x 2 ) = μ 1 x 1 μ x x 2 exp ( − μ 1 − μ 2 ) x 1 ! x 2 ! for x 1 and x 2 = 0 , 1 , 2 , … p_{X_1, X_2}(x_1, x_2) =
\frac{\mu_1^{x_1} \mu_x^{x_2} \exp( -\mu_1 - \mu_2 )}{x_1!\, x_2!}
\quad\text{for $x_1$ and $x_2 = 0, 1, 2, \dots$}
p X 1 , X 2 ( x 1 , x 2 ) = x 1 ! x 2 ! μ 1 x 1 μ x x 2 exp ( − μ 1 − μ 2 ) for x 1 and x 2 = 0 , 1 , 2 , …
这是两个独立泊松随机变量的联合概率函数。假设我们希望找到 Y 1 = X 1 + X 2 Y_1 = X_1 + X_2 Y 1 = X 1 + X 2 的概率函数。
我们可以考虑两个一对一的变换:
y 1 = x 1 + x 2 = u 1 ( x 1 , x 2 ) y 2 = x 2 = u 2 ( x 1 , x 2 ) \begin{align*}
y_1 &= x_1 + x_2 = u_1(x_1, x_2)\\
y_2 &= x_2 = u_2(x_1, x_2)
\end{align*}
y 1 y 2 = x 1 + x 2 = u 1 ( x 1 , x 2 ) = x 2 = u 2 ( x 1 , x 2 )
它将 R X 2 R^2_X R X 2 中的点映射到
R Y 2 = { ( y 1 , y 2 ) ∣ y 1 = 0 , 1 , 2 , … ; y 2 = 0 , 1 , 2 , … , y 1 } . R^2_Y = \left\{ (y_1, y_2)\mid y_1 = 0, 1, 2, \dots; y_2 = 0, 1, 2, \dots, y_1\right\}.
R Y 2 = { ( y 1 , y 2 ) ∣ y 1 = 0 , 1 , 2 , … ; y 2 = 0 , 1 , 2 , … , y 1 } .
Y 2 Y_2 Y 2 是一个虚拟变换,非常简单。可以选择任何第二个变换(因为它不是直接感兴趣的),因此选择一个简单的。
逆函数是
x 1 = y 1 − y 2 = w 1 ( y 1 , y 2 ) x 2 = y 2 = w 2 ( y 2 ) \begin{align*}
x_1 &= y_1 - y_2 = w_1(y_1, y_2)\\
x_2 &= y_2 = w_2(y_2)
\end{align*}
x 1 x 2 = y 1 − y 2 = w 1 ( y 1 , y 2 ) = y 2 = w 2 ( y 2 )
通过重新排列原始变换。那么 Y 1 Y_1 Y 1 和 Y 2 Y_2 Y 2 的 联合 概率函数是
p Y 1 , Y 2 ( y 1 , y 2 ) = p X 1 , X 2 ( x 1 , x 2 ) ( w 1 ( y 1 , y 2 ) , w 2 ( y 1 , y 2 ) ) = μ 1 y 1 − y 2 μ 2 y 2 exp ( − μ 1 − μ 2 ) ( y 1 − y 2 ) ! y 2 ! for ( y 1 , y 2 ) ∈ R Y 2 . \begin{align*}
p_{Y_1, Y_2}(y_1, y_2)
&= p_{X_1, X_2}(x_1, x_2)\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) \\
&= \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)! y_2!}\quad
\text{for $(y_1, y_2)\in R^2_Y$}.
\end{align*}
p Y 1 , Y 2 ( y 1 , y 2 ) = p X 1 , X 2 ( x 1 , x 2 ) ( w 1 ( y 1 , y 2 ) , w 2 ( y 1 , y 2 ) ) = ( y 1 − y 2 )! y 2 ! μ 1 y 1 − y 2 μ 2 y 2 exp ( − μ 1 − μ 2 ) for ( y 1 , y 2 ) ∈ R Y 2 .
回想一下,我们只求 Y 1 Y_1 Y 1 的概率函数,所以我们需要找到 p Y 1 , Y 2 ( y 1 , y 2 ) p_{Y_1, Y_2}(y_1, y_2) p Y 1 , Y 2 ( y 1 , y 2 ) 的边缘概率函数。 Y 1 Y_1 Y 1 的边缘概率函数是
p Y 1 ( y 1 ) = ∑ y 2 = 0 y 1 p Y 1 , Y 2 ( y 1 , y 2 ) = ∑ y 2 = 0 y 1 μ 1 y 1 − y 2 μ 2 y 2 exp ( − μ 1 − μ 2 ) ( y 1 − y 2 ) ! y 2 ! , p_{Y_1}(y_1) = \sum_{y_2 = 0}^{y_1} p_{Y_1, Y_2}(y_1, y_2)
= \sum_{y_2 = 0}^{y_1} \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)!\, y_2!},
p Y 1 ( y 1 ) = y 2 = 0 ∑ y 1 p Y 1 , Y 2 ( y 1 , y 2 ) = y 2 = 0 ∑ y 1 ( y 1 − y 2 )! y 2 ! μ 1 y 1 − y 2 μ 2 y 2 exp ( − μ 1 − μ 2 ) ,
这相当于
p Y 1 ( y 1 ) = { ( μ 1 + μ 2 ) y 1 exp [ − ( μ 1 + μ 2 ) ] y 1 ! for y 1 = 0 , 1 , 2 , … 0 otherwise . p_{Y_1}(y_1) =
\begin{cases}
\displaystyle{\frac{(\mu_1 + \mu_2)^{y_1}\exp\big[-(\mu_1 + \mu_2)\big]}{y_1!}} & \text{for $y_1 = 0, 1, 2, \dots$}\\
0 & \text{otherwise}.
\end{cases}
p Y 1 ( y 1 ) = ⎩ ⎨ ⎧ y 1 ! ( μ 1 + μ 2 ) y 1 exp [ − ( μ 1 + μ 2 ) ] 0 for y 1 = 0 , 1 , 2 , … otherwise .
这是均值为 μ 1 + μ 2 \mu_1 + \mu_2 μ 1 + μ 2 的泊松随机变量的概率函数。因此 Y 1 ∼ Pois ( λ = μ 1 + μ 2 ) Y_1 \sim \text{Pois}(\lambda = \mu_1 + \mu_2) Y 1 ∼ Pois ( λ = μ 1 + μ 2 ) 。
2.2 连续型随机变量
2.2.1 单变量情况
定理 7.1(变量变化定理) 如果对于 x ∈ R X x\in R_X x ∈ R X ,X X X 有概率密度函数 f X ( x ) f_X(x) f X ( x ) ,并且 u u u 是 x ∈ R X x \in R_X x ∈ R X 中的一个一对一函数,则随机变量 Y = u ( X ) Y = u(X) Y = u ( X ) 具有概率密度函数
f Y ( y ) = f X ( x ) ∣ d x d y ∣ f_Y(y) = f_X(x) \left|\frac{dx}{dy}\right|
f Y ( y ) = f X ( x ) d y d x
其中公式右侧为 y y y 的函数。∣ d x / d y ∣ \left|dx/dy\right| ∣ d x / d y ∣ 项被称为 变换的雅可比 ,符号 ∣ ⋅ ∣ |\cdot| ∣ ⋅ ∣ 表示绝对值。
证明 :令逆函数为 X = w ( Y ) X = w(Y) X = w ( Y ) 使得 w ( y ) = u − 1 ( x ) w(y) = u^{-1}(x) w ( y ) = u − 1 ( x ) 。
案例 1: y = u ( x ) y = u(x) y = u ( x ) 是一个严格 递增 函数(图 7.1)如果 a < y < b a < y < b a < y < b 那么 w ( a ) < x < w ( b ) w(a) < x < w(b) w ( a ) < x < w ( b ) 并且 Pr ( a < Y < b ) = Pr ( w ( a ) < X < w ( b ) ) \Pr(a < Y < b) = \Pr\big(w(a) < X <w(b) \big) Pr ( a < Y < b ) = Pr ( w ( a ) < X < w ( b ) ) ,所以
∫ a b f Y ( y ) d y = ∫ w ( a ) w ( b ) f X ( x ) d x = ∫ a b f ( w ( y ) ) d x d y d y {\int^b_a f_Y(y)\,dy
=\int^{w(b)}_{w(a)}f_X(x)\,dx
=\int^b_af\big( w(y)\big)\frac{dx}{dy}\,\,dy}
∫ a b f Y ( y ) d y = ∫ w ( a ) w ( b ) f X ( x ) d x = ∫ a b f ( w ( y ) ) d y d x d y
因此,f Y ( y ) = f X ( w ( y ) ) d x d y \displaystyle {f_Y(y) = f_X\big( w(y) \big)\frac{dx}{dy}} f Y ( y ) = f X ( w ( y ) ) d y d x ,其中 w ( y ) = u − 1 ( x ) w(y) = u^{-1}(x) w ( y ) = u − 1 ( x ) 。
图 7.1:单调递增变换函数(左图)和递减函数(右图)。
案例 2: y = u ( x ) y = u(x) y = u ( x ) 是 x x x 的严格 递减 函数(图 7.1 右图).如果 a < y < b a < y < b a < y < b 那么 w ( b ) < x < w ( a ) w(b) < x < w(a) w ( b ) < x < w ( a ) 并且 Pr ( a < Y < b ) = Pr ( w ( b ) < X < w ( a ) ) \Pr(a < Y < b) = \Pr\big(w(b) < X < w(a) \big) Pr ( a < Y < b ) = Pr ( w ( b ) < X < w ( a ) ) , 所以,
∫ a b f Y ( y ) d y = ∫ w ( b ) w ( a ) f X ( x ) d x = ∫ b a f X ( x ) d x d y d y = − ∫ a b f X ( x ) d x d y d y . \begin{align*}
\int^b_a f_Y(y)\,dy & = \int^{w(a)}_{w(b)}f_X(x)\,dx\\
& = \int^a_bf_X(x)\frac{dx}{dy}\,\,dy\\
& = - \int ^b_a f_X(x)\frac{dx}{dy}\,dy.
\end{align*}
∫ a b f Y ( y ) d y = ∫ w ( b ) w ( a ) f X ( x ) d x = ∫ b a f X ( x ) d y d x d y = − ∫ a b f X ( x ) d y d x d y .
因此 f Y ( y ) = − f X ( w ( y ) ) d x d y f_Y(y) = -f_X\left( w(y) \right)\displaystyle{\frac{dx}{dy}} f Y ( y ) = − f X ( w ( y ) ) d y d x 。但是 d x / d y dx/dy d x / d y 在递减函数的情况下是负的,所以一般来说
f Y ( y ) = f X ( x ) ∣ d x d y ∣ . f_Y(y) = f_X(x)\left|\frac{dx}{dy} \right|.
f Y ( y ) = f X ( x ) d y d x .
w ′ ( y ) = d x / d y w'(y) = dx/dy w ′ ( y ) = d x / d y 的绝对值称为 变换的雅可比矩阵 。
示例 7.6(对数变换) 让 X X X 的概率密度函数由下式给出
f X ( x ) = { 1 for 0 < x < 1 ; 0 elsewhere . f_X(x) =
\begin{cases}
1 & \text{for $0 < x < 1$};\\
0 & \text{elsewhere}.
\end{cases}
f X ( x ) = { 1 0 for 0 < x < 1 ; elsewhere .
考虑变换 Y = − 2 log X Y = -2\log X Y = − 2 log X (其中 log \log log 指以 e e e 为底的对数,或 自然对数 )。变换是一对一的,逆变换是
X = exp ( − Y / 2 ) = w ( Y ) X = \exp( -Y/2) = w(Y)
X = exp ( − Y /2 ) = w ( Y )
从空间 R X = { x ∣ 0 < x < 1 } R_X = \{x \mid 0 < x < 1\} R X = { x ∣ 0 < x < 1 } 映射到空间 R y = { y ∣ 0 < y < ∞ } R_y = \{y \mid 0 < y < \infty\} R y = { y ∣ 0 < y < ∞ } 。然后
w ′ ( y ) = d d y exp ( − y / 2 ) = − 1 2 exp ( − y / 2 ) , w'(y) = \frac{d}{dy} \exp(-y/2) = -\frac{1}{2}\exp(-y/2),
w ′ ( y ) = d y d exp ( − y /2 ) = − 2 1 exp ( − y /2 ) ,
所以 变换的雅可比 ∣ w ′ ( y ) ∣ = exp ( − y / 2 ) / 2 |w'(y)| = \exp(-y/2)/2 ∣ w ′ ( y ) ∣ = exp ( − y /2 ) /2 。 Y = − 2 log X Y = -2\log X Y = − 2 log X 的概率密度函数是
f Y ( y ) = f X { w ( y ) } ∣ w ′ ( y ) ∣ = f X { exp ( − y / 2 ) } exp ( − y / 2 ) / 2 = 1 2 exp ( − y / 2 ) for y > 0 \begin{align*}
f_Y(y)
&= f_X\{w(y)\} |w'(y)| \\
&= f_X\{\exp(-y/2)\} \exp(-y/2)/2 \\
&= \frac{1}{2}\exp(-y/2)\quad\text{for $y > 0$}
\end{align*}
f Y ( y ) = f X { w ( y )} ∣ w ′ ( y ) ∣ = f X { exp ( − y /2 )} exp ( − y /2 ) /2 = 2 1 exp ( − y /2 ) for y > 0
即 Y ∼ Exp ( 2 ) Y \sim \text{Exp}(2) Y ∼ Exp ( 2 ) 。
示例 7.7(平方根变换) 考虑随机变量 X X X ,概率密度函数f X ( x ) = e − x f_X(x) = e^{-x} f X ( x ) = e − x for x ≥ 0 x \geq 0 x ≥ 0 。要找到 Y = X Y = \sqrt{X} Y = X 的概率密度函数,首先看到 y = x y = \sqrt{x} y = x 是 x ≥ 0 x \geq 0 x ≥ 0 的严格递增函数(图 7.2)。
图 7.2:平方根变换
逆关系是 x = y 2 x = y^2 x = y 2 ,d x / d y = ∣ 2 y ∣ = 2 y dx/dy = |2y| = 2y d x / d y = ∣2 y ∣ = 2 y 。 Y Y Y 的概率密度函数是
f Y ( y ) = f X ( x ) ∣ d x d y ∣ = 2 y e − y 2 for y ≥ 0 . \begin{align*}
f_Y(y)
&= f_X(x)\left|\frac{dx}{dy}\right|\\
&= 2y e^{-y^2}\quad \text{for $y\geq0$}.
\end{align*}
f Y ( y ) = f X ( x ) d y d x = 2 y e − y 2 for y ≥ 0 .
示例 7.8(Tan 变换) 让随机变量 X X X 均匀分布在 [ − π / 2 , π / 2 ] [-\pi/2, \pi/2] [ − π /2 , π /2 ] 上。找到 Y = tan X Y = \tan X Y = tan X 的分布(图 7.3)。
图 7.3:tan 变换
对于映射 y = tan x y = \tan x y = tan x ,我们看到 R Y = { y ∣ − ∞ < y < ∞ } R_Y = \{ y\mid -\infty <y<\infty\} R Y = { y ∣ − ∞ < y < ∞ } 。该映射是一对一的,因此 x = tan − 1 y x = \tan^{-1}y x = tan − 1 y ,d x / d y = 1 / ( 1 + y 2 ) dx/dy = 1/(1 + y^2) d x / d y = 1/ ( 1 + y 2 ) 。因此
f Y ( y ) = f X ( x ) ∣ d x d y ∣ = 1 π ( 1 + y 2 ) . f_Y(y)
= f_X(x)\left|\frac{dx}{dy}\right|
= \frac{1}{\pi(1 + y^2)}.
f Y ( y ) = f X ( x ) d y d x = π ( 1 + y 2 ) 1 .
这是 Cauchy 分布 。
下面这个例子考虑了函数 u u u 不是一对一的情况,使用定理 7.1 的修改。
示例 7.9(非一对一变换) 给定一个服从 N ( 0 , 1 ) N(0, 1) N ( 0 , 1 ) 分布的随机变量 Z Z Z ,找出 Y = 1 2 Z 2 Y = \frac{1}{2}Z^2 Y = 2 1 Z 2 的概率分布。
图 7.4:非一对一变换
关系 y = u ( z ) = 1 2 z 2 y = u(z) = \frac{1}{2}z^2 y = u ( z ) = 2 1 z 2 在 ( − ∞ , ∞ ) (-\infty, \infty ) ( − ∞ , ∞ ) 中不增加或严格减少,所以定理 7.1 不能直接应用。相反,细分 z z z 和 y y y 的范围,以便在每个部分中关系是单调的。然后:
f Z ( z ) = 1 2 π e − 1 2 z 2 for − ∞ < z < ∞ . f_Z(z) =
\frac{1}{\sqrt{2\pi}}\,e^{-\frac{1}{2} z^2}\quad\text{for $-\infty < z < \infty$}.
f Z ( z ) = 2 π 1 e − 2 1 z 2 for − ∞ < z < ∞ .
逆关系 z = u − 1 ( y ) z = u^{-1}(y) z = u − 1 ( y ) 是 z = ± 2 y z = \pm \sqrt{2y} z = ± 2 y 。对于给定的 y y y 值,可能有两个 z z z 值。在 − ∞ < z < 0 -\infty < z < 0 − ∞ < z < 0 范围内,则 y y y 和 z z z 单调相关。类似地,对于 0 < z < ∞ 0 < z <\infty 0 < z < ∞ ,y y y 和 z z z 是单调相关的。因此(见图 7.4),
Pr ( a < Y < b ) = Pr ( − 2 b < Z < − 2 a ) + Pr ( 2 a < Z < 2 b ) . \Pr(a < Y <b) = \Pr(-\sqrt{2b} < Z < -\sqrt{2a}\,) + \Pr(\sqrt{2a} < Z < \sqrt{2b}\,).
Pr ( a < Y < b ) = Pr ( − 2 b < Z < − 2 a ) + Pr ( 2 a < Z < 2 b ) .
右边的两项相等,因为 Z Z Z 的分布关于 0 0 0 对称。因此 Pr ( a < Y < b ) = 2 Pr ( 2 a < Z < 2 b ) \Pr(a < Y < b) = 2\Pr(\sqrt{2a} < Z < \sqrt{2b}\,) Pr ( a < Y < b ) = 2 Pr ( 2 a < Z < 2 b ) ,并且
f Y ( y ) = 2 f Z ( z ) ∣ d z d y ∣ = 2 1 2 π e − y 1 2 y ; \begin{align*}
f_Y(y)
&= 2f_Z(z)\left| \frac{dz}{dy}\right|\\
&= 2\frac{1}{\sqrt{2\pi}}e^{-y}\frac{1}{\sqrt{2y}};
\end{align*}
f Y ( y ) = 2 f Z ( z ) d y d z = 2 2 π 1 e − y 2 y 1 ;
也就是,
f Y ( y ) = e − y y − 1 2 / π for 0 < y < ∞ . f_Y(y)
= e^{-y}y^{-\frac{1}{2}} / \sqrt{\pi}\quad\text{for $0 < y < \infty$}.
f Y ( y ) = e − y y − 2 1 / π for 0 < y < ∞ .
此概率密度函数是一个 gamma 分布,参数 α = 1 / 2 \alpha = 1/2 α = 1/2 、β = 1 \beta = 1 β = 1 。由此得出,如果 X X X 为 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) ,则 Y = 1 2 ( X − μ ) 2 / σ 2 Y = \frac{1}{2} (X - \mu )^2 / \sigma^2 Y = 2 1 ( X − μ ) 2 / σ 2 的概率密度函数为Gamma ( α = 1 / 2 , β = 1 ) \text{Gamma}(\alpha = 1/2,\beta = 1) Gamma ( α = 1/2 , β = 1 ) 从那时起 ( X − μ ) σ (X - \mu)\sigma ( X − μ ) σ 分布为 N ( 0 , 1 ) N(0, 1) N ( 0 , 1 ) 。
请注意,如果 Y = u ( Z ) Y = u(Z) Y = u ( Z ) 和 Z Z Z 的概率密度函数关于同一点对称。
3 分布函数法
此方法仅适用于连续随机变量。
有两个基本步骤:
(1) 找到变换变量的 分布函数(累积密度函数) 。
(2) 微分求 概率密度函数 。
使用示例可以最好地演示该过程。
示例 7.10(分布函数法) 考虑具有如下概率密度函数的随机变量 X X X
f X ( x ) = { x / 4 for 1 < x < 3 ; 0 elsewhere . f_X(x) = \begin{cases}
x/4 & \text{for $1 < x < 3$};\\
0 & \text{elsewhere}.
\end{cases}
f X ( x ) = { x /4 0 for 1 < x < 3 ; elsewhere .
要找到随机变量 Y Y Y 的概率密度函数,其中 Y = X 2 Y = X^2 Y = X 2 ,首先要看 1 < y < 9 1 < y < 9 1 < y < 9 。 Y Y Y 的分布函数是
F Y ( y ) = Pr ( Y ≤ y ) (by definition) = Pr ( X 2 ≤ y ) (since Y = X 2 ) = Pr ( X ≤ y ) . \begin{align*}
F_Y(y)
&= \Pr(Y\le y) \qquad\text{(by definition)}\\
&= \Pr(X^2 \le y) \qquad\text{(since $Y = X^2$)}\\
&= \Pr(X\le \sqrt{y}\,).
\end{align*}
F Y ( y ) = Pr ( Y ≤ y ) (by definition) = Pr ( X 2 ≤ y ) (since Y = X 2 ) = Pr ( X ≤ y ) .
最后一步并不是微不足道的,而是至关重要的。有时,需要更加小心(如下一个示例所示)。在这种情况下,X X X 和 Y Y Y 在定义了 X X X 的区域上存在一对一的关系(即具有正概率);参见图 7.5。
当 X X X 定义为从 1 1 1 到 3 3 3 时,变换 Y = X 2 Y = X^2 Y = X 2 。较粗的线对应于应用变换的区域。请注意,如果 Y < y Y < y Y < y ,则 2 − y − 1 < X < 2 + y − 1 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} 2 − y − 1 < X < 2 + y − 1
图 7.5:当 X X X 定义为从 1 1 1 到 3 3 3 时,变换 Y = X 2 Y = X^2 Y = X 2 。较粗的线对应于应用变换的区域。请注意,如果 Y < y Y < y Y < y ,则 2 − y − 1 < X < 2 + y − 1 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} 2 − y − 1 < X < 2 + y − 1 。
然后继续如下:
F Y ( y ) = Pr ( X ≤ y ) = F X ( y ) (by definition of F X ( x ) ) = ∫ 1 y ( x / 4 ) d x = ( y − 1 ) / 8 \begin{align*}
F_Y(y)
&=\Pr( X\le \sqrt{y}\,) \\
&= F_X\big(\sqrt{y}\,\big) \qquad\text{(by definition of $F_X(x)$)} \\
&= \int_1^{\sqrt{y}} (x/4) \,dx \\
&= (y - 1)/8
\end{align*}
F Y ( y ) = Pr ( X ≤ y ) = F X ( y ) (by definition of F X ( x ) ) = ∫ 1 y ( x /4 ) d x = ( y − 1 ) /8
上式满足对于 1 < y < 9 1 < y < 9 1 < y < 9 ,在其他地方为零。这是 Y Y Y 的 分布函数 ;进而得到概率密度函数:
f Y ( y ) = d d y ( y − 1 ) / 8 = { 1 / 8 for 1 < y < 9 ; 0 elsewhere . f_Y(y)
= \frac{d}{dy} (y - 1)/8
= \begin{cases}
1/8 & \text{for $1 < y < 9$};\\
0 & \text{elsewhere}.
\end{cases}
f Y ( y ) = d y d ( y − 1 ) /8 = { 1/8 0 for 1 < y < 9 ; elsewhere .
请注意定义 Y Y Y 的范围;因为 1 < x < 3 1 < x < 3 1 < x < 3 ,所以 1 < y < 9 1 < y < 9 1 < y < 9 。
示例 7.11(变换) 考虑与前面示例相同的随机变量 X X X ,但变换 Y = ( X − 2 ) 2 + 1 Y = (X - 2)^2 + 1 Y = ( X − 2 ) 2 + 1 (图 7.6)。
图 7.6:当 X X X 定义为从 1 1 1 到 3 3 3 时,变换 Y = ( X − 2 ) 2 + 1 Y = (X - 2)^2 + 1 Y = ( X − 2 ) 2 + 1 。较粗的线对应于应用变换的区域。请注意,如果 Y < y Y < y Y < y ,则 2 − y − 1 < X < 2 + y − 1 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} 2 − y − 1 < X < 2 + y − 1 。
在这种情况下,变换不是 一对一变换。像以前一样找到 Y Y Y 的分布函数:
F Y ( y ) = Pr ( Y ≤ y ) (by definition) = Pr ( ( X − 2 ) 2 + 1 ≤ y ) \begin{align*}
F_Y(y)
&= \Pr(Y\le y) \qquad\text{(by definition)}\\
&= \Pr\big( (X - 2)^2 + 1 \le y\big)
\end{align*}
F Y ( y ) = Pr ( Y ≤ y ) (by definition) = Pr ( ( X − 2 ) 2 + 1 ≤ y )
因为 Y = ( X − 2 ) 2 + 1 Y = (X - 2)^2 + 1 Y = ( X − 2 ) 2 + 1 。从图 7.6,每当 ( X − 2 ) 2 + 1 < y (X - 2)^2 + 1 < y ( X − 2 ) 2 + 1 < y 对于某个值 y y y ,则X X X 必须在 2 − y − 1 2 - \sqrt{y - 1} 2 − y − 1 到 2 + y − 1 2 + \sqrt{y - 1} 2 + y − 1 范围内。所以:
F Y ( y ) = Pr ( ( X − 2 ) 2 + 1 ≤ y ) = Pr ( 2 − y − 1 < X < 2 + y − 1 ) = ∫ 2 − y − 1 2 + y − 1 x / 4 d x = 1 8 x 2 ∣ 2 − y − 1 2 + y − 1 = 1 8 [ ( 2 + y − 1 ) 2 − ( 2 − y − 1 ) 2 ] = y − 1 . \begin{align*}
F_Y(y)
&= \Pr\big( (X - 2)^2 + 1 \le y\big) \\
&= \Pr\left( 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} \right)\\
&= \int_{2-\sqrt{y - 1}}^{2 + \sqrt{y - 1}} x/4\,dx \\
&= \left.\frac{1}{8} x^2\right|_{2 - \sqrt{y - 1}}^{2 + \sqrt{y - 1}} \\
&= \frac{1}{8} \left[ \left(2 + \sqrt{y - 1}\right)^2 - \left(2 - \sqrt{y - 1}\right)^2\right] \\
&= \sqrt{y - 1}.
\end{align*}
F Y ( y ) = Pr ( ( X − 2 ) 2 + 1 ≤ y ) = Pr ( 2 − y − 1 < X < 2 + y − 1 ) = ∫ 2 − y − 1 2 + y − 1 x /4 d x = 8 1 x 2 2 − y − 1 2 + y − 1 = 8 1 [ ( 2 + y − 1 ) 2 − ( 2 − y − 1 ) 2 ] = y − 1 .
同样,这是分布函数;所以
f Y ( y ) = { 1 2 y − 1 for 1 < y < 2 ; 0 elsewhere . f_Y(y) = \begin{cases}
\frac{1}{2\sqrt{y - 1}} & \text{for $1 < y < 2$};\\
0 & \text{elsewhere}.
\end{cases}
f Y ( y ) = { 2 y − 1 1 0 for 1 < y < 2 ; elsewhere .
示例 7.12 (变换) 在此重复示例 7.9, 但使用分布函数。 给定 Z Z Z 分布为 N ( 0 , 1 ) N(0, 1) N ( 0 , 1 ) ,我们寻求 Y = 1 2 Z 2 Y = \frac{1}{2} Z^2 Y = 2 1 Z 2 的概率分布。首先,
f Z ( z ) = ( 2 π ) − 1 2 e − z 2 / 2 for z ∈ ( − ∞ , ∞ ) . f_Z(z)
= (2\pi )^{-\frac 12}\,e^{-z^2/2}\quad\text{for $z\in (-\infty ,\,\infty )$}.
f Z ( z ) = ( 2 π ) − 2 1 e − z 2 /2 for z ∈ ( − ∞ , ∞ ) .
设 Y Y Y 有概率密度函数f Y ( y ) f_Y(y) f Y ( y ) 和 df F Y ( y ) F_Y(y) F Y ( y ) 。然后
F Y ( y ) = Pr ( Y ≤ y ) = Pr ( 1 2 Z 2 ≤ y ) = Pr ( Z 2 ≤ 2 y ) = Pr ( − 2 y ≤ Z ≤ 2 y ) = F Z ( 2 y ) − F Z ( − 2 y ) \begin{align*}
F_Y(y)
= \Pr(Y\leq y)
&= \Pr\left(\frac{1}{2}Z^2\leq y\right)\\
&= \Pr(Z^2\leq 2y)\\
& = \Pr(-\sqrt{2y}\leq Z\leq \sqrt{2y}\,)\\
& = F_Z(\sqrt{2y}\,) - F_Z(-\sqrt{2y}\,)
\end{align*}
F Y ( y ) = Pr ( Y ≤ y ) = Pr ( 2 1 Z 2 ≤ y ) = Pr ( Z 2 ≤ 2 y ) = Pr ( − 2 y ≤ Z ≤ 2 y ) = F Z ( 2 y ) − F Z ( − 2 y )
其中 F Z F_Z F Z 是 Z Z Z 的 df。 因此像以前一样:
f Y ( y ) = F Y ′ ( y ) = F Z ′ ( 2 y ) − F Z ′ ( − 2 y ) = 2 2 y f Z ( 2 y ) − 2 − 2 y f Z ( − 2 y ) = 1 2 y [ f Z ( 2 y ) + f Z ( − 2 y ) ] = 1 2 y [ 1 2 π e − y + 1 2 π e − y ] = e − y y − 1 2 π \begin{align*}
f_Y(y)
= F_Y'(y)
&= F_Z'(\sqrt{2y}\,)-F_Z'(-\sqrt{2y}\,)\\
&= \frac{\sqrt{2}}{2\sqrt{y}}f_Z(\sqrt{2y}\,) - \frac{\sqrt{2}}{-
2\sqrt{y}}f_Z(-\sqrt{2y}\,)\\[2mm]
&= \frac{1}{\sqrt{2y}}[f_Z(\sqrt{2y}\,) + f_Z(-\sqrt{2y}\,)]\\
&= \frac{1}{2y} \left[ \frac{1}{\sqrt{2\pi}}\,e^{-y}+\frac{1}{\sqrt{2\pi}}\,e^{-y}\right]\\
&= \frac{e^{-y}y^{-\frac{1}{2}}}{\sqrt{\pi}}
\end{align*}
f Y ( y ) = F Y ′ ( y ) = F Z ′ ( 2 y ) − F Z ′ ( − 2 y ) = 2 y 2 f Z ( 2 y ) − − 2 y 2 f Z ( − 2 y ) = 2 y 1 [ f Z ( 2 y ) + f Z ( − 2 y )] = 2 y 1 [ 2 π 1 e − y + 2 π 1 e − y ] = π e − y y − 2 1
需要注意确保逻辑上遵循这些步骤,图 7.5 和图 7.6 的做法受到鼓励。 此外,制作出来的函数应该是概率密度函数;检查是否是这种情况。
4 矩生成函数法
矩生成函数 (mgf) 方法可用于查找 n n n 个独立随机变量的线性组合的分布。该方法本质上涉及在给定独立 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 的联合分布时计算变换变量 Y = u ( X 1 , X 2 , … , X n ) Y = u(X_1, X_2, \dots, X_n) Y = u ( X 1 , X 2 , … , X n ) 的矩生成函数。
矩生成函数方法依赖于此观察:由于随机变量的矩生成函数(如果存在)完全指定了随机变量的分布,那么如果两个随机变量具有相同的矩生成函数,则它们必须具有相同的分布。
下面演示了变换 Y = X 1 + X 2 + ⋯ X n Y = X_1 + X_2 + \cdots X_n Y = X 1 + X 2 + ⋯ X n ,但同样的原理也适用于其他线性组合。
考虑 n n n 个 独立随机变量 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 和矩生成函数 M X 1 ( t ) M_{X_1}(t) M X 1 ( t ) , M X 2 ( t ) M_{X_2}(t) M X 2 ( t ) , … \dots … , M X n ( t ) M_{X_n}( t) M X n ( t ) ,并考虑变换 Y = X 1 + X 2 + ⋯ X n Y = X_1 + X_2 + \cdots X_n Y = X 1 + X 2 + ⋯ X n 。由于 X i X_i X i 是独立的,f X 1 , X 2 … X n ( x 1 , x 2 , … , x n ) = f X 1 ( x 1 ) . f X 2 ( x 2 ) … f X n ( x n ) f_{X_1,X_2\dots X_n}(x_1, x_2, \dots, x_n) = f_{X_1}(x_1).f_{X_2}(x_2)\dots f_{X_n} (x_n) f X 1 , X 2 … X n ( x 1 , x 2 , … , x n ) = f X 1 ( x 1 ) . f X 2 ( x 2 ) … f X n ( x n ) 。所以,根据矩生成函数的定义,
M Y ( t ) = E ( exp ( t Y ) ) = E ( exp [ t ( X 1 + X 2 + ⋯ X n ) ] ) = ∫ ∫ ⋯ ∫ exp [ t ( x 1 + x 2 + ⋯ x n ) ] f ( x 1 , x 2 , … x n ) d x n … d x 2 d x 1 = ∫ ∫ ⋯ ∫ exp ( t x 1 ) f ( x 1 ) exp ( t x 2 ) f ( x 2 ) … exp ( t x n ) f ( x n ) d x n … d x 2 d x 1 = ∫ exp ( t x 1 ) f ( x 1 ) d x 1 ∫ exp ( t x 2 ) f ( x 2 ) d x 2 ⋯ ∫ exp ( t x n ) f ( x n ) d x n = M X 1 ( t ) M X 2 ( t ) … M X n ( t ) = ∏ i = 1 n M X i ( t ) . \begin{align*}
M_Y(t)
&= \text{E}(\exp(tY)) \\
&= \text{E}(\exp[t(X_1 + X_2 + \cdots X_n)]) \\
&= \int\!\!\!\int\!\!\!\cdots\!\!\!\int \exp[t(x_1 + x_2 + \cdots x_n)] f(x_1, x_2, \dots x_n)\,dx_n\dots dx_2\, dx_1 \\
&= \int\!\!\!\int\!\!\!\cdots\!\!\!\int \exp(tx_1) f(x_1) \exp(t{x_2}) f(x_2)\dots \exp(t{x_n})f(x_n) \,dx_n\dots dx_2\, dx_1 \\
&= \int \exp(t x_1) f(x_1)\,dx_1 \int \exp(t{x_2}) f(x_2)\,dx_2 \dots \int \exp(t{x_n})f(x_n)\,dx_n \\
&= M_{X_1}(t) M_{X_2}(t)\dots M_{X_n}(t) \\
&= \prod_{i = 1}^n M_{X_i}(t).
\end{align*}
M Y ( t ) = E ( exp ( t Y )) = E ( exp [ t ( X 1 + X 2 + ⋯ X n )]) = ∫ ∫ ⋯ ∫ exp [ t ( x 1 + x 2 + ⋯ x n )] f ( x 1 , x 2 , … x n ) d x n … d x 2 d x 1 = ∫ ∫ ⋯ ∫ exp ( t x 1 ) f ( x 1 ) exp ( t x 2 ) f ( x 2 ) … exp ( t x n ) f ( x n ) d x n … d x 2 d x 1 = ∫ exp ( t x 1 ) f ( x 1 ) d x 1 ∫ exp ( t x 2 ) f ( x 2 ) d x 2 ⋯ ∫ exp ( t x n ) f ( x n ) d x n = M X 1 ( t ) M X 2 ( t ) … M X n ( t ) = i = 1 ∏ n M X i ( t ) .
(∏ \prod ∏ 是项乘积的符号,与 ∑ \sum ∑ 是项求和的符号相同。)以上结果也适用于离散变量,其中求和代替积分。
这个结果如下: 如果X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 是独立的随机变量并且Y = X 1 + X 2 + ⋯ + X n Y = X_1 + X_2 + \dots + X_n Y = X 1 + X 2 + ⋯ + X n ,那么Y Y Y 的矩生成函数是
M Y ( t ) = ∏ i = 1 n M X i ( t ) M_Y(t) = \prod_{i = 1}^n M_{X_i}(t)
M Y ( t ) = i = 1 ∏ n M X i ( t )
其中 M X i ( t ) M_{X_i}(t) M X i ( t ) 是 X i X_i X i 在 t t t 的矩生成函数,且 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 。
示例 7.13(用于变换的矩生成函数方法) 假设 X i ∼ Pois ( λ i ) X_i \sim \text{Pois}(\lambda_i) X i ∼ Pois ( λ i ) ,其中 i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n 。那么, Y = X 1 + X 2 + ⋯ + X n Y = X_1 + X_2 + \dots + X_n Y = X 1 + X 2 + ⋯ + X n 的分布是什么?
由于 X i X_i X i 服从参数为 λ i \lambda_i λ i 的泊松分布,X i X_i X i 的矩生成函数为
M X i ( t ) = exp [ λ i ( e t − 1 ) ] . M_{X_i}(t) = \exp[ \lambda_i(e^t - 1)].
M X i ( t ) = exp [ λ i ( e t − 1 )] .
Y = X 1 + X 2 + ⋯ X n Y = X_1 + X_2 + \cdots X_n Y = X 1 + X 2 + ⋯ X n 的矩生成函数是
M Y ( t ) = ∏ i = 1 n exp [ λ i ( e t − 1 ) ] = exp [ λ 1 ( e t − 1 ) ] exp [ λ 2 ( e t − 1 ) ] … exp [ λ n ( e t − 1 ) ] = exp [ ( e t − 1 ) ∑ i = 1 n λ i ] . \begin{align*}
M_Y(t)
&= \prod_{i = 1}^n \exp[ \lambda_i(e^t - 1)] \\
&= \exp[ \lambda_1(e^t - 1)] \exp[ \lambda_2(e^t - 1)] \dots \exp[ \lambda_n(e^t - 1)] \\
&= \exp\left[ (e^t - 1)\sum_{i = 1}^n \lambda_i\right].
\end{align*}
M Y ( t ) = i = 1 ∏ n exp [ λ i ( e t − 1 )] = exp [ λ 1 ( e t − 1 )] exp [ λ 2 ( e t − 1 )] … exp [ λ n ( e t − 1 )] = exp [ ( e t − 1 ) i = 1 ∑ n λ i ] .
使用 Λ = ∑ i = 1 n λ i \Lambda = \sum_{i = 1}^n \lambda_i Λ = ∑ i = 1 n λ i ,Y Y Y 的矩生成函数是
M Y ( t ) = exp [ ( e t − 1 ) Λ ] , M_Y(t) = \exp\left[ (e^t - 1)\Lambda \right],
M Y ( t ) = exp [ ( e t − 1 ) Λ ] ,
这是均值为 Λ = ∑ i = 1 n λ i \Lambda = \sum_{i = 1}^n \lambda_i Λ = ∑ i = 1 n λ i 的泊松分布的矩生成函数。这意味着n n n 个独立泊松分布之和也是泊松分布,其均值是各个泊松均值之和。
5 卡方分布
示例 7.9 和 示例 7.12 产生了卡方分布,这是统计理论中的一个重要模型(定理 8)。
定义 7.2(卡方分布) 具有概率密度函数的连续随机变量 X X X
f X ( x ) = x ( ν / 2 ) − 1 e − x / 2 2 ν / 2 Γ ( ν / 2 ) for x > 0 \begin{equation}
f_X(x)
= \frac{x^{(\nu/2) - 1}e^{-x/2}}{2^{\nu/2}\Gamma(\nu/2)}\quad\text{for $x > 0$}
\end{equation}
f X ( x ) = 2 ν /2 Γ ( ν /2 ) x ( ν /2 ) − 1 e − x /2 for x > 0
据说具有参数 ν > 0 \nu > 0 ν > 0 的 卡方分布 。参数 ν \nu ν 称为 自由度 。我们写 X ∼ χ 2 ( ν ) X \sim \chi^2(\nu) X ∼ χ 2 ( ν ) 。
χ 2 \chi^2 χ 2 -分布的一些图如图 7.7 所示。
卡方是 α = ν / 2 \alpha = \nu/2 α = ν /2 和 β = 2 \beta = 2 β = 2 时伽马分布的特例。这意味着可以从伽马分布的性质中获得卡方分布的性质。
图 7.7:一些 χ 2 \chi^2 χ 2 -分布
卡方的基本性质直接遵循伽马分布的基本性质。
定理 7.2(卡方分布的性质) 如果 X ∼ χ 2 ( ν ) X \sim \chi^2(\nu) X ∼ χ 2 ( ν ) 那么
E ( X ) = ν \text{E}(X) = \nu E ( X ) = ν .
var ( X ) = 2 ν \text{var}(X) = 2\nu var ( X ) = 2 ν .
M X ( t ) = ( 1 − 2 t ) − ν / 2 M_X(t) = (1 - 2t)^{-\nu/2} M X ( t ) = ( 1 − 2 t ) − ν /2 .
定理 7.3(1 自由度的卡方分布) 如果 Z ∼ N ( 0 , 1 ) Z \sim N(0, 1) Z ∼ N ( 0 , 1 ) 则 Z 2 Z^2 Z 2 具有一个自由度的卡方分布。
卡方分布的一个有用性质是:如果若干随机变量都服从卡方分布,则这些独立随机变量的总和也服从卡方分布。这个性质在下面的定理中给出,后面会用到。
定理 7.4(卡方分布) 如果 Z 1 , Z 2 , … , Z n Z_1, Z_2,\dots, Z_n Z 1 , Z 2 , … , Z n 独立同分布 (iid) 为 N ( 0 , 1 ) N(0, 1) N ( 0 , 1 ) ,则平方和 S = s u m i Z i 2 S = \ sum_i Z_i^2 S = s u m i Z i 2 具有 χ 2 ( n ) \chi^2(n) χ 2 ( n ) 分布。
证明_。由于 S S S 是已知分布的线性组合,因此矩生成函数方法是合适的。由于 Z i ∼ χ 2 ( 1 ) Z_i \sim \chi^2(1) Z i ∼ χ 2 ( 1 ) ,来自定理 7.2
M Z i ( t ) = ( 1 − 2 t ) − 1 / 2 . M_{Z_i}(t)
= (1 - 2t)^{-1/2}.
M Z i ( t ) = ( 1 − 2 t ) − 1/2 .
S = ∑ i = 1 n Z i 2 S = \sum_{i = 1}^n Z_i^2 S = ∑ i = 1 n Z i 2 有矩生成函数
M S ( t ) = ∏ i = 1 n ( 1 − 2 t ) − 1 / 2 = [ ( 1 − 2 t ) − 1 / 2 ] n = ( 1 − 2 t ) − n / 2 , \begin{align*}
M_{S}(t)
&= \prod_{i = 1}^n (1 - 2t)^{-1/2}\\
&= \left[(1 - 2t)^{-1/2}\right]^n
= (1 - 2t)^{-n/2},
\end{align*}
M S ( t ) = i = 1 ∏ n ( 1 − 2 t ) − 1/2 = [ ( 1 − 2 t ) − 1/2 ] n = ( 1 − 2 t ) − n /2 ,
这是 χ 2 ( n ) \chi^2(n) χ 2 ( n ) 的矩生成函数。
如果没有计算机或表格,通常无法计算卡方概率。
在 R 中,卡方分布函数的形式为 [dpqr]chisq(df)
,其中 df
= ν {} = \nu = ν 指的是自由度。
**示例 7.14(卡方分布)**变量 X X X 服从自由度为 12 的卡方分布。确定 X X X 的值,低于该值的分布占 90%。
我们寻找一个值 c c c 使得 Pr ( X < c ) = F X ( c ) = 0.90 \Pr(X < c) = F_X(c) = 0.90 Pr ( X < c ) = F X ( c ) = 0.90 其中 X ∼ χ 2 ( 12 ) X\sim\chi^2(12) X ∼ χ 2 ( 12 ) 。在 R 中:
1 2 qchisq(0.9, df = 12) #> [1] 18.54935
也就是说,大约 90% 的分布位于 18.549 以下。
练习
Suppose the pdf of X X X is given by
f X ( x ) = { x / 2 0 < x < 2 ; 0 otherwise . f_X(x) = \begin{cases}
x/2 & \text{$0 < x < 2$};\\
0 & \text{otherwise}.
\end{cases}
f X ( x ) = { x /2 0 0 < x < 2 ; otherwise .
Find the pdf of Y = X 3 Y = X^3 Y = X 3 using the change of variable method.
Find the pdf of Y = X 3 Y = X^3 Y = X 3 using the distribution function method.
Exercise 7.1 The discrete bivariate random vector ( X 1 , X 2 ) (X_1, X_2) ( X 1 , X 2 ) has the joint pf
f X 1 , X 2 ( x 1 , x 2 ) = { ( 2 x 1 + x 2 ) / 14 for x 1 = 0 , 1 and x 2 = 0 , 1 ; 0 elsewhere . f_{X_1, X_2}(x_1, x_2) =
\begin{cases}
(2x_1+ x _2)/14 & \text{for $x_1 = 0, 1$ and $x_2 = 0, 1$};\\
0 & \text{elsewhere}.
\end{cases}
f X 1 , X 2 ( x 1 , x 2 ) = { ( 2 x 1 + x 2 ) /14 0 for x 1 = 0 , 1 and x 2 = 0 , 1 ; elsewhere .
Consider the transformations
Y 1 = X 1 + X 2 Y 2 = X 1 + X 2 \begin{align*}
Y_1 &= X_1 + X_2 \\
Y_2 &= \phantom{X_1+{}} X_2
\end{align*}
Y 1 Y 2 = X 1 + X 2 = X 1 + X 2
Determine the joint pf of ( Y 1 , Y 2 ) (Y_1, Y_2) ( Y 1 , Y 2 ) . % Y1=1 Y1=2 Y1=3 %Y2=0 2/14 4/14 0 %Y2=1 0 3/14 5/14
Deduce the distribution of Y 1 Y_1 Y 1 . % 2/14 if Y1=1 % 7/14 (=3/14 + 4/14) if Y1=2 % 5/14 if Y1=3
Exercise 7.2 Consider n n n random variables X i X_i X i such that X i ∼ Gam ( α i , β ) X_i \sim \text{Gam}(\alpha_i, \beta) X i ∼ Gam ( α i , β ) .
Determine the distribution of Y = ∑ i = 1 n X i Y = \sum_{i = 1}^n X_i Y = ∑ i = 1 n X i .
Exercise 7.3 The random variable X X X has pdf
f X ( x ) = 1 π ( 1 + x 2 ) f_X(x) = \frac{1}{\pi(1 + x^2)}
f X ( x ) = π ( 1 + x 2 ) 1
for − ∞ < x < ∞ -\infty < x < \infty − ∞ < x < ∞ . Find the pdf of Y Y Y where Y = X 2 Y = X^2 Y = X 2 .
Exercise 7.4 A random variable X X X has distribution function
F X ( x ) = { 0 for x ≤ − 0.5 ; 2 x + 1 2 for − 0.5 < x < 0.5 ; 1 for x ≥ 0.5 . F_X(x) =
\begin{cases}
0 & \text{for $x \le -0.5$};\\
\frac{2x + 1}{2} & \text{for $-0.5 < x < 0.5$};\\
1 & \text{for $x \ge 0.5$}.
\end{cases}
F X ( x ) = ⎩ ⎨ ⎧ 0 2 2 x + 1 1 for x ≤ − 0.5 ; for − 0.5 < x < 0.5 ; for x ≥ 0.5 .
Find, and plot, the pdf of X X X . 1. Find the distribution function, F Y ( y ) F_Y(y) F Y ( y ) , of the random variable Y = 4 − X 2 Y = 4 - X^2 Y = 4 − X 2 . 1. Hence find, and plot, the pdf of Y Y Y , f Y ( y ) f_Y(y) f Y ( y ) .
Exercise 7.5 Suppose a projectile is fired at an angle θ \theta θ from the horizontal with velocity v v v . The horizontal distance that the projectile travels, D D D , is
D = v 2 g sin 2 θ , D = \frac{v^2}{g} \sin 2\theta,
D = g v 2 sin 2 θ ,
where g g g is the acceleration due to gravity (g ≈ 9.8 g\approx 9.8 g ≈ 9.8 m.s2 ).
If θ \theta θ is uniformly distributed over the range ( 0 , π / 4 ) (0, \pi/4) ( 0 , π /4 ) , find the probability density function of D D D .
Sketch the pdf of D D D over a suitable range for v = 12 v = 12 v = 12 and using g ≈ 9.8 g\approx 9.8 g ≈ 9.8 .
Exercise 7.6 Most computers have facilities to generate continuous uniform (pseudo-)random numbers between zero and one, say X X X .
When needed, exponential random numbers are obtained from X X X using the transformation Y = − α ln X Y = -\alpha\ln X Y = − α ln X .
Show that Y Y Y has an exponential distribution and determine its parameters.
Deduce the mean and variance of Y Y Y .
Exercise 7.7 Consider a random variable W W W for which Pr ( W = 2 ) = 1 / 6 \Pr(W = 2) = 1/6 Pr ( W = 2 ) = 1/6 , Pr ( W = − 2 ) = 1 / 3 \Pr(W = -2) = 1/3 Pr ( W = − 2 ) = 1/3 and Pr ( W = 0 ) = 1 / 2 \Pr(W = 0) = 1/2 Pr ( W = 0 ) = 1/2 .
Plot the probability function of W W W .
Find the mean and variance of W W W .
Determine the distribution of V = W 2 V = W^2 V = W 2 .
Find the distribution function of W W W .
Exercise 7.8 In a study to model the load on bridges,59 the researchers modelled the Gross Vehicle Weight (GVM, in kilonewtons) weight of smaller trucks S S S using S ∼ N ( 390 , 740 S\sim N(390, 740 S ∼ N ( 390 , 740 , and the weight of bigger trucks B B B using L ∼ N ( 865 , 142 ) L\sim N(865, 142) L ∼ N ( 865 , 142 ) . The total load distribution L L L was then modelled as L = 0.24 S + 0.76 B L = 0.24S + 0.76B L = 0.24 S + 0.76 B .
Plot the distribution of L L L .
Compute the mean and standard deviation of L L L .