【摘 要】概率论的主要研究对象是随机变量及其分布,当随机变量经过某些变换或若干随机变量进行某种组合后,产生的新随机变量会具有什么性质是一个迷人的话题,本文介绍了变量变化法、累积分布函数法、矩生成函数法三种基础推导方法,其中变量变化法(也称变量变换法)是归一化流方法的支撑理论,累积分布函数法根据其名称显然只适用于连续型随机变量,矩生成法适用于多个独立随机变量的线性组合。

【原 文】https://bookdown.org/pkaldunn/DistTheory/Transformations.html

完成本模块后,您应该能够:

  • 在给定原始变量分布的情况下,使用分布函数法、变量变换法和矩生成函数法推导目标变量的分布。
  • 找到双变量情况下两个目标变量的联合分布。

1 引言

在本章中,我们考虑在给定一个分布已知的随机变量 XX 和一个函数 u()u(\cdot) 的情况下,某个随机变量 Y=u(X)Y = u(X) 的概率分布。在几种可用的技术中,重点考虑三种:

  • 变量变化法
  • 分布函数法(仅适用于连续型随机变量)
  • 矩生成函数法

在这种情况下,一个重要的概念是_一对一变换_。

定义 7.1(一对一变换) 给定范围空间分别为 RXR_XRYR_Y 的随机变量 XXYY,函数 uu 是一个一对一变换(或映射)如果对于每个 xRXx\in R_X 恰好对应一个 yRYy\in R_Y

Y=u(X)Y = u(X) 为一对一变换时,逆函数唯一定义;也就是说,XX 可以唯一地写成 YY。当 XX 的分布已知时考虑 YY 的分布时,这一点很重要。

2 变量变化法

对于一对一变换(例如 Y=1XY = 1 - XY=exp(X)Y = \exp(X)),变量变化法相对简单。如果变换不是一对一的,则需要格外小心。下面给出了示例。离散和连续的情况被分开考虑。

2.1 离散型随机变量

2.1.1 单变量情况

XX 是概率函数为 pX(x)p_X(x) 的离散型随机变量。令 RXR_X 表示 pX(x)>0p_X(x) > 0 的离散点集。令 y=u(x)y = u(x) 定义了一个将 RXR_X 映射到 RYR_Y一对一变换,即一组离散点,在每个离散点处,变换后的变量 YY 具有非零概率。如果我们根据 yyy=u(x)y = u(x) 求解 xx,比如 x=w(y)x = w(y),那么对于每个 yRYy \in R_Y,我们有 x=w(y)RXx = w(y) \in R_X 中。

示例 7.1(一对一变换) 给定

pX(x)={x/15for x=1,2,3,4,5;0elsewhere.p_X(x) = \begin{cases} x/15 & \text{for $x = 1, 2, 3, 4, 5$};\\ 0 & \text{elsewhere}. \end{cases}

要找到 YY 的概率函数,其中 Y=2X+1Y = 2X + 1,首先要看 RX={1,2,3,4,5}R_X = \{1, 2, 3, 4, 5\}。因此 RY={3,5,7,9,11}R_Y = \{3, 5, 7, 9, 11\} ,映射 y=2x+1=u(x)y = 2x + 1 = u(x) 是一对一的。现在

Pr(Y=y)=Pr(2X+1=y)=Pr(X=y12)=y130.\Pr(Y = y) = \Pr(2X + 1 = y) = \Pr\left(X = \frac{y - 1}{2}\right) = \frac{y - 1}{30}.

所以 YY 的概率函数是

Pr(Y=y)={(y1)/30for y=3,5,7,9,11;0elsewhere.\Pr(Y = y) = \begin{cases} (y - 1)/30 & \text{for $y = 3, 5, 7, 9, 11$};\\ 0 & \text{elsewhere}. \end{cases}

(注意:这个概率函数中的概率加起来为 11。)

Y=u(X)Y = u(X) 是一对一映射时,上述过程的通用形式可以表示为:

Pr(Y=y)=Pr(u(X)=y)=Pr(X=u1(y))=pX(u1(y)),for yRY.\Pr(Y = y) = \Pr\big(u(X) = y\big) = \Pr\big(X = u^{-1} (y)\big) = p_X\big(u^{-1}(y)\big), \quad\text{for $y\in R_Y$}.

示例 7.2(一对一变换)XX 服从的概率函数为二项分布

pX(x)={(3x)(0.2)x(0.8)3xfor x=0,1,2,3;0otherwise.p_X(x) = \begin{cases} \binom{3}{x}(0.2)^x (0.8)^{3 - x} & \text{for $x = 0, 1, 2, 3$};\\ 0 & \text{otherwise}. \end{cases}

要找到 Y=X2Y = X^2 的概率函数,首先请注意 Y=X2Y = X^2 通常 不是 一对一变换,但在这里 XX 仅对 x=0123x = 0、1、2、3 具有非零概率。

变换 y=u(x)=x2y = u(x) = x^2, RX={xx=0,1,2,3}R_X = \{ x \mid x = 0, 1, 2, 3 \} 映射到 RY={yy=0,1,4,9}R_Y = \{y \mid y = 0, 1 , 4, 9\}。逆函数是 x=w(y)=yx = w(y) = \sqrt{y},因此 YY 的概率函数是

pY(y)=pX(y)={(3y)(0.2)y(0.8)3yfor y=0,1,4,90otherwise.p_Y(y) = p_X(\sqrt{y}) = \begin{cases} \binom{3}{\sqrt{y}}(0.2)^{\sqrt{y}} (0.8)^{3 - \sqrt{y}} & \text{for $y = 0, 1, 4, 9$}\\ 0 & \text{otherwise}. \end{cases}

现在考虑函数 uu 不是 一对一的情况。

示例 7.3(不是一对一变换) 假设 Pr(X=x)\Pr(X = x) 与示例 7.1, 并定义 Y=X3Y = |X - 3|。由于 RY={0,1,2}R_Y = \{0, 1, 2\} 映射不是一对一的:如果 X=3X = 3 则事件 Y=0Y = 0 发生,如果 X=2X= 2X=4X = 4 则事件 Y=1Y = 1 发生,如果 X=1X = 1X=5X = 5,则事件 Y=2Y = 2 发生。因此,RY{0,1,2}R_Y \{ 0, 1, 2\}

要找到 YY 的概率分布:

Pr(Y=0)=Pr(X=3)=3/15=15;Pr(Y=1)=Pr(X=2 or 4)=215+415=25;Pr(Y=2)=Pr(X=1 or 5)=115+515=25.\begin{align*} \Pr(Y = 0) &= \Pr(X = 3) = 3/15 = \frac{1}{5};\\ \Pr(Y = 1) &= \Pr(X = 2 \text{ or } 4) = \frac{2}{15} + \frac{4}{15} = \frac{2}{5};\\ \Pr(Y = 2) &= \Pr(X = 1 \text{ or } 5) = \frac{1}{15} + \frac{5}{15} = \frac{2}{5}. \end{align*}

YY 的概率函数是

pY(y)={1/5for y=0;2/5for y=1;2/5for y=2;0elsewhere.p_Y(y) = \begin{cases} 1/5 & \text{for $y = 0$};\\ 2/5 & \text{for $y = 1$};\\ 2/5 & \text{for $y = 2$};\\ 0 & \text{elsewhere}. \end{cases}

2.1.2 双变量情况

双变量情况类似于单变量情况。我们在二维点集 RX2R^2_X 上定义了两个离散型随机变量 X1X_1X2X_2 的联合概率函数 pX1,X2(x1,x2)p_{X_1, X_2}(x_1, x_2), 其中 p(x1,x2)>0p(x_1 , x_2) > 0。现在有两个 一对一的变换

y1=u1(x1,x2)andy2=u2(x1,x2)y_1 = u_1( x_1, x_2)\qquad\text{and}\qquad y_2 = u_2( x_1, x_2)

RX2R^2_X 映射到 RY2R^2_Yp(y1,y2)>0p(y_1, y_2) > 0 的二维点集)。两个逆函数是

x1=w1(y1,y2)andx2=w2(y1,y2)x_1 = w_1( y_1, y_2)\qquad\text{and}\qquad x_2 = w_2( y_1, y_2)

那么新的(变换后的)随机变量的联合概率函数是

pY1,Y2(y1,y2)={pX1,X2(w1(y1,y2),w2(y1,y2))where (y1,y2)RY2;0elsewhere.p_{Y_1, Y_2}(y_1, y_2) = \begin{cases} p_{X_1, X_2}\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) & \text{where $(y_1, y_2)\in R^2_Y$};\\ 0 & \text{elsewhere}. \end{cases}

示例 7.4(双变量变换) 让两个离散型随机变量 X1X_1X2X_2 具有表 7.1。

表 7.1:双变量概率函数

x2=0x_2 = 0 x2=1x_2 = 1 x2=2x_2 = 2
x1=1x_1 = -1 0.30.3 0.10.1 0.10.1
x1=+1x_1 = +1 0.20.2 0.20.2 0.10.1

考虑两个一对一的变换

Y1=X1+X2andY2=2X1.Y_1 = X_1 + X_2 \qquad\text{and}\qquad Y_2 = 2 X_1.

Y1Y_1Y2Y_2 的联合概率函数可以通过注意 (x1,x2)(x_1, x_2) 对映射到 y1,y2y_1, y_2 空间中的位置来找到:

(x1,x2)(x_1,x_2) \mapsto (y1,y2)(y_1,y_2)
(1,0)(-1, 0) \mapsto (1,2)(-1, -2)
(1,1)(-1, 1) \mapsto (0,2)(0, -2)
(1,2)(-1, 2) \mapsto (1,2)(1, -2)
(1,0)(1, 0) \mapsto (1,2)(1, 2)
(1,1)(1, 1) \mapsto (2,2)(2, 2)
(1,2)(1, 2) \mapsto (3,2)(3, 2)

然后可以如表 7.2 所示构建联合概率函数。

表 7.2:Y1Y_1Y2Y_2 的联合概率函数

y1=1y_1 = -1 y2=0y_2 = 0 y3=1y_3 = 1 y4=2y_4 = 2 y5=3y_5 = 3
y2=2y_2 = -2 0.30.3 0.10.1 0.10.1 0.00.0 0.00.0
y2=+2y_2 = +2 0.00.0 0.00.0 0.20.2 0.20.2 0.10.1

有时,给出了两个随机变量的联合概率函数,但只需要_一个_新的随机变量。在这种情况下,使用第二个(虚拟)变换,通常非常简单。

示例 7.5(双变量变换)X1X_1X2X_2 是两个独立的随机变量,联合概率函数

pX1,X2(x1,x2)=μ1x1μxx2exp(μ1μ2)x1!x2!for x1 and x2=0,1,2,p_{X_1, X_2}(x_1, x_2) = \frac{\mu_1^{x_1} \mu_x^{x_2} \exp( -\mu_1 - \mu_2 )}{x_1!\, x_2!} \quad\text{for $x_1$ and $x_2 = 0, 1, 2, \dots$}

这是两个独立泊松随机变量的联合概率函数。假设我们希望找到 Y1=X1+X2Y_1 = X_1 + X_2 的概率函数。

我们可以考虑两个一对一的变换:

y1=x1+x2=u1(x1,x2)y2=x2=u2(x1,x2)\begin{align*} y_1 &= x_1 + x_2 = u_1(x_1, x_2)\\ y_2 &= x_2 = u_2(x_1, x_2) \end{align*}

它将 RX2R^2_X 中的点映射到

RY2={(y1,y2)y1=0,1,2,;y2=0,1,2,,y1}.R^2_Y = \left\{ (y_1, y_2)\mid y_1 = 0, 1, 2, \dots; y_2 = 0, 1, 2, \dots, y_1\right\}.

Y2Y_2 是一个虚拟变换,非常简单。可以选择任何第二个变换(因为它不是直接感兴趣的),因此选择一个简单的。

逆函数是

x1=y1y2=w1(y1,y2)x2=y2=w2(y2)\begin{align*} x_1 &= y_1 - y_2 = w_1(y_1, y_2)\\ x_2 &= y_2 = w_2(y_2) \end{align*}

通过重新排列原始变换。那么 Y1Y_1Y2Y_2联合 概率函数是

pY1,Y2(y1,y2)=pX1,X2(x1,x2)(w1(y1,y2),w2(y1,y2))=μ1y1y2μ2y2exp(μ1μ2)(y1y2)!y2!for (y1,y2)RY2.\begin{align*} p_{Y_1, Y_2}(y_1, y_2) &= p_{X_1, X_2}(x_1, x_2)\big( w_1(y_1, y_2), w_2(y_1, y_2)\big) \\ &= \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)! y_2!}\quad \text{for $(y_1, y_2)\in R^2_Y$}. \end{align*}

回想一下,我们只求 Y1Y_1 的概率函数,所以我们需要找到 pY1,Y2(y1,y2)p_{Y_1, Y_2}(y_1, y_2) 的边缘概率函数。 Y1Y_1 的边缘概率函数是

pY1(y1)=y2=0y1pY1,Y2(y1,y2)=y2=0y1μ1y1y2μ2y2exp(μ1μ2)(y1y2)!y2!,p_{Y_1}(y_1) = \sum_{y_2 = 0}^{y_1} p_{Y_1, Y_2}(y_1, y_2) = \sum_{y_2 = 0}^{y_1} \frac{\mu_1^{y_1 - y_2}\mu_2^{y_2} \exp(-\mu_1 - \mu_2)}{(y_1 - y_2)!\, y_2!},

这相当于

pY1(y1)={(μ1+μ2)y1exp[(μ1+μ2)]y1!for y1=0,1,2,0otherwise.p_{Y_1}(y_1) = \begin{cases} \displaystyle{\frac{(\mu_1 + \mu_2)^{y_1}\exp\big[-(\mu_1 + \mu_2)\big]}{y_1!}} & \text{for $y_1 = 0, 1, 2, \dots$}\\ 0 & \text{otherwise}. \end{cases}

这是均值为 μ1+μ2\mu_1 + \mu_2 的泊松随机变量的概率函数。因此 Y1Pois(λ=μ1+μ2)Y_1 \sim \text{Pois}(\lambda = \mu_1 + \mu_2)

2.2 连续型随机变量

2.2.1 单变量情况

定理 7.1(变量变化定理) 如果对于 xRXx\in R_XXX 有概率密度函数 fX(x)f_X(x),并且 uuxRXx \in R_X 中的一个一对一函数,则随机变量 Y=u(X)Y = u(X) 具有概率密度函数

fY(y)=fX(x)dxdyf_Y(y) = f_X(x) \left|\frac{dx}{dy}\right|

其中公式右侧为 yy 的函数。dx/dy\left|dx/dy\right| 项被称为 变换的雅可比,符号 |\cdot| 表示绝对值。

证明:令逆函数为 X=w(Y)X = w(Y) 使得 w(y)=u1(x)w(y) = u^{-1}(x)

案例 1: y=u(x)y = u(x) 是一个严格 递增 函数(图 7.1)如果 a<y<ba < y < b 那么 w(a)<x<w(b)w(a) < x < w(b) 并且 Pr(a<Y<b)=Pr(w(a)<X<w(b))\Pr(a < Y < b) = \Pr\big(w(a) < X <w(b) \big),所以

abfY(y)dy=w(a)w(b)fX(x)dx=abf(w(y))dxdydy{\int^b_a f_Y(y)\,dy =\int^{w(b)}_{w(a)}f_X(x)\,dx =\int^b_af\big( w(y)\big)\frac{dx}{dy}\,\,dy}

因此,fY(y)=fX(w(y))dxdy\displaystyle {f_Y(y) = f_X\big( w(y) \big)\frac{dx}{dy}},其中 w(y)=u1(x)w(y) = u^{-1}(x)

Fig01-A monotone increasing transformation function (left panel) and decreasing function (right panel).

图 7.1:单调递增变换函数(左图)和递减函数(右图)。

案例 2: y=u(x)y = u(x)xx 的严格 递减 函数(图 7.1 右图).如果 a<y<ba < y < b 那么 w(b)<x<w(a)w(b) < x < w(a) 并且 Pr(a<Y<b)=Pr(w(b)<X<w(a))\Pr(a < Y < b) = \Pr\big(w(b) < X < w(a) \big), 所以,

abfY(y)dy=w(b)w(a)fX(x)dx=bafX(x)dxdydy=abfX(x)dxdydy.\begin{align*} \int^b_a f_Y(y)\,dy & = \int^{w(a)}_{w(b)}f_X(x)\,dx\\ & = \int^a_bf_X(x)\frac{dx}{dy}\,\,dy\\ & = - \int ^b_a f_X(x)\frac{dx}{dy}\,dy. \end{align*}

因此 fY(y)=fX(w(y))dxdyf_Y(y) = -f_X\left( w(y) \right)\displaystyle{\frac{dx}{dy}}。但是 dx/dydx/dy 在递减函数的情况下是负的,所以一般来说

fY(y)=fX(x)dxdy.f_Y(y) = f_X(x)\left|\frac{dx}{dy} \right|.

w(y)=dx/dyw'(y) = dx/dy 的绝对值称为 变换的雅可比矩阵

示例 7.6(对数变换)XX 的概率密度函数由下式给出

fX(x)={1for 0<x<1;0elsewhere.f_X(x) = \begin{cases} 1 & \text{for $0 < x < 1$};\\ 0 & \text{elsewhere}. \end{cases}

考虑变换 Y=2logXY = -2\log X(其中 log\log 指以 ee 为底的对数,或 自然对数)。变换是一对一的,逆变换是

X=exp(Y/2)=w(Y)X = \exp( -Y/2) = w(Y)

从空间 RX={x0<x<1}R_X = \{x \mid 0 < x < 1\} 映射到空间 Ry={y0<y<}R_y = \{y \mid 0 < y < \infty\}。然后

w(y)=ddyexp(y/2)=12exp(y/2),w'(y) = \frac{d}{dy} \exp(-y/2) = -\frac{1}{2}\exp(-y/2),

所以 变换的雅可比 w(y)=exp(y/2)/2|w'(y)| = \exp(-y/2)/2Y=2logXY = -2\log X 的概率密度函数是

fY(y)=fX{w(y)}w(y)=fX{exp(y/2)}exp(y/2)/2=12exp(y/2)for y>0\begin{align*} f_Y(y) &= f_X\{w(y)\} |w'(y)| \\ &= f_X\{\exp(-y/2)\} \exp(-y/2)/2 \\ &= \frac{1}{2}\exp(-y/2)\quad\text{for $y > 0$} \end{align*}

YExp(2)Y \sim \text{Exp}(2)

示例 7.7(平方根变换) 考虑随机变量 XX,概率密度函数fX(x)=exf_X(x) = e^{-x} for x0x \geq 0。要找到 Y=XY = \sqrt{X} 的概率密度函数,首先看到 y=xy = \sqrt{x}x0x \geq 0 的严格递增函数(图 7.2)。

The square-root transformation

图 7.2:平方根变换

逆关系是 x=y2x = y^2dx/dy=2y=2ydx/dy = |2y| = 2yYY 的概率密度函数是

fY(y)=fX(x)dxdy=2yey2for y0.\begin{align*} f_Y(y) &= f_X(x)\left|\frac{dx}{dy}\right|\\ &= 2y e^{-y^2}\quad \text{for $y\geq0$}. \end{align*}

示例 7.8(Tan 变换) 让随机变量 XX 均匀分布在 [π/2,π/2][-\pi/2, \pi/2] 上。找到 Y=tanXY = \tan X 的分布(图 7.3)。

The tan transformation

图 7.3:tan 变换

对于映射 y=tanxy = \tan x,我们看到 RY={y<y<}R_Y = \{ y\mid -\infty <y<\infty\}。该映射是一对一的,因此 x=tan1yx = \tan^{-1}ydx/dy=1/(1+y2)dx/dy = 1/(1 + y^2)。因此

fY(y)=fX(x)dxdy=1π(1+y2).f_Y(y) = f_X(x)\left|\frac{dx}{dy}\right| = \frac{1}{\pi(1 + y^2)}.

这是 Cauchy 分布

下面这个例子考虑了函数 uu 不是一对一的情况,使用定理 7.1 的修改。

示例 7.9(非一对一变换) 给定一个服从 N(0,1)N(0, 1) 分布的随机变量 ZZ,找出 Y=12Z2Y = \frac{1}{2}Z^2 的概率分布。

A transformation not 1:1

图 7.4:非一对一变换

关系 y=u(z)=12z2y = u(z) = \frac{1}{2}z^2(,)(-\infty, \infty ) 中不增加或严格减少,所以定理 7.1 不能直接应用。相反,细分 zzyy 的范围,以便在每个部分中关系是单调的。然后:

fZ(z)=12πe12z2for <z<.f_Z(z) = \frac{1}{\sqrt{2\pi}}\,e^{-\frac{1}{2} z^2}\quad\text{for $-\infty < z < \infty$}.

逆关系 z=u1(y)z = u^{-1}(y)z=±2yz = \pm \sqrt{2y}。对于给定的 yy 值,可能有两个 zz 值。在 <z<0-\infty < z < 0 范围内,则 yyzz 单调相关。类似地,对于 0<z<0 < z <\inftyyyzz 是单调相关的。因此(见图 7.4),

Pr(a<Y<b)=Pr(2b<Z<2a)+Pr(2a<Z<2b).\Pr(a < Y <b) = \Pr(-\sqrt{2b} < Z < -\sqrt{2a}\,) + \Pr(\sqrt{2a} < Z < \sqrt{2b}\,).

右边的两项相等,因为 ZZ 的分布关于 00 对称。因此 Pr(a<Y<b)=2Pr(2a<Z<2b)\Pr(a < Y < b) = 2\Pr(\sqrt{2a} < Z < \sqrt{2b}\,),并且

fY(y)=2fZ(z)dzdy=212πey12y;\begin{align*} f_Y(y) &= 2f_Z(z)\left| \frac{dz}{dy}\right|\\ &= 2\frac{1}{\sqrt{2\pi}}e^{-y}\frac{1}{\sqrt{2y}}; \end{align*}

也就是,

fY(y)=eyy12/πfor 0<y<.f_Y(y) = e^{-y}y^{-\frac{1}{2}} / \sqrt{\pi}\quad\text{for $0 < y < \infty$}.

此概率密度函数是一个 gamma 分布,参数 α=1/2\alpha = 1/2β=1\beta = 1。由此得出,如果 XXN(μ,σ2)N(\mu,\sigma^2),则 Y=12(Xμ)2/σ2Y = \frac{1}{2} (X - \mu )^2 / \sigma^2 的概率密度函数为Gamma(α=1/2,β=1)\text{Gamma}(\alpha = 1/2,\beta = 1) 从那时起 (Xμ)σ(X - \mu)\sigma 分布为 N(0,1)N(0, 1)

请注意,如果 Y=u(Z)Y = u(Z)ZZ 的概率密度函数关于同一点对称。

3 分布函数法

此方法仅适用于连续随机变量。

有两个基本步骤:
(1) 找到变换变量的 分布函数(累积密度函数)
(2) 微分求 概率密度函数

使用示例可以最好地演示该过程。

示例 7.10(分布函数法) 考虑具有如下概率密度函数的随机变量 XX

fX(x)={x/4for 1<x<3;0elsewhere.f_X(x) = \begin{cases} x/4 & \text{for $1 < x < 3$};\\ 0 & \text{elsewhere}. \end{cases}

要找到随机变量 YY 的概率密度函数,其中 Y=X2Y = X^2,首先要看 1<y<91 < y < 9YY 的分布函数是

FY(y)=Pr(Yy)(by definition)=Pr(X2y)(since Y=X2)=Pr(Xy).\begin{align*} F_Y(y) &= \Pr(Y\le y) \qquad\text{(by definition)}\\ &= \Pr(X^2 \le y) \qquad\text{(since $Y = X^2$)}\\ &= \Pr(X\le \sqrt{y}\,). \end{align*}

最后一步并不是微不足道的,而是至关重要的。有时,需要更加小心(如下一个示例所示)。在这种情况下,XXYY 在定义了 XX 的区域上存在一对一的关系(即具有正概率);参见图 7.5。

XX 定义为从 1133 时,变换 Y=X2Y = X^2。较粗的线对应于应用变换的区域。请注意,如果 Y<yY < y,则 2y1<X<2+y12 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}

Figure7.5

图 7.5:当 XX 定义为从 1133 时,变换 Y=X2Y = X^2。较粗的线对应于应用变换的区域。请注意,如果 Y<yY < y,则 2y1<X<2+y12 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}

然后继续如下:

FY(y)=Pr(Xy)=FX(y)(by definition of FX(x))=1y(x/4)dx=(y1)/8\begin{align*} F_Y(y) &=\Pr( X\le \sqrt{y}\,) \\ &= F_X\big(\sqrt{y}\,\big) \qquad\text{(by definition of $F_X(x)$)} \\ &= \int_1^{\sqrt{y}} (x/4) \,dx \\ &= (y - 1)/8 \end{align*}

上式满足对于 1<y<91 < y < 9,在其他地方为零。这是 YY分布函数;进而得到概率密度函数:

fY(y)=ddy(y1)/8={1/8for 1<y<9;0elsewhere.f_Y(y) = \frac{d}{dy} (y - 1)/8 = \begin{cases} 1/8 & \text{for $1 < y < 9$};\\ 0 & \text{elsewhere}. \end{cases}

请注意定义 YY 的范围;因为 1<x<31 < x < 3,所以 1<y<91 < y < 9

示例 7.11(变换) 考虑与前面示例相同的随机变量 XX,但变换 Y=(X2)2+1Y = (X - 2)^2 + 1 (图 7.6)。

Figure06

图 7.6:当 XX 定义为从 1133 时,变换 Y=(X2)2+1Y = (X - 2)^2 + 1。较粗的线对应于应用变换的区域。请注意,如果 Y<yY < y,则 2y1<X<2+y12 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1}

在这种情况下,变换不是一对一变换。像以前一样找到 YY 的分布函数:

FY(y)=Pr(Yy)(by definition)=Pr((X2)2+1y)\begin{align*} F_Y(y) &= \Pr(Y\le y) \qquad\text{(by definition)}\\ &= \Pr\big( (X - 2)^2 + 1 \le y\big) \end{align*}

因为 Y=(X2)2+1Y = (X - 2)^2 + 1。从图 7.6,每当 (X2)2+1<y(X - 2)^2 + 1 < y 对于某个值 yy,则XX 必须在 2y12 - \sqrt{y - 1}2+y12 + \sqrt{y - 1} 范围内。所以:

FY(y)=Pr((X2)2+1y)=Pr(2y1<X<2+y1)=2y12+y1x/4dx=18x22y12+y1=18[(2+y1)2(2y1)2]=y1.\begin{align*} F_Y(y) &= \Pr\big( (X - 2)^2 + 1 \le y\big) \\ &= \Pr\left( 2 - \sqrt{y - 1} < X < 2 + \sqrt{y - 1} \right)\\ &= \int_{2-\sqrt{y - 1}}^{2 + \sqrt{y - 1}} x/4\,dx \\ &= \left.\frac{1}{8} x^2\right|_{2 - \sqrt{y - 1}}^{2 + \sqrt{y - 1}} \\ &= \frac{1}{8} \left[ \left(2 + \sqrt{y - 1}\right)^2 - \left(2 - \sqrt{y - 1}\right)^2\right] \\ &= \sqrt{y - 1}. \end{align*}

同样,这是分布函数;所以

fY(y)={12y1for 1<y<2;0elsewhere.f_Y(y) = \begin{cases} \frac{1}{2\sqrt{y - 1}} & \text{for $1 < y < 2$};\\ 0 & \text{elsewhere}. \end{cases}

示例 7.12 (变换) 在此重复示例 7.9, 但使用分布函数。 给定 ZZ 分布为 N(0,1)N(0, 1),我们寻求 Y=12Z2Y = \frac{1}{2} Z^2 的概率分布。首先,

fZ(z)=(2π)12ez2/2for z(,).f_Z(z) = (2\pi )^{-\frac 12}\,e^{-z^2/2}\quad\text{for $z\in (-\infty ,\,\infty )$}.

YY 有概率密度函数fY(y)f_Y(y) 和 df FY(y)F_Y(y)。然后

FY(y)=Pr(Yy)=Pr(12Z2y)=Pr(Z22y)=Pr(2yZ2y)=FZ(2y)FZ(2y)\begin{align*} F_Y(y) = \Pr(Y\leq y) &= \Pr\left(\frac{1}{2}Z^2\leq y\right)\\ &= \Pr(Z^2\leq 2y)\\ & = \Pr(-\sqrt{2y}\leq Z\leq \sqrt{2y}\,)\\ & = F_Z(\sqrt{2y}\,) - F_Z(-\sqrt{2y}\,) \end{align*}

其中 FZF_ZZZ 的 df。 因此像以前一样:

fY(y)=FY(y)=FZ(2y)FZ(2y)=22yfZ(2y)22yfZ(2y)=12y[fZ(2y)+fZ(2y)]=12y[12πey+12πey]=eyy12π\begin{align*} f_Y(y) = F_Y'(y) &= F_Z'(\sqrt{2y}\,)-F_Z'(-\sqrt{2y}\,)\\ &= \frac{\sqrt{2}}{2\sqrt{y}}f_Z(\sqrt{2y}\,) - \frac{\sqrt{2}}{- 2\sqrt{y}}f_Z(-\sqrt{2y}\,)\\[2mm] &= \frac{1}{\sqrt{2y}}[f_Z(\sqrt{2y}\,) + f_Z(-\sqrt{2y}\,)]\\ &= \frac{1}{2y} \left[ \frac{1}{\sqrt{2\pi}}\,e^{-y}+\frac{1}{\sqrt{2\pi}}\,e^{-y}\right]\\ &= \frac{e^{-y}y^{-\frac{1}{2}}}{\sqrt{\pi}} \end{align*}

需要注意确保逻辑上遵循这些步骤,图 7.5 和图 7.6 的做法受到鼓励。 此外,制作出来的函数应该是概率密度函数;检查是否是这种情况。

4 矩生成函数法

矩生成函数 (mgf) 方法可用于查找 nn 个独立随机变量的线性组合的分布。该方法本质上涉及在给定独立 X1,X2,,XnX_1, X_2, \dots, X_n 的联合分布时计算变换变量 Y=u(X1,X2,,Xn)Y = u(X_1, X_2, \dots, X_n) 的矩生成函数。

矩生成函数方法依赖于此观察:由于随机变量的矩生成函数(如果存在)完全指定了随机变量的分布,那么如果两个随机变量具有相同的矩生成函数,则它们必须具有相同的分布。

下面演示了变换 Y=X1+X2+XnY = X_1 + X_2 + \cdots X_n,但同样的原理也适用于其他线性组合。

考虑 nn独立随机变量 X1,X2,,XnX_1, X_2, \dots, X_n 和矩生成函数 MX1(t)M_{X_1}(t), MX2(t)M_{X_2}(t), \dots, MXn(t)M_{X_n}( t),并考虑变换 Y=X1+X2+XnY = X_1 + X_2 + \cdots X_n。由于 XiX_i 是独立的,fX1,X2Xn(x1,x2,,xn)=fX1(x1).fX2(x2)fXn(xn)f_{X_1,X_2\dots X_n}(x_1, x_2, \dots, x_n) = f_{X_1}(x_1).f_{X_2}(x_2)\dots f_{X_n} (x_n)。所以,根据矩生成函数的定义,

MY(t)=E(exp(tY))=E(exp[t(X1+X2+Xn)])= ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣exp[t(x1+x2+xn)]f(x1,x2,xn)dxndx2dx1= ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣ ⁣exp(tx1)f(x1)exp(tx2)f(x2)exp(txn)f(xn)dxndx2dx1=exp(tx1)f(x1)dx1exp(tx2)f(x2)dx2 ⁣exp(txn)f(xn)dxn=MX1(t)MX2(t)MXn(t)=i=1nMXi(t).\begin{align*} M_Y(t) &= \text{E}(\exp(tY)) \\ &= \text{E}(\exp[t(X_1 + X_2 + \cdots X_n)]) \\ &= \int\!\!\!\int\!\!\!\cdots\!\!\!\int \exp[t(x_1 + x_2 + \cdots x_n)] f(x_1, x_2, \dots x_n)\,dx_n\dots dx_2\, dx_1 \\ &= \int\!\!\!\int\!\!\!\cdots\!\!\!\int \exp(tx_1) f(x_1) \exp(t{x_2}) f(x_2)\dots \exp(t{x_n})f(x_n) \,dx_n\dots dx_2\, dx_1 \\ &= \int \exp(t x_1) f(x_1)\,dx_1 \int \exp(t{x_2}) f(x_2)\,dx_2 \dots \int \exp(t{x_n})f(x_n)\,dx_n \\ &= M_{X_1}(t) M_{X_2}(t)\dots M_{X_n}(t) \\ &= \prod_{i = 1}^n M_{X_i}(t). \end{align*}

(\prod 是项乘积的符号,与 \sum 是项求和的符号相同。)以上结果也适用于离散变量,其中求和代替积分。

这个结果如下: 如果X1,X2,,XnX_1, X_2, \dots, X_n是独立的随机变量并且Y=X1+X2++XnY = X_1 + X_2 + \dots + X_n,那么YY的矩生成函数是

MY(t)=i=1nMXi(t)M_Y(t) = \prod_{i = 1}^n M_{X_i}(t)

其中 MXi(t)M_{X_i}(t)XiX_itt 的矩生成函数,且 i=1,2,,ni = 1, 2, \dots, n

示例 7.13(用于变换的矩生成函数方法) 假设 XiPois(λi)X_i \sim \text{Pois}(\lambda_i),其中 i=1,2,,ni = 1, 2, \dots, n。那么, Y=X1+X2++XnY = X_1 + X_2 + \dots + X_n 的分布是什么?

由于 XiX_i 服从参数为 λi\lambda_i 的泊松分布,XiX_i 的矩生成函数为

MXi(t)=exp[λi(et1)].M_{X_i}(t) = \exp[ \lambda_i(e^t - 1)].

Y=X1+X2+XnY = X_1 + X_2 + \cdots X_n 的矩生成函数是

MY(t)=i=1nexp[λi(et1)]=exp[λ1(et1)]exp[λ2(et1)]exp[λn(et1)]=exp[(et1)i=1nλi].\begin{align*} M_Y(t) &= \prod_{i = 1}^n \exp[ \lambda_i(e^t - 1)] \\ &= \exp[ \lambda_1(e^t - 1)] \exp[ \lambda_2(e^t - 1)] \dots \exp[ \lambda_n(e^t - 1)] \\ &= \exp\left[ (e^t - 1)\sum_{i = 1}^n \lambda_i\right]. \end{align*}

使用 Λ=i=1nλi\Lambda = \sum_{i = 1}^n \lambda_iYY 的矩生成函数是

MY(t)=exp[(et1)Λ],M_Y(t) = \exp\left[ (e^t - 1)\Lambda \right],

这是均值为 Λ=i=1nλi\Lambda = \sum_{i = 1}^n \lambda_i 的泊松分布的矩生成函数。这意味着nn个独立泊松分布之和也是泊松分布,其均值是各个泊松均值之和。

5 卡方分布

示例 7.9 和 示例 7.12 产生了卡方分布,这是统计理论中的一个重要模型(定理 8)。

定义 7.2(卡方分布) 具有概率密度函数的连续随机变量 XX

fX(x)=x(ν/2)1ex/22ν/2Γ(ν/2)for x>0\begin{equation} f_X(x) = \frac{x^{(\nu/2) - 1}e^{-x/2}}{2^{\nu/2}\Gamma(\nu/2)}\quad\text{for $x > 0$} \end{equation}

据说具有参数 ν>0\nu > 0卡方分布。参数 ν\nu 称为 自由度。我们写 Xχ2(ν)X \sim \chi^2(\nu)

χ2\chi^2-分布的一些图如图 7.7 所示。

卡方是 α=ν/2\alpha = \nu/2β=2\beta = 2 时伽马分布的特例。这意味着可以从伽马分布的性质中获得卡方分布的性质。

卡方分布

图 7.7:一些 χ2\chi^2-分布

卡方的基本性质直接遵循伽马分布的基本性质。

定理 7.2(卡方分布的性质) 如果 Xχ2(ν)X \sim \chi^2(\nu) 那么

  • E(X)=ν\text{E}(X) = \nu.
  • var(X)=2ν\text{var}(X) = 2\nu.
  • MX(t)=(12t)ν/2M_X(t) = (1 - 2t)^{-\nu/2}.

定理 7.3(1 自由度的卡方分布) 如果 ZN(0,1)Z \sim N(0, 1)Z2Z^2 具有一个自由度的卡方分布。

卡方分布的一个有用性质是:如果若干随机变量都服从卡方分布,则这些独立随机变量的总和也服从卡方分布。这个性质在下面的定理中给出,后面会用到。

定理 7.4(卡方分布) 如果 Z1,Z2,,ZnZ_1, Z_2,\dots, Z_n 独立同分布 (iid) 为 N(0,1)N(0, 1),则平方和 S= sumiZi2S = \ sum_i Z_i^2 具有 χ2(n)\chi^2(n) 分布。

证明_。由于 SS 是已知分布的线性组合,因此矩生成函数方法是合适的。由于 Ziχ2(1)Z_i \sim \chi^2(1),来自定理 7.2

MZi(t)=(12t)1/2.M_{Z_i}(t) = (1 - 2t)^{-1/2}.

S=i=1nZi2S = \sum_{i = 1}^n Z_i^2 有矩生成函数

MS(t)=i=1n(12t)1/2=[(12t)1/2]n=(12t)n/2,\begin{align*} M_{S}(t) &= \prod_{i = 1}^n (1 - 2t)^{-1/2}\\ &= \left[(1 - 2t)^{-1/2}\right]^n = (1 - 2t)^{-n/2}, \end{align*}

这是 χ2(n)\chi^2(n) 的矩生成函数。

如果没有计算机或表格,通常无法计算卡方概率。

R 中,卡方分布函数的形式为 [dpqr]chisq(df),其中 df=ν{} = \nu 指的是自由度。

**示例 7.14(卡方分布)**变量 XX 服从自由度为 12 的卡方分布。确定 XX 的值,低于该值的分布占 90%。

我们寻找一个值 cc 使得 Pr(X<c)=FX(c)=0.90\Pr(X < c) = F_X(c) = 0.90 其中 Xχ2(12)X\sim\chi^2(12)。在 R 中:

1
2
qchisq(0.9, df = 12)
#> [1] 18.54935

也就是说,大约 90% 的分布位于 18.549 以下。

练习

Suppose the pdf of XX is given by

fX(x)={x/20<x<2;0otherwise.f_X(x) = \begin{cases} x/2 & \text{$0 < x < 2$};\\ 0 & \text{otherwise}. \end{cases}

  1. Find the pdf of Y=X3Y = X^3 using the change of variable method.
  2. Find the pdf of Y=X3Y = X^3 using the distribution function method.

Exercise 7.1 The discrete bivariate random vector (X1,X2)(X_1, X_2) has the joint pf

fX1,X2(x1,x2)={(2x1+x2)/14for x1=0,1 and x2=0,1;0elsewhere.f_{X_1, X_2}(x_1, x_2) = \begin{cases} (2x_1+ x _2)/14 & \text{for $x_1 = 0, 1$ and $x_2 = 0, 1$};\\ 0 & \text{elsewhere}. \end{cases}

Consider the transformations

Y1=X1+X2Y2=X1+X2\begin{align*} Y_1 &= X_1 + X_2 \\ Y_2 &= \phantom{X_1+{}} X_2 \end{align*}

  1. Determine the joint pf of (Y1,Y2)(Y_1, Y_2). % Y1=1 Y1=2 Y1=3 %Y2=0 2/14 4/14 0 %Y2=1 0 3/14 5/14
  2. Deduce the distribution of Y1Y_1. % 2/14 if Y1=1 % 7/14 (=3/14 + 4/14) if Y1=2 % 5/14 if Y1=3

Exercise 7.2 Consider nn random variables XiX_i such that XiGam(αi,β)X_i \sim \text{Gam}(\alpha_i, \beta).

Determine the distribution of Y=i=1nXiY = \sum_{i = 1}^n X_i.

Exercise 7.3 The random variable XX has pdf

fX(x)=1π(1+x2)f_X(x) = \frac{1}{\pi(1 + x^2)}

for <x<-\infty < x < \infty. Find the pdf of YY where Y=X2Y = X^2.

Exercise 7.4 A random variable XX has distribution function

FX(x)={0for x0.5;2x+12for 0.5<x<0.5;1for x0.5.F_X(x) = \begin{cases} 0 & \text{for $x \le -0.5$};\\ \frac{2x + 1}{2} & \text{for $-0.5 < x < 0.5$};\\ 1 & \text{for $x \ge 0.5$}. \end{cases}

  1. Find, and plot, the pdf of XX. 1. Find the distribution function, FY(y)F_Y(y), of the random variable Y=4X2Y = 4 - X^2. 1. Hence find, and plot, the pdf of YY, fY(y)f_Y(y).

Exercise 7.5 Suppose a projectile is fired at an angle θ\theta from the horizontal with velocity vv. The horizontal distance that the projectile travels, DD, is

D=v2gsin2θ,D = \frac{v^2}{g} \sin 2\theta,

where gg is the acceleration due to gravity (g9.8g\approx 9.8m.s2).

  1. If θ\theta is uniformly distributed over the range (0,π/4)(0, \pi/4), find the probability density function of DD.
  2. Sketch the pdf of DD over a suitable range for v=12v = 12 and using g9.8g\approx 9.8.

Exercise 7.6 Most computers have facilities to generate continuous uniform (pseudo-)random numbers between zero and one, say XX.
When needed, exponential random numbers are obtained from XX using the transformation Y=αlnXY = -\alpha\ln X.

  1. Show that YY has an exponential distribution and determine its parameters.
  2. Deduce the mean and variance of YY.

Exercise 7.7 Consider a random variable WW for which Pr(W=2)=1/6\Pr(W = 2) = 1/6, Pr(W=2)=1/3\Pr(W = -2) = 1/3 and Pr(W=0)=1/2\Pr(W = 0) = 1/2.

  1. Plot the probability function of WW.
  2. Find the mean and variance of WW.
  3. Determine the distribution of V=W2V = W^2.
  4. Find the distribution function of WW.

Exercise 7.8 In a study to model the load on bridges,59 the researchers modelled the Gross Vehicle Weight (GVM, in kilonewtons) weight of smaller trucks SS using SN(390,740S\sim N(390, 740, and the weight of bigger trucks BB using LN(865,142)L\sim N(865, 142). The total load distribution LL was then modelled as L=0.24S+0.76BL = 0.24S + 0.76B.

  1. Plot the distribution of LL.
  2. Compute the mean and standard deviation of LL.