hanhuiwen: [repost ]一张图的故事——概率分布之间的关系（上）

original:http://ift.tt/1rExvp6 概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系，下图是经典。本文将从上到下，从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了，家里没有网肯定写不了，所以先发布一部分，剩余部分国庆之后补上。另外求该图的原始出处。 M(n,π1,π2,..πn)→J=2Bin(n,π)。多项分布的项数等于二，则变成二项分布。 Bb(n,α,β)→π=αα+βBin(n,π)。Beta-binomial分布，就是Beta分布和二项分布这一对共轭分布的结合。假设 π∼beta(α,β)X∼binomial(n,π) 则X|n,α,β就是满足Beta-binomial分布。我们可以计算Beta-binomial的概率 p(x|n,α,β)==∫10Cxnπx(1−π)(n−x)1B(α,β)π(α−1)(1−π)(β−1)dπCxnB(α+x,β+n−x)B(α,β)(1) 后面推不下去了（囧里个囧）。等我有能力看懂文献1，再补全。 NBin(r,θ)→r−>∞,u=r(1−θ)po(u) 。Negative Binomial描述这样的场景：我们不停地做抛银币实验，每次正面概率为θ。我们经历了第X次反面之后得到第r次正面，则X符合Negative Binomial分布。易知概率公式如下所示 p(x|r,θ)====Cxr+x−1θr(1−θ)x(r+x−1)!x!(r−1)!(1−ur)r(ur)xu=r(1−θ)(r+x−1)...rrx(1−ur)ruxx!1∗(1+1r)...(1+x−1r)(1−ur)ruxx!(2) 因为1∗(1+1r)...(1+x−1r)→r−>∞1， (1−ur)r→r−>∞e−u。 limr−>∞p(x|r,θ)=uxe−ux!(3) Bin(n,θ)→n−>∞,u=nθpo(u) ,即二项分布随着n趋近于无穷而趋近于泊松分布。 ====limn−>∞p(x|n,θ)limn−>∞Cxnθx(1−θ)n−xlimn−>∞n!x!(n−x)!(un)x(1−un)n(1−un)−xu=nθlimn−>∞n!nx(n−x)!uxx!(1−un)n(1−un)−xuxe−ux!参照NBin−>po的证明过程(4) 历史上，泊松分布是这样推导出来的。实际上，我们可以这么理解：1个小时内通过某个路口的车辆数符合泊松分布。1个小时是由60分钟内组成的，每分钟通过某个路口的车辆数也满足泊松分布。1分钟是由60秒内组成的，每秒通过某个路口的车辆数也满足泊松分布。。。但是，当我们不停的细分下去，一段时间变成无数多个时刻之后，每个时刻只能以一定概率通过一辆车（一个时刻只能通过一辆）。这时通过的汽车数就变成n为无穷的二项分布了。 Bin(n,θ)↔B(π) 。二项分布的每次实验都是伯努利实验。 po(u)→σ2=u,u>15N(u,σ2) 。泊松分布近似正态分布。在证明这个近似之前，我们先介绍一个统计学上个概念,Moment Generation Function (MGF)。随机变量X服从任意分布,如下定义MGF: MX(t)=E[etX](5) MGF有一个重要的性质：如果两个分布的MGF相等，则这两个分布是相同的。因此，只要我们证明泊松分布的MGF趋近于正态分布的MGF,就证明泊松分布近似正态分布。泊松分布po(u)的MGF: ===≈MX(t)∑x=0∞uxe−u+txx!e−u∑x=0∞(uet)xx!euet−u∑x=0∞(uet)xx!是euet的泰勒展开eut+12ut2et=∑x=0∞(t)xx!≈1+t+12t2(6) 正态分布的MGF: MX(t)==∫∞−∞12π−−√σe−(x−u)22σ2etxdxeut+σ2t22∫∞−∞12π−−√σe−(x−u−σ2t)22σ2etxdx=eut+σ2t22(7) 根据公式6和7，易知当σ2=u时，泊松分布的MGF近似于正态分布的MGF,因此泊松分布近似于正态分布。 Bin(n,π)→u=nπ,σ2=nπ(1−π),u>15,nπ(1−π)>15N(u,σ2)。这里我们需要用到中心极限定理。假设X_1,X_2,…,X_n是服从任意分布的独立同分布样本，E(Xi)=u并且Var(Xi)=σ2>0, 则随着n→∞,∑ni=1Xi−nun√σ∼N(0,1)。我们进行n次成功的概率为π的bernouli实验，成功的次数为X，则根据二项分布的定义， X∼Bin(n,π)(8) 而根据中心极限定理，随着n趋近无穷，X−nπnπ(1−π)√∼N(0,1)，即 X∼N(nπ,nπ(1−π))(9) 综合公式8和9便可得到结论。 N(0,1)↔N(u,σ2)。标准正态分布和一般正态分布的关系。 MVN(uu,σσ)↔N(u,σ2)。正态分布是多元正态分布的一种特例。 t(n)→n→∞N(0,1)。t(n)表示自由度为n的Student t分布。Student t-分布可简称为t分布。其推导由威廉·戈塞于1908年首先发表，当时他在酿酒厂工作。因为不能以他本人的名义发表，所以论文使用了学生（Student）这一笔名。之后t检验以及相关理论经由罗纳德·费雪的工作发扬光大，而正是他将此分布称为Student t 分布。如果X1,X2,...,Xn是服从n(u,σ)的独立同分布的样本。我们知道X¯−uσ/n√服从u(0,1)分布，其中X¯=∑ni=1Xi。由于σ一般是未知的，我们不能用X¯−uσ/n√估计u。但是如果我们知道X¯−uS/n√的分布，其中S=1n−1∑ni=1Xi，我们就能估计u了。事实上，X¯−uS/n√满足t分布。t分布的公式： p(t)=Γ(n+12)Γ(n2)1nπ−−−√1(1+t2/n)(n+1)/2(10) 我们先处理t分布公式的前半部分。先假设n为偶数的情况，即n=2k。n为奇数的情况类似，不详述。 ==≈=Γ(n+12)Γ(n2)1nπ−−−√Γ(k+12)Γ(k)1nπ−−−√(2k)!π−√(k!)24k1nπ−−−√Γ(k+12)=(2k)!π−√(k!)4k2π2k−−−−√e−2k(2k)2kπ−√(2πk−−−√e−kkk)24k1nπ−−−√Stirling公式n!≈2πn−−−√e−nnn12π−−√(11) 我们接着处理t分布公式的后半部分。 […]

via WordPress http://ift.tt/1tZVFsu

Labels: hanhuiwen

hanhuiwen

Tuesday, October 14, 2014

[repost ]一张图的故事——概率分布之间的关系（上）

0 Comments:

Previous Posts