大家好。我刚刚在这里建博,准备在今后写一些我对于概率论的理解,以及概率论在具体应用中的例子。
今天的第一篇文章是我在2007年夏天写的,最初发表在我的校内主页,后来被同学发到新水木上,又被其他一些网站转载。我把原文修改了一下,发到这里。
首先谈谈我对数学美的看法。关于数学美,我比较欣赏的有两种观点,一种是认为数学美=逻辑的复杂程度除以表述的复杂程度;第二种认为数学的活力依赖于与它有联系的科学分支的多寡与分支的活力。也许做应用的人更倾向于后种观点,但我是比较认同前种观点的。因此,我下面的主要内容就是介绍一些概率论中的基本例子,这些例子的表述是相当简单的,但得到这些例子的手段却比较复杂。我将试图把每个例子表述清楚,让只要有初等概率论基础的读者就知道在说什么,但对得到这些结果的证明过程则一律省略,只简要提出涉及的基本工具,但其中有些比较简单的细节会给大家留为习题。这些例子一律来自Durrett的著作:Probability theory and examples——我认为最优秀的概率论教材。
例1. Coupon collector问题:X1,X2,…是独立同分布,均匀的取自集合{1,…,n}的随机变量序列。大家把集合{1,…,n}想象为若干张扑克牌,每次我们等概率的取一张扑克牌,取完放回.t(n,k)=inf {m: |{X_1,…,X_m}|=k} ,意思就是手中取过k种不同的扑克牌所需的次数。T(n)=t(n,n)表示取过所有扑克牌所需的次数。X(n,k)=t(n,k)-t(n,k-1),则X(n,k)服从参数是1-(k-1)/n的几何分布(思考题!),它的期望和方差可求,且容易发现X(n,1),…,X(n,n)相互独立,从而可以求出ET(n),Var T(n)(习题!)。进一步就可以得到 (T_n – ET_n)/ nlogn依概率趋近于0.(注意L2收敛蕴含依概率收敛)最终得到一个漂亮的结论:
T_n/nlogn
依概率收敛于1.
大家也可以直接看这一行,我把这一行的实际意义说清楚:就是假设我们要收集的邮票有n张,而每次别人给我们提供的邮票恰恰是等概率的,那么要想把n张收集全,需要的时间与nlogn同阶。所以大家就可以发现,为什么我们想集齐比较少的邮票要比集齐多的邮票容易的多。
从理论的角度看,在讨论随机变量收敛性问题时,独立性和矩是非常重要的。为什么我们非常喜欢方差这个概念呢?我想一个重要的性质就是:对于独立的随机变量,方差对和有分配律。于是二阶中心矩才会成为最重要的矩。通过对矩的估计把随机变量的收敛性问题,转化为实数序列的收敛性问题,最后完全是数学分析的东西,这种手段是屡屡使用的。
例2 非对称的简单随机游动问题:X_1, X_2,…独立同分布,P(X_i =1)=p, P(X_i=-1)=1-p=q , S_n=X_1+…+X_n. .
我简单介绍一下这个问题的背景。设有一个点在0时刻位于实轴的原点0处,它在每个时刻以概率p向右跳跃一个单位长度,以概率q向左跳跃一个单位长度,且跳跃的方向与以前每次跳跃的情况是独立的。S_n表示的是:n时刻这个点所在的位置。
我们有如下非常精彩的结论:
1,设T_x =inf {n: S_n =x},它的直观意思是,这个点首次跳到x的位置的时刻。那么对于任意的a<0<b,P(T_a <T_b)=[ f(b)-f(0)]/[f(b)-f(a)],这里函数 f(x)=(q/p)^x。
上面的这个等式的直观意义:a是负半轴上一点,b是正半轴上一点,点没到b之前先到a的概率被计算了出来。
得到这个结论最快的方法就是用鞅论。鞅实在是一个漂亮的东西,而它的漂亮之处就在于它与停时结合在一起后的巨大威力。用N表示T_a和T_b中的较小值,则N是停时。首先要说明的是N小于无穷大。要得到这个结论,我掌握的有三种方法:
(1)通过EN小于无穷大,得到这个结论,这事实上是通过一个强的多的结论说明的,具体见Durrett书181页。
(2)通过鞅收敛定理,见Durrett书275页。其中用了一个重要结论:一致有界的鞅序列必然一致可积.
(3)通过马氏链的性质:对于一个有可列状态,不可约的马氏链,用F表示状态空间的一个有限子集,设初始状态属于F,用T表示链首次离开F的时间,则一定有T小于无穷大.
2 ET_b =b/ (p-q), 即首次到达b点的平均时间是b/(p-q)。
处理方法还是用鞅论,这里不再多说。
关于用鞅论解决马氏链问题的例子,我还推荐大家阅读Durrett书上的(1)M/G/1排队(282页,298页,309页)(2)生灭过程(295页,301页)
例3 遍历定理的一个应用(Benford律)
首先提一个问题:随机选取一个正整数,它的第一位数字是1 的概率是多少?
很多同学会武断的回答:1/9.
可是你忘记了问我一个问题:你是如何随机选取的?
也许你会说:这还用问?就是等概率的选取呗。
可是不要忘记,对于可列状态的状态空间,不存在一个概率测度,使得它在任意两个单点集上的概率相同!
其实一个直观的想法是:我们考虑前n个正整数中(均匀分布是可能的),首位数字是1的概率记为f(n),然后把f(n)的极限作为我上面所提问题的答案。
可是随后会不幸的发现,极限是不存在的!
于是作为习题,设前n个正整数中,首位数字是1的概率记为f_1(n),则f_1(n)的上极限是5/9,下极限是1/9,且对于任意属于区间[1/9,5/9]的实数a,都存在f_1(n)的子序列,它的极限就是a。类似的,记前n个正整数中,首位数字是2的概率是f_2(n),其上极限是10/27,下极限是1/18.(数学分析的习题!)
但是,当我们转而思考这样的等比序列,1,2,4,8,16,…记这个序列的前n项中首位数字是1的概率为f_1(n),则f_1(n)是有极限的,且极限是lg2.(lg表示以10为底的对数)。一般地,对于任意一个非10的整数次幂的正整数q,考虑以1为首项,以q为公比的等比数列,它的前n项中首位数字是k的概率记为f_k(n),则f_k(n)的极限是lg(k+1)-lgk. (证明不在这里给出了,大家可以从结论中去欣赏概率论之美。)
这个结论是非常漂亮的!叙述是非常简单的,意义是非常直观的,但并不是容易猜到的,证明所需的背景——遍历定理又是极其深刻的。读来畅快淋漓!
以上仅选取三个概率论的基本例子,它们的结论是直观易懂的,而解决它们所需的数学工具却并不是简单的。这就体现出概率论高度理论化之后的巨大威力,以及其中的美妙。管中窥豹,可见一斑,希望能以本文激发大家深入学习概率论的兴趣。
|