找回密码
 立即注册
搜索
总共850条微博

动态微博

查看: 2782|回复: 12
打印 上一主题 下一主题
收起左侧

什么是概率?(图)

[复制链接]

3376

主题

5929

帖子

16万

积分

跳转到指定楼层
楼主
发表于 2009-2-23 23:51:29 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

作者:idiot94
 www.ddhw.com
idiot94在下面一个关于概率帖子的回复中提到了这篇发表在文学城的文章。我会找时间认真读一读,不过先转过来与这里的朋友分享。
 
********************************************************************
idiot94按:每次各种各样脑瘫上谈论的最多的,吵得最不可开交的,最后好像结论也最不清楚地,往往就是概率问题。确切的说,往往是一些本身并没有说清楚地古典概型的问题。“问题“并不处在如何“解题“上,其实是出在如何理解那些所谓的题目上,讨论者如果没有明白这个关键,钻在计算细节里面出不来,自然会争论个没完。小的想要提醒大家,计算只是个手段而已,要在概念必须清楚,如果该计算什么东西都没有搞清,计算本身还有什么意义呢?所以不辞愚陋不怕麻烦,啰里巴索写下许多废话来给大家饭后茶余找个乐子。
————————————————————————————

好好活就是有意义,有意义就是好好活! ---- 许三多
www.ddhw.com

1)直觉上的概率,为什么要研究“概率“?物理上的概率。www.ddhw.com

我们经常说到“概率“这个词,可是,先且不讲这个词到底是什么意思,我们先来看看我们为什么要对这么个词感兴趣,好吗?
有人说,概率就是研究不确定性的学问。想想也是,要是没有什么不确定性,也就是说,我们总能够清楚知道未来,还要概率这东西做甚?所谓不确定,什么意思呢?就是我们不知道下一个时刻具体会发生什么事情,换句话说,就是根据我们现在手头上掌握的信息,我们无法精确预报下一个时刻将要发生的事情。这其实有两种不同的可能含义:
a)我们没有掌握足够的信息或者数据,所以无法预测。而如果我们掌握了“足够“的数据,则完全可以精确的预测下一个时刻的事件。
b)即使我们掌握了所有的信息(截止目前为止),也一定无法预测下一个时刻的事件。后者不完全由过去的状态所决定。
这是两种完全不同而且差异很深刻的世界观,前者是决定论(比如经典的牛顿力学),后者在某种程度上是一种不可知论(比如现代量子论)。在决定论的观点下,没有真正不确定的事件,而在现代量子论(我之所以强调现代两个字,是为了提醒大家量子理论仍然在不断发展,或许明天或许此刻就已经有了新的突破,不过我不知道罢了)的观点下,则恰恰相反,没有什么完全确定的事件,有的都只是各种可能性的(所谓“几率波“)的叠加而已。这两种观点,孰是孰非,只怕会永远斗争下去。现在尽管物理学上量子理论占上风,可也不是没有不同的声音,比如爱因斯坦就说他绝不相信上帝是在掷毂子。(呵呵,其实偶倒觉得他应该无所谓,连韦小宝都想要几点就能掷几点,何况上帝,就算掷,也还是决定论:))

好了,罗嗦了大半天,偶就是要强调一点,有很多朋友总认为存在一个直观上的概率,一个符合“现实生活“的“自然“的概率,这是不严格的。说了许多,就是想传达这样一个信息:对于我们的现实生活中有没有“不确定的“事件,有没有 “概率“这样的东西,我们现在也不是很清楚,可能永远也不会清楚。所以,我们必须分清楚什么是数学上抽象出来的概率,它的精确定义又是什么,我们不能满足于总是混淆抽象的但是却严格的概率概念和直觉的但是却含混不清的“可能性“或者“不确定性“的想法。www.ddhw.com

让我们以一个可能是最常见的例子来结束第一部分----
抛掷一个均匀的硬币(fair coin tossing):通常我们在“概率问题“中一提到“抛一个均匀的硬币“,我们几乎总是隐含着这样的意思:这个硬币出现正面(Head)或者反面(Tail)的“概率“各是 1/2。或者更加具体一些,我们以为,抛出去的硬币出现正面和出现反面的“可能性“是一样的,这样两个事件是“完全对称“的----由于硬币本身物理上的对称性(所谓均匀)而导致的。这里,我们有意无意的忽略了投掷者这个因素。我们在现实生活中,也常常用这样的方式来“随机“的决定一些事情,比如在世界杯上谁先开球等等。
实际上,我们这样做是严重的想当然。主要表现在两个方面:
a) 投掷者的影响未必是可以忽视的。极端的情况下,想象一台精密的抛掷机,我们当代的技术显然可以把它做到足够好,使得它完全可以控制抛掷结果。即使在一般情况下,一个普通人,我们有什么理由认为他的习惯动作对于抛掷结果没有任何影响呢?他的意识和愿望对于结果没有任何影响呢?斯坦福大学统计系的教授Persi Diaconis 会在他给学生的第一节课上演示,他可以按照任何给定的序列要求,将一枚普通的硬币精确的掷出相应的结果,“这个世界上没有什么是随机的“,我的一位朋友有幸在他的课堂上目睹了这样有趣的一幕,所以我有幸听到这个生动的故事。

“There is nothing random about this world" --- Prof. Diaconiswww.ddhw.com

b) 其次,我们即使愿意相信正面和反面大致对称,我们又凭什么说他们出现的可能性各是1/2 呢?也就是说,我们为什么有权利不考虑其他的情况呢?比如,硬币落下去之后,立在了地上?或者是落地后碎成了两半,一半正,一半反;或者3片,4 片。。。,或者把地板砸个洞,然后找不到了。。。等等,呵呵,我并不是在搞笑抬杠(至少不完全是),这些事情,找个力气大点的兄弟,或是质量差点的硬币(但仍然均匀),或地板,都不是那么不可能的。

我们为啥又可以那么理直气壮的“忽略“这样的问题呢?其实我们并不理直气壮,只不过如果要什么都考虑在内的话,那恐怕就什么也做不了了。抛硬币这样一个直观的物理现象启发了我们的直觉,我们意识到这个现象中有些很有用的主要矛盾,如果我们抽象出来,会对我们分析处理许多别的问题有帮助。于是,我们走出了从直觉到严密的抽象的数学的第一步,古典概率。


“我那个是有证明的。“---------乱弹

2. 古典概率

古典概率由直觉而萌生,开始的时候和直觉也几乎没有区别。比如抛掷硬币的“随机试验“,在古典概率的初期,这个本应为抽象的数学的思想试验和实际的物质的真实抛掷也是不加区分的。但是很快,人们就发现抽象的定义这种事件的好处,古典概率也就从能够处理只有两面的硬币,只有六面的毂子,到任何有限的对象,比如 {1,2,...,n}这样的集合,甚而至于到许多离散的结构(可数的无穷集)等等。www.ddhw.com

一般的,对于一个可以有K种互异互斥的结果的试验 A,我们记这些结果(称为事件)为{A1, A2, ..., AK}, 对于每一个事件Ai, 都有一个相应的发生的可能性Pi,这些Pi 满足:0<=Pi<=1, 0表示不可能发生,1表示一定会发生。而且P1+P2+...+PK=1.

这样的Pi也可以表示成Ai的函数P,P(Ai)=Pi ----这个函数就叫做{A1,..}的概率(函数)。而{A1, A2,...AK}叫做样本空间。(其实也不严格)

这样的抽象定义来源于古典概率对概率的“统计理解“: 假定我们反复的进行试验A,进一步假定每一次的试验都完全不影响另外的试验,如果进行N次试验A,得到N1次A1, N2次 A2, ... NK次 AK,那么显然 Ni 不能是负的,也不能超过N, 而且N1+N2+..+NK=N. 最后,如果N足够大,那么 Ni/N 应该接近于P(Ai)=Pi, 如果N趋于无穷大的话,那么Ni/N应该有极限,而且等于Pi. www.ddhw.com

这个“统计理解“实际上是我们出于直觉而认为“概率“应该具备的含义。也是古典概率中“概率“的含义。

我们将会看到对于更加一般的问题,这样的概念是远远不够的。然而,仅仅是这第一步的抽象,已经使得我们可以描述和处理一些有趣的东西了:

例子1:首先还抛硬币!这次我们可以清楚地定义抛硬币为如下试验C: 它只有两种可能的结果{H,T}, 其中P(H)=P(T)=1/2. (满足P(H)+P(T)=1) 这里我们完整的定义了一个理想状况下的随机试验。函数P给出了这个实验结果的概率函数。我们也完全可以定义另一个抛(不均匀)硬币试验D, 也只有两种结果{H, T}, 但是P(H)=1/3, P(T)=2/3. 这也是完全合法的一个随机试验,只不过有着不同的概率函数罢了。

注意:这里的定义和上面讨论的那个“统计理解“完全无关,和您真的拿一枚硬币抛10000次,其中有多少个正面,多少个反面,多少次掉下楼梯什么的更是完全无关。我们从直觉中总结出那个抽象的定义之后,我们就直接处理那个抽象的对象了,而不必再回到原来的直觉中去。www.ddhw.com

例子2:(随机变量,期望)设想我们俩赌博(哦,顺便说一下,概率最先都是为了研究赌博而开始的,据说最早的概率论专家都是赌棍。。呵呵,这个可能无从考证了,不过,我上篇里面提到的Prof. Diaconis, 还有他们系另一个prof. Thomas Cover 都是被各大赌场ban掉的,呵呵),规则是,进行上述试验C, 如果结果是H, 则我赢得¥1,否则我什么也不赢。那么问题是,您应该收取多少钱的门票才使这个赌博游戏公平呢?一个直观的想法是,这个“门票“应该等于我赢钱的“平均值 “:¥1*1/2+ ¥0*1/2=¥0.5 ---- 这个想法,也源自于类似上面谈到的“统计理解“,请有兴趣的读者自行补出。

一般的,对于试验A, 在{A1, A2, .. AK}上有相应的赔率G(Ai), 我们称 E(G)=G(A1)*P(A1) + G(A2)*P(A2) + .. G(AK)*P(AK) 为G的期望。请允许我们暂且偷安,把这样的函数G:{A1, A2, .., AK} -> R 称为随机变量。(强调,还是不严格的,这是古典概率的根本缺陷所导致的)www.ddhw.com

例子3:(分布)我们常常看到有些朋友贴出题目里面有这样的话:“随机的选取5个数。。。“。现在我们看到,这样的说法是不严格的,含混的。它的含混不清是在两个层次上的:
首先,它要表达的意思其实是说,“取一个随机变量X (不是样本空间!!),它的值域由5个数构成,。。。“,而原来的表述很容易让人混淆成为正在定义一个样本空间。这个是古典概率本身的毛病,很多时候都对这两件事情不加区分。然而这是致命错误,它导致了许多著名的“悖论“,而正是对于这些“悖论“的思考引导概率论最终走上正途,形成了现代的体系。我们以后将会详细讨论。
不过,这种混淆虽然严重,但是在处理有限的对象,甚至许多离散的对象(可数无限)时,是不会出什么大问题的。
其次,这个说法,无论按照上面的哪一种理解,都没有给出这个随机变量或者样本空间的概率分布细节。这是个更加初级的错误,即使在古典概率中,也不会允许其存在。比如上面的例子1,试验C或D的抛硬币的结果都是“随机“的,但是当然会给出完全不同的结论。我们很多朋友都自动的以为,“随机“的意思就是说“等可能的“。这显然是不对的,现在我们已经明白,我们可以定义任何样本空间上的任何概率,只要满足非负,归一(就是加起来等于一)就可以了。对于一个随机变量,它更是可以以任何概率等于某一个值,而完全没有义务要“等可能“。我们讨论了许多,还要强调的就是“等可能的分布“既不比其他任何分布合理,也不比其他任何分布合法。
更为严重的是,有很多时候,“等可能的“分布完全就是不可能的!

我们继续看几个例子:www.ddhw.com

例子4:(无穷的样本空间)比如有的朋友建议,我们的概率应该符合如下的直觉:我们随机的取一个自然数,那么它是偶数的“概率“是1/2。
在这里,所谓“随机“的选取,就是一个常见的毛病,并没有很好定义。而且许多朋友认为应该可以解释成“等可能的“选取(相对于每一个自然数来说),可是这是不可能的。根据古典概率定义,如果我们把选择自然数n当作试验X的话,可能的结果,样本空间就是{ 1,2,3,。。。} ,相应的概率函数是P(i), i=1,2,.... 但是这个函数P必须满足0<=P<=1, 以及P(1)+P(2)+..+P(k)+...=1. 很显然,如果要求所有的P(i)都相等的话,这是不可能的。换句话说,就是对于无限的离散的样本空间而言,不存在所谓的平均分布(uniform distribution)。
可是,朋友们一定会困惑,那么为什么我们会有这样的直觉呢?呵呵,这就是直觉只能是直觉而不是事实的道理啊。毛主席凭直觉认为哪儿都有5%的坏人,结果抓来抓去,抓起个没完,诺大个国家给弄得凄凄惨惨戚戚差点儿断了气,完全靠直觉是靠不住的,我们必须讲求严格的思维。现在,就让我们来仔细看看这个直觉究竟有什么样的隐患呢?
我们之所以觉得碰到偶数的“概率“是1/2,是因为,第一,偶数和奇数可以建立一个一一映射,他们“一样多“ ---- 当然,大家都知道,这个理由大概不够,因为能被3整除的数也可以建立一个和不能被3整除的数的一一映射,然而,同样的直觉只怕要告诉我们,随便挑一个自然数,能被3整除的机会大概应该只有1/3左右。因此,还有第二条重要的观察:奇偶数一个间一个的排的整整齐齐,很有规律,比如你任取一段有限的区间 {1,2,..,2k}, 那么在这个区间内选择一个数字,它是偶数的概率是1/2(根据古典概率的定义,可以计算),于是让k->无穷,从而得出对于整个自然数集的“直觉 “性质。这样不加任何保障,想当然的由有限过渡到无穷的做法是很危险的。仍然用这个例子,让我们进一步想象,我们来玩这样一个游戏,您“随机“的在{1, 2,。。,k} 中选取一个整数,如果在给定的区间内再也没有比您选的数大的数的话,也就是说如果这个整数等于k的话,那么我就给您k元钱,否则什么也不给。那么对于这个游戏来说,公平的价钱显然是您的收益的期望值,也就是k*(1/k)=1元。对于任何一个有限的k都是如此,所以,如果我们让这个k趋于无穷的话,我们凭直觉还应该有一个价值为1元的公平游戏。可是,这时候游戏变成了您“随机“的选取一个自然数x,如果没有一个比它更大的自然数的话,我就付给您x元,很显然,您永远也不会得到任何东西的,所以这个游戏当然应该一文不值。这和那个想当然的直觉明显矛盾。问题出在哪儿了呢?就出在那个所谓“极限“过程,看似自然,其实不然。
我们以后还会看到,贯穿现代概率论的一系列重要的定理,就是各种各样的收敛性定理,这些提供了我们通向无穷之路的逻辑基础。www.ddhw.com

说到这里,我想把前面乱弹斑竹在跟贴中提到的“两个信封“的问题提出来,供大家思考:
我手里有两个信封,各有一张支票在内,上面均有正整数面额的款项,已知其中一个是另一个的两倍,但是具体是多少,没人知道。现在您打开其中一个信封,发现支票上是20元,现在我给您这样一个机会:您可以选择用它交换我手里的信封,也可以不交换。问题是:您应该交换吗?于是聪明的您开始计算:另一个信封里面可能是10元,也可能是40元(没有其他可能了),平均来说,您可以期望得到(10+40)/2=25元 > 20元。所以,按概率来说,应该交换。对吗?

我在上篇的末尾对于古典概率抱怨了几句,因为实在是写累了 :)呵呵,希望大家不要误会,我和古典概率不仅没仇,而且现在还要给它说说好话,我们来看下面这个著名的例子:www.ddhw.com

例子5:(game of points) 费马和帕斯卡是古典概率的两位重要的大家,有一天,哥儿俩在一起赌博(呵呵,偶没说错吧?丫的全是赌棍。。。:)),他们一人拿出100马克的赌资放到桌上,然后开始抛硬币(均匀的那种,抽象的,没人出老千的那种:)),规定如果是正面,就算费马赢一局,否则就算帕斯卡赢一局,累计积分,先赢20局的人赢走桌面上所有的钱(200马克)。于是两棍一边喝酒一边说荤段子一边掷硬币(呵呵 ,傻不傻呀?别见怪,学数学的都这德行。。。),赌的不亦乐乎。。。可是赌局进行到中间,老帕家里突然来了个佣人说是出了急事,非要老爷立刻回去(估计是去年赌博赢得前没全部报税,IRS来人查账了。。),于是不由分说,拉了老帕就要回去了。可是这是老帕正以17:13 的局面领先呢,那桌上的200马克赌资应该如何分摊呢?各人拿回自己原来的那100马克显然不可能的,因为帕斯卡抛老半天硬币,都快赢了,怎么能白干了活呢?全部给他显然费马也不会肯,毕竟老帕你还没有赢呢!当然这样的问题难不到这两位大数学家,他们很快找到了公平的解决办法,那么聪明的您呢? :)


人非圣贤,孰能无惑? ---- 孔老三


3. 古典概率的困惑。www.ddhw.com

古典概率发展到十八世纪的时候,已经可以解决许多有用的有趣的问题了,可以说已经成为一种有效的工具了。人们对于各种概率分布也积累了许多的感性认识,统计力学的初步发展给了概率理论直接的用武之地。这时候,各门应用学科对于已有的概率理论也提出了越来越多的要求,其中最重要的就是不再仅仅要考虑离散的对象,而也要分析连续的对象了。

前面提到的概率函数的定义是针对离散对象的,那个时代的数学家们自然想要把他们推广到连续的情形中去(更早的时候应该就有这样的工作了,具体的历史,我没有去查资料,烦请大家自己注意这些细节)。如何扩展是合理的呢?这里请允许我倒退一步,再来看看早期的古典概率对于概率有些什么样的基于直觉的定义(我在前面文章中给出的,其实已经是经过“粉饰“的,有着强烈现代观点烙印的定义,但是这些定义在他们共同的适用范围内,是等价的。):www.ddhw.com

拉普拉斯的定义:(为了避免翻译不当可能带来的不便,请原谅我直接转贴wiki上的原文)
The probability of an event is the ratio of the number of cases favorable to it, to the number of all cases possible when nothing leads us to expect that any one of these cases should occur more than any other, which renders them, for us, equally possible.
This definition is essentially a consequence of the principle of indifference. If elementary events are assigned equal probabilities, then the probability of a disjunction of elementary events is just the number of events in the disjunction divided by the total number of elementary events.

很快人们发现了这个定义的弱点,以John Venn 为代表的一些学者提出了frequencist' definition, 后者是类似于我前面给出的“统计理解“的关于概率的描述。www.ddhw.com

拉普拉斯定义的核心就是数数,数有关对象的个数。比如说一个毂子六个面,1,2,3,4,5,6。那么扔下去,出现1的可能性是6个里面出一个,1/6。出现小于3的可能性有两种,1和2,所以是2/6=1/3,等等。而对于一个连续的对象,比如说[0,1]区间,如果我们问,“‘随机’的取一个实数,它小于1/2 的概率是多少?“ 这句话的一个类似的理解就是,这个实数总共有[0,1]这之间所有的数这么多“种“选择,合乎要求的有[0,1/2]之间的数这么多“种“选择,所以其概率应该是这两种选择的数目的比值(拉氏定义),当然这些数目都是无穷多种,但是直观告诉我们,在这里,线段的长度似乎是个不错的度量,而且如果使用这个度量来取代原来的离散对象的个数,我们将会得到一个等于1/2的概率,也符合常识和直觉。对于更高维的结构,人们也就自然的用面积,体积等等概念来替代长度。

这个时候的人们已经可以熟练的运用黎曼积分来计算各种图形的面积,周长等等。于是上述被推广的拉氏概率定义也被广泛的应用于计算之中。www.ddhw.com

一个著名的问题(Bertrand's paradox)被提了出来:
一个等边三角形的外接圆上随机的取一条弦,问这条弦的长度大于等边三角形的边长的概率是多少?
关于这个问题,大家可以自己思考,讨论一下,看看都有些什么样的回答,详细的介绍动态老大在以前的帖子中给出过链接,这里我重复一下:
Bertrand's paradox

这个“悖论“的核心问题就在于这样粗糙定义的概率概念没有足够清晰的刻画“随机“的含义,因而有了各种歧义。

十九世纪的时候,关于积分的理论,关于图形或者更一般的集合的“面积“等性质的研究都有了长足的发展。做出了核心贡献的数学家之一叫做勒贝格。他所发展的积分和测度理论为现代概率论准备好了必要的工具和理论基石。
 
 
 
 工欲善其事,必先利其器 ---- 孔老二www.ddhw.com

4.测度论的成长

对于平面或者空间图形,诸如长方形,正四面体,椭球等等对象的“长度“,“面积“和“体积“这样一些表征它们的“大小“的量,在牛顿等人提出微积分以后,已经有了比较完善而且有效的处理手段。这就是我们熟知的(黎曼意义下的)定积分,它从最重要也是最基本的情形---曲边梯形的面积出发,解决了“实心“体(基本上就是稠密的有界闭集)的大小问题;而微积分基本定理则提供了定积分和原函数(即微分的逆运算,又叫不定积分)之间的桥梁,使得具体计算变得简单可行。www.ddhw.com

然而很多应用问题要求理解一些结构更为复杂的点集。比如我们前面提到的关于自然数集的某些子集的概率问题,如果我们从[0,1]区间的例子反过来设想,我们如果能够理解所谓自然数集的“长度 “这样的概念的话,我们可以用类似以子区间(比如[0,1/2]这样的东西)的长度来刻画自然数的子集的“长度“,然后以两个长度的比值来描述概率。这样的办法可能会比原来那种直接“数数“的办法要好一些。又比如说,如果我们要考察某种在有理数集上的分布的话,那么我们大概是不可能数数了,但是如果能够搞出某种办法来定义有理数集或者其子集的“长度“的话,我们仍然有可能研究其上的概率问题。

所以我们想推广长度的概念。既然要推广,我们就应该想想我们脑海里面的“长度“究竟是什么东西?究竟有哪些性质刻画了这样一个概念呢?首先,长度是非负的。其次,它是唯一的,就是说一样东西只能有一个长度(什么?小孩子会长高?去你的,偶说的是同一时刻的,少跟偶玩什么德谟克里特。。)。而我们感兴趣的主要是有限的长度。此外,极其重要的是,我们看到的长度都是可加的,就是说一根棍子再连上另一根,那么新棍子的长度就是原来两根棍子的和。同样的,如果把一根棍子折成两段,那么这两段长度之和就等于原来棍子的长度。这些基本上就刻画长度这个概念重要的性质。至于那些长度到底等于几,其实没那么重要,或者说根本就不重要。比如说,三国演义说关公身长九尺,难道你真的信姚明只到他胸口?测量单位是个相对标准,一旦有变,相应的数值就会变化。美国用码,我们用米,但是就算我们不清楚相互之间的具体换算关系也不改变长度的基本性质。(虽然在这里我不打算详细讨论,但是提一下,只要对于长度(测度)为0的对象有一致的定义,数学上就称这样的测度为等价的。)www.ddhw.com

上面3条性质,比较显然直观,但是威力也不够大。尤其没有能够提供从有限到无限的桥。连古人都考虑到拿出一根棍子,什么“日取其半,万世不竭“之类,反过来想也就是说被截成的那些一段一段的小棍子(有可数的无穷多)它们的长度合起来应该正好还原成原来的那根棍子。这个性质不再是那么简单了,但是我们还是希望长度或者更加广泛的“测度“最好具备它,因为这样可以使这个概念能更加有用,同时也基本符合我们的直觉。这就是所谓的可数可加性(又叫做á-可加性):
如果点集A1, A2, ..., Ak, ...都可以定义长度/测度,而且两两互不相交,A=所有A1,A2,...的并集,并且A也可以定义长度/测度的话,那么 A的长度 = 所有A1, A2,...的长度和。www.ddhw.com

现在,让我们以长度为样子,试着在实数集R上面建立一个由R的一些子集到R+(非负实数集,包括0和正无穷---偶敲不出那个通常的数学符号来,请包涵)的映射m, 使得:
1)m(空集)=0
2)对于任何实数a,b,区间[a, b]有:m([a, b])=b-a,这里我们称空集和闭区间为可测的。
3)对于任何子集A1,A2,...,Ak,...如果他们互不相交,而且可测,那么它们的可数并集A也可测,并且m(A) = sum(m(Ai), i=1 to infinity), 这里允许有正无穷在等式里。
4)如果A可测,那么A的补集也可测。(可以为正无穷)
这样定义出来的映射m, 就是一个R上的测度。m的定义域B是一个被称为á-代数的东西,这里给出的特例是著名的Borel集,而这个测度m也叫Borel测度。这样3样东西合在一起(R, B, m)被称为一个(Borel)测度空间。而B中的元被称为可测集。www.ddhw.com

很显然,这个B并不是所有R的子集的集合,它要小的多。大家可能会好奇的问,为什么不能搞一个定义在所有R的子集上面的测度呢?当然可以啦,比如说,你可以定义任何集合的测度都是0,完全没有问题。这个叫做平凡测度,当然也没有什么用处。比如我们会期望一个有用的测度在闭区间上保持和长度具有一样的性质,就是说应该有 m([a,b]) = b-a。一个比Borel测度更加广泛而且保持这个性质的测度是存在的,就是我们前一段提到过的勒贝格测度,这是一个由所谓“外测度“构造得来的测度空间,它包含所有Borel可测集,以及多得多的其他集合,而且是完全的(Complete)。然而,如果我们承认选择公理的话,我们可以证明存在一个不可测的R的子集,这是著名的Vitali定理。以前康师傅写的一篇介绍选择公理的文章中提到过。这里我们就不再深入讨论了。

在了解了测度背后的“源于生活“的背景后,下面为了节省时间和空间(毕竟,我们目前只是在讨论工具而已),请允许我不再详细讨论而直接列出一些重要的概念:
考虑非空集X,
1) X的子集集合F被称为一个á-代数,如果
a) 空集属于F; b) 如果A属于F, 则A的补集也属于F. c)F中任何元素的可数并属于F.

2) 如果F是X的一个á-代数,m:F->[0,正无穷],满足:
a) m(空集)= 0; b) á-可加性:对于互不相交的A1,A2,...属于F, A=所有A1,A2,..的并(所以也属于F), m(A) = sum(m(Ai), i=1 to inf).
那么三元组(X, F, m) 叫做一个测度空间,m 叫做测度。F的元叫做可测集。www.ddhw.com

3)对于测度空间(X, F, m), 如果函数 f:X -> R (实数集)满足:任何闭区间[a, b]的原像都是可测的,那么f被称为一个可测函数。

4)对于可测函数,我们可以通过一个叫做“标准机器“的程序定义它对测度m的(勒贝格)积分,这个积分对于黎曼可积的函数是和定积分一致的。这个“标准机器“的具体步骤比较繁琐,这里不打算赘述了,有兴趣的朋友可以参考

Lebesgue integral
 
 
 
让我们把所有理论都公理化吧! ---- 康师傅

5. 公理化的概率论

呵呵,那句话好像不是偶师傅说的,记得是在他介绍Godel不完备性定理的一篇文章里面引用希尔伯特的话,大概那么个意思而已 :)www.ddhw.com

伟大的希尔伯特的公理化梦想被Godel一记粉拳打得粉碎,不过在某些局部,老人家善良的梦想还是得以实现了的,就像金博士的那个梦一样。至少,在概率论方面,实现这个梦想的人是个叫做Kolmogorov的老毛子:
Andrey Nikolaevich Kolmogorov (Russian: Андре́й Никола́евич Колмого́ров) (25 April 1903 - 20 October 1987) was a Soviet mathematician who made major advances in the fields of probability theory and topology.

老K搞出来了无数厉害的冬冬,有兴趣的朋友不妨wiki一下他的大名就能看到一串长长的列表,搞得尤其后来不幸选择学习概率的小家伙们不得不对他的头像三叩九跪,就像有些人对一个什么姓李的“老师“一样。主要是老K霸道的很,拔根鸡毛当令箭,硬是说他自己说的话是公理(还好没说是真理,呵呵,那个是领袖们的专利),幸亏老人家还是比较善良的,这样的话他只说了3句:
(Kolmogorov Axioms)
我们用S来表示所有事件的总和(样本空间),用F来表示我们所要考虑的所有事件的集合(事件空间),用F的元素,S的子集合E来代表某个事件,用P(E)来表示这个事件的概率,那么:
公理1: 任何事件的概率非负。P(E)>=0(非负性)
公理2:整个样本空间(包含所有考察范围内的可能性的总和)的概率为1。P(S)=1(归一性)
公理3:对于任何可数个互异互斥的事件E1,E2,...Ek,...,他们的总和是一个事件E,E也属于事件空间F,而且P(E)=sum(P(Ei), i=1 to infinity) (可数可加性)
其实,简单明了的可以把这三句话总结成如下常用的形式:
我们称测度空间(S, F, P)为概率空间,如果P(S)=1.
进一步,我们称S为样本空间(sample space), F为事件空间(event space), P为概率测度(probability measure).

(额的神哪。。。写了这么多,偶的眼睛都熬红了,就是为了这么几个黑字啊!!偶苦命的儿啊。。。555。。。。。)费那么大劲,最后就是这么个玩意儿,值得吗?黄蓉挖空心思弄了个什么二十四桥明月夜,最后郭大虾还不就是一口?有什么好处吗?有!小郭这样就要搞清楚吃的是豆腐,什么豆腐,谁的豆腐。。,以及什么时候,什么时候和谁一起才可以放心大胆的吃豆腐等等重要的原则性问题。。。。偶们也一样啊,这个定义彻底的把“概率“这个概念要研究的对象,对象的范围,以及他们所应有的最根本的性质搞清楚了。在这个框架下,我们才能无歧义的大胆讨论各种概率问题,这个公理化的定义给概率理论提供了坚实的逻辑基础。
 
 
 
 
公理化的好处在哪里呢?我们来通过几个例子体会一下。www.ddhw.com

例子1:还是抛硬币,这里,我们的样本空间S={H, T}, 事件空间F={空集,{H}, {T}, S}, 概率测度P(空集)= 0, P({H})=P({T})=1/2, P(S)=1.请验证这样的定义确实满足概率空间所有的要求。

例子2:离散的有限空间: S={1,2,3,。。,k}, F=2^S (S的所有子集的集合,叫做幂集合),对于任何的1<=i<=k, P({i})=1/k.(对比这个定义和前面提到的古典概率的定义)也请验证这样的定义是可行的(S还有许多别的子集, 上述定义是自恰无矛盾的。)。

例子3:以自然数集为样本空间,这一次很显然我们不可能指望在有均匀的权重了,但是如果我们定义P({i})=2^(-i)的话,那么因为sum(2^ (-i), i= 1 to infinity)=1而且是绝对收敛的,所以S={1,2,...}(所有自然数),F=2^S, 以及上述P可以构成一个概率空间。实际上任何一个收敛到1的正项级数都可以用来取代上面这个指数级数而构成一个合法的概率空间,因为他们是绝对收敛的。www.ddhw.com

例子4:连续的样本空间:S=[0,1], F={[0,1]上的Borel集},P=勒贝格测度;那么因为P([0,1])=1,所以(S, F, P)是一个概率空间。在这个概率空间里,我们看到P(空集)=0,P({x})=0, 对于任何0<=x<=1,因为根据定义P({x})=P([x,x])=x-x=0.
进一步,我们看到,对于Q={[0,1]上的有理数},P(Q)=0,因为Q=所有[0,1]上的有理数单点集的可数并,而且前面已经证明了每一个单点集的测度为0。
所以,对于集W={[0,1]上的无理数},P(W)=1. (为什么?)
另外,作为一个简单的练习,请大家举出一个P测度为0的不可数集来。

定义:一般的,对于测度空间(S, F, P), N={s|P(s)=0}成为它的Null Space, N的元叫做Null Set. (抱歉,这两个词的恰当中文翻译偶不知道,不敢乱编。)

现在我们可以引入非常核心而且有用的概念:
定义(随机变量):对于概率空间(S,F,P), 可测函数X:S-->R叫做(实值的)随机变量。www.ddhw.com

关于随机变量的各种性质的研究形成了概率理论的核心。其中最简单也是最重要的就是它的平均值---数学期望:
定义(数学期望):X是概率空间(S,F,P)上的随机变量,E(X)=X在S上对于测度P的勒贝格积分,E(X)叫作X的数学期望。

例子5:(indicator function)有一类极其简单却又极其重要的随机变量,
我们以I_a(.)来表示:对于某个F的元a(事件),I_a(s)=1 (如果s属于a) 或者 0(其他)。这个随机变量叫做a的indicator function,它的数学期望E(I_a)=P(a).

定义(独立事件):事件a,b叫做独立的,如果P(a交b)=P(a)*P(b).

定义(独立变量):随机变量X,Y叫做独立的,如果对于R上任何Borel集A,B,事件{X属于A}和事件{Y属于B}都是独立的。

对于独立的随机变量X,Y,我们有重要的性质E(X*Y)=E(X)*E(Y).

————————————————————————————www.ddhw.com

嗯,写到这里,我觉得我应该停住了,不然就成了抄写教科书了----读了这些介绍的朋友们,如果有兴趣深入学习概率论,我推荐如下两本书:

对于非数学专业的朋友,我听说过:A Natural Introduction to Probability Theory (Kindle Edition) 作者是 Ronald Meester。书中不涉及测度理论,但是覆盖了很多有用的问题。我没有读过,只是想象,对于不愿意花费时间学习测度理论的朋友们,这样可能实际一些。

对于数学专业的朋友,我比较喜欢:A Course in Probability Theory Revised 作者是有趣的Kai Lai Chung 呵呵,偶喜欢这本书倒不是因为他是个华裔,主要是我个人比较喜欢这本书简洁清晰的风格。关于Chung本人,估计大家都有不少好笑的故事,以后有空可以分享:)

接下来,如果有空的话,偶可能会简单的写写现代概率理论的分支和应用。如果动态老大愿意帮忙写一些,就更好了 :)
 
www.ddhw.com

 
回复

使用道具 举报

22

主题

512

帖子

3886

积分

沙发
发表于 2009-2-24 06:42:17 | 只看该作者

呵呵,我怎么会介意呢:)谢谢转贴,麻烦您了:)


另外呢,所谓水平不高,错误遗漏之处在所难免,希望读者不吝赐教。。。呵呵,虽然是套话,但是放在这里却很实在。


 
回复 支持 反对

使用道具 举报

128

主题

550

帖子

8036

积分

板凳
发表于 2009-2-26 18:24:53 | 只看该作者

回复:什么是概率?(图)


"主要是老K霸道的很,拔根鸡毛当令箭,硬是说他自己说的话是公理" -- 您说的是那个万恶的旧社会,只能学霸一手遮天。现在好了,小虾们也翻身作主人,可以动不动就造几个公理了。
 
 
不过,象老K这样的祖师爷是值得小虾们顶礼膜拜的, 尤其是那些靠这门手艺混吃饭的,包括某些刚刚在花街闯了祸的QUANT们。
 
 
很想只道关于CHUNG的趣事 -- 听过他学生的课,算是他徒孙辈的 -- 有言在先,警告那些听过CHUNG的课的可别借机充长辈。
 
另外,听说概率论早先是被大多数数学家所不齿的, 可能与它低下的赌场出身,土得掉渣的研究方法有关, 直到它和那些比较‘上流’的分支(象PDE)挂上钩,这才鸟枪换炮,弄了个比较冠冕堂皇的新头衔:现代概率论。
 
俺比较孤陋寡闻, 小声问一下有人靠研究概率拿飞二四嘛?
 
 www.ddhw.com
 
www.ddhw.com

 
回复 支持 反对

使用道具 举报

22

主题

512

帖子

3886

积分

地板
发表于 2009-2-26 19:44:00 | 只看该作者

回复:回复:什么是概率?(图)


Hey, do not say that!! :D ...
The financial crisis is a sure product of the Wall Street game rules, it has nothing to do with quants indeed. Quants are just soldiers, they do not make any decisions ---- actually they are not even soldiers, but more like guns ---- it is the politicians (senior managements in this case) who make wars and generals (traders, structurers etc.) who run the wars. You can't blame guns for the loss of war, man ... :)
 www.ddhw.com
OK, as for Chung, I did not personally sit in his class or any of his students' classes. :) But here is one funny example of his famous arrogance and "humor": many people like his book (including me) and the exercises in that book. In the earlier versions, there was one problem that was particularly hard and one audience from Australia worked diligently on it and after spent 3 months, he could not solve it and thus he wrote to Prof. Chung to ask for help. Chung's help was prompt and simple, "You should be able to finish it in about 2 hours!" He replied. However, after another 3 months, another letter arrived from the same person on the same problem saying he still couldn't figure out how to prove the result. Chung, of course, due to his usual arrogance, felt very proud of it and decided to bring it to his class to entertain his students. In the middle of one of his classes, he brought up the letter and read to his students, claiming "now let us see how stupid they are in Australia!" Then he started to "prove" it. Yet after 30mins, the class end rings, Professor cannot prove it. But that is ok, Chung simply dismissed the class promising he will continue to finish the proof the next class. And he spent the entire next class on it ... and next ... actually after 2 weeks of wasting time, he finally noticed that the problem was wrong and he missed an important condition in his original idea. :D
 www.ddhw.com
I think you are asking for Fields Medal winners? Wow, of course there are probability experts. The most famous one is probably Wendelin Werner (Brownian motion is also called Werner process). Then we have Andrei Okounkov (not sure whether he won it due to his work in probability though.). William Gowers who has extensive work in probability also won a Fields medal, yet due to his work in other areas. The celebrated Ito (for Ito's Calculus) did not win Fields medal (probably because he was already too old), but he was awarded Wolf Prize properly. There must be others that I do not know ...
www.ddhw.com

 
回复 支持 反对

使用道具 举报

5#
发表于 2009-2-26 20:05:30 | 只看该作者

A little misleading


Brownian motion is also called Werner process in honor of Norbert Wiener...

Not sure if the two Wieners are related...

 
回复 支持 反对

使用道具 举报

6#
发表于 2009-2-26 20:10:33 | 只看该作者

Andrey Kolmogorov won Wolf too.


  Andrey Kolmogorov won Wolf too.




回复 支持 反对

使用道具 举报

22

主题

512

帖子

3886

积分

7#
发表于 2009-2-26 20:21:10 | 只看该作者

wow, I did not know that .. thanks :) haha .[:-Q]


  wow, I did not know that .. thanks :) haha .




回复 支持 反对

使用道具 举报

614

主题

9189

帖子

14万

积分

8#
发表于 2009-2-26 20:32:19 | 只看该作者

什么是飞二四?[:>][:>]


www.ddhw.com

 
回复 支持 反对

使用道具 举报

128

主题

550

帖子

8036

积分

9#
发表于 2009-2-26 20:37:45 | 只看该作者

回复:回复:回复:什么是概率?(图)


"The most famous one is probably Wendelin Werner..."
 
Again, I'm so ignorant. Just googled Wendelin Werner -- a Fields medal winner and an actor! what a  rare (if not unique) combination.
 www.ddhw.com
Anyway, it seems you are only sure of one mathematican who got Fields (as late as 2006) for his work in probability. Looks like there is still some discrimination against this popular  branch.
 


 
回复 支持 反对

使用道具 举报

22

主题

512

帖子

3886

积分

10#
发表于 2009-2-26 20:38:44 | 只看该作者

呵呵,偶也是想了半天才明白他大概是想说菲尔兹 :)


  呵呵,偶也是想了半天才明白他大概是想说菲尔兹 :)




回复 支持 反对

使用道具 举报

128

主题

550

帖子

8036

积分

11#
发表于 2009-2-26 20:41:15 | 只看该作者

回复:什么是飞二四?


正式名字Fields medal
www.ddhw.com

 
回复 支持 反对

使用道具 举报

22

主题

512

帖子

3886

积分

12#
发表于 2009-2-26 20:46:08 | 只看该作者

回复:回复:回复:回复:什么是概率?(图)


我知道也少就是了 :)不过,一般来说,概率之类的东西,顶多算是应用数学,在数学界里面是很抬不起头的。概率差不多都要被挤出数学系了(到统计系去了。。。那就完全算工程了吧。。。),所以得奖少可以想象。数学系里面门户森严,搞分析的都被搞代数的斥为搞应用的,搞代数大概又要被搞逻辑的成为搞应用的了。。:)


 
回复 支持 反对

使用道具 举报

128

主题

550

帖子

8036

积分

13#
发表于 2009-2-26 21:24:11 | 只看该作者

回复:回复:什么是概率?(图)


说到学术界的辈分, 一个字:乱。
认识俩哥们,国内硕研时同事一师, 后来师弟跑国外师爷那混了个博士,回来后一定要摁着原来的师兄,让他改口称自己为‘师叔’,师兄那个郁闷啊
www.ddhw.com

 
回复 支持 反对

使用道具 举报

24小时热帖
    一周热门
      原创摄影
        美食美文
          您需要登录后才可以回帖 登录 | 立即注册

          本版积分规则

          Archiver|手机版|珍珠湾ART

          Powered by Discuz! X3 © 2001-2013 All Rights Reserved