概率与数理统计理论的基本概念
当讨论到不确定性问题时,总会涉及概率的概念,即某一事件相对于其他事件发生的可能性,也就是说某事件至少有一种以上发生的可能性,否则,问题将变成确定性问题。概率即是某一事件的发生相对于一切其他事件的发生的量的度量。因此,构成概率问题的先决条件是必须明确问题发生的所有可能性,即所谓可能性空间以及该空间的事件。
1.2.1 随机事件与样本空间
不确定性事件发生的所有可能性结果的集合构成了随机事件发生的样本空间,而样本空间中的每一个具体结果叫做该样本空间的随机事件。要深刻理解概率的概念,必须先知道频率的有关性质。一般地,设随机事件A在n次试验或观测中出现的次数为nA,则称
地下水系统随机模拟与管理
为事件A在这n次试验或观测过程中出现的频率。事件A在多次观测中出现的频率虽为一个变数,但对多种物理现象的观测表明,当试验或观测的次数n逐渐增多时,fn(A)在一个常数附近摆动,且逐渐稳定于这个常数,也就是说频率具有稳定性的性质。频率的稳定性性质对于我们认识随机现象的内在规律性,预测事物和控制事物具有重要意义。
对于样本空间S中的随机事件A,n次试验中的频率具有下列性质。
(1)0≤fn(A)≤1
(2)fn(S)=1
基于对频率概念的理解,假设E是一次随机试验,S是试验的所有样本空间,对于试验的每个具体事件A赋予一个实数P(A),则称P(A)为事件A发生的概率,如果满足下列条件:
(1)0≤P(A)≤1
(2)P(S)=1
(3)对于两两不相容的事件Ak(k=1,2,…)有:
P(A1 ∪A2∪…∪An∪…)=P(A1)+P(A2)+P(A3)+…+P(An)+…
则称概率具有可列可加性。有关概率的运算法则参见文献[53]。
1.2.2 随机变量
为了全面研究随机事件和分析随机问题的内在规律性,揭示客观世界存在的不确定性或随机性问题的统计规律性,有必要了解随机变量的基本概念。
设 E 为随机试验,它的样本空间是 S={e}。如果对于样本空间中的某个具体随机事件 e∈S 有一个实数X(e)与之对应,这样,对于空间 S 中的每一个e 总有一个实值单值函数X(e),也就是产生了 S 与X(e)之间的函数对应关系,称 X(e)为随机变量。
设X为X(e)所有可能取值的全体,则有下列示意图关系(图1.7):
由于随机变量是随机事件的函数,随机事件的发生具有一定的概率。于是,随机变量的取值也有一定的概率,这一性质显示了随机变量与普通函数之间有着本质的差异,且普通函数是定义在实数轴上而随机变量则是定义在样本空间上的(样本空间元素不一定是实数)。
图1.7
在样本空间 S={e}上定义一个实值函数以便形成一个随机变量是分析随机问题常见的事情。如表1.1所示的水文地质参数就是一组随机变量,它是实现一次水文地质数据观测(一个随机事件),根据一定的函数关系便可得到一组水文地质参数(随机变量)。随机变量的引入,主要是为了帮助我们利用数学分析的方法来分析和研究随机问题。
随机变量可分为离散型随机变量和连续型随机变量两种。所谓离散型随机变量是指其全部可能取到的值是有限多个或是可列无限多个。
一般地,设离散型随机变量X所有可能取的值为xk(k=1,2,…),X取每个可能值的概率为:
地下水系统随机模拟与管理
则Pk应满足下列两个条件:
(1)Pk≥0 k=1,2,…
(2)
式 P{X=xk}=Pk称为离散型随机变量的概率分布或分布律,常见的离散型随机变量的概率分布有如下几种。
(1)(0-1)分布。对于一个随机事件可能发生的结果只有两种,即其样本空间只包含有两个元素 S={e1,e2},我们定义随机变量
地下水系统随机模拟与管理
来描述和刻画这类随机问题,称其为(0-1)分布。
(2)二项分布。设随机事件只有两种可能的结果,S={e1,e2},如事件 e1发生的概率为 p,则事件 e2发生的概率为1-p,即有 P{x=e1}=p
地下水系统随机模拟与管理
如果将上述随机问题做n次贝努利试验,则事件e1可能发生0,1,2,…,n次。通过计算不难发现事件e1恰好发生k(0≤k≤n)次的概率为:
地下水系统随机模拟与管理
注意到刚好是二项式(p+q)n的展开式中的第k+1项,故我们称随机变量X 服从参数n,p 的二项分布,记为 X~B(n,p)。
(3)泊松分布。设随机变量 X 所有可能取的值为 0,1,2,…且取第 k 个值的概率为,k=0,1,2,…其中λ>0 是常数,则称 X 服从参数为λ的泊松分布。记为X~π(λ)。(1.6)
连续型随机变量及其概率密度:设有随机变量X,它的分布函数为F(X),如存在有非负的函数f(x),使对于任意实数有:
地下水系统随机模拟与管理
则称X为连续型随机变量,f(x)称为X的概率密度函数。可简称为概率密度。F(X)称为X的分布函数。连续型随机变量的分布函数也是连续函数。
概率密度函数反映了样本空间中个别具体随机事件发生的相对概率大小,而随机变量的分布函数则反映了随机事件在某一特定的区域或时间域中出现的概率大小情况,概率密度函数f(x)具有下列基本性质。
地下水系统随机模拟与管理
图1.8至图1.11反映了随机变量的概率密度函数与概率分布函数的基本意义。
几种常见的重要连续型随机变量分布有以下几种。
(1)均匀分布。如果连续型随机变量 X 在某一特定区间(a,b)内取值,且其概率密度函数为:
图1.8
图1.9
图1.10
图1.11
地下水系统随机模拟与管理
则称X在(a,b)上服从均匀分布,其分布函数为:
地下水系统随机模拟与管理
(2)正态分布。如果连续型随机变量X的概率密度为:
地下水系统随机模拟与管理
式中:μ,σ——常数。X——服从参数为μ,σ的正态分布。具正态分布的随机变量的密度函数和分布函数典型示意图如图1.12与图1.13。
图1.12
图1.13
由式(1.10)与图1.12可知,μ和σ是刻画正态分布随机变量的重要参数,μ反映了随机变量在(-∞,+∞)上出现的最大概率位置,而σ则反映了随机变量在(-∞,+∞)上围绕以μ为中心的位置出现的集中程度,当μ=0,σ=1时,称X服从标准正态分布,其概率密度和分布函数可分别表示为:
地下水系统随机模拟与管理
1.2.3 随机变量的数字特征
虽然一个随机变量的概率密度函数或分布函数能很好地描述和刻画随机变量的基本特征,但对于生产实践中所遇到的随机变量往往很难知道其具体的分布函数式,然而通过对随机变量的统计分析,会得到一些反映随机变量性质的重要的数字特征,如数学期望、方差、矩等。
若离散型随机变量X的分布律为:
地下水系统随机模拟与管理
且绝对收敛,则称 E(X)=为该随机变量的数学期望。
若X为连续型随机变量,其概率密度函数为f(x)且积分
地下水系统随机模拟与管理
由上述随机变量数学期望的定义可见,其物理意义相当于加权平均值。对于随机变量的函数的数学期望定义与随机变量的数学期望类同,随机变量的数学期望具有下列重要性质:
(1)设C为常数,则E(C)=C
(2)设X为随机变量,C为常数,则E(CX)=C·E(X)
(3)设X,Y为任意两个随机变量,则E(X+Y)=E(X)+E(Y)
(4)设X,Y是两个相互独立的随机变量,则有:E(X·Y)=E(X)·E(Y)
随机变量的均值只反映了随机变量的平均水平,但对随机变量的每一个具体个体偏离平均水平的程度难以刻画,为了研究和分析随机变量偏离其均值的程度,需要引入随机变量方差的概念。
设 X 是一个随机变量,若 E{[X-E(X)]2}存在,则称 E{[X-E(X)]2}为 X 的方差,记为 D(X)或 var(X)即:
地下水系统随机模拟与管理
由上述公式不难看出方差实际上是平方差的概念,如果对方差开平方根,便可得到均方差或标准差,记为σ(X)即:
地下水系统随机模拟与管理
关于随机变量方差的计算有下列重要公式:
地下水系统随机模拟与管理
随机变量的方差具有下列重要性质:
(1)设C为常数,则D(C)=0
(2)设X为一随机变量,C为常数,则D(CX)=C2D(X)
(3)设X,Y为两个相互独立的随机变量,则有D(X+Y)=D(X)+D(Y)
几种常见分布的随机变量的数字特征如表1.2。
1.2.4 协方差与相关系数
前节介绍了一个随机变量的有关数字特征,但在实际工程中,往往是两个甚至两个以上的随机变量共存,且不同随机变量之间具有某种不同程度的关联性。为了研究不同随机变量之间的相互关系,需要了解协方差和相关系数的概念。
设X,Y为随机变量,则X,Y之间的协方差为:
而
地下水系统随机模拟与管理
表1.2
为X,Y的相关系数或标准协方差,协方差还有下列计算公式
地下水系统随机模拟与管理
协方差具有下列性质:
(1)cov(X,Y)=cov(Y,X)
(2)cov(aX,bY)=ab·cov(X,Y)
(3)cov(X1,X2,Y)=cov(X1,Y)+cov(X2,Y)
同样,对于随机变量X,Y,若有E(Xk),k=1,2,…存在,则称其为X的k阶原点矩。若有E[(X-E(Xk))],k=1,2,…存在,则称其为X的k阶中心矩。若有E(Xk,Yl),k,l=1,2,…存在,则称其为X和Y的k+l阶中心混合矩。上述关于随机变量的矩的概念的引入,不难看出随机变量X的数学期望E(X)就是X的一阶原点矩,而其方差就是二阶中心矩,协方差是随机变量的二阶中心混合矩。
二维随机变量的有关性质可以直接推广至n维随机变量,其中最常用的有n维随机变量的协方差阵:
设(X1,X2,…,Xn)为n维随机变量,其两两变量间的二阶中心矩为:
地下水系统随机模拟与管理
则称矩阵:
地下水系统随机模拟与管理
为n维随机变量的协方差矩阵。由随机变量协方差的性质Cji=Cij知,矩阵C为一个对称矩阵。
1概率:设在相同条件下,进行大量重复的独立实验,若事件A的频率稳定地在某一确定值p的附近摆动,则称数值p为事件A发生的概率,记作P(A),该定义也是随机事件概率的统计定义
5二项分布中n很大,P很小时,二项分布变成泊松分布,所以泊松分布实际上是二项分布的极限分布
7以从一个口袋中取球为例,每次随机地取一只,每次取一只球后放回袋中,搅匀后再取一球,这种取球方式为放回取样。
每次取一只球后不放回袋中,下一次从剩余的球中再取一球,这种取球方式为不放回取样。
放回抽样的每次抽样过程中每个小球被抽到的几率是相等的。