正文
7 描述统计规律1——概率论基础
7.1.3 概率和频率
例 7.3 抛硬币
抛掷10次硬币并计算正面朝上的次数,随着抛掷次数越多,在Python中编写程序观察事件发生的频率和概率之间的关系。
|
|
6.0
|
4.5
|
4.92
|
5.053
|
5.0029
|
5.01412
7.4.1 离散型随机变量
例 7.13 求概率函数和概率分布函数
若某公司生产的某个产品中奖率是50%, 求购买4个同样的产品中奖的概率函数和概率分布函数.(伯努利试验)
购买4个同样的产品为n重伯努利试验, 设随机变量X为中奖的奖品数, p为中奖的概率, q为不中奖的概率, 则概率函数$P _ {n}(X = k) = C^{k} _ {n}p^kq^{n-k}$, $p = \frac{1}{2}$, $q = \frac{1}{2}$
X的取值 | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
对应概率$p _ {k}$ | $\frac{1}{16}$ | $\frac{1}{4}$ | $\frac{3}{8}$ | $\frac{1}{4}$ | $\frac{1}{16}$ |
$F(0) = P(X = 0) = \frac{1}{16}$
$F(1) = P(X = 0) + P(X = 1) = \frac{5}{16}$
$F(2) = P(X = 0) + P(X = 1) + P(X = 2) = \frac{11}{16}$
$F(3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) = \frac{15}{16}$
$F(4) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) + P(X = 4) = 1$
例 7.14 在Python中画出 例 7.13 的概率函数以及分布函数图
|
Counter({1: 30, 3: 30, 2: 28, 4: 7, 0: 5})
7.4.2 连续型随机变量
例 7.16 正态分布
在Python中输出正态分布概率密度函数${\color{Red}{f(x)}}$和对应的概率分布函数${\color{Blue}{F(x)}}$
如果一个随机变量X具有概率密度函数, 则称随机变量X为正态分布随机变量, 并记为$X\sim N(\mu , \sigma ^{2})$
${\color{Red}{f(x)}} = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma ^2}}, -\infty < x < +\infty$
下面代码模拟实现了一个均值为$\mu$为0和方差$\sigma ^2$为1的正态分布
|
7.8 高手点拨
Python有一个很好的统计推断包, 即Scipy中的stats, 该模块包含了许多概率分布的随机变量, 以及多种常用的数据统计函数, 常用的统计函数如下:
概念 | 中文名 | 英文名 | 说明 |
---|---|---|---|
rvs | 产生服从指定分布的随机数 | Random variates of given size. | |
概率密度函数 | Probability Density Function | 连续性随机变量持有, $P(a<X\le b)=\int _ {a}^{b} f(x)dx$ | |
pmf | 概率质量函数 | Probability Mass Function | 离散型随机变量持有, 就是离散性随机变量的分布律, $f(x)=P\{X = x _ {k}\}$ |
cdf | 累积分布函数 | Cumulative Distribution Fuction | 又称分布函数$p(X \le x)$ |
ppf | 百分点函数 | Percent point function | cdf的反函数 |
Sf | 残差函数 | Survival function | |
stats | 返回期望和方差(mean(),var()) |
常见分布函数
名称 | 含义 |
---|---|
beta | beta分布 |
f | F分布 |
gamma | 伽马分布 |
poisson | 泊松分布 |
hypergeom | 超几何分布 |
lognorm | 对数正态分布 |
binom | 二项分布 |
uniform | 均匀分布 |
chi2 | 卡方分布 |
cauchy | 柯西分布 |
laplace | 拉普拉斯分布 |
rayleigh | 瑞利分布 |
t | 学生t分布 |
norm | 正态分布 |
expon | 指数分布 |
例7.23 获得norm函数的使用说明
正态分布随机函数
|
例 7.24 创建正态分布随机变量及绘图
|
7.9 习题
(1) 泊松分布
已知某路口发生事故的概率是每天2次, 用Python编程求出此处一天发生0、1、2、3、4此事故的概率是多少?
$P(X=r)=\frac {e^{-\lambda} \lambda^{r}}{r!}$, 其中r表示给定区间内发生事件的次数,$\lambda$表示每个区间的平均发生次数
$X _{i}$ | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
$P(X=X _ {i})$ | $e^{-2}$ | $2e^{-2}$ | $2e^{-2}$ | $\frac{4}{3}e^{-2}$ | $\frac{2}{3}e^{-2}$ |
|
[0.13533528 0.27067057 0.27067057 0.18044704 0.09022352]
8 描述统计规律2——随机变量与概率统计
从这章开始学的有点吃力了,原因是考研的数学二不考概统+本科期间概统没好好学。在重新看了几天川大徐后,开始入手。
我认为这本书在这里的排版不太好,与教科书的顺序一致,内容上也涉及了很多第9章的内容。
切比雪夫不等式
$P\{\left | X - \mu \right | \ge \varepsilon \}\le \frac{\sigma^2}{\varepsilon^2}(\forall \varepsilon >0)$
$X$落入以均值$\mu$为中心的$\varepsilon$邻域$(\mu - \varepsilon,\mu + \varepsilon)$的概率不低于$1-\frac{\sigma^2}{\varepsilon^2}$
8.2 大数定律和中心极限定理
8.2.1 大数定律
对命题"当大量重复某一相同实验的时候, 其最后的实验结果可能会稳定在某一数值附近"给予严格论证.
名称 | 描述 |
---|---|
切比雪夫大数定律 | 独立不同分布, 当n充分大时, n个相互独立的随机变量的算术平均值将比较密集地聚集在它的数学期望附近 |
辛钦大数定律 | 独立同分布(切比雪夫大数定律的推论) |
伯努利大数定律 | 一个事件A在n次独立重复实验中发生的频率$\frac{n _ {A}}{n}$依概率收敛于事件A发生的概率p |
8.2.2 中心极限定理
在一定条件下, 充分多的相互独立的随机变量的算术平均值将服从正态分布, 不管这些随机变量本身服从什么分布.
名称 | 描述 |
---|---|
列维——林德伯格 | 独立同分布 |
李雅普诺夫 | 独立不同分布 |
棣莫弗——拉普拉斯 | 二项分布,独立同分布的特殊情况,表明正态分布是二项分布的极限分布 |
定理8.1 独立同分布的中心极限定理
前n项和$S _ {n}=\Sigma ^{n} _ {k=1}X _ {k} \sim N(n\mu, n\sigma ^2)$
算数平均值$\bar X = \frac {1}{n}\Sigma ^{n} _ {k=1}X _ {k} \sim N(\mu, \frac {\sigma ^2}{n})$
算术平均值的标准化$Y _ {n} = \frac {\bar{X}-\mu}{\sigma / \sqrt{n}} \sim N(0,1)$
无论{$X _ {k}$}服从什么分布,当n很大时,其前n项的算术平均值$\bar X$的标准化{$Y _ {k}$}服从正态分布N(0,1)
定理8.2 棣莫弗——拉普拉斯定理
设$X \sim b(n,p)$, 则当n很大时
$P\{a < x \le b\}\approx \Phi(\frac{b-np}{\sqrt{np(1-p)}})-\Phi(\frac{a-np}{\sqrt{np(1-p)}})$
我们曾用泊松分布近似地计算二项分布($p \le 0.1$时精确度较好), 而以上结论不受p值的大小限制
当$n \ge 50$时, 上述正态分布的近似程度可以达到比较满意的精度, n越大, 精度越高.
例8.13 验证中心极限定理
设有$n$个随机变量$X _ {1},X _ {2},...,X _ {n}$相互独立,并服从$U\left [a,b\right ]$, 则
$\bar X = \frac{1}{n}\Sigma^{n} _ {k=1}X _ {k}\sim N\left [ \frac{a+b}{2},\frac{(b-a)^2}{12n}\right]$
|
8.3 数理统计基本概念
在概率论中, 我们是在假设随机变量的分布已知的前提下去研究它的规律性, 但在数理统计中, 研究的随机变量分布是未知的
数理统计中, 通过对研究的随机变量进行重复独立地观察, 得到大量观察数据后进行统计分析(如数据是否服从某种分布, 其数据特征(数学期望, 方差等)如何, 从而对所研究的随机变量的分布做出种种推断)
8.4 常用的统计量
例8.15 求样本的均值、方差和标准差的3种方法
|
(1)定义法
|
(4.499999500000001, 6.750000000000028, 2.5980762113533213)
(2)借助Numpy的向量运算
|
(4.4999994999999995, 6.749999999999915, 2.5980762113532996)
(3)借助Numpy函数
|
(4.4999994999999995, 6.749999999999914, 2.5980762113532996)
8.4 最大似然估计(MLE)
对于已经出现的样本值$x _ {1}, x _ {2},...,x _ {n}$,适当地选取参数$\theta$, 使实验结果出现的概率最大
似然函数$L(x|\theta)$是不确定的, $L(x _ {1}, x _ {2}, ..., x _ {n} | \theta )$是既定事实(模型已定, 参数未知)
$L(x _ {1}, x _ {2}, ..., x _ {n} | \theta )$发生的概率为$\Pi ^{n} _ {i=1}\theta ^ {x _ {i}}(1-\theta)^{1-x _ {i}})$
通过对$\theta$求导等方式, 求出当$\theta$为何值时, $L(x _ {1}, x _ {2}, ..., x _ {n} | \theta )$发生的概率最大
参考视频: 【概率统计】最大似然估计
8.5 最大后验估计(MAP)
在最大似然估计的基础上, 添加了先验信息, 在样本较少时有用
$argmax \left [{\color{Red} {ln p(\theta)} + {\color{Blue}{\Sigma ^{n} _ {i=1}ln p(x _ {i}|\theta)}}} \right ]$, 先验项 + 与MLE等效, 利用求导等方式, 判断当$\theta$为何值时, 原式最大
参考视频: 极大似然与最大后验的关系-贝叶斯法的视频超分辨率
8.6 综合实例1——贝叶斯用户满意度预测
1.问题描述
根据一些已有的汽车汽车评测满意度测评数据集,可初步了解用户对于该类型汽车的满意程度。
2.数据准备阶段
特征属性 | 属性值 | 属性说明 |
---|---|---|
Buying | vhigh, high, med, low | 买入价 |
Maint | vhigh, high, med, low | 维护费 |
Doors | 2,3,4,5more | 车门数 |
Persons | vhigh, high, med, low | 可容纳人数 |
Lug-boot | small, med, big | 后备箱大小 |
Safety | low, med, high | 安全性 |
|
3.创建一个实现朴素贝叶斯模型的类NBClassify
4.定义训练函数train()
5.数据预测
|
6.主程序
|
各类别的先验概率:
unacc 0.701134
acc 0.223482
good 0.040027
vgood 0.035357
Name: label, dtype: float64
每个类别下每种特征对应值的似然概率:
{'unacc': {'buying': {'low': 0.21693625118934348, 'med': 0.22645099904852523, 'vhigh': 0.29590865842055186, 'high': 0.26070409134157946}, 'maint': {'med': 0.23311132254995243, 'vhigh': 0.29971455756422455, 'high': 0.25499524262607043, 'low': 0.21217887725975262}, 'doors': {'4': 0.24262607040913417, '2': 0.26831588962892483, '5more': 0.2407231208372978, '3': 0.2483349191246432}, 'persons': {'4': 0.2597526165556613, '2': 0.47573739295908657, 'more': 0.26450999048525214}, 'lug-boot': {'med': 0.3273073263558516, 'big': 0.3016175071360609, 'small': 0.37107516650808753}, 'safety': {'med': 0.29305423406279735, 'high': 0.2340627973358706, 'low': 0.47288296860133205}}, 'acc': {'buying': {'low': 0.2417910447761194, 'med': 0.2955223880597015, 'vhigh': 0.18507462686567164, 'high': 0.27761194029850744}, 'maint': {'med': 0.3044776119402985, 'vhigh': 0.1791044776119403, 'high': 0.27761194029850744, 'low': 0.23880597014925373}, 'doors': {'4': 0.2716417910447761, '2': 0.21791044776119403, '5more': 0.2626865671641791, '3': 0.24776119402985075}, 'persons': {'4': 0.5238095238095238, '2': 0.002976190476190476, 'more': 0.4732142857142857}, 'lug-boot': {'med': 0.35522388059701493, 'big': 0.382089552238806, 'small': 0.2626865671641791}, 'safety': {'med': 0.4791666666666667, 'high': 0.5178571428571429, 'low': 0.002976190476190476}}, 'vgood': {'buying': {'low': 0.5636363636363636, 'med': 0.4, 'vhigh': 0.01818181818181818, 'high': 0.01818181818181818}, 'maint': {'med': 0.3888888888888889, 'vhigh': 0.018518518518518517, 'high': 0.18518518518518517, 'low': 0.4074074074074074}, 'doors': {'4': 0.32075471698113206, '2': 0.16981132075471697, '5more': 0.3018867924528302, '3': 0.20754716981132076}, 'persons': {'4': 0.4444444444444444, '2': 0.018518518518518517, 'more': 0.5370370370370371}, 'lug-boot': {'med': 0.37037037037037035, 'big': 0.6111111111111112, 'small': 0.018518518518518517}, 'safety': {'med': 0.01818181818181818, 'high': 0.9636363636363636, 'low': 0.01818181818181818}}, 'good': {'buying': {'low': 0.6612903225806451, 'med': 0.3064516129032258, 'vhigh': 0.016129032258064516, 'high': 0.016129032258064516}, 'maint': {'med': 0.3225806451612903, 'vhigh': 0.016129032258064516, 'high': 0.016129032258064516, 'low': 0.6451612903225806}, 'doors': {'4': 0.2833333333333333, '2': 0.23333333333333334, '5more': 0.26666666666666666, '3': 0.21666666666666667}, 'persons': {'4': 0.5081967213114754, '2': 0.01639344262295082, 'more': 0.47540983606557374}, 'lug-boot': {'med': 0.3333333333333333, 'big': 0.35, 'small': 0.31666666666666665}, 'safety': {'med': 0.5409836065573771, 'high': 0.4426229508196721, 'low': 0.01639344262295082}}}
精度为 0.848485
7.利用scikit-mean库直接实现朴素贝叶斯方法
Scikit-learn是一个开源的机器学习库,它支持有监督和无监督的学习。它还提供了用于模型拟合,数据预处理,模型选择和评估以及许多其他实用程序的各种工具。
包含3个朴素贝叶斯的分类算法
种类 | 说明 | 适用 |
---|---|---|
GaussianNB | 假设每个标签的数据都服从简单的正态分布 | 样本的特征的分布大部分是连续值 |
MultinationalNB | 假设特征是由一个简单多项式分布生成的 | 用于描述出现次数或者出现比例的特征 |
BernoulliNB | 假设特征的先验概率为二元伯努利分布 | 样本特征是二元离散值或很稀疏的多元离散值 |
|
|
buying | maint | doors | persons | lug-boot | safety | label | |
---|---|---|---|---|---|---|---|
0 | 0 | 0 | 0 | 0 | 0 | 2 | 0 |
1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 | 1 | 2 | 0 |
4 | 0 | 0 | 0 | 0 | 1 | 1 | 0 |
... | ... | ... | ... | ... | ... | ... | ... |
1723 | 3 | 3 | 3 | 2 | 1 | 1 | 2 |
1724 | 3 | 3 | 3 | 2 | 1 | 0 | 3 |
1725 | 3 | 3 | 3 | 2 | 2 | 2 | 0 |
1726 | 3 | 3 | 3 | 2 | 2 | 1 | 2 |
1727 | 3 | 3 | 3 | 2 | 2 | 0 | 3 |
1728 rows × 7 columns
|
buying | maint | doors | persons | lug-boot | safety | |
---|---|---|---|---|---|---|
0 | 0 | 0 | 0 | 0 | 0 | 1 |
1 | 0 | 0 | 0 | 0 | 0 | 0 |
2 | 0 | 0 | 0 | 0 | 1 | 1 |
3 | 0 | 0 | 0 | 0 | 2 | 2 |
4 | 0 | 0 | 0 | 0 | 2 | 1 |
... | ... | ... | ... | ... | ... | ... |
1494 | 3 | 3 | 3 | 2 | 1 | 1 |
1495 | 3 | 3 | 3 | 2 | 1 | 0 |
1496 | 3 | 3 | 3 | 2 | 2 | 2 |
1497 | 3 | 3 | 3 | 2 | 2 | 1 |
1498 | 3 | 3 | 3 | 2 | 2 | 0 |
1499 rows × 6 columns
|
array([b'0', b'0', b'0', ..., b'0', b'2', b'3'], dtype='|S6')
|
buying | maint | doors | persons | lug-boot | safety | |
---|---|---|---|---|---|---|
2 | 0 | 0 | 0 | 0 | 1 | 2 |
3 | 0 | 0 | 0 | 0 | 1 | 0 |
11 | 0 | 0 | 0 | 1 | 1 | 0 |
26 | 0 | 0 | 1 | 0 | 1 | 2 |
29 | 0 | 0 | 1 | 0 | 2 | 1 |
... | ... | ... | ... | ... | ... | ... |
1458 | 3 | 3 | 2 | 0 | 2 | 0 |
1460 | 3 | 3 | 2 | 1 | 0 | 0 |
1465 | 3 | 3 | 2 | 1 | 2 | 0 |
1476 | 3 | 3 | 3 | 0 | 0 | 0 |
1489 | 3 | 3 | 3 | 1 | 2 | 1 |
204 rows × 6 columns
|
array([b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0',
b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'1', b'0', b'0',
b'0', b'0', b'0', b'1', b'0', b'0', b'0', b'0', b'0', b'0', b'1',
b'0', b'1', b'0', b'0', b'0', b'0', b'0', b'0', b'1', b'0', b'0',
b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0',
b'1', b'0', b'0', b'0', b'0', b'0', b'1', b'0', b'0', b'0', b'1',
b'0', b'0', b'0', b'0', b'0', b'0', b'1', b'1', b'0', b'0', b'0',
b'0', b'1', b'1', b'0', b'0', b'1', b'0', b'0', b'0', b'1', b'0',
b'0', b'0', b'0', b'1', b'0', b'0', b'0', b'0', b'0', b'0', b'0',
b'1', b'1', b'0', b'1', b'0', b'0', b'0', b'0', b'0', b'0', b'0',
b'0', b'1', b'1', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0',
b'0', b'0', b'0', b'0', b'0', b'1', b'0', b'0', b'0', b'0', b'0',
b'0', b'0', b'1', b'0', b'1', b'0', b'0', b'0', b'0', b'0', b'0',
b'0', b'0', b'1', b'0', b'1', b'0', b'0', b'0', b'1', b'0', b'1',
b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'1',
b'1', b'1', b'0', b'0', b'0', b'0', b'0', b'1', b'0', b'0', b'0',
b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0', b'0',
b'0', b'0', b'0', b'1', b'1', b'0', b'0', b'0', b'0', b'1', b'0',
b'0', b'0', b'1', b'1', b'0', b'0'], dtype='|S1')
|
精度为:0.774725
8.7 综合实例2——最大似然法求解模型参数
数据集QQ_data.txt中会收集每天发出QQ消息的个数, 利用最大似然法估计总体分布的模型参数
(1) 读取数据集"QQ_data.csv", 显示数据分布情况
|
(2) 利用最大似然估计法求出参数$\mu$
似然函数定义:
$L(x;\mu)=\Pi^{n} _ {i=1}P(x _ {i};\mu)$
为了运算方便, 通常等式两边同取对数:
$lnL(x;\mu)=\Sigma^{n} _ {i=1}lnP(x _ {i};\mu)$
|
参数 mu: 0.0
参数 mu: 1.0
参数 mu: 2.6180339999999998
参数 mu: 5.2360680251559995
参数 mu: 5.273849359457559
参数 mu: 5.334980842922849
参数 mu: 9.032120508519583
参数 mu: 15.014218190203728
参数 mu: 14.555935077084984
参数 mu: 24.69345563048985
参数 mu: 15.014218190203728
参数 mu: 18.71135779832006
参数 mu: 20.996315778882625
参数 mu: 18.38937216738971
参数 mu: 18.18406664294854
参数 mu: 18.217827603959925
参数 mu: 18.219046315052577
参数 mu: 18.2189342781152
参数 mu: 18.218934914073003
参数 mu: 18.21893518372324
参数 mu: 18.218934644422767
参数 mu 的估计值: 18.218934644422767
(3) 直观地描述利用似然函数优化参数$\mu$的过程
|
(4) 画出求得$\mu$的泊松分布图
|
8.9 习题
(1) 编写朴素贝叶斯分类器
数据包含3中类别, 分别是{感冒, 过敏, 脑震荡}, 预测一个打喷嚏的建筑工人诊断结果
根据贝叶斯公式:
${\color{Red}{P(A|B)}}={\color{Blue}{P(A)}}{\color{Green}{\frac{P(B|A)}{P(B)}}}$
先验概率 = 后验概率 * 可能性函数转换成分类任务的表达式:
$P(类别|特征)=P(类别)\frac{P(特征|类别)}{P(特征)}$
则有:
$P(过敏|打喷嚏,建筑工人)=P(过敏)\frac{P(打喷嚏|过敏)\cdot {\color{Red}{P(建筑工人|过敏)}}}{P(打喷嚏,建筑工人)}$
$P(感冒|打喷嚏,建筑工人)=P(感冒)\frac{P(打喷嚏|感冒)\cdot P(建筑工人|感冒)}{P(打喷嚏,建筑工人)}$
$P(脑震荡|打喷嚏,建筑工人)=P(脑震荡)\frac { { \color{ Red } { P(打喷嚏|脑震荡) } } \cdot P(建筑工人|脑震荡) } { P(打喷嚏,建筑工人) } $
其中:
$P(打喷嚏,建筑工人)=P(过敏)P(打喷嚏|过敏){\color{Red}{P(建筑工人|过敏)}}+$
$P(感冒)P(打喷嚏|感冒)P(建筑工人|感冒)+P(脑震荡){\color{Red}{P(打喷嚏|脑震荡)}}P(建筑工人|脑震荡)$
$=P(感冒)P(打喷嚏|感冒)P(建筑工人|感冒)$
$=\frac{1}{2}\frac{2}{3}\frac{1}{3}$
$=\frac{1}{9}$
预测这个打喷嚏的建筑工人得了感冒
|
职业 | 症状 | 类别 | |
---|---|---|---|
0 | 护士 | 打喷嚏 | 感冒 |
1 | 农夫 | 打喷嚏 | 过敏 |
2 | 建筑工人 | 头痛 | 脑震荡 |
3 | 建筑工人 | 头痛 | 感冒 |
4 | 教师 | 打喷嚏 | 感冒 |
5 | 教师 | 头痛 | 脑震荡 |
|
职业 | 症状 | 类别 | |
---|---|---|---|
0 | 0 | 0 | 0 |
1 | 1 | 0 | 1 |
2 | 2 | 1 | 2 |
3 | 2 | 1 | 0 |
4 | 3 | 0 | 0 |
5 | 3 | 1 | 2 |
|
职业 | 症状 | |
---|---|---|
0 | 0 | 0 |
1 | 1 | 0 |
2 | 2 | 1 |
3 | 2 | 1 |
4 | 3 | 0 |
5 | 3 | 1 |
|
职业 | 症状 | |
---|---|---|
0 | 2 | 0 |
|
array([0], dtype=int64)
9 随机变量的几种分布
先列个表格把几种分布整理下?
- 离散型
分布律 | 名称 | 记作 | 数学期望$E(X)$ | 方差$D(X)$ | 备注 |
---|---|---|---|---|---|
$P\{X=0\}=1-p, P\{X=1\}=p$ | 0-1分布 | $X\sim B(1,p)$ | $p$ | $p(1-p)$ | n为1的二项分布,例如抛一次硬币 |
$P\{X=k\}=C^{k} _ {n}p^kq^{1-k}$ | 二项分布 | $X\sim B(n,p)$ | $np$ | $np(1-p)$ | 事件{X=k}即为“n次试验中事件A恰好发生k次” |
$P\{X=k\}=pq^{k-1}$ | 几何分布 | $X\sim GE(p)$ | $\frac{1}{p}$ | $\frac{1-p}{p^2}$ | 在n次伯努利试验中,试验k次才得到第一次成功的机率 |
$P\{X=k\}=\frac{C^{k} _ {M}C^{n-k} _ {N-M}}{C^{n} _ {N}}$ | 超几何分布 | $X\sim H(N,n,M)$ | 略 | 略 | 描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回) |
$P\{X=k\}=\frac{\lambda ^k}{k!}e^{-\lambda}$ | 泊松分布 | $X\sim \pi(\lambda)$ | $\lambda$ | $\lambda$ | 适合于描述单位时间内随机事件发生的次数, 可用泊松分布近似地计算二项分布($p \le 0.1$时精确度较好) |
- 连续型
分布函数 | 名称 | 记作 | 数学期望$E(X)$ | 方差$D(X)$ | 备注 |
---|---|---|---|---|---|
$f(x)=\frac{1}{b-a},a<x<b;0,$其他 | 均匀分布 | $X\sim (a,b)$ | $\frac{a+b}{2}$ | $\frac{(a-b)^2}{12}$ | 也叫矩形分布 |
$f(x | \mu,\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$ | 正态分布 | $X\sim N(\mu,\sigma^2)$ | $\mu$ | $\sigma^2$ |
$f(x)=\lambda e^{-\lambda x}(x>0); 0,$其他 | 指数分布 | $X\sim E(\lambda)$ | $\frac{1}{\lambda}$ | $\frac{1}{\lambda^2}$ | 唯一具有"无记忆性"的分布, 在已知$x>s$发生条件的下$P(x>s+t)=P(x>t)$ |
$f(x | n)=\frac{1}{x^{\frac{n}{2}\Gamma(\frac{n}{2})}}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},x>0;0,x\le 0$ | 卡方分布 | $U\sim \chi^2(n)$ | n | 2n |
略 | t分布 | $Z\sim t(n)$ | 0(偶函数) | $X\sim N(0,1),Y\sim \chi^2(n), t=\frac{X}{Y/n}$当$n\to \infty$时, 分布无限趋近于标准正态分布 | |
略 | F分布 | $F\sim F(n _ {1},n _ {2}$ | 设$U\sim \chi^2(n _ {1}),V\sim \chi^2(n _ {2})$且$U,V$相互独立, $F=\frac{U/n _ {1}}{V/ n _ {2}}$ | ||
略 | $\Gamma$分布 | $X\sim \Gamma(\alpha,\beta)$ | “指数分布”和“卡方分布”都是伽马分布的特例 | ||
略 | beta分布 | $X\sim Beta(a,b)$ | $\frac{\alpha}{\alpha+\beta}$ | $\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$ | 可以看作是一个概率的概率分布,$x$实际上是对某个随机事件发生的概率估计,$\alpha-1$和$\beta-1$实际上描述了随机事件发生或不发生的次数 |
9.1.3 应用Python函数库计算正态分布
1.产生正态随机变量
|
-0.15606449742155645
[ 1.41915385e+00 9.05180924e-01 -1.65805601e+00 -8.70872873e-05
6.25728572e-01 3.07949177e+00 5.22917613e-01 -6.20181230e-01
-1.23960758e+00 7.47657082e-02]
9.901121362547995
2.计算正态分布概率
|
P(X < 0.3) = 0.6179114221889526
P(-0.2 < X < 0.2) = 0.15851941887820603
3.标准正态分布函数图形
|
Text(-5, 1.1, '下图是归一化的概率密度函数 (pdf)以及正态分布随机变量 $ y \\sim \\mathcal{N}(\\mu,\\sigma) $的累计密度函数(cdf),其中 $ \\mu = 0 $ , $ \\sigma = 1$.')
9.3 泊松分布
当二项分布中n较大, p较小时, 分布近似于泊松分布, 可以减少计算量
若$X$服从参数为$n,p$的二项分布$b(n, p)$,则$X$近似地服从参数为$\lambda=np$的泊松分布
泊松分布适合描述一段时间(空间)内随机事件发生次数的概率分布. 如一段时间内到达地铁站的人数等.
9.6 Beta分布
Beta分布可以看作一个概率的概率分布.这个推断实际上是一个后验概率, 可以用贝叶斯公式转换成先验概率的计算, 公式如下:
定义9.8 给定参数$\alpha>0$和$\beta>0$取值范围为$[0,1]$的随机变量$x$的概率密度函数为
其中$B(\alpha,\beta)$称为Beta函数, 可以表示为
Beta分布有以下特点:
Beta(1, 1)等价于U(0, 1)
作为概率的概率分布, $Beta(x;\alpha,\beta)$上对x的积分必定为1
x实际上是对某个随机事件发生的概率估计, $\alpha-1$和$\beta-1$实际上描述了随机事件发生或不发生的次数
Beta分布是一种后验分布和先验分布的分布律相同的分布, 不同的只是参数发生了变化
Beta分布可以看作多次进行二项分布实验所得到的分布, 可以对随机事件发生的概率的分布进行计算
9.7 综合实例——估算棒球运动员的击中率
|
9.9 习题
(1) 已知正态随机变量$X\sim N(0,1)$,如果有$P\{X < x _ {1}\}=0.1$, $P\{X < x _ {2}\}=0.05$, 对应的$x _ {1}$、$x _ {2}$分别称为正态分布的下分位点, 求$x _ {1}$、$x _ {2}$
$x _ {1} = \varphi^{-1}(0.1)$
$x _ {2} = \varphi^{-1}(0.05)$
|
(-1.2815515655446004, -1.6448536269514729)
(2) 对于标准正态分布$X\sim N(0,1)$, 绘制正态分布曲线及下0.05分位点
|