gamma函数与gamma分布
上一篇讲到了gamma函数,今天讲一下gamma分布。既然二者的名字都含有gamma,必然是有联系的。我们先从gamma函数来讲gamma分布,完全是从数学的角度,然后再从概率统计的角度来看gamma分布。
我们已经知道,gamma函数的一般形式是
其中a为实数,x>=0。
接下来我们基于gamma函数生成一个概率密度函数(probability density function),简称pdf。概率密度函数在定义域内的积分为1,且函数值的范围是[0,1]。要基于gamma函数得到一个概率密度函数,方法就是在gamma函数一般形式的两侧都除以(a),得到
满足了概率密度函数的要求,而这个概率密度函数就是gamma分布的概率密度函数,为了使概率密度函数具有概率统计上的意义,将x用x/θ代替,θ为常数,具体的概率统计意义后文会介绍。替代后的等式为
得到gamma分布的概率密度函数
gamma分布与指数分布
前文从数学的角度得到gamma分布的概率密度函数,现在通过一个概率统计的例子来推导。
在《10分钟了解泊松分布》中,我们知道了泊松分布与指数分布的关系,在事件的发生次数满足泊松分布的情况下,事件发生一次的时间间隔满足指数分布。而gamma分布,是指数分布的拓展,表示事件发生a次的时间间隔。现在定义事件单位时间内平均发生的次数为λ,事件发生一次等待的平均时间θ则为1/λ,W表示事件发生a次需要等待的时间,X表示单位时间内事件发生的次数。则X满足泊松分布,概率质量函数为:
现在我们求W的概率密度函数f(w),我们可以先求W的概率分布函数F(w),再对F(w)求导就能得到概率密度函数f(w)。
根据概率分布函数的定义可以得到
那么
下面我们将P(W>w)的概率转化成泊松分布的场景。P(W>w)表示事件发生a次,需要等待的时间超过w的概率。那么,在时间间隔[0, w]内,事件的发生一定小于a次,即[0, a-1]次,表示为
其中
我们知道X满足泊松分布,时间间隔[0,w]的平均发生次数是λw,所以可以得到
下面我们对F(w)做微分,即可得到概率密度函数f(w)
将λe−λw移出累加,并且k除以k!得
将k=1,2,3…a-1展开得
仔细观察中括号内部是一个可以错位相减,得到
已经很接近最终答案了,由于λ=1/θ,代入得
得到了与前文通过数学方法一样的公式,(a-1)!可以用(a)表示。其中a代表事件发生a次,θ代表事件发生一次需要等待的平均时间,w代表事件发生a次需要等待的时间。表示为 W~GAMMA(a, θ)。当a=1时,gamma分布变成了指数分布。所以指数分布是gamma分布的特例。
当保持θ不变时,取1,a的取值对于gamma概率密度函数的影响如下,红,橙,绿,浅蓝,深蓝分别对应a的值为1,1.5,2,3,4。
当a保持不变时,取2,θ的取值对于gamma概率密度函数的影响如下,红,橙,绿,浅蓝,深蓝分别对应θ的值为1,1.5,2,3,4。