您的位置 首页 > 数码极客

python可视化(5)——直方图

我们一般使用散点图查看数据的分布,我们还可以使用直方图来说明,通过图形的长相,就可以快速的判断数据是否近似服从正态分布。

在统计学中,很多假设条件是在符合正态分布情况下得,这也是为什么我们要探究数据是否符合正态分布的原因。最常用的就是通过直方图来定性的判定数据的分布情况,这尤其显得重要。

python中如何绘制一个直方图。

python通过调研matplotlib包中的hist函数来生成直方图的,

绘图之前,我们先来看一下hist函数的参数含义及使用方法:

(x, bins= 10, range= None, normed= False, weights= None, cumulative= False, bottom= None, histtype= ‘bar’, align= ‘mid’, orientation= ‘vertical’, rwidth= None, log= False, color= None, label= None, stacked= False)

x:指定要绘制直方图的数据;

bins:指定直方图条形的个数;

range:指定直方图数据的上下界,默认包含绘图数据的最大值和最小值;

normed:是否将直方图的频数转换成频率;

weights:该参数可为每一个数据点设置权重;

cumulative:是否需要计算累计频数或频率;

bottom:可以为直方图的每个条形添加基准线,默认为0;

histtype:指定直方图的类型,默认为bar,除此还有’barstacked’, ‘step’, ‘stepfilled’;

align:设置条形边界值的对其方式,默认为mid,除此还有’left’和’right’;

orientation:设置直方图的摆放方向,默认为垂直方向;

rwidth:设置直方图条形宽度的百分比;

log:是否需要对绘图数据进行log变换;

color:设置直方图的填充色;

label:设置直方图的标签,可通过legend展示其图例;

stacked:当有多个数据时,是否需要将直方图呈堆叠摆放,默认水平摆放;

加载第三方库,导入泰坦尼克号的数据,选取年龄数据不为空

频数直方图:

生成图:

频率累积直方图:

生成图:

我们使用直方图查看数据是否符合正态分布,需要和正态分布曲线进行比较;

生成图:

从直方图的展现来看,乘客的年龄分布与理论正态分布曲线存在一些差异,说明不服从正态分布。

二元直方图的绘制

如果想对比的话,可以通过两个hist将不同性别的直方图绘制到一张图内,选择对比男女乘客的年龄分布情况

生成图如下:

从图中可以看出,不同年龄组内几乎都是男性乘客比女性乘客要多;

另外,男女性别的年龄组分布几乎一致。

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“频率分布直方图”边界阅读