#python打卡##Python数学编程##python##统计##大数据#
在实际工作过程中,我们经常会遇到对数据进行聚合的情况。针对这种数据聚合的结果,我们又称之为透视表。透视表是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。这其实也是数据统计中的一种,同时又是实际工作中使用最为频繁的一类。透视表根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。
针对DataFrame结构的数据(大家可以理解为像excel表格那种的数据),python语言常用的pandas库提供了一个顶级的函数。该函数除了在对数据进行groupby(分组)提供便利之外,pivot_table还可以添加分项小计(也叫做margins)。总的来说,在对表格型数据进行分组操作的过程中,我们还可以对其进行统计工作。
接下来,我们先来看一下,函数是如何在数据统计工作中发挥作用的。
第一:读取数据和数据计算
我们先使用方法读取数据文件。读取数据后,添加字段“tip_pct”,该字段的计算方式如下图所示。
如上图可知,我们将读取后的数据赋值给data1对象,通过添加一个计算字段后,现在data1中有7个字段。其中为数值型的字段为total_bill、tip、size、tip_pct,非数值型的字段有smoker、day、time。
这里大家需要特别注意,小编为什么要在这个地方,将数值型字段和非数值型字段进行区分,在下面的内容中,会找到答案。
第二:使用pivot_table函数
使用pivot_table函数,指定分组字典后进行数据聚合,具体示例如下:
如上图所示,我们使用了两个例子。这两个例子的差别在于使用的索引字段的个数不同。第一个例子使用了一个索引列“smoker“,第二个例子使用了两个索引列,分别为“day”和“smoker“。通过例子中,我们也能够看的出来,在使用pivot_table函数进行数据聚合时,是根据索引列,对数值型列进行聚合,非数值型数据不做聚合。
另外,需要说明的是,在对index参数设置索引列时,多个索引列间有先后顺序,这个顺序决定了最终数据呈现对结果。
总结
如上所述,大家是不是感觉函数进行数据聚合的操作使用起来非常方便。与传统的excel相比,这种方法更为方便快捷和灵活,最重要的是简单。不用再手动操作很多次,模版存储好后,剩下的就修改不同的参数就好了,而且,这种方法对大数据也是适用的哦。