离散化是什么意思?我们首先要理解“化”这个字的内在含义。举个词语“拟人化”,这是什么意思?其意思就是把什么变成人的样子,所以我们可以总结出这样的一个模式,即“XX化”就是“把某物变成XX的样子”。套用刚才的举例,离散化就是把数据这个事物变成离散的样子。
那么究竟怎么理解离散呢?不妨让我们看一个例子,请大家思考,年龄到底算不算离散?我们人年龄的取值可以是从0岁一直到100多岁,而且几乎取的是整数,从某种意义上来看中间并非是连续的,因为很多小数部分都是没有办法取到的,因而你可以说它是离散的。但是如果我们根据人的年龄把人分为幼儿、青年、中年、老年这样四个阶段,那么年龄的具体数值看起来就是应该更加连续,或者至少我们可以说它没有那四个阶段离散。因而这个时候我们把年龄又看成是连续的。由此可知,连续和离散完全取决于我们站在什么样的粒度上,除了一切没有基本争议点的数据离散或者连续属性外,我们可以采取这种一事一议的方式来判断究竟一系列数据到底是离散的还是连续的。
离散化总共有四种形式,下面分别介绍。
简单离散:刚才举例中将年龄离散成幼儿、青年、中年与老年的例子就是简单离散。
分桶后平滑:所谓分桶就是先根据数据的情况设置一些阈值,譬如说收入有1k, 2k, 3k, ..., 10k,我们就可以划分为桶1(1k~3k),桶2(3k~5k),桶3(5k~7k),桶4(7k~9k),桶5(9k+)。这样原来的十个收入数据就会落到5个桶中,在每个桶中可以分别使用平均数、中位数以及边界值来替代桶中所有的数值,这三种方式分别称为平均平滑、中值平滑以及边界值平滑。当然一般来说,我们使用平均平滑较多。
聚类离散:所谓聚类离散就是把相同、相似以及相近的数据进行聚合,过程中采用的是聚类的算法,对每一簇进行命名后就是离散的结果了。
回归平滑:所谓回归平滑是对两个变量有相关性的,可以拟合后,用拟合线上的数值代替原来数值,这本质上是进行数据噪声的处理。当然很多人也会问,这和数据离散有什么关系呢?确实,直观上这和数据离散没有关系,但是进行回归平滑后的数据已经天然的具备了线性条件,因而可以使用非常明确的边界值对其进行划分成两个或者多个。因而让我们姑且也将其放入离散化的行列吧。