如何修改spss中的数据格式

关于SPSS Modeler 中的数据规则：

排列规则：一行一记录（对象），一列一指标（变量）。

变量的属性：存储类型、测量级别和角色。

存储类型

存储类型表示变量在计算机中的存储方式。

栗子：值为 1 和 0 的字段存储整型数据。这点与测量级别明显不同，测量级别描述的是数据的使用方法，而且不影响存储。比如，您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明1= 真，0= 假。

！实战：存储格式必须在数据源中确定，而测量级别可以使用"类型"节点在流中的任意点上进行更改。

存储类型有：一般有三种，为数值型、字符型、日期型。modeler划分的更为细致:

• 字符串

用于包含非数字数据（也称为字母数字数据）的字段。字符串可以包含任何字符序列，比如 fred 、 Class 2 或 1234 。注意：字符串中的数字不能用于计算。

• 整数

值为整数的字段。

· 实数

值为可能包含小数（不限于整数）的数字。显示格式在"流属性"对话框中指定，并且可以被"类型"节点（"格式"选项卡）中的各个字段覆盖。

• 日期

以标准格式指定的日期值，例如年月日（例如 2007-09-26）。具体格式在"流属性"对话框中指定。

• 时间

以持续时间形式测量的时间。例如，某个服务电话持续 1 小时 26 分 38 秒，该时间可以根据"流属性"对话框中指定的当前时间格式表示为：01:26:38。

• 时间戳记

同时包含日期和时间组成部分的值，例如 2007-09-26 09:04:00，表示2007年9月26日早上9点04分，具体同样取决于"流属性"对话框中的当前日期和时间格式。请注意，需要用双引号将时间戳值括起来，以确保将此值解释为单一值而非单独的日期和时间值。（同样适用于在用户输入节点中输入值时的情况。）

• 列表

在 SPSS Modeler V17 中，随新测量级别"地理空间"和"集合"一起引入了"列表"存储字段，对于单个记录，此字段包含多个值。存在所有其他存储类型的列表版本。

！实战：可以通过三个源节点（"Analytic Server"、"地理空间"或"变量文件"）中的某一个将列表导入到 SPSS Modeler 中，也可以在流中使用"派生"或"填充"字段操作节点创建列表。

角色

字段的角色用于指定其在模型构建过程中的用法。

例如，在建模过程中，该变量是预测变量（目标）还是自变量（输入）。

注意："分区"、"频率"和"记录标识"角色只能分别应用到单个字段。

角色类型如下：

• 输入

字段将用作机器学习的输入（预测变量字段）。

• 目标

字段将用作机器学习的输出或目标（模型将尝试预测的字段之一）。

• 任意

该字段既是输入也是目标的角色，只适用于关联规则算法（字段将被 Apriori节点同时用作输入和输出），其他算法节点将忽略该字段。

• 无

机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。

• 分区

指明字段用于将数据分区为单独的样本（用于训练、测试，也可用于验证）。该字段必须属于实例化集合类型，具有两个或三个可能值（在"字段值"对话框中定义）。第一个值表示训练样本，第二个值表示测试样本，第三个值（如果存在）表示验证样本。所有其他值都将被忽略，且不能使用标志字段。

！请注意：要在分析中使用分区，必须在相应的模型构建或分析节点的"模型选项"选项卡中启用分区。启用分区时，会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段，那么必须在每个相应建模节点的"字段"选项卡中指定单一分区字段。如果数据中不存在适合的字段，您可以使用"分区"节点或"派生"节点进行创建。

• 拆分/分割

仅分类（名义、有序和标志字段）字段能够被设置为拆分。指定为拆分，那么modeler将为该字段的每个可能值构建一个模型。例如：将性别设置为拆分，则机器学习算法将对男性样本和女性样本分别建立模型。

• 频率

仅数值字段能被设置为频率，且应为正整数。即对字段进行加权。设置此角色允许将字段值用作记录的频率加权因子。仅C&R树、CHAID、QUEST和线性模型支持此功能；所有其他节点将忽略此角色。在支持此功能的建模节点的"字段"选项卡上，选择使用频率权重以启用频率加权。

• 记录标识

即记录的ID，此字段将用作唯一记录标识。大多数节点都会忽略此特征，但它受线性模型支持，并且是 IBM Netezza 数据库内挖掘节点所必需的。

“如何修改spss中的数据格式”边界阅读

责任编辑: 鲁达

“如何修改spss中的数据格式”边界阅读