关于SPSS Modeler 中的数据规则:
排列规则:一行一记录(对象),一列一指标(变量)。
变量的属性:存储类型、测量级别和角色。
存储类型
存储类型表示变量在计算机中的存储方式。
栗子:值为 1 和 0 的字段存储整型数据。这点与测量级别明显不同,测量级别描述的是数据的使用方法,而且不影响存储。比如,您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明1= 真,0= 假。
!实战:存储格式必须在数据源中确定,而测量级别可以使用"类型"节点在流中的任意点上进行更改。
存储类型有:一般有三种,为数值型、字符型、日期型。modeler划分的更为细致:
• 字符串
用于包含非数字数据(也称为字母数字数据)的字段。字符串可以包含任何字符序列,比如 fred 、 Class 2 或 1234 。注意:字符串中的数字不能用于计算。
• 整数
值为整数的字段。
· 实数
值为可能包含小数(不限于整数)的数字。显示格式在"流属性"对话框中指定,并且可以被"类型"节点("格式"选项卡)中的各个字段覆盖。
• 日期
以标准格式指定的日期值,例如年月日(例如 2007-09-26)。具体格式在"流属性"对话框中指定。
• 时间
以持续时间形式测量的时间。例如,某个服务电话持续 1 小时 26 分 38 秒,该时间可以根据"流属性"对话框中指定的当前时间格式表示为:01:26:38。
• 时间戳记
同时包含日期和时间组成部分的值,例如 2007-09-26 09:04:00,表示2007年9月26日早上9点04分,具体同样取决于"流属性"对话框中的当前日期和时间格式。请注意,需要用双引号将时间戳值括起来,以确保将此值解释为单一值而非单独的日期和时间值。(同样适用于在用户输入节点中输入值时的情况。)
• 列表
在 SPSS Modeler V17 中,随新测量级别"地理空间"和"集合"一起引入了"列表"存储字段,对于单个记录,此字段包含多个值。存在所有其他存储类型的列表版本。
!实战:可以通过三个源节点("Analytic Server"、"地理空间"或"变量文件")中的某一个将列表导入到 SPSS Modeler 中,也可以在流中使用"派生"或"填充"字段操作节点创建列表。
角色
字段的角色用于指定其在模型构建过程中的用法。
例如,在建模过程中,该变量是预测变量(目标)还是自变量(输入)。
注意:"分区"、"频率"和"记录标识"角色只能分别应用到单个字段。
角色类型如下:
• 输入
字段将用作机器学习的输入(预测变量字段)。
• 目标
字段将用作机器学习的输出或目标(模型将尝试预测的字段之一)。
• 任意
该字段既是输入也是目标的角色,只适用于关联规则算法(字段将被 Apriori节点同时用作输入和输出),其他算法节点将忽略该字段。
• 无
机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。
• 分区
指明字段用于将数据分区为单独的样本(用于训练、测试,也可用于验证)。该字段必须属于实例化集合类型,具有两个或三个可能值(在"字段值"对话框中定义)。第一个值表示训练样本,第二个值表示测试样本,第三个值(如果存在)表示验证样本。所有其他值都将被忽略,且不能使用标志字段。
!请注意:要在分析中使用分区,必须在相应的模型构建或分析节点的"模型选项"选项卡中启用分区。启用分区时,会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段,那么必须在每个相应建模节点的"字段"选项卡中指定单一分区字段。如果数据中不存在适合的字段,您可以使用"分区"节点或"派生"节点进行创建。
• 拆分/分割
仅分类(名义、有序和标志字段)字段能够被设置为拆分。指定为拆分,那么modeler将为该字段的每个可能值构建一个模型。例如:将性别设置为拆分,则机器学习算法将对男性样本和女性样本分别建立模型。
• 频率
仅数值字段能被设置为频率,且应为正整数。 即对字段进行加权。设置此角色允许将字段值用作记录的频率加权因子。仅C&R树、CHAID、QUEST和线性模型支持此功能;所有其他节点将忽略此角色。在支持此功能的建模节点的"字段"选项卡上,选择使用频率权重以启用频率加权。
• 记录标识
即记录的ID,此字段将用作唯一记录标识。大多数节点都会忽略此特征,但它受线性模型支持,并且是 IBM Netezza 数据库内挖掘节点所必需的。