缺失值与超出范围值处理实验报告

张开发

• 2026/5/28 17:23:12 • 15 分钟阅读

分享文章

1.缺失值处理2.超出范围值处理基于 SPSS Modeler 的缺失值与异常值处理实验报告一、实验目的掌握 IBM SPSS Modeler 中数据导入、字段类型定义的基本操作。学会识别并处理数据中的缺失值与超出合理范围的异常值。理解数据清洗在数据分析流程中的核心作用掌握 SPSS Modeler 中数据预处理的标准流程。能够独立完成从数据导入、异常值处理到结果验证的完整数据清洗流程。二、实验环境硬件Windows 系统计算机软件IBM SPSS Modeler 18.x实验数据演示数据集(1).xlsx包含 17 个字段涵盖名义型、连续型、标记型变量存在缺失值与超出范围的异常值三、实验原理1. 数据质量问题分类缺失值数据记录中字段为空、无有效取值的情况会导致统计分析偏差、模型训练失效。异常值超出范围值变量取值超出业务逻辑或统计合理范围的数值会干扰数据分析结果的准确性。2. SPSS Modeler 数据处理核心逻辑SPSS Modeler 通过数据流Stream 实现数据处理从源节点导入数据通过类型节点定义字段属性对异常 / 缺失值进行丢弃 / 填充处理最终通过输出节点验证处理结果形成完整的数据清洗链路。3. 常用处理方法丢弃法直接将缺失值、超出范围的异常值标记为 “丢弃”在后续分析中排除该类数据适用于异常占比低、不影响样本量的场景。范围限定法为连续型变量设置合理的上下限将超出范围的数值统一标记为异常并处理。四、实验步骤步骤 1搭建基础数据流导入数据打开 SPSS Modeler新建空白流流 1。在下方「源」选项卡中拖拽Excel节点到画布双击节点选择本地路径D:\演示数据集(1).xlsx完成数据导入。在「输出」选项卡中拖拽表格节点到画布用鼠标连线将 Excel 节点与表格节点连接用于后续查看原始数据。拖拽类型节点到画布连接 Excel 节点与类型节点用于定义字段属性、处理异常值。此时数据流结构Excel源节点 → 类型节点 → 表格输出节点对应图 1 的初始流搭建。步骤 2识别异常字段定义处理规则双击 Excel 源节点切换到「类型」选项卡查看所有字段的属性可以看到Announcem...AnnouncementsView字段的「值」为[1.0,110.0]「缺失」列标记为「丢弃」说明该字段存在超出合理范围的异常值业务中该指标合理范围应为 0-100110 为异常值。同时可查看其他字段的缺失状态如SectionID字段「缺失」为「丢弃」存在缺失值。双击AnnouncementsView字段进入值设置窗口测量类型选择「连续」值设置为「指定值和标签」。将上限从 110.0 修改为 100.0限定该字段的合理取值范围为 0.0-100.0。「检查值」下拉选择「丢弃」将所有超出 0-100 范围的数值如 110标记为异常在后续分析中自动丢弃。点击「确定」保存设置。步骤 3执行数据流验证处理结果点击工具栏的绿色「运行」按钮执行完整数据流。运行完成后双击类型节点再次进入「类型」选项卡点击「读取值」按钮重新读取处理后的数据字段属性。确认AnnouncementsView字段的「值」已更新为[0.0,100.0]「缺失」列状态正常异常值已被过滤。打开表格节点查看输出数据确认所有超出范围的异常值、缺失值已被成功剔除数据符合质量要求。五、实验结果与分析1. 处理前后对比字段名处理前状态处理后状态处理效果AnnouncementsView取值范围 1-110存在 110 的异常值取值范围 0-100异常值被丢弃成功剔除超出业务范围的异常值数据符合逻辑SectionID存在缺失值标记为丢弃缺失值被自动过滤有效消除缺失值对后续分析的干扰其他连续型字段无异常范围保持原有合理范围数据完整性不受影响2. 结果分析本次实验通过范围限定丢弃法成功处理了AnnouncementsView字段的超出范围异常值同时清理了SectionID等字段的缺失值数据质量得到显著提升。处理后的数据可直接用于后续的统计分析、建模等工作避免了异常值导致的统计偏差、模型失效等问题。该方法操作简单、逻辑清晰适用于教育、调研等场景下的问卷数据、行为数据清洗是 SPSS Modeler 中最常用的缺失值 / 异常值处理方案。六、实验总结与拓展1. 实验总结本次实验完整复现了 SPSS Modeler 中数据清洗的标准流程数据导入通过 Excel 源节点完成外部数据读取。异常识别在类型节点中定位缺失值、超出范围的异常值。规则设置为连续型变量设置合理范围将异常值 / 缺失值标记为丢弃。结果验证运行数据流重新读取字段值确认处理效果。通过本次实验掌握了 SPSS Modeler 数据预处理的核心操作理解了数据清洗在数据分析中的前置性、基础性作用。