多语言展示
当前在线:1026今日阅读:2今日分享:38

spss中如何处理极端值、错误值?

我们知道,在一个数据量很少的表格中,检查其中的数据是否有误,可以简单浏览一遍基本都能发现。但是当数据流量非常庞大的时候,仍然人工审核显然不现实。这时候,我们就可以借助spss来处理这些极端值、错误值。
工具/原料
1

电脑

2

spss16.0

方法/步骤
1

打开spss软件。

2

为了方便讲解,我们可以自定义输入一组含有错误值的数据,比如大学生的身高。我们知道正常人的身高在3米以内,如果偏高太多,显然就是我们所说的极端值、错误值。

3

上面只是罗列了一个简单的数据组,但在spss中,无论数据的多少,查找极端值、错误值的处理方法都是一样,数据越多越能体现spss的优势。明白这一点之后,在上方的工具栏依次点击“Analyze”(分析)——“Descriptive Statistics”(描述统计)——“Descriptive ”(描述)。

4

选中左侧方框的变量,点击中间的箭头按钮,将变量移动到右边的方框。

5

点击右上角的“options”(选择)按钮,勾选如图所示的选项,分别代表:均值、标准差、最小值、最大值、变量列表。

6

勾选“Save standardized values as variables”(将标准化数据保存为变量),点击“ok”。

7

从生成的统计分析结果表格中,我们可以看到数据组中的极值,即极小值和极大值,其中极小值是135,很明显,这样的身高属于正常值,但是420显然大大超出了大学生的正常身高范围,所以可以认定,这是一个极端值、错误值。

8

当然,仅仅从极小值和极大值来处理数据表中的极端值、错误值是远远不够的,因为有些数据表包含的极端值、错误值往往不止一个。那么这是就要返回到数据窗口,由于经过了上一个步骤的操作,这时候数据表中新生成了一组标准化数据“Z大学生身高cm”。

9

“Z大学生身高cm”实际上是衡量正态分布的一个标准化数据,服从正态分布的数据,应该分布在正负三个标准差以内,这时候,我们就可以通过观察“Z大学生身高cm”变量中,有哪些数字是小于-3或者大于3的,同样指向了“420”这一行,这就是我们要找的极端值、错误值。

推荐信息