SPSS数据在市调中的形成
我们公司常用的数据分析软件有两个:Quantum和SPSS。早期的工作,包括输入、查错和简单的统计,主要用Quantum软件来完成,而后期深入的统计分析用SPSS来进行。
一个准确无误的SPSS数据文件是统计分析的原材料,那么如何才能形成一个准确无误的SPSS数据文件呢?
在这里主要介绍如何把零乱的问卷答案整理成SPSS格式的电子数据,也就是数据的前期处理,它的基本过程是:首先,在确认的问卷上标上输入的记号(即上Column),根据问卷定义输入的模板、编写查错程序(用于检查问卷矛盾和逻辑关系)和数据报告程序(撰写数据报告用)。在问卷回来后,如果问卷上有开放题或者半开放题,则对问卷上的文字进行编码,然后对所有答案统一输入到电脑上,再进行查错工作。在查错过程中,发现有问题的问卷返回访问部。直到所有问卷输入完毕并通过查错程序检查,保证数据正确后,再运行预先写好的SPSS程序,出SPSS格式的数据报告。数据的前期处理可通过以下几个核心步骤来完成:
一、编写SPSS程序
我们知道后期深入的统计分析用SPSS来进行,数据前期处理的目的就是把零乱的问卷答案整理成SPSS格式的电子数据。SPSS程序只要用来读取后缀名为 .dta的数据文件,并通过程序来设置各变量的属性。
SPSS(Statistical Package for the Social Science,社会科学统计软件包)是世界著名的统计分析软件之一。SPSS常用的窗口是数据编辑窗口,它与微软公司的Excell窗口有些相似,并且有一些功能相同。不过SPSS的数据统计功能要比Excell强很多。下面简单介绍SPSS:
SPSS的数据编辑窗口有以下特点:
1.一个列对应一个变量,即每一列代表一个变量(Variable)或一个被观测量的特征。例如问卷上的每一个题目就是一个变量。
2.行是观测,即每一行代表一个个体、一个观测、一个样品,在SPSS中称为事件(Case)。例如:一份问卷就是一个观测(Case)。
3.单元包含值,即每个单元包括一个观测中的单个变量值,单元(Cell)是观测和变量的交叉。
4.数据文件是一张长方形的二维表,数据文件的范围是由观测和变量的数目决定的,可以在任一单元中输入数据。
SPSS程序除了读取数据外,还要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(值标签)和变量的格式,这都是通过程序来实现。
(1) 定义变量名Name
SPSS默认的变量名为Var00001、Var00002、Var00003等,用户也可以根据自己的需要来命名变量。最好变量名要与变量所表达的意思相一致(见名知意),如:Name(名字)、Tel(电话)、Address(地址)、Age(年龄),一个好的变量名对以后的数据分析有很大的帮助。
SPSS变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下:
1、变量名必须与字母、汉字或字符@开头,其他字符可以是任何字母、数字、#等符号。
2、变量最后一个字符不能是句号
3、不能使用空白字符或其他特殊字符(如!?等)
4、变量名必须唯一,同一个数据文件中不能有两个相同的变量名。
5、在SPSS中不区分大小写。例如,NAME与name被认为同一个变量名称。
6、SPSS的保留字不能作为变量名称,如All,And,Or,With等。
(2)定义变量类型Type
SPSS有8种可选基本变量类型。有数值型、逗号型、句点型、科学计数型、日期格式型、美元型、定制货币型和字符串型。可任选一种进行定义。
1、数值型(Numeric)。数值型变量是SPSS的缺省类型,可以进行修改,重新定义数字的Width和Decimal。
2、逗号型(Comma)和句点型(Dot)。实际上是数值型变量的特殊表达方式,如:数值型为 1234567.89 ,逗号型为:1,234,567.89。句点型为1.234.567,89,这便于阅读和减少出错。
3、科学计数型(Scientific notation)。表达式为a.bE±c。 a为原数据的最高位数字,b为除去原数据的最高位以外余下的数据,E原数据的最高位数字的10的方次数。例如数字为 10000000,如果用科学计数型表示为1.0E+08。 数字 0.00000001,如果用科学计数型表示为1.00E-08。表示指数的字母可以用E,也可以用D,指数的部分可以带正号也可以带负号,例如,123,可以用下列方式输入123、1.23+2、1.23D2、1.23E2、1.23E+2等。
4、日期格式型(Date)。用户可从系统提供的多种日期显示形式中选择自己需要的形式。如选择mm/dd/yy形式,则1998年2月5日显示为02/05/98。
5、货币型(Dollar)。用户可从系统提供的多种货币显示形式中选择自己需要的,并定义数值宽度和小数位,显示形式为在数值前加$符号。例如在变量栏中输入236500,回车后显示$236,500。
6、定制货币型(Custom currency)。用来自定义制货币类型或货币的符号,例如汽车价格为¥17900元,在SPSS中缺省类型没有前面的前缀¥符号,也没有后边的元。这是就需要自定义
7、字符串型(String)。又称字母数字型变量,用户可定义字符串的长度以便输入字符,字符串型变量不能用于进行计算。
(3) 变量长度(Width)。设置变量长度。
(4) 变量小数点位数(Decimal) 。设置变量的小数点。
(5) 变量标签(Label)。变量标签是对变量名的进一步描述,需要时可用标签对变量名的含义加以解释。一般由研究员亲自来定义数据报告标签,这样,在后面的图表制作中能直接使用这些标签,而不需要再做修改。
(6) 变量值标签(Values)。值标签是对变量的每一个可能取值的进一步描述,当变量是定性或定序变量时,这是非常有用的。如定义变量名为“职称”,变量值为1、2、3,值标签分别为“教授、副教授、讲师。
(7) 缺失值的定义(Missing)。SPSS有两类失值:系统缺失值和用户缺失值。在数据长方形中任何空的数字单元都被认为是系统缺失值,用点号(。)表示。由于特殊原因造成的信息缺失值,称为用户缺失值。例如在统计过程中,可能需要区别一些被访者不愿意回答的题目,然后将他们标为用户缺失值,统计过程可识别这种标识,带有缺失值的观测被特别处理。
(8) 变量的显示宽度(Columns)。输入变量的显示宽度,默认为8。
(9) 变量显示的对齐方式(Align)。输入值在单元袼的显示方式,有三种对齐方式:Left(左对齐),Right(右对齐),Center(居中对齐)。
(10) 变量的测量尺度(Measure)。变量按测量精度可以分为定性变量、定序变量、定距变量和定比变量几种。
1、定性变量。又称为名义变量(Nominal),是一种测量精度最低、最粗略的基于“质“因素的变量,他的取值只代表观测对象的不同类别,例如“姓名”、“性别”变量都是定性变量。
2、定序变量。又称为有序变量(Ordinal)、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值代表学历由低到高。
3、定距变量。又称为间隔(Interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量,其取值60与20相比,表示60岁比20岁大,并且可以计算出大40岁。
4、定比变量。又称比率变量(Ratio),它与定距变量意义相近,差别在于定距变量中的“0”值只表示某一个取值,不表示“没有”。如,在测定温度的摄氏表中,0度并不表示没有温度。而定比变量的“0”值表示“没有”。如:人的身高就是一个定比变量,如果身高为“0”米,则表示这个人不存在。在实际应用中,通常对定距变量和定比变量不需加以区别。
二、编码
为什么要编码?编码有什么好处?也许大家提出这样的疑问。编码是市场研究过程中一个不可缺少的重要环节,是对开放题和半开放题的文字答案进行分类、合并和上码(即数字化处理)的过程,用数字形式表达的文字答案更有利于问卷的输入和数据分析。
编码的目的及重要性:1.文字数字化处理;;2.对所有被访者的意见进行统计、分类;3.加快输入速度; 4.便于数据分析;5.可以缩短整个项目的时间。
编码原则:1.编码的内容要求通俗易懂;2.编码要覆盖这次调查的所有意见;3.在编码之前,确认已结构化的编码表是符合要求的
4.编码前必须了解答案;5.一个意见只能编一个码,不能重复编码。对于意思相同,而只是表达方式不同的意见,应用同一个码
三、输入
编码结束后输入员就可以根据之前定义好数据录入模板对数据进行录入,数据员必须严格遵从问卷定义的模板进行录入,不得遗漏或随意更改,而且对数字健敏感,打字速度快。除了快,还应有很高的准确率,尤其对于“小键盘”的输入准确熟练。输入结束后会生成一个后缀名为 .dta的数据文件,通过程序spss可以直接读取此数据文件。
四、数据查错
在数据录入完成后,可能因为访问错误或者输入本身错误导致数据的错误,为保证数据的准确性必须用quantum编写的查错程序对数据进行检查。由于问卷的题型大体上分为封闭题和开放题两类,所以数据查错也可以从着两个方面来分析。
一、封闭题
1.单选题
因为单选题有且只有1个正确答案,所以只要查出没有答案或者有1个以上答案的问卷。
2.复选题
a.一般复选题
一般复选题因为可以选1个或1个以上的答案,所以一般来说只要查出不在规定范围内的问卷就可以了。
b.有第一提及的复选题
对第一提及来说,有且只有1个答案,查错方法与单选题相仿。
对于其他提及,跟一般复选题相似,但要注意的是在第一提及出现过的答案不应在其他提及再出现,即查出其他提及同时有第一提及的答案或说“不知道”的。
3.封闭题与封闭题之间的逻辑关系
常见的有:提示(知名度)与不提示(知名度);最好/最理想/最喜欢/…的品牌与其知名度等等。这里指的是存在一种有A必有B或有B 必有A的逻辑关系。查错就是要把不符合这种关系的答案查出来。
二、开放题
1.一般开放题
因为开放题是被访者的主观答案,不存在对错之分,所以一般开放题只要有答案,问题都有不大。但要注意其意思与问卷其他内容的吻合性。
2.回答有具体数字的开放题
如年龄、收入、住房面积、电话费、产品价格等等。根据经验,这些数值会在一定范围内,否则,就不符合常理。
三、其他
查错除了要找出问卷上有逻辑错误外,查出输入错误也是比较重要的。然而因输入造成的错误是千变万化的,一般没有什么规律可寻。但也不是说没有办法查,我们可以把某一道题或某几道题的输入情况列出来,看是否有异常,再针对异常情况找出有问题的问卷。前面提到的单选题查错以及当我们不太清楚将会出现什么错误时也可以按这种方式来查。
总的来说,问卷的逻辑关系则可以分为题目内部的逻辑关系和各题目之间的逻辑关系,查错前要搞清楚整份问卷的内容,找出每一道题目及各道题目之间的前后联系,列出矛盾对立面,再写成程序,从而查出有错的问卷。
五、出SPSS数据报告
在数据编码、录入、查错都结束后,最后一步就是出SPSS数据报告,在这个环节只要把之前编写好的SPSS程序运行一遍就行了,也就是把后缀名为 .dta的数据文件读取到SPSS中并设置各变量的属性。为保证质量,在提交报告前通常还要对数据报告作最后的检查,主要检查以下几方面的内容:
①做个频数分析,检查样本量及配额情况
②检查缺失值是否正确定义
③检查数据是否有异常情况
④检查标签定义是否符合要求
⑤检查是否有相同问卷编号情况
通过以上几个步骤,可形成一个SPSS格式的电子数据,前期的数据处理基本完成。有了SPSS数据文件就可以进行后面的深入的数据分析,数据分析是一个整理、罗列、剖析与预测的过程。
非常有用!
介绍的非常详细
希望调研公司的朋友有机会多多交流
好啊!都很实用啊!!多学习!
好,不错。学习了
欢迎光临 栖息谷-管理人的网上家园 (https://bbs.21manager.com.cn/) | Powered by Discuz! X3.2 |