双变量的统计分析_社会调查与统计

时间:2020-03-11  栏目:百科知识  

双变量的统计分析_社会调查与统计

第二节 双变量的统计分析

社会生活中各现象之间往往是相互联系、相互影响的,进一步了解社会现象发生和变化的原因,探索现象之间的关系,揭示社会现象的发展规律,是大多数社会研究的主要目的,这就涉及对两个或多个变量的分析。双变量分析是多变量分析的基础,也是社会研究中最常用的分析方法。常用的双变量分析主要包括:交互分类表(交叉表)分析和相关分析。

一、交互分类表分析(Crosstabs)

交互分类表是对两个变量关系进行分析的一个主要方法,又称交叉表或列联表,它可以较深入的描述样本资料的分布状况和内在结构;对变量之间的关系进行分析和解释。交互分析表主要针对的是定类变量和定序变量,定距变量一般经过分组变为定序变量后再进行分析。Descriptive Statistic命令中的Crosstabs提供了交互分类的过程。

1.交互分类表的分析过程

打开数据,执行以下操作:

(1)点击Analyze→Descriptive Statistics→Crosstabs,打开如图10-26的对话框。

img248

图10-26 Crosstabs对话框

其中,Display clustered bar charts是指在输出结果中显示聚类条形图: Suppress tables是指隐藏表格选项,如果选择此项,则不输出R×C的交互分类表。

(2)选择分析的变量。选择要分析的变量放入Row(s)和Column(s)窗口。根据交互分类表的形式,一般将视为自变量的变量放入“Column(s)”窗口,视为因变量的变量放入“Row(s)”窗口,这样形成的交互分类表的纵行显示的自变量,横行显示的是因变量,表示当一个变量的取值不同时,另一个变量的取值发生了怎样的变化,如分析一次调查中,分析同年龄段不同性别青年的婚姻情况是否有差别,可以把性别放入“Column(s)”窗口,婚姻状况放入“Row(s)”窗口。

(3)选择控制变量。Layer 1 of 1是控制层,表示在某一因素取值不同的情况下,两个变量的关系,如要分析城乡同年龄段青年男女的婚姻状况,就可以将城乡变量放入“Layer 1 of 1”,表示控制了一层,在统计时将分别显示城市和农村青年男女婚姻状况的交互分类表。点击“Next”则设置第二层控制变量。控制的层数越多交互分类表将越大,因此在分析时,一般控制一层即可,如要控制多层,可以采用多变量的统计方法。

(4)Exact:确切概率计算。点击Exact按钮,打开Exact Tests对话框,见图10-27。

img249

图10-27 Exact Tests对话框

其中,Asymptotic only表示只计算近似概率;Monte Carlo表示用Monte Carlo法计算精确概率,选择此项,可自行设置置信度和样本大小。Exact表示在给定时间内计算精确概率的值,如果超出给定时间,则停止计算。

(5)Statistics:选择统计分析的内容。除了给出交互分类表的χ2假设检验之外,Statistics还提供了两个变量相关系数的测量命令。主要包括两个定类变量、两个定序变量、两个定距变量以及定类变量和定距变量的主要相关系数的测量法(见图10-28)。

可选择的各项有:

①Chi-square:卡方(χ2)值,用于检验交互分类表的行变量和列变量是否独立;

②Correlations:皮尔逊(Pearson)相关系数,用来测量两个定距及以上层次变量的线性相关;

③Nominal:定类变量选项栏,当两个变量都是定类变量时选择的相关参数。

●Contingency coefficient:列联相关的C系数;

img250

图10-28 Statistics统计量

●Phi and Cramér's V:列联相关的V系数;

●Lambda:λ系数;

●Uncertainty coefficient:不确定系数。

④Ordinal:定序变量选项栏,当两个变量是定序变量时,选择的相关参数。

●Gamma:Gamma系数;

●Somers'd系数:Somers d系数

●Kendall's tau-b:肯德尔的tau-b系数;

●Kendall's tau-c:肯德尔的tau-c系数。

⑤Nominal by Interval中的Eta是当一个变量是定类变量,一个变量是定距变量时统计的相关系数Eta值。

另外,Kappa系数统计的是同一变量进行两次评估时结果是否一致;Risk是相对风险测量,检验事件的发生和某事件的相关度;McNemar是二项变量的非参数检验。点击Continue按钮,回到上一级对话框。

(6)Cells:确定交互分类表内单元格值的选项。单击Cells,打开如图10-29的对话框。在该对话框中可以选择在交互分析表中输出的统计量,包括观测值、百分比和残差。

img251

图10-29 Cells对话框

①Counts:单元格的频数选择栏,有两种频数显示方式。

●Observed:观测值的频次。这是系统默认值。

●Expected:期望值频次。

②Percentages:确定输出百分比的选项栏。该选项栏中的选项用于确定在单元格要输出的百分比。

●Row:单元格中个案的数目占行总数的百分比;

●Column:单元格中个案的数目占列总数的百分比;

●Total:单元格中个案的数目占个案总数的百分比。

③Residuals:残差选项栏。

●Unstandardized:非标准化残差;

●Standardized:标准化残差;

●Adjusted standardized:调整的标准化残差。

④Noninterger Weights:非整数加权。

当频数因为加权变成小数时,选择该项对频数取整,主要包括五种方法:

●Round cell counts:对单元格频数进行四舍五入取整;

●Round case weights:对个案权数进行四舍五入取整;

●Truncate cell counts:对单元格频数进行舍位取整;

●Truncate case weights:对个案权数进行舍位取整。

上述选择做完以后,单击Continue按钮,返回到Crosstabs主对话框。

(7)Format:确定交互分析表的行顺序。单击Format(格式)按钮,打开Format对话框,见图10-30。在该对话框中选择输出的交互分析表中行的排列顺序。Ascending是按升序排列;Descending是按降序排列。系统默认是按升序排列。选择完成后,单击Continue按钮。

img252

图10-30 Format对话框

(8)单击OK按钮,提交运行。在输出结果窗口中看到输出结果。

2.实例分析

例6 对数据data10.1.4中“性别”和“是否独生子女”进行交互分类表分析,并进行卡方检验。

打开数据文件,分析过程如下:

(1)点击Analyze→Descriptive Statistics→Crosstabs,打开Crosstabs对话框。

(2)将“性别”放入Column(s)窗口,“是否独生子女”放入Row(s)窗口。

(3)单击Statistics按钮,打开对话框,选择Chi-Square选项。单击Con-tinue按钮。

(4)单击Cells按钮,打开对话框,选择Percentages中的Column。单击Continue按钮。

(5)单击OK按钮,提交运行。在Output窗口输出表10-12、表10-13和表10-14的结果。

表10-12 统计概要

img253

统计概要说明:有效数据是563,系统缺失值是3。

表10-13 交互分类表

img254

交互分类表的结果说明,在男性中,独生子女有130人,占男性样本的45.8%;非独生子女154人,占男性样本的54.2%;女性中独生子女有128人,占女性样本的45.9%;非独生子女有151人,占女性样本的54.1%。从男女独生子女和非独生子女比例的比较来看,男性和女性中独生子女与非独生子女几乎没有差别。这里需要注意的是因为频数受样本大小的限制,所以不具有可比性。

表10-14 卡方检验结果

img255

在卡方检验表中各项的内容分别为:

●Pearson Chi-Square:皮尔逊卡方值(χ2);

●Continuity Correction:列联相关;

●Likelihood Ratio:似然比;

●Fisher's Exact Test:Fisher检验;

●Linear-by-Linear Association:线性相关;

●N of Valid Cases:有效个案数;

●Asymp.Sig.(2-sided):双尾的显著性检验。

卡方检验的结果表明,皮尔逊卡方值是0.001,检验的显著性水平已达到0.980,大于0.05,说明了在抽取样本的总体中,男女中是否独生子女的差异并不显著。

卡方检验表下面的说明是:a.计算结果针对的是2×2的表格;b.有0个单元格的值(占总格值数的20%)的期望频次小于5,最小的期望频次是127.85。卡方检验要求期望频次小于5的格值数不应超过25%,本实例的检验满足要求,卡方检验的结果是有效的。

二、多选变量的交互分类表分析

前面介绍的交互分类表中的两个变量都是单项选择变量,当分析的变量中至少有一个是多选变量时,所用的是Multiple responses中的Crosstabs命令。

1.多选变量交互分类表分析的过程

多选变量交互分类表分析的第一步与多选变量频数统计一样,先根据多选变量生成新的变量,在此不再赘述。生成新的变量之后,执行以下操作:

(1)点击Analyze→Multiple Response→Crosstabs,打开如图10-31的对话框。该对话框左上方的窗口是单选变量集,Mult Response Sets窗口是多选变量集,即多选变量新生成的变量。Row(s)是行变量窗口,Column(s)是列变量窗口,Layer(s)是层变量窗口。

img256

图10-31 多选变量的交叉表分析

(2)选择分析的变量。将多选变量和将要与之进行交叉表分析的变量分别进入行变量窗口和列变量窗口,Define Ranges(确定范围)按钮被激活。

(3)Define Ranges:确定分析变量的范围。单击Define Ranges按钮,打开对话框。在Minimum窗口和Maximum窗口中,分别填上与多选变量进行交互分析的变量的最小值和最大值。激活Continue按钮,见图10-32。单击Continue按钮,返回主对话框。

(4)Options:确定输出内容。单击Options按钮,打开如图10-33的对话框。

该对话框包括了三个选项栏:

①Cell Percentages:在输出的交叉表的每个单元格中输出百分比的选项栏。

●Row:输出行百分比(以行总数为分母);

●Column:输出列百分比(以列总数为分母);

img257

(www.benninghoven.com.cn)

图10-32 Define Ranges设置

img258

图10-33 Options对话框

●Total:输出总百分比(以总数为分母)。多选变量由于是对多个同样变量的选择结果进行了合并。因此选择总数要大于个案总数。相应输出的边缘频率分布也有两种:一种是以个案总数为分母计算的;另一种是以选择总数(Responses)为分母计算的。

●Match variables across response sets:确定使用选择数还是个案数的选项。如果选择了该项,则输出与多选变量进行交互分类的匹配变量的选择数和以选择总数为基础计算的边缘频率分布。如果不作此项选择,则系统将输出与多选变量进行交互分类的匹配变量的个案数和以个案总数为基础计算的边缘频率分布。

②Percentages Based on:确定交互分类表中的百分比计算是采用个案数(Cases)还是以回答总数(Responses)作分母的选项栏。系统默认的是采用个案数作分母。

③Missing Value:处理缺失值方法的选项栏。

●Exclude cases listwise within dichotomoes:排除二分变量中的缺失值;

●Exclude cases listwise within categories:排除多选项变量中的缺失值。

上述选项做完以后,单击Continue按钮,返回主对话框。

(5)单击OK按钮,提交运行。在输出结果窗口中输出分析结果。

2.实例分析

例7 对男女大学生的闲暇娱乐生活进行交互分类分析(见数据data10.1.4)。

打开数据文件,分析过程如下:

(1)点击Analyze→Multiple Response→Define Sets,定义多选变量为新变量c2。

(2)点击Analyze→Multiple Response→Crosstabs,打开对话框。

(3)将“性别”放入Column(s)窗口,将新生成的变量“c2闲暇娱乐”放入Row(s)窗口。

(4)单击Column中的a1,打开Define Ranges,在Minimum窗口输入1,Maximum窗口输入2。点击Continue按钮,回到上级对话框。

(5)单击Options按钮,打开对话框,选择Cell Percentages中的Column。单击Continue按钮。

(6)点击OK按钮,提交运行,在Output窗口看到除统计概要外的表10-15。

表10-15 性别与闲暇娱乐的交互分析表

img259

表10-15是性别与休闲娱乐的交互分类表,表中的频数和百分比是建立在回答者(个案)的基础上,显示的是变量取值为1的结果,即大学生从事某项活动的结果。从表10-15中可以看出,男女大学生在闲暇娱乐的方式上略有差别,男大学生最经常从事的活动是上网(63.3%),运动(43.5%)和看电影/听音乐(39.2%);女大学生最经常从事的活动是上网(63.3%),看电影/听音乐(50.7%)以及睡觉(41.7%)。

三、相关分析

相关分析是分析两个变量关系密切程度的最常用的分析方法。根据变量测量层次的不同,选择的相关测量法也不同。调查样本中两个变量的相关关系在抽样总体中是否也存在,需要进行相关系数的假设检验。相关分析的基本步骤包括:(1)根据变量类型,选择相关测量法,计算相关系数;(2)进行假设检验,检验总体中两个变量是否也存在相关关系,研究假设是两个变量有相关关系,虚无假设则是两个变量没有相关关系;(3)根据计算的统计量和显著性水平,对假设检验结果进行判断,得出结论。

SPSS13.0软件中的多个模块都提供了相关分析和检验的过程:

(1)在Analyze的下拉菜单Descriptive Statistics中Crosstabs命令提供了两个变量相关分析的功能,主要包括:C列联系数(Contingency coefficient),V系数(Phi and Cramér's V),Lambda系数,Gamma系数,Somers'd系数,Kendall的tau-b,tau-c系数,Eta系数以及Pearson's R和Spearman系数(correlations命令)。通过这些命令可以获得两个变量的相关系数,及假设检验的值。检验的虚无假设是这两个变量没有相关关系,也就是相关系数为0。

(2)在Analyze的下拉菜单Correlate命令中有三个子命令,分别是相关分析(Bivariate)、偏相关分析(Partial)和距离分析(Distance)。这里只介绍Bivariate模块。

Bivariate是两个变量相关分析的命令,计算两个变量的相关系数,包括Pearson相关、Spearman和Kendall tau-b相关。在进行假设检验时可以选择单尾或双尾检验。

(一)Crosstabs命令中的相关分析

交互分类表和相关分析都是对两个变量的关系进行分析,两者最大的区别在于通过交互分类表可以较为深入地描述两个变量的分布情况和内在结构,而相关分析则通过一个相关系数值表示两个变量关系的大小。Crosstabs命令既可以给出两个变量的交互分类表,也可以计算两个变量的相关系数。

1.Crosstabs命令计算两个变量相关系数的操作过程

(1)点击Analyze→Descriptive Statistics→Crosstabs,打开对话框。

(2)选择变量。选择要分析的变量分别放入Row(s)和Column(s)窗口。

(3)点击Statistics按钮,打开如图10-34的对话框。其中各项内容在第一节中已经进行了详细说明。

(4)根据要分析的两个变量的测量层次,选择对应的相关测量法,点击Continue按钮。

img260

图10-34 Crosstabs中的相关分析命令

(5)单击OK按钮,提交运行。在输出结果窗口中看到输出结果。

2.实例分析

例8 根据随机抽样调查的数据(data10.2.3),分析大学生的性别与大学生活适应的关系,并推断这种关系在总体中是否存在。

打开数据文件data10.2.3后,执行下述操作:

(1)打开Analyze→Descriptive Statistics→Crosstabs,分别将“生活适应(a09)”和“性别(a01)”变量放入Row(s)和Column(s)窗口,如图10-35的对话框。

img261

图10-35 Crosstabs对话框

(2)点击Statistics按钮,因为性别是定类变量,适应大学情况采用的是李克特量表,由“不适应”到“完全适应”分成5份,因此可将其看做定序变量,所以选择Lambda相关测量法,见图10-36。

img262

图10-36 Statistics对话框

(3)点击Continue按钮,回到图10-35对话框。点击OK按钮。可以在结果输出窗口看到除统计概要外的表10-16和表10-17的结果。

表10-16 性别与适应大学生活的交互分析表

img263

表10-16列出的是分析的两个变量的交互分类频数表。

表10-17 相关测量表

img264

表10-17列出了性别和大学学习适应两个变量采用不同的相关测量法得出的结果。

①Lambda测量中“Symmetric”表示两个变量对称测量的λ值(0.058),标准误差(0.047),T值(1.222)和显著性检验Approx.Sig.(0.222)。“适应大学生活Dependent”和“性别Dependent”后面的Value,Asymp. Std.Error,Approx.T和Approx.Sig.分别表示非对称测量中当“适应大学生活”变量为因变量和“性别”变量为因变量时的λ值、标准误差、T值和显著性检验水平。根据研究的实际意义,决定采用哪一个结果。本例中,分析的是性别与大学生学习适应的关系,只能是性别影响大学学习适应,而不能是大学学习适应影响一个学生是男生还是女生,所以采用的是“适应大学生活吗Dependent”,即以“适应大学学习吗”为因变量的结果。可以看出,相关系数值为0.003,显著性水平为0.949,两者的相关非常弱,可以认为这种相关关系在总体中并不存在。

②Goodman and Kruskal tau进行的非对称测量,显示的分别是当适应大学生活变量为因变量和性别变量为因变量时的tau值、标准误差、T值和显著性检验水平。

③表格下面的说明分别是:a.没有假定零假设;b.用标准误假定零假设; c.建立在卡方相似的基础上。

因为Crosstabs的主要功能是对两个变量进行交互分类表分析,因此从测量结果来看,它除了显示相关结果之外,还会显示交互分类表信息,结果多,看起来较复杂,因此除了定类变量外,一般都直接采用Correlate命令测量两个变量之间的相关关系。

(二)Correlate中的相关分析

Correlate菜单中Bivariate命令是统计两个变量之间的相关关系。

1.Bivariate命令的操作过程

(1)点击Analyze→Correlate→Bivariate,打开如图10-37的对话框。

img265

图10-37 Bivariate相关分析对话框

(2)选择进行相关分析的变量。从左侧的源变量框中选择要分析的变量放入“Variables”窗口。

(3)Correlation Coefficients:相关系数选择栏,Bivariate命令提供的主要是定序以上层次变量的相关测量法。

①Pearson:皮尔逊相关系数,也就是积矩相关系数。适用于两个定距以上层次的变量,且两个变量服从正态分布。这是系统的默认选项。

②Kendall's tau-b:肯德尔的tau-b系数,表示的是等级相关,适用于两个变量是定序变量的情况。

③Spearman:斯皮尔曼相关系数,表示的也是等级相关,也适用于两个变量都是定序变量的情况。

(4)Test of Significance:确定显著性检验的类型。

①Two-tailed:双尾检验,这是系统默认的选项。

②One-tailed:单尾检验。

(5)Flag significance correlations:显著性水平输出与否。如果选中此项,则系统在输出结果时,在相关系数的右上方用“*”表示显著性水平为0.05;用“**”表示显著性水平为0.01。默认为相关系数值右上角标注星号。

(6)Options:选择输出的统计量。单击Options按钮,打开如图10-38的对话框。

img266

图10-38 Options对话框

①Statistics:输出统计量的选择项,包括:

●Means and standard deviations:均值和标准差选项。选择此项,会在输出结果中显示变量的均值和标准差。

●Cross-product deviations and covariances:交叉离差和协方差选项。选择此项,会在输出结果中输出每个变量的离差平方和两个变量的协方差。

②Missing Values:缺失值的处理方法选项。

●Exclude cases pairwise:成对剔除参与相关系数计算的两个变量中有缺失值的个案。这是系统默认选项。

●Exclude cases listwise:剔除带有缺失值的所有个案。

选择完之后,点击Continue按钮,回到双变量相关分析主对话框。

(7)输出结果。单击OK按钮,提交运行。在输出结果窗口中输出分析结果。

2.实例分析

例9 data10.2.3是某次随机抽样调查的数据,分析父母的文化程度与家庭月收入的关系,并推论总体中是否也存在这种关系。

打开数据文件后,执行下述操作:

①点击Analyze→Correlate→Bivariate,打开对话框。分别将“父亲文化程度(a7x1)”、“母亲文化程度(a7x2)”和“家庭平均月收入(a8)”变量放入“Variables”窗口。

②因为父母的文化程度和家庭月收入在这里都是定序变量,所以在这里我们选择Kendll's tau-b和Spearman系数进行分析。采用单尾检验。

③点击OK按钮,提交运行,在结果输出窗口得到如表10-18的表格。

表10-18 Bivariate相关分析结果

img267

表10-18分两部分列出了Kendall's tau-b和Spearman's rho相关的相关矩阵。右边第一列对应的第一个数据1表示的是“父亲文化程度”与“母亲文化程度”的相关系数,因为是同一个变量,所以完全相关。“母亲文化程度”一列对应的数据0.618**,表示的是“父亲文化程度”和“母亲文化程度”的相关系数。“家庭平均月收入”一列中显示的“家庭平均月收入”与“父亲文化程度”、“母亲文化程度”的两两相关矩阵。

Sig.(1-taild)是单尾检验的显著性水平,可以看出各相关系数的显著性水平都是0.000,也就是说总体中两个变量的相关关系也是存在的。N指的是参与分析的个案数目。

如果在统计分析时,点击Options里面的选项,如Means and standard deviations和Cross-product deviations and covariances,则除了相关系数和显著性水平等结果外,还会给出每一个变量的均值、标准差选项、交叉离差和协方差等结果。研究者可根据自己的需要和变量的测量层次进行选择。