SPSS超详细操作：卡方检验(R×C列联表) - 加推新闻网,谦和装饰,youtube中国,西昌教育网

医咖会之前推送过一些卡方检验相关的文章，包括：卡方检验(2×2)、卡方检验(2xC)、配对卡方检验、分层卡方检验等。今天我们再和大家分享一下，如何用SPSS来做RxC列联表的卡方检验。

一、问题与数据

研究者拟分析购房人与购房类型的关系，共招募了在过去12个月中有过购房记录的333位受试者，收集了购房人类型（buyer_type）和房屋类型（property_type）的变量信息。

其中研究对象类型按照单身男性（single male）、单身女性（single female）、已婚两人（married couple）和多人家庭（family）分类；房屋类型按照楼房（flat）、平房（bungalow）、独栋别墅（detached house）和联排别墅（terrace）分类，部分数据如下图。

其中，Individual scores for each paticipant（左图）列出了每一个研究对象的情况，而Total count data (frequencies)（右图）则是对相同情况研究对象的数据进行了汇总。

二、对问题的分析

研究者想分析多种购房人类型与多种房屋类型的关系，建议使用卡方检验（R×C），但需要先满足3项假设：

假设1：存在两个无序多分类变量，如本研究中购房人类型和房屋类型均为无序分类变量。

假设2：具有相互独立的观测值，如本研究中各位研究对象的信息都是独立的，不会相互干扰。

假设3：样本量足够大，最小的样本量要求为分析中的任一期望频数大于5。

本研究数据符合假设1和假设2，那么应该如何检验假设3，并进行卡方检验（R×C）呢？

三、SPSS操作

1. 数据加权

如果数据是汇总格式（如上图中的Total count data），则在进行卡方检验之前，需要先对数据加权。如果数据是个案格式（如上图中的Individual scores for each paticipant），则可以跳过“数据加权”步骤，直接进行卡方检验的SPSS操作。

数据加权的步骤如下：

在主页面点击Data→Weight Cases

弹出Weight Cases对话框后，点击Weight cases by，激活Frequency Variable窗口。

将freq变量放入Frequency Variable栏，点击OK。

2. 卡方检验（R×C）

在主页面点击Analyze→Descriptive Statistics→Crosstabs，弹出Crosstabs对话框。将变量buyer_type和property_type分别放入Row(s)栏和Column(s)栏。

点击Statistics后，弹出的对话框中点击Chi-square，并点击Nominal栏中的Phiand Cramer’s V。

点击Continue→Cells，在弹出的对话框中，点击Counts栏Expected选项，并点击Percentages栏中的Row和Column选项，Residuals栏中的Adjusted Standardized，点击Continue→OK。

经上述操作，SPSS输出预期频数结果如下图。

结果显示，本研究最小的期望频数是6.5，大于5，满足假设3，具有足够的样本量。Chi-Square Tests 表格也对该结果做出提示，如下图。

即在本研究中，没有小于5的期望频数，可以直接进行卡方检验（R×C）。

四、结果解释

1. 统计描述

在进行卡方检验（R×C）的结果分析之前，我们需要先对研究数据有个基本的了解。SPSS输出结果如下图。

这个结果比较复杂，我们需要分类逐项获取信息。首先从观测值（Count行）开始，结果显示不同类型购房人的实际购房类型。比如，单身男性（single male）主要购买楼房（flat）（40/68），如下图。

再比如，相对于楼房（flat）（n=10）和平房（bungalow）（n=16），多人家庭（family）主要购买了独栋别墅（detached house）（n=42）和联排别墅（terrace）（n=39）。

同时，Crosstabulation表也汇报了各观测值所占的比例。

“% within buyer_type”行显示的是：某类购房人的总购房量中，各房屋类型所占的比例。比如，单身男性（single male）总购房量为68，楼房(flat)所占比例为58.8%（40/68）。

而“% within property_type”行显示的是某类型房屋总购房量中，各类购房人所占的比例。比如，楼房类(flat)总购房量为96，购房人为单身男性（single male）所占的比例为41.7%（40/96）。

2. 卡方检验（R×C）

本研究中任一期望频数均大于5，所以根据Chi-Square Tests表格判断各组的差别。

卡方检验（R×C）结果显示χ²=82.504，P

如果想了解购房人类型与房屋类型之间的相关强度，可以参看SPSS输出的Symmetric Measures表格。

该表提示的Phi (φ)和Cramer’s V系数均是提供分类变量相关强度的指数。但是Phi (φ)仅适用于2×2的数据格式，而Cramer’s V系数的适用范围较广。当数据中只有2个二分量变量时，Cramer’s V系数的结果与Phi (φ)相同。

针对本研究的数据情况，我们要关注Cramer’s V系数。Cramer’s V系数的取值范围在0到1之间，数值越大相关性越强，具体对应关系见下图。

可以看出购房人类型与房屋类型之间的弱强度相关，Cramer’s V = 0.287，P

3. 卡方检验（R×C）中的Post hoc testing检验

卡方检验（R×C）的结果只能判断各组之间是否存在差异，但不能说明具体是哪两组之间有差异。因此，我们需要对结果进行更加深入的分析。这时，可以采用之前介绍过的卡方检验结果两两比较的方法（Bonferroni法调整α水平）。

但是，就R×C的数据结构而言，两两比较过于繁琐，所以，我们建议使用Post hoc testing检验，根据调整后的标化残差（adjusted standardized residuals）判断各组的差异。

一般来说，调整后的标化残差可以是正值，也可以是负值。正值说明观测频数大于期望频数，负值说明观测频数小于期望频数。

调整后的标化残差服从均数为0，标准差为1的标准正态分布。因此，当调整后标化残差的绝对值大于2时，我们就认为该数值的观测频数与期望频数之间的差异存在统计学意义。这是因为，标准正态分布95%CI的边界为1.96倍标准差（为了方便起见，可以选择绝对值为2）。

由于涉及到多重比较，为了估计更加保守，可以选择调整后标化残差的绝对值以3为界。当大于3时，我们就认为该数值的观测频数与期望频数之间的差异存在统计学意义。

在上述SPSS的操作中，在Cells对话框，选择Residuals栏中的Adjusted Standardized后，SPSS操作可输出以下结果。

可见，单身男性（single male）和多人家庭（family）购买楼房（flat）的调整后标化残差的绝对值最大。以单身男性购买楼房为例，观测频数比期望频数大两倍多，调整后标化残差为6.1，差异存在统计学意义，说明单身男性倾向于购买楼房。

再比如，多人家庭（family）购买楼房（flat）的观测值不到期望值的三分之一，调整后的标化残差为-5.4，说明多人家庭类型的购买人不倾向于买楼房。

如果研究数据中只有几个调整后的标化残差绝对值大于3，我们可以逐个汇报这些结果。但是在本研究中，有8个大于3，不方便逐一说明，我们建议使用表格形式向读者展示结果，如下图。

五、撰写结论

本研究招募了在过去12个月中有过购房记录的333位研究对象，分析购房人与购房类型的关系。结果显示，本研究任一期望频数均大于5，可以采用卡方检验，χ²=82.504，P 0.001，提示不同类型的购房人所购买的房屋类型不同。购房人类型与房屋类型之间存在弱强度相关，cramer’s=”” v=””P 0.001。本研究各组之间post=”” hoc=””

参考文献

1. Agresti, A. (2002). Categorical Data Analysis (2nd Ed.). New York: Wiley. (the definition is on page 81.)

2. http://www.statisticshowto.com/what-is-a-standardized-residuals/

3. https://www-304.ibm.com/support/docview.wss?uid=swg21479605