多语言展示
当前在线:351今日阅读:113今日分享:31

分类资料的回归分析——logistic

以是否识别孤独症为例,探讨教育人员的年龄、学历、从教经验等对孤独症识别的影响,寻找孤独症识别的相关因素。
工具/原料

因变量为二分因变量,自变量为分类变量(也可为连续变量)的数据

方法/步骤
1

点击分析——回归——二元 logistic

2

我们有N个分类预测变量,有的是二分变量,有的是多类变量。将这些预测变量放入covariates协变量框内,将因变量放入上方第一个因变量框。方法默认“输入”,如果做多元,可以改为“逐步“(向前向后都可以)

3

点击右上角”分类“,将分类变量放入右侧边框内,自变量如有连续变量,不用放入。注意:根据需要,选择参考类别是从最后一个还是从第一个。此处在结果分析时讲,第一个和最后一个的区别。

4

点击右上角“选项”,选择exp(B)的CI。其他功能看下图。

结果
1

第一个表为数据处理情况,包括多少例纳入,多少缺失。第二个表为变量赋值情况注意:此过程默认以应变量较大取值的概率为p,不是以p(y=0),比如不要将”不能识别孤独症“赋值为1,而将它应该赋值为0。

2

Block 0 代表不含任何自变量,只有常数项时的输出结果,第一章表,总的预测准确率为86.1%。(一般不看此部分,可以直接跳入Block 1 )

3

Block 1 此部分为引入自变量的结果。step为每一步与前一步相比的似然比检验结果BLock为将block1 和block0 相比的似然比检验结果。modle是上一个模型与现在方程中变量有变化后模型的似然比检验结果。由于选择的enter输入法,三个结果完全一直。model summary-2被的似然对数值可用于统计推断和拟合优度检验。后两个类似与回归中的决定系数。lassification Table从预测分类表可以看出来,从block0 的86.1%变为87.2%。说明引入变量对改善模型有意义。

4

最后一张表为主要看的一张表,是logistic回归分析中最重要的!!!!包括最终引入模型变量,常数项系数值B,标准误SE,wald卡方值,自由度df,p值及Exp(B)即OR值。从结果可以看,听说过孤独症有统计学意义。可以进一步收购筛选变量引入。(一般第一步都是全部放入引入,这里只放了一部分)这里最高学位和从教年限采用的是步骤3中的参考类别第一个,以最高虚伪为例,1=无学位,2=学士学位,3=硕士学位,4=博士学位,结果最高学位exp为1,因为是与无学位与无学位相比较;最高学位(1)代表2=学士学位,相对1=无学位差异显著(p=0.03),说明学士学位识别孤独症的能力是无学位的2.979倍。(如果参考类比采用最后一个,则代表对应的项均与4=博士学位向比较的p值和exp值。这里听说过孤独症采用的是步骤3中的参考类别最后一个,其中赋值为1=听说过,2=没听说过,说明相比较2=没听说过,1=听说过差异显著(sig=0.018),听说过孤独症的教育人员识别孤独症的能力是没听过的2.346倍)

5

最后,三线表呈现结果如下:

注意事项
1

多类变量中分类的设置,点击分类,进行哑变量设置

2

分类设置中参考类比从第一个还是从最后一个的设置

推荐信息