當前位置:
首頁 > 最新 > SPSS分析技術:二元Logistic回歸中啞變數的設置;啞變數的「啞」就是啞巴吃黃連的「啞」!

SPSS分析技術:二元Logistic回歸中啞變數的設置;啞變數的「啞」就是啞巴吃黃連的「啞」!

基礎準備

今天我們介紹,當遇到Logistic回歸分析中自變數的測量尺度不統一時,如何解決。前面介紹多重線性回歸分析時,給大家闡述過測量尺度不統一的含義,例如研究不同學歷對收入的影響,如果定義的學歷水平1代表初中,2代表高中、3代表本科、4代表碩士、5代表博士,雖然高中和初中(2-1),碩士和本科(4-3)的數值差距都是1,但是這兩個1對應的收入的差距可能是完全不同的,也就是說學歷變數中的數值差距測量不出收入的數值差距,也就是測量尺度不統一。

遇到測量尺度不統一的分類自變數,如果想放入回歸模型中分析,有兩種方法處理:

第一種就是前面介紹的最優尺度變換(回顧:)。它的分析思路是通過某種方法,對分類變數進行變換,為每個類別給予一個適當的量化評分,該評分的高低能夠反映不同類別之間的真實差距。例如,對企業績效考核,「優」為2分,「良」為1分,「中」為0. 5分,這就說明等級從良(1分)變為優(2分)時,對因變數數值的影響大約是從中(0.5分)變為良(1分)的2倍。

第二種是採用啞變數擬合,然後根據分析結果考慮對結果進行簡化。今天要介紹的就是Logistic回歸分析中啞變數的設置及分析結果解讀。繼續沿用上一篇介紹二元Logistic回歸分析時的例子來介紹今天的內容。

啞變數的含義

某醫學研究機構研究孕婦分娩低體重嬰兒的原因,根據經驗,研究機構初步篩選以下變數納入分析,並希望建立以產婦是否分娩低體重嬰兒為因變數,下面這些因素為自變數的二元Logistic回歸方程,作為今後判斷哪些產婦需要重點關注的預測工具。

產婦生產前體重;

產婦年齡;

產婦是否吸煙;

產婦之前早產次數;

產婦是否患有高血壓;

產婦民族;

這些納入考慮自變數的數據種類齊全,有連續型變數(年齡、體重和早產次數)、二分類變數(是否高血壓和吸煙)、無序多分類變數(民族)。如果不對這些自變數進行設置,直接納入模型,SPSS軟體默認所有自變數為連續性變數。例如,不同民族變數的賦值為1,2,3,這些數值僅是民族代碼,並不意味著漢族、畲族、其它民族間存在大小關係,也就是說,這些數值納入模型不能代表產婦娩出低體重兒概率的會按數值123的增加而線性成比例的增加。如果將分類變數的編碼數值代入到模型中分析,實際上就是強行規定不同類別對因變數的影響強度是等比例的,這顯然會導致更大的誤差。

面對以上情況,必須將原始的分類變數轉化為數個啞變數,每個啞變數只代表某兩個類別或若干個類別間的差距,這樣得到的回歸結果才能有明確而合理的實際意義。對於取值有n個水平的分類自變數,其中1個水平作為參照水平,因此會產生n-1個啞變數。例如上面提到的民族自變數,可以產生兩個啞變數,如果選取其它民族作為參照變數,那麼第一個啞變數的回歸係數代表漢族與其它民族的對比結果;第二個啞變數的回歸係數代表畲族與其它民族的對比結果;兩個回歸係數的差值則代表漢族與畲族之間的差異。

範例分析

沿用上面的例子,某醫學研究機構研究孕婦分娩低體重嬰兒的原因,根據經驗,研究機構初步篩選以下變數納入分析,包括產婦生產前體重;產婦年齡;產婦是否吸煙;產婦之前早產次數;產婦是否患有高血壓;產婦民族;部分數據如下:

(例題數據文件已經上傳到QQ群,群號請見文章底部溫馨提示)

分析思路

因為本篇文章介紹給大家的是啞變數的設置以及結果解讀,所以在接下來的分析中只將產婦民族納入二元Logistic回歸模型,包含其它變數的分析將會在介紹自變數篩選和模型解讀修正的文章中介紹。

分析步驟

選擇菜單【分析】-【回歸】-【二元Logistic】,是否生產低體重嬰兒選為因變數,將產婦民族選擇自變數框。然後點擊分類按鈕,將產婦民族選入分類協變數。在下方的更改對比中,我們保持指示符。

結果解釋

1、分類變數編碼;

分類變數編碼表格包含的內容是啞變數的成分組成。參數編碼顯示產生了兩個啞變數,第一個啞變數代表漢族對分娩低體重嬰兒的概率影響;第二個啞變數則代表畲族;其它種族的成分都是0,說其它種族在這裡是參照水平。

2、啞變數在方程中的作用

第一行的種族代表對民族這個分類變數的總體檢驗結果,顯著性為0.085,大於0.05,說明民族這個分類變數對於分娩低體重嬰兒的影響是不顯著的,因此下一步可以不考慮這個自變數。同時,兩個啞變數(1)和(2)也有顯著性檢驗結果,注意,它們的B(回歸係數)是相對與其它民族來說的。

如果總體檢驗是顯著的,但是啞變數的檢驗結果是有的顯著,有的不顯著,那應該怎麼辦呢?原則上仍然應當在模型中納入所有的啞變數,以保證啞變數所代表含義的正確性。否則,剔除部分啞變數將會導致參照水平的變化,從而啞變數的具體含義也會發生改變。

參照水平的設置

SPSS中啞變數的設置很簡單,但是分類變數中參照水平的設置可以有很多不同的方式。如下圖所示:對比可以有指示符、簡單、差異、赫爾默特、重複、多項式、偏差等7種形式,它們的區別是什麼呢?

指示符:指定某一分類變數的參照水平。這時計算出來的啞變數參數是以該變數的最後一個或第一個水平作為參照水平(取決於下面的參考類別中選擇的是最後一個還是第一個)。在本例中,參考類別為最後一個,所以以「其他種族」作為參照水平。

簡單:計算得到的啞變數參數與指示符相同,區別在於兩者的模型截距不同,指示符的截距就是參考水平對因變數的影響強度,而簡單對比的截距則是三個水平的平均值。

差別:分類變數某個水平與其前面的所有水平的平均值進行比較。如2水平與1水平相比;3水平與1和2水平的平均值相比,以此類推。如果在某水平處係數變小且無統計學意義,說明在該水平處達到停滯狀態。差別對比一般用於有序分類變數(如吸煙劑量,假設研究者將其作為無序多分類的自變數進行分析),對於無序分類變數則無實際意義。

赫爾默特:分類變數某水平與其後面各水平平均值進行比較。如果在某水平係數增大且有統計學意義,說明該分類變數自該水平起開始對因變數產生影響。同樣適用於有序的分類變數。

重複:分類變數的各水平與其相鄰的後面一個水平比較,以最後一個水平為參照水平。

多項式:僅用於數字型的分類變數。無效假設是假設各水平是等距離的(可以是線性的關係,也可以是立方、四次方的關係)。例如年齡每增加5歲,娩出低出生體重兒的危險增加幅度是一樣的,但實際情況常常與此相反,如在20歲與30歲年齡段,年齡都增加5歲,所增加的娩出低出生體重兒的危險肯定是不一樣的,具體情況需根據各人的研究課題。

離差:除了所規定的參照水平外,其餘每個水平均與總體水平相比。此時每個水平的回歸係數都是相對於總體水平而言的改變數。

所有例題的數據文件都會上傳到QQ群中,需要對照練習的朋友可以前往下載,QQ群號見下方溫馨提示。

溫馨提示:

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 SPSS生活統計學 的精彩文章:

TAG:SPSS生活統計學 |

您可能感興趣

僅一個化妝的變身:華麗回歸的Super Star李孝利!
回歸變身「壞姐姐們」的Red Velvet!魅力無限的Girl Crush
《神煩警探》回歸NBC,Andy Samberg:嚇死寶寶了
G-Dragon也愛穿的Nike「Mars Yard」火星鞋又要強勢回歸了?!
數據挖掘之三——Logistic回歸&LMT
G-Dragon也愛穿的Nike「Mars Yard」火星鞋又要強勢回歸了!
少女時代泰妍回歸撞上BlackPink、A-Pink、Twice,網友:很精彩
BTS攜新專輯回歸,Billboard領獎精彩不斷,歌曲MV亮點多多
BLACKPINK強勢回歸?全能甜豆Lisa和Jennie業務能力超能打,穿搭功力也時尚滿分!
讓菲董Pharrell,Prince,Stevie Wonder都成為粉絲的女神回歸了!
幸虧EDG第三場輸了!那個騷話連篇的Clearlove終於強勢回歸!
經典回歸!這雙NikeAirSpan2的「老爹鞋」氣質頗為獨特!
3M Triple Black 回歸!全黑配色大Air將於周六發售!
「Bred Toe」風波剛過,又是一陣「灰色風暴」襲來!Air Jordan 1 「Shadow」 回歸在即!
LPL:辣個藍人終於回來了!EDG對陣FPX,Clearlove正式回歸
ACRONYM? x Nikelab Air Presto Mid 新配色曝光?!這款神夯鞋款今年有望回歸?!
ACRONYM x Nikelab Air Presto Mid 新配色曝光!這款神夯鞋款今年有望回歸!
風靡一時的經典設計,Classic Revo 1 Revo強勢回歸
Airbnb 宣布放棄使用 React Native,回歸使用原生技術
「火星之子」重回地球!Jordan Son Of Mars Low或將回歸?