SPSS多項選擇作圖
三、多選題兩種數據錄入格式的轉換由於只有第一種數據錄入方式才是符合統計分析原則的數據排列格式,能夠直接進行後續的統計推斷,而第二種錄入方式只是一種簡化紀錄方式,需要轉化為前者。其轉化方法操作如下:選擇菜單File→New→Syntax,在彈出的Syntax對話框中輸入相應的命令,其中新變數「a」代表被訪者是否選擇了「A牌」這個選項(1代表選擇,0代表未選擇)這樣通過上述數據轉換,我們就把a101、a102、a103三個舊變數(以第二種錄入方式)的數據轉化成了a、b、c、d、e 5個新變數(以第一種數據錄入方式)的數據,並定義好新的變數值標籤(Values),如圖2。
四、多重對應分析現在我們運用多重對應分析方法來研究「購買品牌」(A1題)、「性別」和「年齡」三個變數之間的聯繫。選擇菜單Analyze→ Data Reduction→ Optimal Scaling ,默認彈出對話框中的設置(如圖3),點擊Define,選中變數「a」、「b」、「c」、「d」、「e」、「性別」和「年齡」,然後通過點擊Define Range ,為每個變數設置取值範圍:「a」、「b」、「c」、「d」、「e」、「性別」的取值範圍在1~2之間,「年齡」的取值範圍在1~5之間(如圖4),點擊OK 後得到多重對應分析圖(如圖5)。
在解釋多重對應分析圖(圖5)時要遵從的原則和簡單對應分析圖類似,具體來說就是:由原點(0,0)出發做四象限圖,落在同一象限內的各個變數類別間可能有聯繫【轉】多重應答數據深度分析方法及其SPSS操作2007-12-28 16:42:38報告業務: 010-65667912多重應答(Multiple Response),又稱多選題,是市場調查研究中十分常見的數據形式。多重應答數據本質上屬於分類數據,但由於各選項均是對同一個問題的回答,之間存在一定的相關,將各選項單獨進行分析並不恰當。對多重應答數據最常見的分析是使用SPSS中的「Multiple Response」命令,通過定義變數集的方式,對選項進行簡單的頻數分析和交叉分析。筆者認為,該分析方法對調查數據的開發利用往往是不夠的,我們還可以使用其他分析方法對數據信息進行深度挖掘。一、兩種數據錄入方式比如說在某次民意調查中,我們希望了解公眾評價宜居城市時,到底是城市的哪一些特徵決定人們對該城市宜居性的評估。為此,我們在研究中設計了14項標準請被訪者從中選出他們在進行宜居評價時最看重的5項標準(關於宜居標準的具體探討,參見本刊2006年第8期)。選項包括:<><><>
這是一道典型的多重應答題。統計軟體中對多重應答的標準紀錄方式有兩種:(1)多重二分法(Multiple dichotomy method)。對於多項選擇題的每一個選項看作一個變數來定義。0代表沒有被選中,1代表被選中。這樣,多項選擇題中有幾個選項,就會變成有幾個單選變數。這些單選變數的選項都只有兩個,即0或1。比如在上述例子中,我們就可以設置14個單選變數,來標示某選項是否被選中;(2)多重分類法(Multiple category method)。多項選擇題中有幾個選項,就定義幾個單選變數。每個變數的選項都一樣,都和多項選擇題的選項相同。每個變數代表被調查者的一次選擇,即紀錄的是被選中的選項的代碼。如上述例子中,我們可以設置X1~X5共5個變數,每個變數的選項兼為從1到14的14項宜居標準。很多情況下,當問卷中不限定被訪者可選擇的選項數量時,被調查者可能不會全部選項都選,因此在數據錄入時,一般從這些變數的最前面幾個變數開始錄入,這樣最後面幾個變數自然就是缺失值。當被調查者對多項選擇題中的選項全部選擇時,這些變數中都有一個選項代碼,此時沒有缺失值。事實上,假如被訪者所選擇的各項選之間不涉及順序問題(如上述例子中,不需要受訪者給出哪種因素最重要,哪種次重要),那麼這兩種輸入方法所表達的數據信息是一樣的。但在實際操作中,如果選擇項較多,而被調查者最多只選擇其中少數幾項時,採用多重二分法錄入就顯得繁瑣,輸入數據時容易出錯。尤其是當樣本量增大時,採用多重二分法錄入就大大增加了錄入的工作量,不利於提高工作效率。為此,一般的市場調查公司大都採用多重分類法的錄入方式。二、兩種數據錄入格式的轉換實際上,只有多重二分法的錄入方式才是符合統計分析原則的數據排列格式,能夠直接進行後續的統計推斷。多重分類法只是一種簡化紀錄方式,需要轉化為前者後方可進行統計推斷。採用多重分類法錄入的數據如果要轉化成虛擬變數(選項為0或1)的形式,以上述公眾宜居標準的選擇為例,可以採用如下操作命令:COUNTNew_x1=X1 X2 X3 X4 X5 (1).EXECUTE.其中New_x1代表受訪者是否選擇「社會安全」該選項。顯然,如果在X1~X5中受訪者選擇了「1」(社會安全)選項,那麼New_x1的取值為1,如果在X1~X5中受訪者沒有選擇「1」,那麼New_x1的取值為0。以同樣的思路,我們就可以設置變數New_x2~New_x14了。這樣,通過上述數據轉換,我們就把X1~X5共5個變數轉化成了New_x1~New_x14共14個虛擬變數了。三、多重應答數據交叉分析(一)多重應答卡方檢驗在SPSS操作中,多重應答變數通過定義變數集之後就可以直接與其他變數進行交叉分析了。這種操作方法使用方便,但是其缺陷是在SPSS操作界面上無法直接實現卡方檢驗。為此,本文介紹一種進行卡方檢驗的間接方法。解決方法與操作:第一步:根據需要做出一個有多重應答問題的交叉表,如表1表 1 多重應答交叉表<><><>
第二步:構成一個與第一步中結構相同的頻數全部為「1」的交叉表。可以通過如下操作實現。在SPSS中,新增加兩個變數。變數I的構成方式:從1到6,重複3次;變數II的構成方式:1重複6次,2重複6次,3重複6次。第三步:按照第一步產生的交叉表內的頻數,構造變數III。以變數III為權重,對應交叉表中每個組成元素的位置進行加權。最後的結果如下圖:圖 1 生成三個變數<><><>
第四步:最後就可以利用加權後的數據,直接選擇SPSS中的「Descriptive Statistics」中的「Crosstabs」命令直接進行交叉分析和卡方檢驗了。(二)多重應答數據多元交叉比較法使用上述檢驗方法操作相對比較複雜,且不能比較具體的每一個選項與其他變數的檢驗情況。為此,我們也可以將轉化後的每一個「虛擬變數」與其他變數(如性別)直接進行卡方檢驗。比如在上述「宜居標準」這個例子中,我們把代表不同宜居標準的New_x1~New_x14共14個虛擬變數與「性別」、「戶口」、「收入」和「年齡」進行交叉列聯分析和卡方顯著性檢驗,為了使檢驗結果具有可比較性,我們把這4個背景變數都設置為只有兩項取值(如收入分為低收入和高收入,年齡分為18~35歲和35歲以上,戶口情況分為本地戶口和外地戶口),這樣做出的交叉分析就具有共同的自由度(df=1),可以對各自的卡方值的大小進行比較。檢驗結果顯示,城市不同性別、不同收入、不同戶口的市民存在顯著差異的宜居因素兼為2個;但是城市不同年齡段人群認為的宜居因素卻有5個存在顯著性差異。由此可見,不同年齡段的人群在對宜居的標準判斷上存在更大的多元化傾向。在建設宜居城市時,為了盡量滿足各類群體的需求,可以從先滿足不同年齡段市民的宜居需求著手。表 2 不同類別群體的宜居因素差異比較<><><>
註:▲表示該宜居因素在對應的類別群體中存在顯著性差異P<0.05因子分析是利用降維的思想,由研究原始變數相關矩陣內部的依賴關係出發,把一些具有錯綜複雜關係的變數歸結為少數幾個綜合因子的一種多變數統計分析方法。因子分析的思想始於1904年查爾斯?斯皮爾曼(Charles Spearman)對學生成績的研究,近年來,隨著電子計算機的發展,人們將因子分析的理論成功地應用於市場研究領域。例如,某年我們對982名跨國企業經理人和普通員工進行了一項調查,其中有一題我們讓受訪者選出他們認為的中資跨國企業與外資跨國企業相比,在發展中最急需解決的三項問題是什麼,並按重要性排序。1.資金2.人才3.新制度4.信息5.相關政策6.知識與技術請排序:第一重要問題_____;第二重要問題_____;第三重要問題_____。面對上述問題,簡單的頻數分析顯然不能綜合地反映問題。而因子分析法不僅可以進行綜合分析,發現公因子,而且還可以得到更多的信息。對上述的選項按三級李克特量表進行處理:凡是選為第一重要因素的賦予10分,選為第二重要因素的賦予7分,選為第三重要因素的賦予4分,沒有被選中的因素都設為0分,新設置6個變數(問題的選項有6項),將每個人的回答情況由原來3個變數轉換為資金、人才、新制度、信息、相關政策、知識與技術6個變數。具體轉換方法如表3。表 3 變數的轉換<><><>
然後對新生成的6個變數進行因子分析,分析結果顯示,前4個因子的方差貢獻率達到了87.6%。具體結果顯示如下:表 4 旋轉後各選項在所提取公因子中的負荷係數<><><>
從表中可以看出第一個公因子是資金與新制度;第二個公因子是人才和知識與技術;第三個公因子是相關政策;第四個公因子是信息。這說明中國的跨國企業在發展中最急需解決的問題是資金與新制度,其次是人才和知識與技術,再次是相關政策、信息。該分析結果與頻數分析基本一致。並且從因子分析中我們還可得到更多的相關信息。如第一公因子為資金與新制度,但是兩個變數的因子載荷符合是相反的,這說明越是關心「資金」的人,越不重視制度創新;其次,信息這一選項被排在最後,從一個側面說明中資跨國企業與外資跨國企業相比還處於粗放發展階段,更需要資金、人才和技術支持,信息的功能尚未有效發揮。五、多重應答數據Logistic回歸分析為了了解不同人群的應答特徵,可以將多重應答情況作為因變數,相應的人群特徵變數作為影響因素。由於所有選項均為選中或不選中兩種取值,因此所有的因變數均為二分類,即建立多元Logistic模型。Logistic回歸方程的基本形式為:<><><>
其中,p為事件發生率,xi為影響因素,bi為影響係數,a為常數項。下面我們以一個具體的例子來說明。問題【針對企業家提問】:下面我將讀出一些對企業家的形象描述,請告訴我其中哪些是您個人期望塑造的企業家形象?【可多選】選項:<><><>
因篇幅所限,這裡僅對「關心公益事業的」這一選項的影響因素加以分解。在該Logistic模型中,因變數為在多項選擇中是否選擇了「關心公益事業」這一選項,選了的賦值為1,沒有選的賦值為0。自變數中的離散變數經過虛擬變數處理。性別以女性為參照類,戶口類型以農村戶口為參照類,婚姻狀況以未婚為參照類,文化程度以本科及以上為參照類。另外,從分布來看,個人年收入嚴重偏態分布,故取自然對數,使之整體服從正態分布。自變數中,我們還設計了「後物質主義傾向」這一變數。物質主義和後物質主義是關於價值觀的一對概念,傳統的強調經濟增長和物質安全的價值觀為物質主義,而新流行的強調自由、精神生活和生活質量的價值觀為後物質主義。我們以「您是否關注當前的環境保護問題」來測量企業家的後物質主義傾向。因為環保問題是目前的熱門話題,與企業家的利他主義、社會責任等後現代意識密切相關。該變數以「不太關注」為參照組。表 5 Logistic 回歸結果:是否選擇「關心公益事業的」<><><>
Logistic回歸統計結果表明,假設模型整體檢驗十分顯著(卡方值為239.016,p=0.0001)。除婚姻狀況、後物質主義中的「比較關注」以及部分受教育程度對因變數的影響不顯著外,其他因素均顯著。總的來說,女性企業家比男性企業家更喜歡呈現出「關注公益事業」的形象;城市企業家比農村企業家更傾向於呈現出「關注公益事業」的形象;收入越高、學歷越高、後物質主義傾向越強的企業家更希望呈現「關注公益事業」的形象。長期以來,多重應答資料因其特殊性而無法應用傳統的多元統計分析方法加以分析,本文利用數據轉換等方式大大豐富了數據建模方法。隨著統計方法的不斷發展,處理多重應答數據的新方法也不斷出現,除上述諸方法之外,還有分類數據的主成分分析方法(Categorical Principal Components Analysis, CATPCA)等其他多元統計分析方法,但由於其統計原理較為複雜,對此我們將另文專述。
你的讚賞是我堅持原創的動力
讚賞共 0 人讚賞推薦閱讀:
※SPSS詳細操作:單因素方差分析
※入門SPSS的詳細技巧,可以說是非常厲害了!
※SPSS超詳細操作:兩因素多元方差分析(Two-way Manova)
※excel兼容模式介紹