數據收集篇之三:測量值的分類
大致可將數據分為4類:
定類數據,也可叫名義值測量,就是將對象歸類,類與類之間沒有排序的關係。比如人可以分男女兩類,汽車牌照可以劃分汽車的屬地,手機顏色可以分成黑/金/銀/白幾種。這些類必須是互斥(沒有對象被分到一個以上的類中)而且是完備的(沒有不能歸類的對象),使每一個測量的對象能分到且只能分到一類中。
定序數據,也可稱次序水平測量,與定類數據不同的是,類與類之間可以排序,如物體可分成大/中/小,汽車可分成A級/B級/C級,服務員可分為1星—5星,圍棋手分初級—9級。
計數數據,屬於不連續的測量數據,最常見的就是數數,這種數不具備無限可分性,如班上有31名學生,不可能有31.2個。
計量數據,屬於連續的測量數據,這種數具有無限可分性,理論上可以用無限的小數來表示一個精確的測量值。這一類數據是我們常用的,如長度、重量、時間等等,統計學也大多分析的是這類數據。
在一所高中里,學生被分到各個班級,如高一(1)班、高二(5)班、高三(8)班等,這是定類數據。學生分成三個年級,分別為高一、高二、高三,這是定序數據。高一(1班)有學生51人,高一(2)班有54人,...,這是計數數據。學生的身高、體重等是計量數據。
定類和定序數據也稱為定性數據,計數和計量數據也稱為定量數據。連續數據一般指計量數據,其它三類一般稱離散數據。
大家都知道,在相同的樣本量下,連續數據所蘊含的信息要比離散數據多很多,所以即使計數數據通常我們把它歸類為離散數據,但有時我們希望能用連續數據的方法來分析它,當然這是有條件的,在後面講到二項分布和泊松分布時會提到。
測量誤差
對於計量數據來說,絕大部分情況下,我們測量的結果只是真實值(真值)的近似值。比如一個人的身高,測得175cm,這個值蘊含著一個範圍,考慮到四捨五入,其範圍為174.5cm—175.49999...cm之間。如果精度增加一位,測出的身高為175.2cm,其蘊含範圍則為175.15cm—175.249999...cm之間。
通常測量誤差來自兩個方面,系統誤差和隨機誤差。
系統誤差是測量系統的固有誤差,又分為儀器誤差和理論誤差。儀器誤差是指儀器本身的缺陷或者沒有按操作規程使用儀器帶來的誤差,如長時間未校準造成的漂移,測量環境不達標,儀器未校準等,通常這些誤差不易察覺。理論誤差這是由於測量所依據的理論公式本身的近似性,或實驗條件不能達到理論公式所規定的要求,或者是實驗方法本身不完善所帶來的誤差。如用電壓表測電壓,理論上電壓表的內阻應該是無窮大,但這是不可能的,因此在測電壓時相當於並聯了一個電阻,從而造成測出的電壓值存在偏差。另外四捨五入、測量值觀察上的偏差也屬於系統誤差。系統誤差總是使測量結果偏向一邊,或者偏大,或者偏小,因此,多次測量求平均值並不能消除系統誤差。在數學上系統誤差可以描述為偏倚。
隨機誤差是由於測量過程中的隨機變異所導致的,測量結果有時大,有時小,多次測量會呈現出統計規律。
因此實際的測量值可以用下面的公式來描述:
近似測量值=真值+系統誤差+隨機誤差
測量的準度和精度
準度講的是測量值與真值的一致程度,主要是由測量系統的系統誤差所決定的,系統誤差越小,則準度越高。
精度是指對同一物體進行多次測量結果的一致程度,可以用變異或測量系統的標準差來表示,這與隨機誤差有關,通常隨機誤差越小,則測量的精度越高。
通常來說準度是首先要保證的,這也是測量儀器要定期檢定和校正的原因。在此基礎上,通過嚴格的測量過程式控制制來保證測量的精度。
有效數字
有效數字是指在測量中能夠得到的所有數字,如1.325,有4個有效數字。對於大於或等於1的數,所有非零數字是有效的,有效數字之間的零也是有效的,但最後一個非零數字後的零不一定有效,如103有3個有效數字,10300如果數字精確到100,則只有3個有效數字,如果數字精確到10,則有4位有效數字。
如果數字中包含小數,則整數部分除第一個非零數字左邊的零以外都是有效數字,小數部分也是有效數字,包括最後一個非零數字後的零,如000103.250有效數字為6個。
對於0—1之間的數字,最後一個非零數字後的零是有效數字,第一個非零數字左邊的0是非有效數字,如0.005420有4個有效數字。
理解有效數字有利於了解測量數據的顆粒度,以幫助我們認識數據的真實狀態。比如血液中紅血球的測量,其單位是個/L,不可能真的抽1L血,然後一個一個地數,這樣病人不幹,檢驗員也會累死,因為身體健康的男人1L血液中紅血球的含量約4.00—5.50×10^12個。實際的做法是取10ul的血,稀釋200倍,用低倍的顯微鏡在25個方格中取5個方格數一數紅血球的數量,這個數量是很少的,然後再將這個數字換算成每升的含量,如4.50×10^12個/L,其實有效數字只有3個,有的化驗報告中甚至只有2個有效數字。當然現在不用人工數了,但還是用極少的血樣用儀器來測,報告中的數字仍然是換算出來的。
請關注我的微信公眾號:張老師漫談六西格瑪
推薦閱讀:
※經典比較篇之六:單總體比較中如何做假設?
※數據收集篇之十五:評估測量過程EMP——一種測量系統分析的新方法
※抽樣分布篇之一:隨機變數分布vs抽樣分布
※可靠度|談談環境應力篩選
※列聯表篇之三:比率的多重比較