人類身高服從正態分布嗎?
人類身高服從正態分布嗎?可是這篇報告顯示身高服從平均分配,是因為樣本太少?才400人,,整體的身高分布大約呈平均分配 謝答
首先考慮一下同一年齡的情況。同年齡下,主要是男人和女人的身高分布不一樣。
有一篇非常非常有趣的小論文從統計模型的角度討論過這個問題,第三頁有張圖,是正態分布:Is Human Height Bimodal?
男人女人的身高基本上都各自是正太分布,然而兩個正態分布的混合分布不一定unimodal,也可能是bimodal。引這篇論文里的Theorem1,1904年Helguerro證明了如果兩個方差()相同的正態分布以50/50的比例混合,那麼只有當兩個分布的均值差小於的時候,也就是均值差在兩個標準差之內的時候,才有可能是unimodal的正態分布,也就是一個峰的
如果超過這個範圍,就會變成bimodal,看起來就是雙峰了。
一個大致的判斷標準是
如果兩個正態分布的均值差的絕對值小於他們標準差之和,那麼一半一半的混合後就是單峰分布
回到身高的問題,這篇paper說,男人女人的身高分布照數據來說應該是單峰的,很多時候畫出來是明顯的雙峰,主要是取樣本的各種問題(樣本是學生,性別不均),和彙報偏差之類的(男生虛報嚴重)
至於全人類(男女老少)的分布,因為孩子矮,所以尾巴會很肥,具體有多肥,沒找到數字,不過感覺這個分布沒什麼意思,一般人問的還是同年齡段的身高分布吧人類身高我不知道...根據手頭有的中國家庭動態跟蹤調查2010年全國再抽樣代表性樣本的自報身高數據(男性N=10452,女性N=10942),畫了三張圖,大家目測一下(等有時間再做正態分布的卡方檢驗吧)。這個只能推論中國男性、女性和中國人的身高分布...
全部
男性
女性
Everyone believes in the normal law, the experimenters because they imagine that it is a mathematical theorem, and the mathematicians because they think it is an experimental fact(每個人都相信正態法則,實驗人員是因為他們想像這是一個數學定理,而數學家則是因為他們認為這是一個實驗事實).
— 法國物理學家 Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921), Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171
--------------------------------------------
謝邀。
首先,人類身高、體重等生理數據被相信服從正態分布(我相信這已經是個經驗事實了)。但是,就算總體服從正態分布,並不意味著抽中樣本的身高數據會表現出正態分布,抽樣的隨機性是有可能得到奇葩樣本的。
其次,要把男生和女生分開描述。這可能是兩個不同中心的正態分布。
再次,身高為正態分布,指的是同一年齡段個體的身高。而不能把小孩和大人放在一起,因為它們同樣對應的是不同中心的正態分布。此樣本中135cm為中心的這組以及以190為中心的這組為何比別的組頻數多,並且男生女生都是如此?這是同一年齡段的男生女生嗎?是同時抽到了一年級的小學生和國家籃球隊隊員嗎——看起來好像姚明、易建聯、郭敬明、潘長江都同時存在這個樣本里了?
還有,身高和體重的相關係數低得不合常理:體重服從正態分布,而身高不服從正態分布——但也不是均勻分布(平均分配),因為有明顯的峰值。
所以,我懷疑是不是原始數據有(zao)誤(jia)。
謝謝 @Zampeli Diana 邀請。
答主是流行病與衛生統計學研一學生,第一次被邀請回答問題,忐忑之餘深覺要學習的還有很多,只能說根據目前所學儘力回答。
先說結論:如果針對各種族,年齡段,性別,地域居民營養狀況等身高的影響因素進行嚴格的分層抽樣,得出的結果應該是人類的身高服從正態分布。
導致問題中結果偏差的可能性有兩個:
一.雖然一般來說大於50的樣本就可以稱為大樣本,但相對於幾十億的人類,400人的樣本數量還是太少。
二.樣本的代表性無法評價。
樣本量的問題已經有很多人提到,所以我想重點解釋代表性的問題。
用樣本的結果外推到整個群體,從而得到關於目標人群的結論是流行病學常用的研究方法。因為在很多情況下,很難對整個群體中的每個個體進行調查,比如題中的全人類的身高。因此我們常常選擇一些能夠代表目標群體的研究對象作為樣本,再將樣本中的結果外推到整個群體。
這裡需要解釋兩個流行病學概念:
內部真實性(internal
validity):研究得出的結論與該研究中真實情況的一致程度。
外部真實性(external
validity)(也稱外推性generalizability):即研究得出的結論可恰當地應用到研究之外的人群和事件的程度。
簡單來說,內部真實性是指是否真實地描述了樣本的情況,外部真實性是指樣本是否能夠真實地代表目標總體的情況。
這個問題是個典型的由樣本數據推斷總體情況的問題。從題主給出的信息中,沒有看到對這個400人的樣本的描述,也就是說,無法判斷這個樣本是否能夠很好地代表整個人類的情況,例如樣本中男性女性各有多少,分布於哪些年齡段。我們要研究的是個非常複雜的整體,年齡,性別,人種,營養狀況等等,都會對身高產生影響。
因此我提到要對各個可能的影響因素進行嚴格的分層抽樣。
分層抽樣(stratified
sampling):先將總體的單位按某種特徵分為若干次級總體(層),然後再從每一層內進行單純隨機抽樣,組成一個樣本的統計學計算方法。
分層抽樣相較於其他抽樣方法,更適用於不同群體間存在差異的情況。不合理的抽樣,很容易導致流行病學中的選擇偏倚,造成結果的偏差。
綜上,材料中看似不合理的結果可能是由於樣本的代表性不足導致。
謝邀。
@niaocu 說得對,身高的正態分布前提確實要在同性別同年齡的基礎上來說。
正態分布是自然界最常見的分布之一。正態分布簡言之就是位於中間的數出現的幾率大,而兩端的出現幾率小。正態分布對應正態曲線,為一條高峰位於中央,兩邊逐漸下降並對稱,且末端永不與橫軸相交的鐘形曲線,習慣上用N(μ,σ2)表示。
回到身高這個話題來說,影響身高的因素太多了,包含遺傳基因和外界複雜的環境。當這些眾多的隨機影響作用於身高這一指標時,便使得身高這一指標服從正態分布。還有一個是醫學研究里有個現象也挺有意思的,叫做回歸現象。話說英國有一位叫Galton的人類學家發現,高個子爸爸生下來的孩子並不會越來越高,矮個子爸爸生下來的孩子也不會越來越矮,反而是高個子生下來的兒子平均身高會低於父輩的,矮個子生下來的兒子平均身高又會高於他們父輩的。所以身高的高度多是向中間靠攏,而不是往兩邊集中~~嗯。。。我就是醬理解的(●"?"●)
ps:其實呢很多醫學現象也都是服從正態分布的。。。
pps:400例對象不算少吧,統計學裡劃分大小樣本量不是超過50就算大樣本了么~更有甚者直接超過30也按大樣本進行統計分析呢~~我還是相信出現這種非正態的現象可能是數據質量不好的原因~而不是樣本太小~
謝邀,人類作為一個整體的身高服從什麼分布很難得出結論,因為取樣實在太難。。。
但是具體做出限制後(廣東籍20-25歲男性)就可以找到結論了,至於是不是,偶不知道,也木有查到
一堆瞎扯蛋的答案。
我們有什麼理由認為身高服從正態分布? 身高不可能是正負無窮所以一定不是正態分布,回答完畢。
所以問題問的是是否近似正態分布?t分布也長得很像正太,偏一點的話gamma也像,憑什麼一定是正態?退一步講,就算是討論均值那也要有iid或一些moments的假設才能用CLT,且即便如此真實數據也不見得真的長得很正態。至於問題中的身高,如果沒有理論推導,正態假設就是純屬主觀臆想。謝邀。就全人類而言,整體大致呈現左偏態分布。正太分布要求左右對稱,而我們知道每個人種、每個地區的身高是非常不平衡的。這導致整個水平不在一個基線上,而身高偏低的亞洲人群卻整體偏低,所以應該呈左偏。
應該是服從的
推薦閱讀:
※身高會影響ml姿勢嗎?
※180以上男生對小個子女生看法?
※女性身高一米七是種怎樣的體驗?
※情侶間,25cm的身高差是什麼感覺?(男高女低)
※一米八的女生應該找一個多高的男生呢?