計量概念中的核估計、核函數和窗寬分別是什麼含義?全局估計中的正交序列估計與多項式樣條估計呢?
如題。能舉例那便是極好的。
我假設題主問的是 kernel smoother 而不是估計概率密度函數的 kernel density estimation(其中也只是估計公式不同,核函數和窗寬的含義是一樣的)。
假設我們有從分布 獲得的樣本 。給出一個特定的值,我們希望估計條件分布。特別地,我們常常直接估計條件期望,作為已知值時對於值的點估計 (point estimate)。
核估計 (kernel estimation) 假設我們可以將寫成的形式。這裡我們通常假設是「局部平滑」的函數,而是期望為零的隨機變數。我們「樂觀地期望」在局部變動較小,所以對於某個值我們使用附近的點取加權平均來估計:
,
其中為核函數 (kernel function),根據與的距離決定的權重。通常滿足以下幾點:- ;
- ;
- ,即權重根據距離遞減。
這裡列舉兩個常見的核函數:
- ,即只在距離內有權重,且權重平分;
- ,即高斯核函數 (Gaussian kernel),權重遞減服從正態曲線。
公式中的被稱為窗寬 (bandwidth)。可以發現它對到的距離的計算起到伸縮 (scaling) 的作用。(當然,我們也可以直接把寫到里。)對於常用的核函數來說,窗寬越小,較遠的點獲得的權重也就越小。換言之,小的窗寬意味著我們只取用離很近的點來估計。這時得到的估計偏差 (bias) 較小,但由於用的點少,方差 (variance) 較大,獲得的函數估計起伏較大。反之,窗寬大時偏差大,但較穩定,獲得的較為平滑。可見窗寬的選擇需要平衡在統計學習中經常遇到的 bias-variance tradeoff。
核估計在許多領域當中都有應用,常被用於在散點圖裡畫出估計的函數關係。更詳盡的信息和圖例可以參考 Elements of Statistical Learning: data mining, inference, and prediction.
2nd Edition. (良心免費!尊重版權我這裡不引圖了)。以上內容對於是多維的情況也適用。
如有謬誤還請指正。
______________________
怎麼答完了又多出一個問題.... (╯°Д°)╯︵ ┻━┻....寶寶不答!後一問還是另開一個吧。正交序列估計 (orthogonal series estimation) 不懂。樣條 (splines) 簡單地說就是把分段 (partition),每段擬合一個多項式,並且保證段與段間的節點階可導。上面引的那本書里應該有 splines。推薦閱讀:
※對一個落後的經濟體而言,市場自由和政府干預哪種政策相對更有利於它的發展?
※博弈論最好的教材是什麼?
※為什麼沒有一個人均GDP少於1.6W美刀的國家(中國的兩倍),被人們認為是「充滿自由、民主的空氣」?
※如何看待黑龍江養老金虧空超200億 ?現在的年輕人應該怎麼解決未來養老問題?
※《經濟研究》在世界經管類期刊中的地位?