The Summary of Statistical Distribution (with R code)
在研讀許多Data science相關資訊文章時, 常會看到各種distribution做為模型設計的資料假設或基礎, 由於自己之前在研究時, 常常要google或四處翻閱統計書籍, 確認distribution相關特性, 十分的費工, 因此這篇文章將整理一些常用的distribution, 以及對應的參數和R function, 這樣以後需要distribution資訊, 只要回到這篇Post就能一目了然, 無需再到處查詢google了。這篇文章只總結各項關鍵資訊, 以供快速理解和取得distribution特性, 若想深入了解相關統計知識, 請再自行翻閱其他統計學課本。
R function and Naming convention
R針對各distribution均提供對應的function
for各種統計需求, 其命名的規則為:
n
dDist, {dnorm(1)}:回傳the height of the probability density function(PDF);
也就是the height of the probability distribution的Data point(數據點x=1)
n
pDist, {pnorm(1)}:
回傳the cumulative
density/distribution function(CDF);
回傳低於(below, 左方)給定值”x=1”的區域面積(area);
設定參數lower.tail=F (pnorm(1,lower.tail=F)), 可取得右方面積(可以視之為p-value, 不需要再查表了!)
n
qDist, {qnorm(0.75)}:the
quantile function; 範例為回傳75th quantiles的x數值(one-tailed
and upper side)
n
rDist, {rnorm(10)}:產生(10個)符合該distribution的隨機數字
(文章未完, 編輯撰寫中...)
by J.D.