The Summary of Statistical Distribution (with R code)


在研讀許多Data science相關資訊文章時, 常會看到各種distribution做為模型設計的資料假設或基礎, 由於自己之前在研究時, 常常要google或四處翻閱統計書籍, 確認distribution相關特性, 十分的費工, 因此這篇文章將整理一些常用的distribution, 以及對應的參數和R function, 這樣以後需要distribution資訊, 只要回到這篇Post就能一目了然, 無需再到處查詢google了。這篇文章只總結各項關鍵資訊, 以供快速理解和取得distribution特性, 若想深入了解相關統計知識, 請再自行翻閱其他統計學課本。

R function and Naming convention

R提供大約20個內建的density/distribution function:




R針對各distribution均提供對應的function for各種統計需求, 其命名的規則為:
n   dDist, {dnorm(1)}:回傳the height of the probability density function(PDF); 也就是the height of the probability distributionData point(數據點x=1)
n   pDist, {pnorm(1)}: 回傳the cumulative density/distribution function(CDF); 回傳低於(below, 左方)給定值”x=1”的區域面積(area); 設定參數lower.tail=F (pnorm(1,lower.tail=F)), 可取得右方面積(可以視之為p-value, 不需要再查表了!)
n   qDist, {qnorm(0.75)}:the quantile function; 範例為回傳75th quantilesx數值(one-tailed and upper side)
n   rDist, {rnorm(10)}:產生(10)符合該distribution的隨機數字

(文章未完, 編輯撰寫中...)



by J.D.