顯示具有 統計 標籤的文章。 顯示所有文章
顯示具有 統計 標籤的文章。 顯示所有文章

Introduction to empirical Bayes estimation (with R code)


延續上一篇關於Bayesian Statistics的研究, 本篇Post將進一步闡述貝氏統計的應用。以下的內容與程式碼主要翻譯自此post: http://varianceexplained.org/r/empirical_bayes_baseball/ . 這篇文章主要為研讀之後的整理和其他發想。


下列兩個比率數字, 哪個比較大?
     裝有10個球的盒子中有4個紅球和6個白球 è 紅球的比例?
     裝有1000個球的袋子裡有300個紅球和700個白球 è 紅球的比例?

     很明顯, 當然是 4/10 = 0.4 大於 300/1000=0.3

     但是, 假設今天你是球隊老闆, 正在評估兩位潛力球員。你以下列兩位球員的打擊成績做為評估標準:
     球員A上場10,擊出4支安打
     球員B上場1000,共擊出300支安打
     雖然球員A有較高的打擊率, 但是僅僅10次的打擊紀錄, 並無法提供足夠的可信度。一般職棒選手的打擊率大約為0.27, 球員A高達四成的打擊率,期中運氣的成分居多; 反倒球員B 1000次的打擊紀錄, 較能證明他是一個優於平均的打擊者。


Empirical Bayes estimation
     這篇文章同樣將使用棒球比賽的例子, 來說明一個十分有效用以估計資料比率的統計技術, 來幫助我們分析類似下列的數據資料:

表一
Success
Total
11
104
82
1351
2
26
0
40
1203
7592
5
166




一般我們可能取得表一這種success(成功)/total(總計)成對型式的數據, 然後用以估計特定事件的成功比率。每筆資料可能代表著:

  • 廣告點擊率:公司投放了許多不同的廣告, 你想知道哪一個有比較高的Clickthrough rates?
  • 網站使用者類型: 你想知道到訪公司網站的使用者, 有多少會點擊閱讀一篇文章, 或是點擊某個商品後決定購買?


繼續閱讀...

Bayesian Data Analysis and Modeling (with R code)


貝氏定理(Bayes' Theorem), 這個過去我們在研讀統計學的條件機率時,才會被稍微帶過的統計理論, 在近年來越來越受各界的重視與關注, 甚至在歐美國家有學者建議傳統以"Frequentist" statistics為基礎的統計教學,應該改用貝氏統計理論取代!

會重新關注並開始學習Bayesian Statistics, 是翻閱了Nate SilverThe Signal and the Noise : Why So Many Predictions Fail--but Some Don't (中文書名: 精準預測:如何從巨量雜訊中,看出重要的訊息?)





Google這本書,就會看到非常多中英文評論大力推薦, 就不在這贅述, 而當初會翻閱的原因, 是想看看書裡面有沒透露甚麼不一樣的預測模型? 這是一本非技術性的商業文章, 書中提到大量的想法和案例故事, 但是對於如何進行預測與模型建立的細節, 其實是付之闕如的, 而唯一提到的一個方法論, 就是Bayesian Statistics 也因如此, 開始了我Bayesian Data Analysis的學習旅程。

Machine Learning vs. Bayesian Statistics

        機器學習(Machine Learning)技術的一個核心概念是,透過不斷地累積對資料的觀察, 電腦可以透過演算法, 自動演進對於學習標的的理解; 而在傳統程式開發上, 若要對新的資訊進行處理, 則是需要透過程式碼的修改, 才能讓電腦處理之前系統程式中沒有考慮到的部分。在這一個部分, Bayesian Statistics有著相似的概念。以統計學中最常使用的丟銅板為例, 推算一個銅板出現正面的機率, 是依照累積觀察每次丟銅板出現正面的次數, 計算在觀察到的實際資訊下銅板出現正面的機率:

繼續閱讀...

The Summary of Statistical Distribution (with R code)


在研讀許多Data science相關資訊文章時, 常會看到各種distribution做為模型設計的資料假設或基礎, 由於自己之前在研究時, 常常要google或四處翻閱統計書籍, 確認distribution相關特性, 十分的費工, 因此這篇文章將整理一些常用的distribution, 以及對應的參數和R function, 這樣以後需要distribution資訊, 只要回到這篇Post就能一目了然, 無需再到處查詢google了。這篇文章只總結各項關鍵資訊, 以供快速理解和取得distribution特性, 若想深入了解相關統計知識, 請再自行翻閱其他統計學課本。

R function and Naming convention

R提供大約20個內建的density/distribution function:




R針對各distribution均提供對應的function for各種統計需求, 其命名的規則為:
n   dDist, {dnorm(1)}:回傳the height of the probability density function(PDF); 也就是the height of the probability distributionData point(數據點x=1)
n   pDist, {pnorm(1)}: 回傳the cumulative density/distribution function(CDF); 回傳低於(below, 左方)給定值”x=1”的區域面積(area); 設定參數lower.tail=F (pnorm(1,lower.tail=F)), 可取得右方面積(可以視之為p-value, 不需要再查表了!)
n   qDist, {qnorm(0.75)}:the quantile function; 範例為回傳75th quantilesx數值(one-tailed and upper side)
n   rDist, {rnorm(10)}:產生(10)符合該distribution的隨機數字

(文章未完, 編輯撰寫中...)



by J.D.  

繼續閱讀...

Regression Model – The first predictive modeling technique to learn
(with R codes)


翻開所有預測分析或機器學習的書籍, 或是數據分析的課程, 第一個遇到的就是回歸分析。簡單的線性回歸淺顯易懂, 是切入分析預測領域非常好的入門磚;隨著學習的模型技術越來越多,且越來越Fancy, 我們可以發現他們不過是線性回歸的延伸或通用化(extensions or generalizations of linear regression)

What is Regression Analysis?
回歸分析(Regression Analysis)是一種相當實用且被廣泛運用的統計分析技術, 用以檢視我們想要預測的標的(dependent variable - Y), 與我們所擁有的數據(independent variable (s)- X(s) )之間, 是否具有某種關係(relationship)

Why do we use Regression Analysis?
一般說來, 我們可以利用回歸分析, 檢視/回答下列數據預測的項目。以廣告效果是否影響產品銷量為例:
        1.[增加廣告預算][銷量增加]是否存在關係(relationship)?
        2.若有關係(relationship), 其強度(Strong)有多高?
        3.廣告預算花費在何種媒體通路上, 貢獻最多的[銷量增加]?
        4. 廣告預算花費與業績的預測分析,其準確率有多高?

What are the types of Regressions?
l   Linear Regression
l   Logistic Regression
l   Polynomial Regression
l   Stepwise Regression
l   Ridge Regression
l   Lasso Regression
l   ElasticNet Regression
Regression Model這一系列的文章將會一一介紹上列各項模型方法與Rimplement codes. 首先, 我們將從Linear Regression談起。 

(文章未完, 編輯撰寫中...)


by J.D. 

繼續閱讀...