Introduction to empirical Bayes estimation (with R code)
延續上一篇關於Bayesian Statistics的研究, 本篇Post將進一步闡述貝氏統計的應用。以下的內容與程式碼主要翻譯自此post: http://varianceexplained.org/r/empirical_bayes_baseball/ . 這篇文章主要為研讀之後的整理和其他發想。
下列兩個比率數字, 哪個比較大?
裝有10個球的盒子中有4個紅球和6個白球 è 紅球的比例?
裝有1000個球的袋子裡有300個紅球和700個白球 è 紅球的比例?
很明顯, 當然是
4/10 = 0.4 大於 300/1000=0.3
但是, 假設今天你是球隊老闆,
正在評估兩位潛力球員。你以下列兩位球員的打擊成績做為評估標準:
球員A上場10次,擊出4支安打
球員B上場1000次,共擊出300支安打
雖然球員A有較高的打擊率,
但是僅僅10次的打擊紀錄, 並無法提供足夠的可信度。一般職棒選手的打擊率大約為0.27, 球員A高達四成的打擊率,期中運氣的成分居多;
反倒球員B 1000次的打擊紀錄, 較能證明他是一個優於平均的打擊者。
Empirical Bayes estimation
這篇文章同樣將使用棒球比賽的例子, 來說明一個十分有效用以估計資料比率的統計技術,
來幫助我們分析類似下列的數據資料:
表一
Success
|
Total
|
11
|
104
|
82
|
1351
|
2
|
26
|
0
|
40
|
1203
|
7592
|
5
|
166
|
一般我們可能取得表一這種success(成功)/total(總計)成對型式的數據,
然後用以估計特定事件的成功比率。每筆資料可能代表著:
- 廣告點擊率:公司投放了許多不同的廣告, 你想知道哪一個有比較高的Clickthrough rates?
- 網站使用者類型: 你想知道到訪公司網站的使用者, 有多少會點擊閱讀一篇文章, 或是點擊某個商品後決定購買?
繼續閱讀...
Bayesian Data Analysis and Modeling (with R code)
貝氏定理(Bayes' Theorem), 這個過去我們在研讀統計學的條件機率時,才會被稍微帶過的統計理論, 在近年來越來越受各界的重視與關注, 甚至在歐美國家有學者建議傳統以"Frequentist"
statistics為基礎的統計教學,應該改用貝氏統計理論取代!
會重新關注並開始學習Bayesian Statistics, 是翻閱了Nate Silver的The Signal and the Noise : Why So
Many Predictions Fail--but Some Don't (中文書名: 精準預測:如何從巨量雜訊中,看出重要的訊息?)
Google這本書,就會看到非常多中英文評論大力推薦, 就不在這贅述, 而當初會翻閱的原因, 是想看看書裡面有沒透露甚麼不一樣的預測模型? 這是一本非技術性的商業文章, 書中提到大量的想法和案例故事, 但是對於如何進行預測與模型建立的細節, 其實是付之闕如的, 而唯一提到的一個方法論, 就是Bayesian Statistics 也因如此, 開始了我Bayesian Data Analysis的學習旅程。
Machine Learning vs. Bayesian Statistics
機器學習(Machine Learning)技術的一個核心概念是,透過不斷地累積對資料的觀察, 電腦可以透過演算法, 自動演進對於學習標的的理解; 而在傳統程式開發上, 若要對新的資訊進行處理, 則是需要透過程式碼的修改, 才能讓電腦處理之前系統程式中沒有考慮到的部分。在這一個部分, Bayesian Statistics有著相似的概念。以統計學中最常使用的丟銅板為例, 推算一個銅板出現正面的機率, 是依照累積觀察每次丟銅板出現正面的次數, 計算在觀察到的實際資訊下銅板出現正面的機率:
繼續閱讀...
The Summary of Statistical Distribution (with R code)
在研讀許多Data science相關資訊文章時, 常會看到各種distribution做為模型設計的資料假設或基礎, 由於自己之前在研究時, 常常要google或四處翻閱統計書籍, 確認distribution相關特性, 十分的費工, 因此這篇文章將整理一些常用的distribution, 以及對應的參數和R function, 這樣以後需要distribution資訊, 只要回到這篇Post就能一目了然, 無需再到處查詢google了。這篇文章只總結各項關鍵資訊, 以供快速理解和取得distribution特性, 若想深入了解相關統計知識, 請再自行翻閱其他統計學課本。
R function and Naming convention
R針對各distribution均提供對應的function
for各種統計需求, 其命名的規則為:
n
dDist, {dnorm(1)}:回傳the height of the probability density function(PDF);
也就是the height of the probability distribution的Data point(數據點x=1)
n
pDist, {pnorm(1)}:
回傳the cumulative
density/distribution function(CDF);
回傳低於(below, 左方)給定值”x=1”的區域面積(area);
設定參數lower.tail=F (pnorm(1,lower.tail=F)), 可取得右方面積(可以視之為p-value, 不需要再查表了!)
n
qDist, {qnorm(0.75)}:the
quantile function; 範例為回傳75th quantiles的x數值(one-tailed
and upper side)
n
rDist, {rnorm(10)}:產生(10個)符合該distribution的隨機數字
(文章未完, 編輯撰寫中...)
by J.D.
繼續閱讀...
Regression Model – The first predictive modeling technique to learn
(with R codes)
翻開所有預測分析或機器學習的書籍, 或是數據分析的課程, 第一個遇到的就是回歸分析。簡單的線性回歸淺顯易懂, 是切入分析預測領域非常好的入門磚;隨著學習的模型技術越來越多,且越來越Fancy, 我們可以發現他們不過是線性回歸的延伸或通用化(extensions or generalizations
of linear regression)。
What is Regression Analysis?
回歸分析(Regression Analysis)是一種相當實用且被廣泛運用的統計分析技術, 用以檢視我們想要預測的標的(dependent variable - Y), 與我們所擁有的數據(independent variable (s)- X(s) )之間, 是否具有某種關係(relationship)。
Why
do we use Regression Analysis?
一般說來, 我們可以利用回歸分析, 檢視/回答下列數據預測的項目。以廣告效果是否影響產品銷量為例:
1.[增加廣告預算]與[銷量增加]是否存在關係(relationship)?
2.若有關係(relationship), 其強度(Strong)有多高?
3.廣告預算花費在何種媒體通路上, 貢獻最多的[銷量增加]?
4.
廣告預算花費與業績的預測分析,其準確率有多高?
What
are the types of Regressions?
l Linear Regression
l Logistic Regression
l Polynomial Regression
l Stepwise Regression
l Ridge Regression
l Lasso Regression
l ElasticNet Regression
Regression Model這一系列的文章將會一一介紹上列各項模型方法與R的implement codes. 首先, 我們將從Linear Regression談起。
(文章未完, 編輯撰寫中...)
by J.D.
繼續閱讀...
6/14/2016 | 標籤: 統計, Predictive Analytics, R |
訂閱:
文章 (Atom)