Analytics Adventures

顯示具有統計標籤的文章。顯示所有文章

Introduction to empirical Bayes estimation (with R code)

延續上一篇關於Bayesian Statistics的研究, 本篇Post將進一步闡述貝氏統計的應用。以下的內容與程式碼主要翻譯自此post: http://varianceexplained.org/r/empirical_bayes_baseball/ . 這篇文章主要為研讀之後的整理和其他發想。

下列兩個比率數字, 哪個比較大?

裝有10個球的盒子中有4個紅球和6個白球 è 紅球的比例?

裝有1000個球的袋子裡有300個紅球和700個白球 è 紅球的比例?

很明顯, 當然是 4/10 = 0.4 大於 300/1000=0.3

但是, 假設今天你是球隊老闆, 正在評估兩位潛力球員。你以下列兩位球員的打擊成績做為評估標準:

球員A上場10次,擊出4支安打

球員B上場1000次,共擊出300支安打

雖然球員A有較高的打擊率, 但是僅僅10次的打擊紀錄, 並無法提供足夠的可信度。一般職棒選手的打擊率大約為0.27, 球員A高達四成的打擊率,期中運氣的成分居多; 反倒球員B 1000次的打擊紀錄, 較能證明他是一個優於平均的打擊者。

Empirical Bayes estimation

這篇文章同樣將使用棒球比賽的例子, 來說明一個十分有效用以估計資料比率的統計技術, 來幫助我們分析類似下列的數據資料:

表一

Success	Total
11	104
82	1351
2	26
0	40
1203	7592
5	166

一般我們可能取得表一這種success(成功)/total(總計)成對型式的數據, 然後用以估計特定事件的成功比率。每筆資料可能代表著:

廣告點擊率:公司投放了許多不同的廣告, 你想知道哪一個有比較高的Clickthrough rates?

網站使用者類型: 你想知道到訪公司網站的使用者, 有多少會點擊閱讀一篇文章, 或是點擊某個商品後決定購買?

繼續閱讀...

Bayesian Data Analysis and Modeling (with R code)

Source: http://www.psychologyinaction.org/wp-content/uploads/2012/10/bayes-rule-e1350930203949.png

貝氏定理(Bayes' Theorem), 這個過去我們在研讀統計學的條件機率時,才會被稍微帶過的統計理論, 在近年來越來越受各界的重視與關注, 甚至在歐美國家有學者建議傳統以"Frequentist" statistics為基礎的統計教學,應該改用貝氏統計理論取代!

會重新關注並開始學習Bayesian Statistics, 是翻閱了Nate Silver的The Signal and the Noise : Why So Many Predictions Fail--but Some Don't (中文書名: 精準預測：如何從巨量雜訊中，看出重要的訊息?)

Google這本書,就會看到非常多中英文評論大力推薦, 就不在這贅述, 而當初會翻閱的原因, 是想看看書裡面有沒透露甚麼不一樣的預測模型? 這是一本非技術性的商業文章, 書中提到大量的想法和案例故事, 但是對於如何進行預測與模型建立的細節, 其實是付之闕如的, 而唯一提到的一個方法論, 就是Bayesian Statistics 也因如此, 開始了我Bayesian Data Analysis的學習旅程。

Machine Learning vs. Bayesian Statistics

機器學習(Machine Learning)技術的一個核心概念是,透過不斷地累積對資料的觀察, 電腦可以透過演算法, 自動演進對於學習標的的理解; 而在傳統程式開發上, 若要對新的資訊進行處理, 則是需要透過程式碼的修改, 才能讓電腦處理之前系統程式中沒有考慮到的部分。在這一個部分, Bayesian Statistics有著相似的概念。以統計學中最常使用的丟銅板為例, 推算一個銅板出現正面的機率, 是依照累積觀察每次丟銅板出現正面的次數, 計算在觀察到的實際資訊下銅板出現正面的機率:

繼續閱讀...

The Summary of Statistical Distribution (with R code)

在研讀許多Data science相關資訊文章時, 常會看到各種distribution做為模型設計的資料假設或基礎, 由於自己之前在研究時, 常常要google或四處翻閱統計書籍, 確認distribution相關特性, 十分的費工, 因此這篇文章將整理一些常用的distribution, 以及對應的參數和R function, 這樣以後需要distribution資訊, 只要回到這篇Post就能一目了然, 無需再到處查詢google了。這篇文章只總結各項關鍵資訊, 以供快速理解和取得distribution特性, 若想深入了解相關統計知識, 請再自行翻閱其他統計學課本。

R function and Naming convention

R提供大約20個內建的density/distribution function:

R針對各distribution均提供對應的function for各種統計需求, 其命名的規則為:

n dDist, {dnorm(1)}:回傳the height of the probability density function(PDF); 也就是the height of the probability distribution的Data point(數據點x=1)

n pDist, {pnorm(1)}: 回傳the cumulative density/distribution function(CDF); 回傳低於(below, 左方)給定值”x=1”的區域面積(area); 設定參數lower.tail=F (pnorm(1,lower.tail=F)), 可取得右方面積(可以視之為p-value, 不需要再查表了!)

n qDist, {qnorm(0.75)}:the quantile function; 範例為回傳75th quantiles的x數值(one-tailed and upper side)

n rDist, {rnorm(10)}:產生(10個)符合該distribution的隨機數字

(文章未完, 編輯撰寫中...)

by J.D.

繼續閱讀...

Regression Model – The first predictive modeling technique to learn
(with R codes)

Source: http://resources.esri.com/help/9.3/arcgisdesktop/com/gp_toolref/spatial_statistics_toolbox/regression_analysis_basics.htm

翻開所有預測分析或機器學習的書籍, 或是數據分析的課程, 第一個遇到的就是回歸分析。簡單的線性回歸淺顯易懂, 是切入分析預測領域非常好的入門磚;隨著學習的模型技術越來越多,且越來越Fancy, 我們可以發現他們不過是線性回歸的延伸或通用化(extensions or generalizations of linear regression)。

What is Regression Analysis?

回歸分析(Regression Analysis)是一種相當實用且被廣泛運用的統計分析技術, 用以檢視我們想要預測的標的(dependent variable - Y), 與我們所擁有的數據(independent variable (s)- X(s) )之間, 是否具有某種關係(relationship)。

Why do we use Regression Analysis?

一般說來, 我們可以利用回歸分析, 檢視/回答下列數據預測的項目。以廣告效果是否影響產品銷量為例:

1.[增加廣告預算]與[銷量增加]是否存在關係(relationship)?

2.若有關係(relationship), 其強度(Strong)有多高?

3.廣告預算花費在何種媒體通路上, 貢獻最多的[銷量增加]?

4. 廣告預算花費與業績的預測分析,其準確率有多高?

What are the types of Regressions?

l Linear Regression

l Logistic Regression

l Polynomial Regression

l Stepwise Regression

l Ridge Regression

l Lasso Regression

l ElasticNet Regression

Regression Model這一系列的文章將會一一介紹上列各項模型方法與R的implement codes. 首先, 我們將從Linear Regression談起。

(文章未完, 編輯撰寫中...)

by J.D.

繼續閱讀...

訂閱：文章 (Atom)

Introduction to empirical Bayes estimation (with R code)

Bayesian Data Analysis and Modeling (with R code)

Machine Learning vs. Bayesian Statistics

The Summary of Statistical Distribution (with R code)

R function and Naming convention

Regression Model – The first predictive modeling technique to learn
(with R codes)

Contact Me

About

Category

Archive

Pageview

Copyright

Introduction to empirical Bayes estimation (with R code)

Bayesian Data Analysis and Modeling (with R code)

Machine Learning vs. Bayesian Statistics

The Summary of Statistical Distribution (with R code)

R function and Naming convention

Regression Model – The first predictive modeling technique to learn (with R codes)

Contact Me

About

Category

Archive

Pageview

Copyright

Regression Model – The first predictive modeling technique to learn
(with R codes)