McK & Note

#/Essential Statistics for Econometrics

沒錯,統計學。這也是我這輩子第三次修統計學,但這次我試著讓一切不只是背公式和計算。我想知道為什麼學、該怎麼用。現在的我比任何時候都想把這門課學好。

學得更多,發現有更多要學

我在九月初就修完了這門課,之後放了一週假,現在正準備開始上 Fall Quarter。之所以會過了一段時間才總結這門課的內容,是因為我很想瞭解為什麼要學統計(不是輸入資料、做做圖就好了嗎?),還有怎麼把統計學的知識轉為優勢。不是因為放假那週我在洛杉磯忙著吃台灣牛肉麵跟港式點心。

於是,除了這門課相關的學習,我另外花了兩三倍的時間修網路課程、學 R 跟找各式各樣的文章跟書籍。這些 Side Projects 讓我意識到 Data Science 的水真的很深,每一個分支都有好多要學的東西,自己的時間也快不夠用了。當然,要掌握任何一個分支的知識,統計學都扮演了舉足輕重的角色。沒錯,就算只想走 Data Visualization,也得把統計學學好,才能正確解圖圖表。所以現在的我不只甘願讀統計學,我想把統計學讀好,配合使用各式各樣的工具,逐步培養自己的 Data Analysis 能力。

以下先從我對 Essential Statistics for Econometrics 的課前準備開始談起。

課前準備

前面提到這是我第三次學統計學,第一次是高三數學,第二次是上海交大的機率統計課跟統計學。回想前兩次學習經驗,我發現自己最後其實只記得一些公式,但從觀念到應用幾乎都忘光了。我心想這樣不行以後還得靠這個吃飯啊,所以在開課前就開始在 Datacamp 上學 R,並慢慢補回一些基礎統計觀念。

(我最近幾週在 Datacamp 上修完的課程)

 
學完前面幾門黃色徽章的基本課程以後,我開始學 Statistical Inference 相關的課程,包括 t-test、F-test 跟 ANOVA 等等。從這裡開始,我漸漸意識到一個滿嚴重的問題:我可以在用 R 輕易算出各式各樣的數值,但我不確定該怎麼解釋結果。甚至,一旦少了註解跟指示,面對一個 Dataset,我不知道該用什麼方法、從何開始分析。

這是我前兩次學統計學時沒有意識到的問題,因為當時的我過度專注在題目和計算上。從高中學的常態分布,到大學學的 F-test,我覺得自己學到最多的是計算能力:根據題目要求給出正確答案。但現在的情況完全不同,利用 R 的 Package 跟 Function 我可以不用擔心計算錯誤,也不用一步一步推出各種數值;重點變成我為什麼要算這些東西,以及我該怎麼解讀算出來的結果

所以從八月中修完 Data Visualization and Storytelling 以來,我預習統計學的方法有三個:

直到上課前,我至少已經把心態從「這門課好難」轉成「這門課很重要」,也下定決心要把這門課學好。

老師和教學方法

這門課的老師是 Dr. Carlos Flores,教學方法沒什麼特別的,就是版書跟筆記。這跟我原先預期的不太一樣,因為當初課程內容寫「有可能會學 R 跟 Stata」,結果第一堂課 Dr. Flores 就宣布「這門課很難,要把 Statistical Inference 講完,所以我們會著重在課本上的理論,不會用到電腦。」所以後來我抄筆記、交作業就用掉了快兩本筆記本,並從聽不太懂墨西哥口音,到可以跟老師正常對話(one of the biggest achievements)。

我們用的課本是 Casella & Berger 的 Statistical Inference(台譯:《統計推論》)。雖然我很想接著說「這是一本很棒的書,有興趣的人可以找來讀!」,但其實這本書充滿了定理、證明跟公式,對底子薄弱的人(例如我)來說直接讀實在有點吃力,很容易迷失在符號海洋當中。我是在 Dr. Flores 的導讀下才比較清楚整本書的架構,所以對正在閱讀這篇文章的你,我的建議是可以從這些資源入門:

註一:這些資源是來自 Mitch Crowe 所寫的 Learn Data Science the Hard Way,強力推薦。
註二:這是 Dr. Flores 推薦的 Reference Textbook,比起 Statistical Inference 圖比較多,實例也比較多。雖然 Amazon 上有「定義不清楚」的評價,對於不太鑽研數學原理的人來說應該還行。

上課內容

所以平常上課就是照著 Statistical Inference 一直讀下去。課後我也找各式各樣的資源,一方面是幫助自己更加瞭解上課內容(例如找定理的實例,直接歸納怎麼解題),一方面也如前面所說,希望能保持學習統計學的熱情。過程中涵蓋的章節如下:

章節內容
一、集合論介紹集合概念,配合文氏圖解釋運算規則
二、機率論介紹事件和樣本空間,配合上述運算規則
三、條件機率在不同情況下計算機率,介紹全機率律貝氏法則
四、隨機變數用數值指代集合和事件,方便運算期望值變異數
五、機率分布介紹 CDFPMF/PDFMGF 等函數形式,配合微積分推導定理和公式
六、分布特例分成離散和連續兩種,介紹各種分布的特徵和用法
七、多變量隨機分布綜合前面的內容(主要是條件機率和機率分布),對兩個以上的變量運算機率、共變異數和相關係數
(期中考)以上所有內容
八、隨機抽樣研究對象從母體轉為樣本,應用新的定理、算法和分布特徵
九、點估計利用樣本統計量估計母體,介紹 MOMMLE 的性質和使用方法
十、評估估計量評估 MOM 和 MLE 的估計結果,分成 Accuracy 和 Precision 兩個面向;介紹均方差
十一、漸近理論配合極限逼近求估計量;介紹漸進過程中的一致性中心極限定理
十二、假設檢定基於上述理論和算法,利用常態分布性質檢驗統計結果,算出信賴區間
(期末考)從期中考之後的內容

需要注意的是,雖然我用了幾行字簡單概括每個章節的內容,也附上了一些參考資料,但其實上面每個章節都可以各自寫成一篇很長的文章,中間的定理、推導過程和邏輯也不容忽視。有興趣研究以上內容的人,還是先從老師和教學方法裡提到的資源入手比較合適。

漫漫長路

會列這張表,只是想說明過去只重計算的我,果然在期中考後就嘗到苦頭了,對 Sample 和 Estimator 的概念掌握不深,看到作業上的題目也一頭霧水……不過我當時也清楚,自己已經不能再用「這些不是交給電腦算就好了嗎」等理由跳過這個過程,所以還是花了不少時間過這關。過程中也曾陷入明明都會照著 Cookbook Procedure 做題,但不知道自己在算什麼的窘況,只好回去追進度,重新連結不同知識。

最後,我必須坦承這個過程很無聊。我不會刻意把學習統計學講得多有趣,因為如果想學好這門課,就是得花幾十個小時看書、寫題目跟思考。不論我在過程中找了多少補充資料,終究會有迴避不掉,需要靜下心來耐心學習的過程,就像在通過一個漫長、不知何時才到出口的隧道一樣。希望上面這些說明不會讓讀者產生「所以只要讀這些東西就好了」的錯覺,也能在意識到 Data Science(或自己所處的領域)水真的很深以後,勇敢花時間好好努力。

(Amtrak 火車也很深,還雙層的)

下一站:Statistical Learning

修完這門課以後,我覺得自己已經站在跟過去完全不同的起點上。在修 Data Visualization and Storytelling 的時候,我還處於不斷追逐統計軟體的狀態,但在學了 Tableau、R,還有讀一些 Kaggle 上的案例以後,我決定把多花點時間在學習基礎知識上,摸索怎麼分析為何分析兩大問題。現在的我:

  • 不再輕視或懼怕理論,也能正常閱讀公式跟符號
  • 相信統計學是一門必須掌握的專業
  • 想掌握更多 Data Science 相關的知識跟工具

所以順著 R 的學習路徑和統計學的發展趨勢,我把下一個目標訂在 Stanford 的 Statistical Learning 課程,也就是更廣為人知的 Machine Learning。

會選這門課的理由跟我剛在課前準備中提到的差不多,主要是因為我在 Kaggle 上看到很多分析都在用 Machine Learning,讀了 Code 以後,發現自己基本上都會操作,但也完全不了解背後的原理。所以,順著接下來 Fall Quarter 要學的 Econometrics 和 Linear Regression,我相信 Machine Learning 不管在理論或應用上都是我未來的目標,也就找到了上面這門課。

要是兩三年前的我,可能完全不會對這種艱澀的課感興趣(轉身去學很潮的領導力),但現在的我比任何時候都想把這門課學好。再加上這門課的教授 Trevor HastieRobert Tibshirani 真的很佛心:親自講課,還免費公開著作 An Introduction to Statistical Learning。有這麼棒的資源,真是萬事俱備,只欠時間。等放假完,Fall Quarter 開始以後,我就要準備好踏上另一段旅程了。
 
圖片來源:Surf Station of Amtrak