第3章樣本告訴我們什麼？

從樣本到母體

統計裡面的一個基本動作：用樣本的事實，當做母體真實訊息的估計。

◎參數及統計量

參數（parameter）是描述母體的數字。參數是一個固定數字，但我們實際上無法知道參數的值。

統計量（statistic）是描述樣本的數字。一旦取了樣本，統計量的值就知道了，但是換個不同的樣本，統計量的值就可能改變。我們常用統計量來估計為之的參數。

參數之於母體，相當於統計量之於樣本。想要估計未知的參數嗎？只要從母體選一個樣本，再用樣本的統計量當做估計值就成了。

例1 你玩樂透嗎

所有的成年美國人在過去一年當中，買過樂透彩券的比例是一個參數，這個參數描述的是包含2億成年人的母體。我們把這個比利用p表示，因為p是proportion（比例）的第一個字母。但我們可不知道p的值。
為了估計p，蓋洛普抽取了一個1523人的樣本。樣本當中買了樂透彩券的比例就是一個統計量，我們稱它為 p-hat）。結果1523人的樣本中，有868 人買了彩券，所以對這個樣本來說：

p-hat ＝868÷1523＝0.57 （即，57﹪）

因為每個成人都有同樣的機會被選進樣本，所以如果用統計量 p-hat ＝0.57當做未知參數 p 的估計值，似乎很合理。樣本中有57﹪買了彩券是個事實，我們知道，因為我們問過樣本中的每個人。我們並不知道所有成年人當中買彩券的比例，但是我們估計大概有57﹪的人買過。

抽樣變異

隨機樣本的第二大個優點可以解救我們。

1. 它的第一大優點是，隨機選擇可以消除「偏心」；也就是說隨機抽樣把偏差給消滅了。

2. 第二大優點是，如果我們從同一個母體，重複抽取許多大小一樣的隨機樣本，所有樣本的變異狀況就會遵循某種可預測的型態（pattern）。從這個可預測的型態可以得知，由較大樣本所得結果的變異，會小於小樣本結果的變異。

◎估計時的兩種誤差
偏差（bias）是當我們取很多樣本時，統計量一直朝同一個方向偏離母體的參數值。
變異性（variability）描述的是，當我們取很多樣本時，統計量的值會散開到什麼程度。變異性大，就代表不同樣本的結果可能差別很大。一個很好的抽樣方法，應該要有小偏差以及小變異性。

◎如何處理偏差及變異數
減低偏差：利用隨機抽樣即可。若先將整個母體列出來，再從中抽取簡單隨機樣本，就會得到不偏估計值（unbiased estimate），也就是說，以SRS得到的統計量來估計母體參數，既不會老是高估，也不會老是低估。
減低SRS的變異性：用大一點的樣本。只要樣本取得足夠大，變異性要多小都可以做得到。

誤差界限

◎誤差界限是什麼意思

「誤差界限（margin of error）是正負3個百分點」是以下敘述的縮寫：
如果我們用和抽這個樣本的方法，去抽許許多多樣本，則這些樣本有95﹪，其所得的結果會在母體真正值的正負3個百分點之內。

讓我們一步一步來看。通常一個隨機樣本的結果，不會剛好估計出母體的真正值。
我們必須用一個誤差界限，來表達我們的估計值距離真正值有多遠。但是我們又不能百分之百確定，估計值和真正值的差距必定小於誤差界限。所有樣本當中有95﹪，距離真正值的確有這麼近，但是另外的5﹪，距真正值的差距就超過誤差界限了。我們並不知道母體的真正值是多少，所以我們也無法得知，到底我們的樣本是屬於那95﹪「中了」的樣本，還是5﹪「沒中」的樣本。因此我們說我們有95﹪的信心，真正值會在誤差界限內。

信賴敘述

◎信賴敘述
信賴敘述（confidence statement）包含兩個部分：誤差界限（margin of error）
及信賴水準（level of confidence）。誤差界限告訴我們，樣本統計量離母體參數多遠。

信賴水準告訴我們，所有可能樣本中有多少百分比滿足這樣的誤差界限。

＊信賴敘述的結論永遠是針對母體而不是針對樣本。
＊我們對母體所做的言論永遠不會是完全正確的。
＊抽樣調查可以選擇95﹪以外的信賴水準。

從大母體抽樣

◎母體大小無所謂
從一個隨機樣本所得到的統計量的變異性，並不受母體大小影響，只要母體至少比樣本大100倍即可。

網路尋奇

go to http://www.gallup.com/help/FAQs/poll1.asp

第3章 樣本告訴我們什麼？