第3章 樣本告訴我們什麼?

從樣本到母體


統計裡面的一個基本動作:用樣本的事實,當做母體真實訊息的估計。

◎參數及統計量

參數(parameter)是描述母體的數字。參數是一個固定數字,但我們實際上無法知道參數的值。

統計量(statistic)是描述樣本的數字。一旦取了樣本,統計量的值就知道了,但是換個不同的樣本,統計量的值就可能改變。我們常用統計量來估計為之的參數。

參數之於母體,相當於統計量之於樣本。想要估計未知的參數嗎?只要從母體選一個樣本,再用樣本的統計量當做估計值就成了。

例1 你玩樂透嗎


所有的成年美國人在過去一年當中,買過樂透彩券的比例是一個參數,這個參數描述的是包含2億成年人的母體。我們把這個比利用p表示,因為p是proportion(比例)的第一個字母。但我們可不知道p的值。
為了估計p,蓋洛普抽取了一個1523人的樣本。樣本當中買了樂透彩券的比例就是一個統計量,我們稱它為 p-hat)。結果1523人的樣本中,有868 人買了彩券,所以對這個樣本來說:

p-hat =868÷1523=0.57 (即,57﹪)


因為每個成人都有同樣的機會被選進樣本,所以如果用統計量 p-hat =0.57當做未知參數 p 的估計值,似乎很合理。樣本中有57﹪買了彩券是個事實,我們知道,因為我們問過樣本中的每個人。我們並不知道所有成年人當中買彩券的比例,但是我們估計大概有57﹪的人買過。

抽樣變異


隨機樣本的第二大個優點可以解救我們。

1. 它的第一大優點是,隨機選擇可以消除「偏心」;也就是說隨機抽樣把偏差給消滅了。

2. 第二大優點是,如果我們從同一個母體,重複抽取許多大小一樣的隨機樣本,所有樣本的變異狀況就會遵循某種可預測的型態(pattern)。從這個可預測的型態可以得知,由較大樣本所得結果的變異,會小於小樣本結果的變異。

◎估計時的兩種誤差
偏差(bias)是當我們取很多樣本時,統計量一直朝同一個方向偏離母體的參數值。
變異性(variability)描述的是,當我們取很多樣本時,統計量的值會散開到什麼程度。變異性大,就代表不同樣本的結果可能差別很大。一個很好的抽樣方法,應該要有小偏差以及小變異性。

◎如何處理偏差及變異數
減低偏差:利用隨機抽樣即可。若先將整個母體列出來,再從中抽取簡單隨機樣本,就會得到不偏估計值(unbiased estimate),也就是說,以SRS得到的統計量來估計母體參數,既不會老是高估,也不會老是低估。
減低SRS的變異性:用大一點的樣本。只要樣本取得足夠大,變異性要多小都可以做得到。

誤差界限

◎誤差界限是什麼意思


「誤差界限(margin of error)是正負3個百分點」是以下敘述的縮寫:
如果我們用和抽這個樣本的方法,去抽許許多多樣本,則這些樣本有95﹪,其所得的結果會在母體真正值的正負3個百分點之內。

讓我們一步一步來看。通常一個隨機樣本的結果,不會剛好估計出母體的真正值。
我們必須用一個誤差界限,來表達我們的估計值距離真正值有多遠。但是我們又不能百分之百確定,估計值和真正值的差距必定小於誤差界限。所有樣本當中有95﹪,距離真正值的確有這麼近,但是另外的5﹪,距真正值的差距就超過誤差界限了。我們並不知道母體的真正值是多少,所以我們也無法得知,到底我們的樣本是屬於那95﹪「中了」的樣本,還是5﹪「沒中」的樣本。因此我們說我們有95﹪的信心,真正值會在誤差界限內。

信賴敘述

◎信賴敘述
信賴敘述(confidence statement)包含兩個部分:誤差界限(margin of error)
及信賴水準(level of confidence)。誤差界限告訴我們,樣本統計量離母體參數多遠。

信賴水準告訴我們,所有可能樣本中有多少百分比滿足這樣的誤差界限。

* 信賴敘述的結論永遠是針對母體而不是針對樣本。
* 我們對母體所做的言論永遠不會是完全正確的。
* 抽樣調查可以選擇95﹪以外的信賴水準。

從大母體抽樣

◎母體大小無所謂
從一個隨機樣本所得到的統計量的變異性,並不受母體大小影響,只要母體至少比樣本大100倍即可。

網路尋奇


go to http://www.gallup.com/help/FAQs/poll1.asp