Kiểm định giả thiết

1. Khái niệm:

Kiểm định giả thiết là một bài toán quan trọng trong đời sống cũng như trong thống kê, kiểm toán. Ta thường gặp 1 cặp giả thiết đối nghịch nhau, bằng khả năng của mình, ta phải xác định xem giả thiết nào đúng.

- Giả thiết thống kê là các giả thiết về trung bình (μ), phương sai mẫu (σ2), tỉ lệ (f),… của đám đông (mẫu ) đang xét.

- Nội dung của bài toán kiểm định: Cho hai giả thiết H0, H1 (thường là đối nghịch nhau). Dựa vào các số liệu thu được, ta phải quyết định xem giả thiết H0 đúng hay sai. Giả thiết H1 đối nghịch với giả thiết H0 gọi là đối thiết của H0 . Việc đưa ra quyết định chấp nhận hay bác bỏ một giả thiết thống kê gọi là làm kiểm định (hay kiểm định thống kê).

Ví dụ: Khi ta cảm thấy mệt mỏi, ta nghi rằng “mình bị bệnh” – đây là giả thiết H0, (H1 là “mình không mắc bệnh”) và việc đi khám bệnh để xác định xem mình có bệnh hay không, chính là xác định xem giả thiết H0 có đúng hay không. Việc này chính là kiểm định giả thiết.

Khi giả thiết H0 có dạng: H0 : a = a0 (a là 1 tham số nào đó của đại lượng ngẫu nhiên ta đang nghiên cứu; a0 là giá trị đã biết)

Khi đó: H1 có thể là: H1 : a ≠ a0 . Việc kiểm định giả thiết với đối thiết dạng này được gọi là kiểm định hai phía (vì miền bác bỏ nằm về hai phía của miền chấp nhận).

Giả thiết đối dạng H1 : a ≠ a0 thường được áp dụng khi ta chưa biết rõ trong thực tế a > a0 hay a< a0 .

Nhưng nếu qua quan sát, phân tích ta biết được xu hướng là a > a0 thì ta có thể đặt đối thiết H1 : a > a0 . Hoặc ta biết được khả năng a <a0 thì đặt đối thiết H1 : a < a0 .

Nếu kiểm định giả thiết với giả thiết đối dạng H1 : a > a0 thì được gọi là kiểm định giả thiết về phía bên phải. Nếu kiểm định giả thiết với giả thiết đối dạng H1 : a < a0 thì được gọi là kiểm định giả thiết về phía bên trái

2. Các sai lầm mắc phải khi làm kiểm định:

Khi làm kiểm định, ta có thể mắc phải các sai lầm sau đây:

  • Sai lầm loại 1: Bác bỏ 1 giả thiết đúng ( Bác bỏ H0 khi H0 đúng).
  • Sai lầm loại 2: Chấp nhận 1 giả thiết sai (Nhận H0 khi H0 sai).

Kết luận

Thực tế

Chấp nhận H0

Bác bỏ H0

H0 đúng

Kết luận đúng

Sai lầm loại 1

H0 sai

Sai lầm loại 2

Kết luận đúng

Ví dụ:

1. Dựa vào các thông tin dự báo thời tiết, trung tâm khí tượng thủy văn dự báo 1 cơn bão sắp đến sẽ đổ bộ vào miền Nam thì H0 : “Bão đổ bộ vào miền Nam” (H1 :”bão không đổ bộ vào miền Nam). Khi đó sai lầm loại 1 là rất tai hại vì khi đó, do không kịp thời chuẩn bị ứng phó nên bão sẽ gây ra những thiệt hại nặng nề.

2. Cho đậu 1 thí sinh yếu kém (mà đáng ra phải rớt) hoặc cho rớt 1 thí sinh giỏi (mà đáng lẽ ra phải đậu) đều là những sai lầm tai hại. Thực tế, cho thấy, có những cuộc thi mà kết quả chỉ dựa vào số lượng tin nhắn bình chọn thì chứa đựng nhiều sai lầm.

Tất nhiên, khi kiểm định một giả thiết. Ta cố gắng hạn chế các sai lầm, tức là cần giảm thiểu tối đa xác suất phạm cả hai sai lầm. Tuy nhiên, đây là điều trong thực tế không thể làm được vì nếu ta muốn giảm sai lầm loại 1 thì sẽ làm tăng xác suất sai lầm loại 2 và ngược lại.

Trong thống kê, ta quy ước rằng lỗi lầm loại 1 là tai hại hơn, và cần tránh trước. Do đó, với xác suất α nhỏ cho trước, ta cần ra quyết định sao cho: P(Phạm sai lầm loại 1) ≤ α . α gọi là mức ý nghĩa của kiểm định.

3. Một số bài toán kiểm định thường gặp:

3.1 Kiểm định giả thiết về số trung bình:

Giả sử  đại lượng ngẫu nhiên gốc X trong tổng thể phân phối theo qui luật chuẩn với kỳ vọng là μ và phương sai mẫu σ2, Cần kiểm định giả thiết:

\left \{ \begin{array}{c} H_0 : {\mu} = a_0 \\ H_1 : {\mu} \ne a_0 \\ \end{array} \right. (a_0 là 1 giá trị đã biết khi đặt H_0 )

Để kiểm định giả thiết trên, ta tiến hành lấy mẫu với kích thước n và xét các trường hợp sau:

1. Trường hợp 1:  σ2 đã biết:

Giả sử  X \sim N(\mu, \sigma^2) , (X_1,X_2,...,X_n) là mẫu độc lập của X. Khi đó: Z ={ \dfrac{\overline{X}-\mu}{\sigma}}\sqrt{n} \sim N(0;1) Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 : W=\left\{ (X_1, X_2, ..., X_n): |Z| > c_{\alpha} \right\}

trong đó c_{\alpha} thỏa: \int\limits_{-c_{\alpha}}^{c_{\alpha}}{ \dfrac{1}{\sqrt{2{\pi}}}}e^{- \dfrac{t^2}{2}} \, dt = 1 - \alpha = \gamma

Rõ ràng c_{\alpha} = u\left({ \dfrac{\gamma}{2}} \right) và được xác định bởi bảng giá trị tích phân Laplace.

Ví dụ: mức ý nghĩa \alpha = 0,05 \Rightarrow z_{\alpha} = 1,96 ; \alpha = 0,01 \Rightarrow z_{\alpha} = 2,58

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

kiem-dinh12. Trường hợp 2: σ2 chưa biết:

Giả sử  X \sim N(a, \sigma^2) , (X_1,X_2,...,X_n) là mẫu độc lập của X. Khi đó: T ={ \dfrac{\overline{X}-a}{s}}\sqrt{n} \sim t(n-1;\alpha) Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W = \left \{ (X_1, X_2, ..., X_n): |T| > t_{n-1,{\alpha}} \right\}

trong đó t(n-1;\alpha) là phân phối Student n-1 bậc tự do.

Nếu n đủ lớn (n \ge 30 ) thì t_{n-1,\alpha} \approx c_{\alpha}

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

kiem-dinh-23.2. Kiểm định so sánh 2 giá trị trung bình :

Cho X \sim N(a_1, \sigma^2) , (X_1,X_2,...,X_n) là mẫu độc lập của X. Y \sim N(a_2, \sigma^2) , (Y_1,Y_2,...,Y_n) là mẫu độc lập của X.

Trường hợp 1: Nếu \sigma^2 đã biết.

Xét phép kiểm định: \left \{ \begin{array}{c} H_0 : a_1 = a_2 \\ H_1 : a_1 \ne a_2 \\ \end{array} \right.

Khi đó: T ={ \dfrac{\overline{X}-\overline{Y}}{{\sigma}}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right)}}} \sim t(m+n-2;\alpha)

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |T| > c_{\alpha} \right\}

c_{\alpha} được tra từ bảng phạn phối  Student (m+n-2) bậc tự do.

Trường hợp 2: Nếu \sigma^2 chưa biết.

Khi đó:T ={ \dfrac{\overline{X} - \overline{Y}}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right).{ \dfrac{(n-1)S_X^2+(m-1)S_Y^2}{m+n-2}}}}} \sim t(m+n-2,{\alpha})

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |T| > c_{\alpha} \right\}

trong đó: c_{\alpha} được tra từ bảng phân phối  Student (m+n-2) bậc tự  do. S_X^2 , S_Y^2 tương ứng là phương sai mẫu của X và Y.

3.3 Kiểm định giả thiết về tỉ lệ:

1. Kiểm định tỉ lệ:Giả sử trong 1 đám đông Ω , tỉ lệ các phần tử mang dấu hiệu  A nào đó là p chưa biết. Từ mẫu (X_1,X_2,...,X_n) ta có tỉ lệ quan sát được là: f = { \dfrac{m}{n}}

Cần kiểm định giả thiết: \left \{ \begin{array}{c} H_0 : p = p_0 \\ H_1 : p \ne p_0 \\ \end{array} \right.

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n): |U| > c_{\alpha} \right\} , với U = { \dfrac{(f-p_o){\sqrt{n}}}{\sqrt{p_o(1-p_0)}}}

Hoàn toàn tương tự cho các phép kiểm định trung bình 1 phía, ta có thể tóm tắt bởi bảng sau:

kiem-dinh-32. Kiểm định sự bằng nhau của 2 tỉ lệ:

Giả sử p_1,p_2 tương ứng là tỉ lệ các phần tử mang một dấu hiệu A nào đó từ 2 đám đông ma ta chưa biết.

Mẫu 1 có kích thước n có n_1 cá thể mang dấu hiệu A

Mẫu 2 có kích thước n có n_2 cá thể mang dấu hiệu A

Ta đặt: f_1 = { \dfrac{n_1}{n}} , f_2 = { \dfrac{n_2}{n}} , p* = { \dfrac{n_1+m_1}{n+m}} , n* = { \dfrac{n.m}{n+m}}

Khi đó: U ={ \dfrac{f_1-f_2}{\sqrt{\left({ \dfrac{1}{n}}+{ \dfrac{1}{m}}\right).p*(1-p*)}}} = { \dfrac{(f_1-f_2){\sqrt{n*}}}{\sqrt{p*(1-p*)}}}

Xét phép kiểm định: \left \{ \begin{array}{c} H_0 : p_1 = p_2 \\ H_1 : p_1 \ne p_2 \\ \end{array} \right.

Với mức ý nghĩa \alpha , chọn miền bác bỏ giả thiết H_0 :

W=\left\{ (X_1, X_2, ..., X_n), (Y_1,Y_2,...,Y_n): |U| > c_{\alpha} \right\}

  1. Nam
    23/11/2009 lúc 21:26 | #1

    bai nay kho qua, ai giai dum voi
    Ta có bài toán kiểm định phải:
    H0: µ = µ0 ; H1: µ > µ0
    Nếu bác bỏ H0 tức là µ ≠µ0; điều đó có nghĩa là µ = µ1 nào đó mà µ1 ≠ µ0. Hãy giải thích tại sao trong trường hợp này µ1 lại không thể nhỏ hơn µ0 mà µ1 phải lớn hơn µ0 ( tức là chấp nhận H1: µ > µ0)

  2. 03/12/2009 lúc 19:35 | #2

    em muốn hỏi thầy 2 câu hỏi mong thầy trả lời giúp em :
    câu 1: trong chương kiểm định giả thuyết thống kê thì người ta thường cho anpha trước nhưng khi em học ở trên lớp thì cô giáo em đặt ra câu hỏi là anpha lấy ở đâu ra. thầy xem ví dụ của em : trường có 360 sv . điều tra 110 sv trong đó 8 sv phải thi lại.với anpha=10% khiểm định giả thuyết Ho: p=po=10% , H1:p khác po
    vấn đề em muốn hỏi ở đây là tại sao lấy anpha =10% mà không phải là 5% hay 12%
    câu 2 : trong chương ước lượng em cũng được cô giáo hỏi câu tương tự.thầy xem ví dụ : trường có 360 sv . điều tra 110 sv trong đó 8 sv phải thi lại.hãy ước lượng tỉ lệ sv thi lại tối đa.biết gama =0.99
    vấn đề em muốn hỏi ở đây là tại sao lại lấy gama=0.99 mà không phải là 0.95 hay 0.90
    em cám ơn thầy rất nhiều !!!

  3. vuongbinh
    08/12/2009 lúc 03:00 | #3

    Thày ơi cho em hỏi câu này
    .Ta có bài toán kiểm định phải:
    H0: µ = µ0 ; H1: µ < µ0
    Nếu bác bỏ H0 tức là µ ≠µ0; điều đó có nghĩa là µ = µ1 nào đó mà µ1 ≠ µ0. Hãy giải thích tại sao trong trường hợp này µ1 lại không thể lớn hơn µ0 mà µ1 phải nhỏ hơn µ0 ( tức là chấp nhận H1: µ < µ0)
    em cảm ơn thầy!

    • 09/12/2009 lúc 18:55 | #4

      Cái này là do trong quá trình kiểm định, người ta đã tính được giá trị thực tế của \mu đã nhỏ hơn {\mu}_0 , nhưng để có cơ sở bác bỏ với 1 sai số cho phép (mức ý nghĩa ) thì người ta phải có bài toán kiểm định.
      Ví dụ: nhà SX mì gói, công bố trọng lượng gói mì là 85 \pm 5 g . nhưng thực tế, kiểm tra, trọng lượng trung bình chỉ đạt 76g . Vậy để có cơ sở KL nhà SX có đạt tiêu chuẩn (với mức ý nghĩa nào) hay không thì phải có bài toán kiểm định nhỏ hơn.

  4. vuongbinh
    12/12/2009 lúc 21:03 | #5

    em cảm ơn thầy !

  5. Manh cuong
    14/12/2009 lúc 08:41 | #6

    Thay gjup em bai nay nha
    ket qua do chieu cao cua 24 em 2 tuoi (dvi cm)
    84,4 8,99 8,90 8,19 8,70 8,50 8,41 8,63 8,06 8,00 8,13 8,68 8,34 8,98 8,54 8,06 8,50 8,25 8,07 8,43 8,54 8,50 8,55 8,16
    chieu cao chuan la 86,5 voi do tin cay 1%, co su khac biet dang ke cua chieu cao nhom tre voi chieu cao chuan khong?
    Het
    em cam on thay truoc nha

  6. duyhoang
    29/12/2009 lúc 22:45 | #7

    một cửa hàng có bán các thanh sắt dài 2 m. cần mua một số thanh sắt để cắt thành 30 đoạn dài 0.9m; 200 đoạn dài 0.7m; 100 đoạn dài 0.6m. hãy tính toán số thanh sắt phải mua sao cho tổng số sắt thừa là nhỏ nhất.

  7. Soul
    05/01/2010 lúc 22:16 | #8

    @Duyhoang :Theo mình thấy thì cứ cắt 2lần đoạn 0,7m và 1 lần đoạn 0,6m thì vừa đủ 2m. 200 đoạn 0,7m và 100 đoạn 0,6m thì mua 100 thanh 2m là đủ . còn lại mua 15 thanh 2m nữa . mỗi thanh 2m được 2 đoạn 0,9m còn thừ 0,2m . 0.2m x 15 thanh = thừa 3m đem bán đồng nát mua que kem ăn sau khi ngồi cưa sắt

  8. Hậu
    15/01/2010 lúc 16:21 | #9

    Thưa thầy, cho e hỏi là tra bảng student bậc tự do 31 là bao nhiêu dzậy thầy.Thầy có thể up lên bảng student cho em tham khảo đc ko ạh.Em cảm ơn thầy.

  9. 18/01/2010 lúc 17:17 | #10

    Cám ơn Thầy rất rất nhiều, thực sự tài liệu về xác suất của Thấy vô cùng hữu ích với em, em tìm trên mạng hoài mà không có hay và tiện tích như tài liệu này, chỉ cần copy – paste là em đã có thể in và học..
    Cám ơn Thầy nhìu nhìu.. ^^

  10. Nguyễn Hữu Huấn
    10/05/2010 lúc 09:37 | #11

    Xin thầy giải thích khái niệm của “Bậc tự do” trong thống kê? Cách tính bậc tự do và nó có klhác nhau không khi tính toán trong các phân phối kiểm tra khác nhau?

Comment pages
  1. No trackbacks yet.

Gửi phản hồi

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Thay đổi )

Twitter picture

You are commenting using your Twitter account. Log Out / Thay đổi )

Facebook photo

You are commenting using your Facebook account. Log Out / Thay đổi )

Google+ photo

You are commenting using your Google+ account. Log Out / Thay đổi )

Connecting to %s

Follow

Get every new post delivered to your Inbox.

%d bloggers like this: