Bài 12: Nguyên lý kiểm định

Mục tiêu:
Sau khi nghiên chủ đề, học viên có khả năng:
- Trình bày được sự liên hệ giữa kiểm định ý nghĩa và khoảng tin cậy
- Phân biệt được 2 loại sai lầm: sai lầm loại I và sai lầm loại II

1. Chọn lựa kiểm định phù hợp

Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau). Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu.
Lựa chọn kiểm định phù hợp

2. Kiểm định ý nghĩa; Kiểm định giả thuyết

Ý tưởng về kiểm định ý nghĩa (significance testing) được khởi xướng bởi R A Fisher. Giả sử chúng ta muốn đánh giá xem một loại thuốc mới có cải thiện tỉ lệ sống còn 1 năm sau khi bị nhồi máu cơ tim hay không. Chúng ta tiến hành một nghiên cứu các bệnh nhân đượcđiều trị với một loại thuốc mới và một nhóm tương đương được điều trị với giả dược và phát hiện rằng tử vong trong nhóm điều trị với thuốc mới chỉ bằng một nửa so với nhóm điều trị bằng placebo. Đây là một kết quả hứa hẹn nhưng có khi chỉ là một kết quả do cơ may? Chúng ta hãy xem xét câu hỏi này bằng cách tính giá trị p. Giá trị p chính là xác suất có ít nhất sự khác biệt 2 lần về tỉ lệ tử vong nếu như thuốc thực sự không có tác động gì lên tỉ lệ sống còn.

Fisher thấy rằng giá trị p là một chỉ số đo lường sức mạnh của chứng cớ chống lại giả thuyết Ho (trong thí dụ này, giả thuyết là thuốc không tác động gì lên tỉ lệ sống còn). Ông ta cổ vũ sử dụng P < 0.05 (5% ý nghĩa) làm mức tiêu chuẩn để kết luận rằng có bằng cớ chống lại giả thuyết được kiểm đinh, mặc dù không có một quy tắc tuyệt đối “Nếu p nằm giữa 0,1 và 0,9 chắc chắn không có lí do gì để nghi ngờ giả thuyết được kiểm đinh. Nếu nó dưới 0,02 nó chỉ ra một cách mạnh mẽ rằng giả thuyết không thể giải thích được cho sự kiện thực tế. Chúng ta sẽ không thường xuyên bị lạc lối nếu chúng ta chọn một ngưỡng quy ước ở 0,05”

Điều quan trọng, Fisher cho rằng việc lí giải giá trị p thuộc về nhà nghiên cứu. Thí dụ giá trị p khoảng 0,05 dẫn tới không thể tin hay bác bỏ giả thuyết không mà dẫn tới quyết định một thực nghiệm khác.

Không thích cách lí giải chủ quan của Fisher, Neyman và Pearson đề xuất cách tiếp cận được gọi là “kiểm định giả thuyết” (hypothesis tests) và thay thế cho quan điểm chủ quan về sức mạnh của giá trị p làm chứng cớ chống lại giả thuyết không bằng cách tiếp cận khách quan dựa vào cây quyết định. Neyman và Pearson cho rằng có hai loại sai lầm có thể phạm phải trong khi lí giải kết quả của thực nghiệm. Cách tiếp cận của Fisher tập trung vào sai lầm loại một: xác suất bác bỏ giả thuyết không nếu giả thuyết không thực ra là đúng. Neyman và Pearson cũng quan tâm đến sai lầm loại II: xác suất chấp nhận giả thuyết không (và không chịu dùng điều trị mới) trong khi giả thuyết thực sự là sai. Bằng cách sắp đặt các nguy cơ sai lầm loại I và loại II, số các sai lầm mắc phải trong khi lí giải kết quả sẽ được hạn chế. Điều này không phải là xa lạ với ai đã từng tính cỡ mẫu cho các nghiên cứu có kiểm định giả thuyết.

Để sử dụng cách tiếp cận Neyman-Pearson chúng ta phải chỉ rõ đối thuyết (alternative hypothesis). Nói cách khác đối thuyết không thể chỉ được phát biểu đơn giản: “thuốc mới làm giảm nguy cơ tử vong” mà phải chỉ rõ nguy cơ tử vong giảm bao nhiêu: “thuốc mới làm giảm nguy cơ tử vong 60%” Nhà nghiên cứu có quyền tự do chọn quy tắc quyết định bằng cách phát biểu cụ thể đối thuyết, nguy cơ sai lầm loại I, và nguy cơ sai lầm loại II, nhưng điều này phải được thực hiện trước khi nghiên cứu. Do đó trong cách tiếp cận của Neyman-Pearson chúng ta xây dựng một nguyên tắc ra quyết định để giúp lí giải kết quả nghiên cứu từ trước khi tiến hành nghiên cứu và việc phân tích chỉ đơn giản là bác bỏ hay chấp nhận giả thuyết không và, ngược lại với cách tiếp cận chủ quan của Fisher, không cố gắng lí giải giá trị p trong từng một nghiên cứu cụ thể.

Kiểm định giả thuyết

Điều đáng tiếc các nhà nghiên cứu lại không tìm hiểu rõ ràng ý tưởng và sử dụng phần thô sơ nhất của cách tiếp cận này cho rằng giả thuyết không sẽ được bác bỏ nếu p< 0,05 (với nguy cơ sai lầm loại 1 là 5%). Điều này dẫn đến cảm nhận sai lầm là cách tiếp cận của Neyman-Pearson tương tự như cách tiếp cận của Fisher.

3. Sai lầm loại một và sai lầm loại hai

Sai lầm loại một: bác bỏ giả thuyết Ho trong khi giả thuyết Ho là đúng.

Sai lầm loại hai: Không bác bỏ giả thuyết Ho trong khi giả thuyết Ho sai.

Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn. Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết Ho, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó). Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó). Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai.

Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê. Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2. 
Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu.




Biểu đồ trên minh hoạ mối liên quan giữa sai lầm loại 1, sai lầm loai 2, cỡ mẫu và khoảng cách giữa Ho - Ha. Đường phân phối màu đậm bên trái thể hiện giả thuyết Ho, đường màu nhạt bên phải thể hiện giả thuyết Ha. Vùng diện tích màu đậm là xác suất sai lầm loại 1 và vùng diện tích màu nhạt thể hiện xác suất sai lầm loại 2. Chúng ta có thể nhận xét với cùng cỡ mẫu, nguy cơ sai lầm loại 2 càng tăng nếu Ha càng gần Ho. Cần phải tăng cỡ mẫu để phân biệt được Ha và Ho (giảm nguy cơ sai lầm loại 2) khi Ha gần Ho

Đăng nhận xét

Tin liên quan

    -->