Bài 15 Hướng dẫn Lấy mẫu điều tra

Trên nguyên tắc, chúng ta chỉ có thể có những kết luận có giá trị về một dân số nào đó nếu chúng ta khảo sát hoàn toàn dân số đó. Tuy vậy, điều này sẽ gây ra một số những hạn chế về nguồn tài nguyên và về vấn đề về đạo đức.

Một điều may mắn là những phương pháp thống kê sẽ cho phép chúng ta có thể rút ra những kết luận có giá trị về dân số (với một độ tin cậy nhất định) mà chỉ cần khảo sát một phần dân số đó. Phương pháp lấy mẫu là phương pháp rút chọn một phần của dân số sao cho việc khảo sát mẫu đó cho phép chúng ta rút ra những kết luận về dân số. Những nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số.

Mục tiêu của bài này:

(i) Phân biệt được phương pháp lấy mẫu xác suất và lấy mẫu không xác suất

(ii) Liệt kê  5 sơ đồ lấy mẫu xác suất thường dùng và các ưu khuyết điểm của nó

(iii) Trình bày được các bước tiến hành của 5 sơ đồ lấy mẫu xác suất

(iv) Lập được một danh sách dân số nghiên cứu bằng cách rút chọn mẫu ngẫu nhiên đơn.

Có nhiều phương pháp để đảm bảo tính đại diện của mẫu: Chúng ta có thể dùng trực giác để kết luận về tính đại diện của mẫu. Thí dụ như chúng ta có thể cho rằng huyện An Phú tỉnh An giang là đại diện cho vùng sinh thái lũ lụt của vùng đồng bằng sông Cửu Long. Tuy nhiên tính đại diện theo sự đánh giá trực giác có thể không được tất cả mọi người đồng ý. Một cách khác tốt hơn để đảm bảo tính đại diện bằng cách chọn mẫu xác suất.

Mẫu xác suất là mẫu rút từ dân số theo cách sao cho mọi phần tử trong dân số đều có một xác suất được đưa vào mẫu. Năm phương pháp chọn mẫu xác suất thường được dùng phổ biến nhất trong những cuộc điều tra ở địa phương hay có quy mô nhỏ là:

1. Lấy mẫu ngẫu nhiên đơn (Single random Sampling)

2. Lấy mẫu hệ thống (systemic sampling)

3. Lấy mẫu phân tầng (Stratified sampling)

4. Lấy mẫu cụm (Cluster sampling)

5. Lấy mẫu nhiều bậc (Multistage sampling)

Trước khi tiến hành lấy mẫu, trước tiên ta cần phải xác định đơn vị nghiên cứu. Ðơn vị nghiên cứu (study unit) là đơn vị căn bản nhất hay nhỏ nhất mà cuộc nghiên cứu quan tâm

Trong cuộc điều tra, đơn vị lấy mẫu là nơi mà người nhân viên điều tra phải đến thăm viếng để phỏng vấn, khám lâm sàng và thu thập các thông tin khác. Ðơn vị nghiên cứu có thể là một bệnh nhận, một hộ gia đình, một ngôi nhà, một làng, một xã hay có thể là một đơn vị hành chánh lớn hơn. Tập hợp tất cả những đơn vị nghiên cứu hợp lệ trong dân số được gọi là khung mẫu (sampling frame).

Thí dụ: Trong nghiên cứu về trọng lượng trung bình của trẻ sơ sinh trong năm 1997 của Quận 11, thành phố Hồ Chí Minh, đơn vị nghiên cứu là những đứa trẻ sơ sinh. Khung mẫu là tất cả các đứa trẻ sơ sinh sinh trong năm 1997 của các gia đình cư  ngụ tại Q11, thành phố Hồ Chí Minh.

Trong nghiên cứu về tỉ lệ sử dụng các biện pháp sinh đẻ kế hoạch ở huyện Châu thành tỉnh Cần thơ. Ðơn vị nghiên cứu là các cặp vợ chồng. Khung mẫu là tất cả các cặp vợ chồng cư  ngụ tại huyện Châu thành, tỉnh Cần thơ.

Trong nghiên cứu về số hộ có cầu tiêu hợp vệ sinh ở Tỉnh Sóc trăng. đơn vị nghiên cứu là ngôi nhà. Khung mẫu là tất cả các ngôi nhà trong tỉnh Sóc Trăng.

Các phương pháp lẫy mẫu xác suất:

1. Mẫu ngẫu nhiên đơn:

Mẫu có cỡ mẫu n được rút từ trong dân số có N phần tử sao cho mọi cách lấy mẫu cỡ n đều có một xác suất lựa chọn như nhau, mẫu đó được gọi là mẫu ngẫu nhiên đơn.

Phương pháp lẫy mẫu còn được chia theo 2 loại: phương pháp lấy mẫu có hoàn lại và lấy mẫu không hoàn lại. Trong phương pháp lấy mẫu hoàn lại,một phần tử sau khi được rút chọn để đưa vào mẫu vẫn có khả năng được rút chọn thêm. Như vậy, một phần tử có thể làm đại diện cho dân số 1, 2, 3 hay nhiều hơn lần. Trong phương pháp lấy mẫu không hoàn lại, những phần tử được rút chọn rồi sẽ không được chọn một lần nữa. Do đó một phần tử có thể được đưa vào mẫu tối đa 1 lần.

Ðể có thể lấy mẫu ngẫu nhiên đơn, trước tiên ta cần xây dựng danh sách các đơn vị nghiên cứu trong dân số (khung mẫu). Mỗi tên trên danh sách phải có một con số và con số này không được dùng cho các tên khác.

Phương pháp chọn mẫu ngẫu nhiên đơn bằng cách rút thăm:

Cắt giấy thành những hình vuông đủ lớn để viết (thường dùng gấy vuông có cạnh từ 4 đến 5 cm). Ở mảnh giấy đầu ghi “1”, mảnh giấy thứ nhì ghi “2”, trên mảnh giấy thứ ba ghi “3” và tiếp tục như thế cho đến số cuối cùng trong bản danh sách điều tra. Sau khi gấp kĩ và riêng rẽ các tờ giấy để không ai có thể nhìn thấy số. Ðặt tất cả các mảnh giấy đã gấp vào hộp và lắc kĩ vài lần. Khi đã lắc xong, để một người nào đó rút những mảnh giấy đã gập tùy theo yêu cầu của cỡ mẫu.

Mở các mảnh giấy đã được rút và chọn trong bản danh sách điều tra những tên có số giống với số trên tờ giấy được rút chọn.Cần lưu ý: Mảnh giấy chỉ có một số, số trên tờ giấy phải tương ứng với số trong danh sách không thêm số nào và bớt số nào.

Chọn số ngẫu nhiên đơn dùng bảng số ngẫu nhiên

Cách dùng bảng số ngẫu nhiên: Ða số các bảng số ngẫu nhiên gồm nhiều khối, mỗi khối có 5 số, mỗi số có 5 chữ số. Những số này có thể đọc theo bất kì thứ tự nào, lên hoặc xuống theo cột hay qua hay qua trái của hàng. Người ta chọn các số trong bảng này và tiếp theo đó đưa vào nghiên cứu những tên trong danh sách có số trùng với số được chọn. Ðôi khi số ngẫu nhiên được bắt gặp 2 hay nhiều lần nhưng khi đó người nghiên cứu bỏ qua số này. Ðôi khi người đọc được số trong bảng số ngẫu nhiên lớn hơn số lớn nhất có trong danh sách (ngoài danh sách, "lớn quá cỡ thợ mộc") thì người  nghiên cứu cũng không xét đến số này.

Thao tác sử dụng các bảng số ngẫu nhiên:

Bước 1:

Xác định các chữ số có trong số lớn nhất của bản danh sách điều tra. Thí dụ, nếu có 317 đối tượng trong khung mẫu, số lớn nhất là 317 và số này có 3 chữ số.

Bước 2:

Bảng chữ số ngẫu nhiên thường chứa 5 chữ số, như vậy nó thường lớn hơn cần thiết cho các cuộc điều tra. Những số này có thể biến đổi thành số nhỏ hơn bằng cách loại bỏ một số các chữ số. Thí dụ nếu ta cần 3 chữ số, thì một số 5 chữ số (như 44983) có thể trở thành số có 3 chữ số bằng những phương pháp sau:

(i) loại bỏ 2 chữ số cuối (trở thành 449)

(ii) loại bỏ chữ số đầu và chữ số cuối (trở thành 498)

(iii) loại bỏ 2 chữ số đầu (như 983)

Tất cả 3 số này đều là những số ngẫu nhiên 3 chữ số hợp lệ

Lưu ý: Chúng ta có thể tìm một bảng số ngẫu nhiên bằng cách tra cứu trong sách thống kê. Chúng ta cũng có thể tạo ra bảng số ngẫu nhiên bằng cách dùng chương trình Epi-Info. 

Bước 3:

Chọn một số có chữ số mong muốn. Chọn đố tượng tương ứng trên bản danh sách điều tra để đưa vào nghiên cứu trừ khi:

(i) số được chọn đã được chọn từ trước

(ii) Số được chọn lớn hơn số lớn nhất có trong danh sách.

Bước 4:

Khảo sát số bên cạnh trong bảng số ngẫu nhiên và tiến hành như trong bước 2 và 3, số tiếp theo có thể được chọn bất kì chỗ nào trong bảng số ngẫu nhiên. Cách đơn giản nhất là đi xuống dọc theo cột (nếu hết cột này thì lại đếm qua cột bên cạnh) cho đến khi số nghiên cứu được chọn từ danh sách điều tra bằng với số mẫu cần thiết. Ðiểm cần lưu ý là chọn hàng và cột đầu tiên phải ngẫu  nhiên.

Ưu và khuyết của phương pháp lấy mẫu ngẫu nhiên đơn:

Phương pháp lấy mẫu ngẫu nhiên đơn đòi hỏi phải có danh sách của toàn bộ dân số khảo sát. Danh sách này có thể không có hoặc có nhưng không hoàn toàn và lỗi thời. Nếu không có được danh sách hay chi phí lập danh sách rất tốn kém thì không thể sử dụng phương pháp ngẫu nhiên được. Ðây là khuyết điểm chính của phương pháp lẫy mẫu này.

Tuy vậy, khi có hay khi có thể lập danh sách của toàn bộ dân số một cách dễ dàng thì phương pháp này là phương pháp lấy mẫu đơn giản và có tính đại diện cao.

2. Phương pháp lấy mẫu hệ thống:

Thay vì rút chọn ngẫu nhiên người ta có thể chọn những đối tượng có một khoảng cách nhất định, phương pháp này được gọi là phương pháp rút chọn hệ thống. Thí dụ, lấy mẫu hệ  thống là chọn các đối tượng mang số  8, 17, 26, 35, 44, 53, ... vào mẫu. Phương pháp lấy mẫu hệ thống cũng có giá trị như lấymẫu ngẫu nhiên nếu không có tính tuần hoàn của các đối tượng. Tuy vậy, cần biết rằng phương pháp mẫu ngẫu nhiên đơn luôn luôn tốt hơn bởi vì nó không cần thiết giả định này. Phương pháp lấy mẫu hệ thống đặc biệt có giá trị khi chúng ta không thể có được toàn bộ danh sách  lấy mẫu ở vào thời điểm lấy mẫu. Thí dụ như chúng ta có thể lấy mẫu hệ thống để chọn những bệnh nhân có số hồ sơ nhập viện cách nhau một khoảng nhất định.

3. Phương pháp lấy mẫu phân tầng

Lấy mẫu phân tầng được dùng khi dân số bao gồm các nhóm khác biệt hay tầng (strata), khác nhau về các đặc tính nghiên cứu và bản thân sự khác biệt này cũng cần quan tâm. Những thí dụ thường gặp là các nhóm tuổi, nhóm giới tính hay những vùng địa lí hay sinh thái khác nhau trong quốc gia. Một mẫu ngẫu nhiên đơn  được rút ra từ  mỗi tầng để đảm bảo rằng chúng đủ đại diện. Ước lượng chung cũng sẽ chính xác hơn dựa vào phương pháp lấy mẫu ngẫu nhiên đơn không xét đến cấu trúc của các  nhóm nhỏ trong dân số. Chiến lược thường dùdng là chọn các cá nhân trong tầng với tỉ lệ như nhau, nghĩa là có cùng chung một phân số lấy mẫu (sampling fraction) cho các tầng. Dù vậy, đôi khi cũng cần phải thay đổi để cỡ mâu của mỗi tầng không quá nhỏ.

Bảng 1. Kết quả một mẫu phân tầng được tiến hành để ước lượng tỉ suất bệnh  hiện mắc của một bệnh trong một quốc gia có ba vùng địa lí chính. Tỉ suất bệnh hiện mắc chung được tính bằng cách cộng số các người bệnh ước lượng được trong mỗi vùng và chia cho tổng số dân 

(Câu hỏi thảo luận: Các tầng có cùng một phân số lấy mẫu hay không?)

Khu vực

Dân số

Cỡ mẫu

Số bị bệnh

          Tỉ suất               bệnh                 hiện  mắc

        Tổng số             bệnh ước           lượng

Ðồng bằng ven biển

1500000

200

120

0,6

900000

Vùng núi

150000

50

5

0,1

15000

Bán hoang mạc

300000

50

15

0,3

90000

Tổng số

1950000

300

140

0,52*

1005000

Thí dụ: Người ta muốn ước lượng tỉ suất hiện mắc của một bệnh trong một quốc gia với 3 vùng sinh thái chính, vùng đồng bằng ven biển, vùng núi và vùng bán hoang mạc. Bởi vì dân số  phân phối đồng đều trong quốc gia, và bởi vì người ta nghĩ rằng đặc trưng sinh thái có thể ảnh hưởng đến tỉ suất hiện mắc của bệnh, người ta chọn mẫu phân tầng. Bảng 1 trình bày kết quả thu được với tỉ suất mắc toàn bộ trong mỗi vùng.

Tỉ suất mắc toàn bộ chung được tính bằng cách ước lượng số người bị bệnh trong mỗi vùng. Thí dụ trong vùng đồng bằng ven biển tỉ suất hiện mắc của mẫu là 120/200 hay 0,6. Áp dụng số này cho tổng số dân số trong vùng đồng bằng ven biển cho số ước lượng 0,5 x 150.000 = 90.000. Số người bị bệnh của vùng núi và vùng hoang mạc được tính theo cách tương tự là 15000 và 90000. Tổng số người mắc bệnh trong toàn quốc gia là 1.050.000. Kích thước dân số là 1.950.000 cho nên tỉ số mắc toàn bộ chung là 1.050.000/1.950.000 = 0,52.

Lưu ý rằng con số này không giống với tỉ suất hiện mắc của mẫu là 140/300 = 0,47. Hai con số này chỉ giống nhau khi dùng phân số lấy mẫu  giống nhau cho mỗi tầng (nhưng điều này không đúng trong trường hợp này). Việc tính toán sai số chuẩn của tỉ suất mắc hiện mắc cho toàn bộ dân số dựa trên sự kết hợp các sai số chuẩn của các tỉ suất hiện mắc của mỗi vùng. 

4. Lấy mẫu cụm

Nếu chi phí phụ trội không nhiều, nên điều tra tất cả các đơn vị bậc hai từ một đơn vị bậc một được chọn trong lược đồ lấy mẫu hai bậc. Ðiều đó được gọi là lấy mẫu cụm (cluster sampling) và đơn vị lấy mẫu bậc một được gọi là cụm (cluster) trong trường hợp này. Có thể đạt được lược đồ xác suất bằng nhau bằng cách lấy mẫu ngẫu nhiên đơn các cụm bất kể chúng có kích thươc bằng nhau hay không.

Lấy mẫu cụm được dùng nếu có ích lợi được phân phát cho mọi người tham gia và nếu chỉ phân phát quyền lợi cho một số thành viên của đơn vị là không thích hợp và không đạo đức. 

Thí dụ, trong khi lấy mẫu trường để ước lượng tỉ suất hiện mắc của bệnh khi muốn sử dụng một phương pháp điều trị có hiệu quả cho tất cả người bị bệnh, người ta sẽ khám cho tất cả các học sinh trong các trường được chọn chứ không khám một mẫu trong đó.

5. Lấy mẫu nhiều bậc

Lấy mẫu nhiều bậc được tiến hành trong trong nhiều bậc dùng các cấu trúc đẳng cấp (hierarchical structure) của dân số. 

Thí dụ, lấy mẫu 2 bậc (two stage sampling) có thể bao gồm lần thứ nhất lấy một mẫu ngẫu nhiên các trường học và sau đó lấy mẫu ngẫu nhiên các trẻ em trong các trường đã được chọn. Các trường hợp được gọi là đơn vị bậc một (first stage units hay primary sampling units) và trẻ em là đơn vị bậc hai (second stage units - secondary sampling units). Ưu điểm là tài nguyên có thể tập trung tại một số địa điểm và không cần cơ cấu lấy mẫu cho toàn dân số. Cần danh sách các đơn vị bậc một nhưng chỉ cần danh sách các đơn vị bậc hai của các đơn vị bậc một được chọn. Khuyết điểm là ước lượng chung kém chính xác hơn khi dựa trên lấy mẫu ngẫu nhiên đớn có cùng một cỡ mẫu. Nói cách khác, để đạt được cùng độ chính xác như lấy mẫu ngẫu nhiên đơn cần một cỡ mẫu lớn hơn.

Lấy mẫu ở bậc hai gồm lấy các mẫu ngẫu nhiên đơn có cùng kích thước từ các các đơn vị bậc một. Phương pháp lấy mẫu bậc một phụ thuộc vào chúng có cùng số các đơn vị lấy mẫu bậc hai hay không. Nếu có, có thể lấy mẫu ngẫu nhiên đơn.  Nếu chúng có cỡ mẫu khác nhau, có thể đạt được lược đồ epsem, bằng cách lấy mẫu xác suất tỉ lệ với kích thước (probability proportional to size _ PPS). Thí dụ, nếu một trường học có nhiều gấp đôi học sinh so với trường kia thì nó có cơ hội được chọn gấp đôi. Lấy mẫu PPS được tiến hành bằng cách thay thế (with replacement), có nghĩa là sau khi một đơn vị bậc một được chọn nó vần còn được rút chọn  và có thể được chọn lần nữa. Khi một đơn vị bậc một được chọn hai lần, chọn mẫu đơn vị bậc hai nhiều gấp đôi. Tác dụng chung là cho mỗi đơn vị bậc hai trong dân số một cơ hội được chọn bằng nhau.

Các bước tiến hành để lấy mẫu PPS được minh hạo trong ví dụ sau:

Giả sử chúng ta có 10 bệnh viện  với số hồ sơ trong mỗi bệnh viện được trình bày trong bảng sau:

Cụm

Số hồ sơ

Số hồ sơ tích lũy

Số ngẫu nhiên tương ứng

1

4288

4288

1-4288

2

5036

9324

4289-9324

3

1178

10502

9325-10502

4

       638

11140

10503-11140

5

27010

38150

11141-38150

6

1122

39272

38151-39272

7

2134

41406

39273-41406

8

1824

43230

41407-43230

9

4672

47902

43231-47902

10

2154

50056

47903-50056

Tổng số

50056

50056

 

Ðể chọn 4 cụm và điều tra 100 hồ sơ trong mỗi cụm (như vậy tổng cỡ mẫu là 400 hồ sơ) có thể tuân theo các  sau:

- Tính số hồ sơ lũy tích

- Gán một cụm cho các số ngẫu  nhiên từ số hồ sơ lũy tích của cụm trước đó +1 đến số hồ sơ lũy tích của cụm đó.

- Rút  chọn ngẫu nhiên 4 số  từ 1 đến 50056: thí dụ như 36699; 35700; 11883; 4285 và ứng với mỗi số chọn 100 hồ sơ từ  cụm tương ứng với các số này. Trong trường hợp này chúng ta sẽ điều tra 300  hồ sơ của bệnh viện 5 và 100 hồ sơ từ cụm số 1.

Cũng cần lưu ý chúng ta có thể chọn các số ngẫu nhiên bằng phương pháp lấy mẫu hệ thống như thường được thực hiện trong chương trình tiêm chủng mở rộng (EPI program).

Có thể có lược đồ lấy mẫu có nhiều bậc hơn, thí dụ như chọn tỉnh, quận, đường phố và cuối cùng là nhà. Phương pháp lấy mẫu này được gọi là lấy mẫu nhiều bậc (multi-stage sampling).

Phương pháp lấy mẫu

Thí dụ 2

Lấy mẫu phân tầng được đề nghị trong thí dụ 1 để ước lượng tỉ suất hiện mắc toàn bộ trong một quốc gia với 3 vùng chính có thể được cải tiến thành cộng đồng thứ nhất (thành phố, làng, ấp) và các nhà trong vùng, khám tất cả các thành viên trong nhà. Lược đồ sẽ là sự kết hợp giữa lấy mẫu phần tầng (khu vực) lấy mẫu hai bậc (cộng đồng và nhà) và lấy mẫu cụm (tất cả các thành viên trong nhà).

Đăng nhận xét

Tin liên quan

    -->