Có hai phương pháp chọn mẫu là chọn mẫu không xác suất và chọn mẫu xác suất. Mẫu được lựa chọn theo phương pháp xác suất mang tính đại diện cao hơn cho quần thể.
1. Mẫu không xác suất [non-probability sampling]
Chọn mẫu không xác suất là người nghiên cứu chọn các đối tượng tham gia nghiên cứu một cách chủ định, dựa trên các cá thể có sẵn khi thu thập số liệu và không tính cỡ mẫu. Chọn mẫu không xác suất có thể là chọn mẫu thuận tiện, chọn mẫu chỉ tiêu hay chọn mẫu có mục đích; nhằm thăm dò hay tìm hiểu sâu một vấn đề vào đó của quần thể [kiến thức, thái độ, niềm tin…]
2. Mẫu xác suất [probability sampling]
Mẫu xác suất là mẫu mà trong đó các cá thể được lựa chọn ngẫu nhiên, mỗi cá thể trong quần thể nghiên cứu đều có cơ hội được lựa chọn ngang nhau và không phụ thuộc vào ý kiến chủ quan của người nghiên cứu.
2.1. Mẫu ngẫu nhiên đơn
Chọn mẫu ngẫu nhiên đơn là phương pháp đơn giản nhất của mẫu xác suất. Quy trình chọn mẫu ngẫu nhiên đơn bao gồm: [1] lập danh sách toàn bộ các đơn vị mẫu/ đối tượng trong quần thể nghiên cứu và đánh số thứ tự [khung mẫu] [2] quyết định số lượng mẫu nghiên cứu và [3] dùng phương pháp bốc thăm hoặc bảng số ngẫu nhiên để chọn.
2.2. Mẫu ngẫu nhiên hệ thống
Các đối tượng trong mẫu hệ thống được lựa chọn bằng cách áp dụng một khoảng cách hằng định [bước nhảy k] theo sau bởi một sự bắt đầu ngẫu nhiên. Các bước chọn mẫu hệ thống:
Bước 1: Lập danh sách các đối tượng trong quần thể nghiên cứu.
Bước 2: Hệ số khoảng cách k: k=N/n [N là số các cá thể trong quần thể, n là cỡ mẫu]
Bước 3: Chọn đối tượng nghiên cứu đầu tiên có số thứ tự là i bằng cách bốc thăm hoặc chọn bảng số ngẫu nhiên một số trong khoảng từ 1 đến k.
Bước 4: Tìm các đối tượng nghiên cứu tiếp theo theo nguyên tắc số thứ tự của đối tượng sau bằng số thứ tự của đối tượng liền trước cộng với hệ số k cho đến khi hoàn thành cỡ mẫu. Đối tượng nghiên cứu thứ n có số thứ tự là i + [n-1] k.
2.3. Mẫu ngẫu nhiên phân tầng
Trong chọn mẫu theo phương pháp ngẫu nhiên phân tầng, quần thể nghiên cứu được chia thành các nhóm riêng rẽ được gọi là tầng, mẫu nghiên cứu là các cá thể được lựa chọn một cách ngẫu nhiên trong các tầng. Tổng số cá thể được chọn nghiên cứu trong mỗi tầng phải tương ứng với tỷ lệ quần thể có trong các tầng. Các bước chọn mẫu ngẫu nhiên phân tầng:
Bước 1: Lập danh sách các đối tượng trong quần thể nghiên cứu.
Bước 2: Phân chia quần thể nghiên cứu thành các tầng khác nhau căn cứ vào các đặc điểm như giới, nhóm tuổi, tình trạng hôm nhân…đảm bảo giữa các tầng không có sự chồng chéo.
Bước 3: Quyết định số cá thể được lựa chọn ở mỗi tầng. Cỡ mẫu ở mỗi tầng phải tỷ lệ thuận với kích cỡ của từng tầng trong quần thể.
Bước 4: Tiến hành phương pháp chọn mẫu ngẫu nhiên đơn trong từng tầng.
2.4. Mẫu chùm
Mẫu chùm là mẫu đạt được bởi việc lựa chọn ngẫu nhiên các nhóm cá thể được gọi là chùm từ quần thể nghiên cứu. Các bước chọn mẫu chùm:
Bước 1: Xác định các chùm. Chùm thường được hình thành bởi các các thể tập hợp gần nhau và thường có chung một số đặc điểm [gia đình, làng xã, trường học…].
Bước 2: Lập danh sách tất cả các chùm.
Bước 3: Chọn ngẫu nhiên một số chùm vào mẫu.
Bước 4: Chọn đối tượng nghiên cứu. Một là, tất cả các cá thể trong các chùm đã chọn sẽ được nghiên cứu. Hai là, liệt kê danh sách các cá thể rong các chùm đã chọn và áp dụng phương pháp chọn mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi chùm để chọn các cá thể vào mẫu.
Chương 2. Thu thập dữ liệu
•
17
Bản chất phá hủy đơn vị mẫu của một số quá trình kiểm tra nhất định.
Quá trình lấy mẫu bắt đầu bằng việc xác định khung lấy mẫu. Khung lấy mẫu là sự
liệt kê các đơn vị tạo thành tổng thể. Các khung lấy mẫu là các nguồn dữ liệu chẳng hạn như
các danh sách tổng thể, các danh bạ điện thoại, hay các bản đồ. Các mẫu được lấy ra từ các
khung này. Các kết quả không chính xác hoặc có thành kiến có thể tạo ra nếu loại trừ một số
nhóm nhất định của tổng thể. Sử dụng các khung lấy mẫu khác nhau để tạo ra dữ liệu có thể
dẫn đến các kết luận trái ngược nhau.
Sau khi lựa chọn khung lấy mẫu, chúng ta rút ra một mẫu từ khung đó. Trong sơ đồ
sau minh họa hai loại mẫu: mẫu ngẫu nhiên và mẫu không ngẫu nhiên.
Các loại mẫu được sử dụng
Các mẫu không ngẫu nhiên
Mẫu thuận tiện
Các mẫu ngẫu nhiên
Mẫu
Mẫu hạn ngạch ngẫu nhiên đơn giản
Mẫu hệ thống Mẫu phân tầng
Mẫu phân cụm
2.4.1 Các mẫu ngẫu nhiên
2.4.1.1
Mẫu ngẫu nhiên đơn giản [Simple random sample]
Trong một mẫu ngẫu nhiên đơn giản, mọi đơn vị trong khung lấy mẫu đều có cơ hội được lựa
chọn vào trong mẫu là như nhau. Lấy mẫu ngẫu nhiên đơn giản là phương pháp lấy mẫu ngẫu
nhiên cơ bản nhất. Nó tạo cơ sở cho các phương pháp lấy mẫu ngẫu nhiên khác.
Với phương pháp lấy mẫu ngẫu nhiên đơn giản, chúng ta ký hiệu kích thước mẫu là n
và kích thước khung lấy mẫu là N. Chúng ta đánh số các đơn vị trong khung lấy mẫu từ 1 đến
N. Xác suất mà chúng ta sẽ lựa chọn bất kỳ một đơn vị nào trong khung lấy mẫu trên lần rút
thăm đầu tiên là 1/N.
17
©hlv-2012
17
Chương 2. Thu thập dữ liệu
18
Chúng ta lựa chọn các mẫu có hoàn lại hoặc không có hoàn lại. Lấy mẫu có hoàn lại
có nghĩa là sau khi chúng ta lựa chọn một đơn vị, chúng ta hoàn trả nó vào trong khung lấy
mẫu.
Lấy mẫu không hoàn lại có nghĩa là sau khi chúng ta đã lựa chọn một đơn vị thì đơn
vị đó không thể được lựa chọn lại. Xác suất mà chúng ta sẽ lựa chọn bất kỳ một đơn vị nào
trong khung lấy mẫu trên lần rút thăm đầu tiên là 1/N. Xác suất mà chúng ta sẽ lựa chọn bất
kỳ một đơn vị nào không phải là đơn vị đã được lựa chọn trước đây trong lần rút thăm thứ hai
là 1/N-1. Quá trình tiếp tục cho đến khi chúng ta đã lựa chọn được mẫu có kích thước n mong
muốn.
Quá trình lấy mẫu được thực hiện bằng cách rút thăm ngẫu nhiên hoặc bằng cách sử dụng
các số ngẫu nhiên mà được tạo ra bởi các máy tính hoặc các bảng số ngẫu nhiên.
Ví dụ: Một công ty có một bộ chứng từ kế toán được đánh số từ 12290 đến 13110
Một đoạn trích của một bảng số ngẫu nhiên như sau:
45692
82390
65555
95594
46246
29764
44779
00199
79842
86193
02718
91480
Sử dụng đoạn trích của bảng số ngẫu nhiên ở trên và phương pháp lấy mẫu ngẫu nhiên
giản đơn để lấy ra một mẫu gồm 6 chứng từ từ tổng thể trên.
Giải: Kích thước của tổng thể: N = 13110 – 12290 + 1 = 821
Lấy các số có ba chữ số mỗi lần ta có: 456, 928, 239, 065, 555, 955, 944, 624, 629,...
Loại bỏ các số trùng nhau và các số nằm ngoài khoảng 001 – 821, chúng ta sẽ thu được mẫu
sau: 456, 239, 065, 555, 624, 629.
2.4.1.2
Mẫu ngẫu nhiên theo hệ thống [Systematic sample]
Trong một mẫu ngẫu nhiên theo hệ thống, chúng ta chia N đơn vị trong khung lấy mẫu ra
thành n nhóm gồm k đơn vị, trong đó:
k=
N
n
Chúng ta làm tròn k đến số nguyên gần nhất. Để lựa chọn một mẫu ngẫu nhiên theo hệ
thống, chúng ta chọn đơn vị đầu tiên là đơn vị sẽ được lấy ngẫu nhiên từ k đơn vị đầu tiên
18
©hlv-2012
18
Chương 2. Thu thập dữ liệu
19
trong khung lấy mẫu. Sau đó chúng ta lựa chọn n – 1 đơn vị còn lại bằng cách chọn ra các đơn
vị tiếp theo với bước nhảy k thống nhất.
Nếu khung lấy mẫu có chứa một danh sách các tờ séc không đánh số hay các hóa đơn
bán hàng, để lấy ra một mẫu ngẫu nhiên theo hệ thống là nhanh hơn và dễ dàng hơn so với
việc lấy ra một mẫu ngẫu nhiên đơn giản. Lấy mẫu ngẫu nhiên theo hệ thống cũng là một cơ
chế thuận tiện cho việc thu thập các dữ liệu từ các cuốn sổ điện thoại và các đơn vị liên tiếp đi
ra khỏi một dây chuyền sản xuất.
Để lấy ra một mẫu ngẫu nhiên theo hệ thống n = 40 từ một tổng thể N = 800 công
nhân, chúng ta chia khung lấy mẫu 800 thành 40 nhóm, mỗi nhóm có chứa 20 công nhân. Sau
đó chúng ta lựa chọn một số ngẫu nhiên từ 20 công nhân đầu tiên. Ba chín công nhân tiếp
theo được lựa chọn tại những bước nhảy thống nhất là k = 20. Ví dụ, nếu đơn vị đầu tiên
chúng ta lựa chọn là 008, thì các lựa chọn tiếp theo của chúng ta sẽ là: 028, 048, 068, 088,
108, ..., 768, và 788.
Mặc dù chúng là đơn giản hơn, tuy nhiên các phương pháp lấy mẫu ngẫu nhiên đơn
giản và lấy mẫu ngẫu nhiên theo hệ thống nói chung là kém hiệu quả hơn các phương pháp
lấy mẫu ngẫu nhiên phức tạp hơn khác. Thậm trí, phương pháp lấy mẫu ngẫu nhiên theo hệ
thống dễ mắc sai số hệ thống khi danh sách của tổng thể không được sắp xếp một cách ngẫu
nhiên mà lại theo một trật tự chủ quan nào đó. Để kế hoạchắc phục hạn chế này, chúng ta có
thể sử dụng phương pháp lấy mẫu ngẫu nhiên phân tầng hoặc phương pháp lấy mẫu ngẫu
nhiên phân cụm.
2.4.1.3
Mẫu ngẫu nhiên phân tầng [stratified sample]
Trong một mẫu ngẫu nhiên phân tầng, trước tiên chúng ta chia N đơn vị trong khung lấy mẫu
thành những nhóm đồng nhất, và các mẫu ngẫu nhiên đơn giản được lấy ra từ mỗi nhóm, dựa
trên kích thước và độ phân tán của mỗi nhóm đó. Phương pháp này hiệu quả hơn phương
pháp lấy mẫu ngẫu nhiên đơn giản hay phương pháp lấy mẫu ngẫu nhiên theo hệ thống bởi vì
chúng ta bảo đảm có sự đại diện của các đơn vị trong toàn tổng thể.
Ví dụ: Một công ty muốn lựa chọn một mẫu 32 công nhân từ một tổng thể 800 công nhân
viên để ước lượng các chi phí tài trợ khám răng của công ty. Trong số các công nhân viên của
công ty, 25% là các cán bộ quản lý và 75% không phải là cán bộ quản lý. Chúng ta sẽ lựa
chọn một mẫu ngẫu nhiên phân tầng như thế nào để cho mẫu có sự đại diện hợp lý của các
cán bộ quản lý?
19
©hlv-2012
19
Chương 2. Thu thập dữ liệu
20
Nếu chúng ta giả thiết tỷ lệ phản hồi là 80%, chúng ta cần phải phân phát 40 phiếu
điều tra để có được 32 phiếu phản hồi mong muốn. Khung lấy mẫu bao gồm một danh sách
tên và số hộp thư công ty của tất cả 800 công nhân viên trong hồ sơ nhân sự của công ty. Bởi
vì 25% công nhân viên là quản lý, trước tiên chúng ta phải chia khung tổng thể thành hai
nhóm: một nhóm liệt kê 200 cán bộ quản lý và một nhóm liệt kê 600 công nhân viên không
phải là quản lý. Bởi vì nhóm thứ nhất gồm 200 cán bộ quản lý, chúng ta đánh số các cán bộ
quản lý từ 001 đến 200. bởi vì nhóm thứ hai có chứa một danh sách 600 công nhân viên
không phải là quản lý nên chúng ta đánh số các công nhân trong nhóm này từ 001 đến 600.
Để lựa chọn một mẫu ngẫu nhiên phân tầng tỷ lệ với các kích thước của mỗi nhóm,
chúng ta lựa chọn 25% của toàn bộ mẫu từ nhóm thứ nhất và 75% của toàn bộ mẫu từ nhóm
thứ hai. Chúng ta lấy hai mẫu ngẫu nhiên đơn giản riêng biệt, mỗi mẫu được dựa trên một
điểm khởi đầu ngẫu nhiên riêng biệt từ một bảng số ngẫu nhiên. Trong mẫu thứ nhất chúng ta
lựa chọn 10 cán bộ quản lý từ danh sách 200 cán bộ quản lý trong nhóm thứ nhất, và trong
mẫu thứ hai chúng ta lựa chọn 30 công nhân viên không phải là quản lý từ danh sách 600
công nhân trong nhóm thứ hai. Sau đó chúng ta kết hợp các kết quả để phản ánh kết cấu của
toàn bộ công ty.
2.4.1.4
Mẫu ngẫu nhiên phân cụm [cluster sample]
Trong một mẫu ngẫu nhiên phân cum, chúng ta chia N đơn vị trong khung lấy mẫu thành một
số cụm sao cho mỗi cụm đại diện cho toàn bộ tổng thể. Sau đó chúng ta lấy ra một mẫu ngẫu
nhiên các cụm và tiến hành nghiên cứu tất cả các đơn vị trong mỗi cụm. Các cụm có thể được
phân chia theo các các đường ranh giới địa lý, như là các tỉnh thành phố, các quận huyện, các
phường xã, các cụm dân cư, các tổ dân phố, hay các khu vực bán hàng.
Lấy mẫu ngẫu nhiên phân cụm thường tiết kiệm chi phí hơn lấy mẫu ngẫu nhiên đơn
giản, đặc biệt là khi tổng thể phân tán rộng theo địa lý. Tuy nhiên, láy mẫu ngẫu nhiên phân
cụm thường đòi hỏi một kích thước mẫu lớn hơn để tạo ra các kết quả có độ chính xác như
các kết quả thu được trong phương pháp lấy mẫu ngẫu nhiên đơn giản hay phương pháp lấy
mẫu ngẫu nhiên phân tầng.
2.4.2 Các phương pháp lấy mẫu không ngẫu nhiên
Trong một mẫu không ngẫu nhiên, chúng ta lựa chọn các đơn vị hay phần tử mà không biết
các xác suất lựa chọn của chúng. Do đó lý thuyết mà đã được xây dựng cho các phương pháp
lấy mẫu ngẫu nhiên không thể được áp dụng cho các mẫu không ngẫu nhiên. Một dạng chính
20
©hlv-2012
20
Chương 2. Thu thập dữ liệu
21
của phương pháp lấy mẫu không ngẫu nhiên là lấy mẫu thuận tiện. Trong phương pháp lấy
mẫu thuận tiện, những đơn vị được lựa chọn để đưa vào trong mẫu trước tiên là vì sự thuận
tiện. Trong một số trường hợp những người tham gia được tự lựa chọn. Ví dụ: nhiều công ty
thực hiện các cuộc điều tra bằng cách cung cấp cho những vị khách viếng thăm website của
họ cơ hội để hoàn thành các mẫu điều tra và trình chúng theo đường điện tử. Người trả lời đối
với các cuộc điều tra này có thể cung cấp một lượng lớn dữ liệu một cách nhanh chóng,
nhưng mẫu chỉ bao gồm những người sử dụng webside tự lựa chọn.
Lấy mẫu theo hạn ngạch là một dạng lấy mẫu thuận tiện của phương pháp lấy mẫu
ngẫu nhiên phân tầng. Tổng thể trước tiên được chia thành các nhóm đồng nhất. Sau đó, các
hạn ngạch được phân bổ cho các nhóm cụ thể, chẳng hạn như nam hoặc nữ, những người
thích thể thao hay không thích thể thao, sao cho có sự đại diện hợp lý của mỗi nhóm trong
mẫu.
Các mẫu không ngẫu nhiên có thể có những ưu điểm nhất định như sự thuận tiện,
nhanh và chi phí thấp. Tuy nhiên, sự thiếu độ chính xác của chúng do những thành kiến trong
lựa chọn và sự thiếu khả năng tổng quát hóa của các kết quả nhiều hơn là sự bù đắp các ưu
điểm này.
Trong một mẫu ngẫu nhiên, chúng ta lựa chọn các đơn vị dựa trên các xác suất đã biết.
Bất cứ khi nào có thể, chúng ta nên sử dụng các phương pháp lấy mẫu ngẫu nhiên. Các mẫu
dựa trên các phương pháp này cho phép chúng ta thực hiện những sự suy diễn không thiên vị
về tổng thể nghiên cứu. Trong thực tế thường rất khó hoặc không thể lấy ra một mẫu ngẫu
nhiên. Tuy nhiên chúng ta phải làm việc theo hướng đạt được một mẫu ngẫu nhiên và chấp
nhận bất kỳ những sự thành kiến nào mà có thể tồn tại.
2.5 Các phương pháp điều tra
2.5.1.1
Phỏng vấn cá nhân trực tiếp
Là phương pháp thu thập dữ liệu bằng cách phỏng vấn những người thuộc đối tượng nghiên
cứu với những câu hỏi đặt ra được cân nhắc rất cẩn thận.
•
Ưu điểm
o Các thông tin chắc chắn thu được, không gặp vấn đề không trả lời
o Thời gian trả lời trung bình.
21
©hlv-2012
21
Chương 2. Thu thập dữ liệu
•
22
Nhược điểm
o Người phỏng vấn cần được đào tạo và phải giám sát.
o Các dữ liệu bị sai lệch khi người phỏng vấn ảnh hưởng đến những người trả lời
thông qua ngôn ngữ cử chỉ hoặc những sự biểu hiện trên nét mặt của anh ta. Ví
dụ một người phỏng vấn bệnh nhân sẽ làm cho người trả lời phải đưa ra những
câu trả lời đối với những câu hỏi một cách vội vàng.
o Rất tốn kém về kinh phí và thời gian nếu mẫu lựa chọn được phân tán rộng
khắp, vì vậy mẫu thường nhỏ.
2.5.1.2
•
Phỏng vấn qua điện thoại
Ưu điểm
o Thời gian trả lời nhanh
o Sự giám sát tương đối dễ dàng
o Chi phí tương đối thấp.
•
Nhược điểm
o Người phỏng vấn cần phải được đào tạo và giám sát ở một mức độ nhất định.
o Chỉ có thể liên lạc được với những người có điện thoại và chỉ khi họ ở bên
cạnh điện thoại.
2.5.1.3
Bản câu hỏi
Là phương pháp thu thập dữ liệu bằng cách gửi các bản câu hỏi tới những người mà chúng ta
muốn thu thập các dữ liệu từ họ.
•
Ưu điểm
o Không cần đào tạo và giám sát người phỏng vấn
o Có thể liên lạc được với một mẫu phân tán rộng khắp
o Chi phí thấp.
•
Nhược điểm
o Thời gian trả lời chậm
22
©hlv-2012
22