Tại sao nó được gọi là số liệu thống kê bootstrap?

Trong hàng trăm năm, con người đã cải thiện hoàn cảnh của mình bằng cách tự vươn lên bằng chiến lợi phẩm của mình. Chà, bây giờ bạn có thể nâng cao kiến ​​thức thống kê của mình bằng cách nâng cao bản thân bằng chiến lược của mình. Minitab Express có 7 phân tích bootstrapping khác nhau có thể giúp bạn hiểu rõ hơn về phân phối lấy mẫu dữ liệu của mình.  

Phân phối lấy mẫu mô tả khả năng thu được từng giá trị có thể có của một thống kê từ một mẫu ngẫu nhiên của tổng thể—nói cách khác, tỷ lệ của tất cả các mẫu ngẫu nhiên có kích thước đó sẽ cho giá trị đó. Bootstrapping là phương pháp ước tính phân phối lấy mẫu bằng cách lấy nhiều mẫu thay thế từ một mẫu ngẫu nhiên. Những mẫu lặp đi lặp lại này được gọi là mẫu lại. Mỗi mẫu lại có cùng kích thước với mẫu ban đầu

Mẫu ban đầu đại diện cho dân số mà nó được rút ra. Do đó, các mẫu lại từ mẫu ban đầu này đại diện cho những gì chúng tôi sẽ nhận được nếu chúng tôi lấy nhiều mẫu từ dân số. Phân phối bootstrap của một thống kê, dựa trên các mẫu lại, biểu thị phân phối lấy mẫu của thống kê

Khởi động và chạy lùi

Ví dụ: hãy ước tính phân phối lấy mẫu của số yard mỗi lần thực hiện đối với ngôi sao của Penn State chạy lùi Saquon Barkley. Xem qua tất cả 182 lần thực hiện của anh ấy từ mùa giải trước có vẻ khó khăn, vì vậy, thay vào đó, tôi đã lấy một mẫu ngẫu nhiên gồm 49 lần thực hiện và ghi lại số thước anh ấy đã đạt được cho mỗi lần thực hiện. Nếu bạn muốn làm theo, bạn có thể lấy dữ liệu tôi đã sử dụng tại đây

Việc lấy mẫu lặp đi lặp lại với sự thay thế từ 49 mẫu này sẽ mô phỏng quần thể trông như thế nào. Để lấy mẫu lại, một trong các vật mang được chọn ngẫu nhiên từ mẫu ban đầu, số thước thu được được ghi lại, sau đó quan sát đó được đưa trở lại vào mẫu. Điều này được thực hiện 49 lần (kích thước của mẫu ban đầu) để hoàn thành một lần lấy mẫu lại

Để lấy một mẫu lại, trong Minitab Express, hãy chuyển đến STATISTICS > Resampling > Bootstrapping > 1-Sample Mean. Nhập cột dữ liệu vào Mẫu và nhập 1 cho số lượng mẫu lại. Biểu đồ riêng lẻ sau đây đại diện cho một mẫu bootstrap được lấy từ mẫu ban đầu

Ghi chú. Vì Minitab Express chọn ngẫu nhiên mẫu bootstrap nên kết quả của bạn sẽ khác

Tại sao nó được gọi là số liệu thống kê bootstrap?

Việc lấy mẫu lại được thực hiện bằng cách lấy mẫu thay thế, do đó mẫu bootstrap thường sẽ không giống với mẫu ban đầu. Để tạo một bản phân phối bootstrap, bạn lấy nhiều mẫu lại. Biểu đồ sau đây cho thấy phân phối bootstrap cho 1.000 mẫu lại hoặc mẫu ban đầu của chúng tôi gồm 49 mẫu

Tại sao nó được gọi là số liệu thống kê bootstrap?

Phân phối bootstrap tập trung vào khoảng 5. 5, là ước tính về dân số trung bình cho số yard của Barkley trên mỗi lần mang. 95% giá trị ở giữa từ phân phối bootstrapping cung cấp khoảng tin cậy 95% cho trung bình tổng thể. Các đường tham chiếu màu đỏ biểu thị khoảng thời gian, vì vậy chúng tôi có thể tin tưởng 95% số yard trung bình của Barkley trên mỗi lần thực hiện nằm trong khoảng từ 3. 4 và 7. 8

Bootstrapping và Định lý giới hạn trung tâm

Định lý giới hạn trung tâm là một định lý cơ bản của xác suất và thống kê. Định lý phát biểu rằng phân phối giá trị trung bình của một mẫu ngẫu nhiên từ một tổng thể có phương sai hữu hạn được phân phối xấp xỉ chuẩn khi cỡ mẫu lớn, bất kể hình dạng phân bố của tổng thể. Bootstrapping có thể được sử dụng để dễ hiểu cách thức hoạt động của định lý giới hạn trung tâm .

Ví dụ: hãy xem xét phân phối dữ liệu cho số thước của Saquon Barkley trên mỗi lần mang

Tại sao nó được gọi là số liệu thống kê bootstrap?

Rõ ràng là dữ liệu không bình thường. Nhưng bây giờ chúng tôi sẽ tạo một bản phân phối bootstrap có nghĩa là 10 mẫu lại.  

Tại sao nó được gọi là số liệu thống kê bootstrap?

Phân phối phương tiện rất khác với phân phối dữ liệu gốc. Nó trông gần hơn với một phân phối bình thường. Sự giống nhau này tăng lên khi số lượng mẫu lại tăng lên. Với 1.000 mẫu lại, phân phối giá trị trung bình của các mẫu lại gần như bình thường

Tại sao nó được gọi là số liệu thống kê bootstrap?

Ghi chú. Bootstrapping chỉ khả dụng trong Minitab Express, đây là gói thống kê giới thiệu dành cho sinh viên và giáo sư đại học

Một mẫu bootstrap là một mẫu nhỏ hơn được “bootstrapped” từ một mẫu lớn hơn. Bootstrapping là một loại lấy mẫu lại trong đó một số lượng lớn các mẫu nhỏ hơn có cùng kích thước được rút ra nhiều lần, có thay thế, từ một mẫu ban đầu.

Ví dụ: giả sử mẫu của bạn được tạo thành từ mười số. 49, 34, 21, 18, 10, 8, 6, 5, 2, 1. Bạn rút ngẫu nhiên ba số 5, 1, 49. Sau đó, bạn thay các số đó vào mẫu và vẽ lại ba số. Lặp lại quá trình vẽ x số B lần. Thông thường, các mẫu ban đầu lớn hơn nhiều so với ví dụ đơn giản này và B có thể lên tới hàng nghìn. Sau một số lượng lớn các lần lặp lại, số liệu thống kê bootstrap được biên dịch thành bản phân phối bootstrap. Bạn đang thay thế các số của mình trở lại nồi, vì vậy các mẫu lại của bạn có thể lặp lại cùng một mục nhiều lần (e. g. 49 có thể xuất hiện hàng chục lần trong hàng chục mẫu lại)

Bootstrapping dựa trên luật số lượng lớn, quy định rằng nếu bạn lấy mẫu lặp đi lặp lại, dữ liệu của bạn sẽ gần đúng với dữ liệu dân số thực. Điều này hoạt động, có lẽ đáng ngạc nhiên, ngay cả khi bạn đang sử dụng một mẫu duy nhất để tạo dữ liệu

  • Một mẫu bootstrap theo kinh nghiệm được rút ra từ các quan sát
  • Một mẫu bootstrap tham số được rút ra từ một phân phối tham số hóa (e. g. phân phối chuẩn)

Tại sao lấy mẫu lại?

Lý tưởng nhất là bạn muốn lấy các mẫu lớn, không lặp lại từ một tổng thể để tạo phân phối lấy mẫu cho một thống kê. Tuy nhiên, bạn có thể bị giới hạn trong một mẫu vì lý do tài chính hoặc thời gian. Phương pháp mẫu đơn này có thể đóng vai trò là một quần thể nhỏ, từ đó các mẫu nhỏ lặp đi lặp lại được rút ra với sự thay thế lặp đi lặp lại. Cùng với việc tiết kiệm thời gian và tiền bạc, các mẫu khởi động có thể là các xấp xỉ khá tốt cho các tham số dân số

Chạy thủ tục

Bootstrapping thường được thực hiện với phần mềm (e. g. Stata hoặc với gói R Bootstrap);

  1. Lấy mẫu lại tập dữ liệu x lần,
  2. Tìm một thống kê tóm tắt (được gọi là thống kê bootstrap) cho mỗi x mẫu,
  3. Ước tính lỗi tiêu chuẩn cho thống kê bootstrap bằng cách sử dụng độ lệch chuẩn của phân phối bootstrap

ký hiệu

  • Số lượng mẫu bootstrap có thể được biểu thị bằng B (e. g. nếu bạn lấy mẫu lại 10 lần thì B = 10)
  • Một mẫu bootstrap được xác định bằng ký hiệu "sao". x*1, x2*,…x*n. Điều này tương tự như ký hiệu cho dữ liệu mẫu, theo truyền thống được ký hiệu là. x1, x2,…xn
  • Một ngôi sao bên cạnh một thống kê, chẳng hạn như s* hoặc x̄* cho biết thống kê đã được tính toán bằng cách lấy mẫu lại. Một thống kê bootstrap đôi khi được ký hiệu bằng chữ T, trong đó T*b sẽ là thống kê mẫu bootstrap thứ B T

Phương pháp phần trăm Bootstrap

Phương pháp phần trăm bootstrap là một cách để tính khoảng tin cậy cho các mẫu bootstrap

Với phương pháp đơn giản, một tỷ lệ nhất định (e. g. 5% hoặc 10%) được cắt bớt từ phần dưới và phần trên của thống kê mẫu (e. g. trung bình hoặc độ lệch chuẩn). Số bạn cắt phụ thuộc vào khoảng tin cậy mà bạn đang tìm kiếm. Ví dụ: khoảng tin cậy 90% sẽ tạo ra mức cắt 100% – 90% = 10% (i. e. 5% từ cả hai đầu). Hoặc, nói một cách khác (kỹ thuật hơn một chút), bạn có thể nhận được khoảng tin cậy 90% bằng cách lấy các phân vị giới hạn dưới 5% và giới hạn trên 95% của bản sao B T1, T2,…TB


Một phương pháp phức tạp hơn là phương pháp BCa của Efron (xem DiCiccio và Efron, 1993), viết tắt của Bias-sửa chữa và tăng tốc. Cùng với việc điều chỉnh độ lệch, nó cũng điều chỉnh độ lệch trong mô hình. Các biến thể khác bao gồm phần mở rộng Bayesian của Rubin và phương pháp ABC của DiCiccio và Efron

Phạm vi được cắt bớt cho thống kê này là khoảng tin cậy cho tham số dân số quan tâm


Tham khảo.
DiCiccio, T. J. và Efron B. (1996) Khoảng tin cậy Bootstrap. Khoa học thống kê, 11, 189-228.
Efron, B. và Tibshirani, R. (1993) Giới thiệu về Bootstrap. Chapman và Hall, New York, Luân Đôn.
Rubin, D (1981). Trình khởi động Bayesian. Biên niên sử thống kê 9 130–134.

GHI CHÚ NÀY NHƯ.
Stephanie Glen. "Mẫu Bootstrap. Định nghĩa, Ví dụ" Từ StatisticsHowTo. com. Thống kê cơ bản cho phần còn lại của chúng tôi. https. //www. thống kê. com/bootstrap-sample/

--------------------------------------- . 30 phút đầu tiên của bạn với gia sư Chegg là miễn phí.



Need help with a homework or test question? With Chegg Study, you can get step-by-step solutions to your questions from an expert in the field. Your first 30 minutes with a Chegg tutor is free!

bootstrapping có ý nghĩa gì trong thống kê?

Bootstrapping là lấy mẫu có thay thế từ dữ liệu được quan sát để ước tính độ biến thiên trong một thống kê quan tâm . Xem thêm phép thử hoán vị, một hình thức lấy mẫu lại có liên quan. Một ứng dụng phổ biến của bootstrap là đánh giá độ chính xác của ước tính dựa trên một mẫu dữ liệu từ một dân số lớn hơn.

Bootstrap có nghĩa là gì trong tin sinh học?

Bootstrapping là bất kỳ thử nghiệm hoặc chỉ số nào sử dụng lấy mẫu ngẫu nhiên có thay thế và thuộc nhóm phương pháp lấy mẫu lại rộng hơn . Nó sử dụng lấy mẫu có thay thế để ước tính phân phối lấy mẫu cho công cụ ước tính mong muốn. Cách tiếp cận này được sử dụng để đánh giá độ tin cậy của phát sinh loài dựa trên trình tự.

một mẫu bootstrap trong thống kê là gì?

Trong thống kê, Lấy mẫu Bootstrap là một phương pháp liên quan đến việc vẽ dữ liệu mẫu lặp đi lặp lại với sự thay thế từ nguồn dữ liệu để ước tính tham số tổng thể .

Ai đã phát minh ra bootstrapping cho thống kê?

Efron (1979) giới thiệu phương pháp Bootstrap. Nó lan nhanh như ngọn lửa trong khoa học thống kê trong vài thập kỷ. Bây giờ nếu một người tiến hành “tìm kiếm trên Google” cho tiêu đề trên, một con số đáng kinh ngạc là 1. 86 triệu hồ sơ sẽ được đề cập; .