Khi nào bootstrapping không hữu ích

Tác giả cảm ơn David Diez, Jo Hardin, Beth Chance, Fabian Gallusser, Laura Chihara, Nicholas Horton, Hal Varian, Brad Efron, năm trọng tài và hai biên tập viên vì những nhận xét hữu ích

Phiên bản màu của một hoặc nhiều hình trong bài viết có thể được tìm thấy trực tuyến tại www. tandfonline. com/r/ta

Nhận được ngày 1 tháng 12 năm 2014;

Bản quyền © 2015 [Các] Tác giả. Xuất bản với giấy phép của Hiệp hội Nghề cá Hoa Kỳ

Đây là một bài báo truy cập mở. Cho phép sử dụng lại, phân phối và sao chép phi thương mại dưới bất kỳ phương tiện nào, miễn là tác phẩm gốc được quy kết, trích dẫn hợp lý và không bị thay đổi, biến đổi hoặc xây dựng dựa trên dưới bất kỳ hình thức nào. Quyền nhân thân của [các] tác giả có tên đã được khẳng định

Dữ liệu liên quan

Nguyên liệu bổ sung

utas_a_1089789_sm8185. zip [945K]

GUID.  4AC3C68F-2B59-414E-A638-25EE4BD76225

trừu tượng

Bootstrapping có tiềm năng to lớn trong giáo dục và thực hành thống kê, nhưng có những vấn đề tế nhị và cách làm sai. Ví dụ: sự kết hợp phổ biến giữa khoảng tin cậy phân vị khởi động không tham số và bootstrap ít chính xác hơn so với sử dụng khoảng t cho các mẫu nhỏ, mặc dù chính xác hơn đối với các mẫu lớn hơn. My goals in this article are to provide a deeper understanding of bootstrap methods—how they work, when they work or not, and which methods work better—and to highlight pedagogical issues. Supplementary materials for this article are available online

[Received December 2014. Revised August 2015]

Keywords. Độ chệch, Khoảng tin cậy, Phân phối mẫu, Sai số chuẩn, Khái niệm thống kê, Giảng dạy.

1.  INTRODUCTION

Resampling methods, including permutation tests and the bootstrap, have enormous potential in statistics education and practice. They are beginning to make inroads in education. Cobb [2007] was influential in arguing for the pedagogical value of permutation tests in particular. Undergraduate textbooks that consistently use resampling as tools in their own right and to motivate classical methods are beginning to appear, including Lock et al. [2013] for Introductory Statistics and Chihara and Hesterberg [2011] for Mathematical Statistics. Other texts [Diez, Barr, and Çetinkaya Rundel 2014; Tintle et al. 2014a] use permutation or other randomization texts, though minimal bootstrapping. Experimental evidence suggests that students learn better using these methods [Tintle et al. 2014b]

The primary focus of this article is the bootstrap, where there are a variety of competing methods and issues that are subtler and less well-known than for permutation tests. I hope to provide a better understanding of the key ideas behind the bootstrap, and the merits of different methods. Without this understanding, things can go wrong. For example, people may prefer the bootstrap for small samples, to avoid relying on the central limit theorem [CLT]. However, the common bootstrap percentile confidence interval is poor for small samples; it is like a t-interval computed using z instead of t quantiles and estimating s with a divisor of n instead of n − 1. Conversely, it is more accurate than t-intervals for larger samples. Some other bootstrap intervals have the same small-sample issues

The bootstrap is used for estimating standard errors and bias, obtaining confidence intervals, and sometimes for tests. The focus here is on relatively simple bootstrap methods and their pedagogical application, particularly for Stat 101 [introductory statistics with an emphasis on data analysis] and Mathematical Statistics [a first course in statistical theory, using math and simulation], though the methods are useful elsewhere in the curriculum. For more background on the bootstrap and a broader array of applications, see Efron and Tibshirani [1993] and Davison and Hinkley [1997]. Hesterberg [2014] is a longer version of this article. Hesterberg et al. [2005] is an introduction to the bootstrap and permutation tests for Stat 101 students

Section 1 introduces the bootstrap for estimators and t statistics, and discusses its pedagogical and practical value. Section 2 develops the idea behind the bootstrap, and implications thereof. Section 3 visually explores when the bootstrap works or not, and compares the effects of two sources of variation—the original sample and bootstrap sampling. Section 4 surveys selected confidence intervals and their pedagogical and practical merits. Section 5 covers pedagogical and practical issues in regression. Section 6 contains a summary and discussion

Examples and figures are created in R [R Core Team 2014], using the resample package [Hesterberg 2015]. Scripts are in an online supplement

1. 1. Verizon Example

The following example is used throughout this article. Verizon was an Incumbent Local Exchange Carrier [ILEC], responsible for maintaining land-line phone service in certain areas. Verizon also sold long-distance service, as did a number of competitors, termed Competitive Local Exchange Carriers [CLEC]. When something went wrong, Verizon was responsible for repairs, and was supposed to make repairs as quickly for CLEC long-distance customers as for their own. The New York Public Utilities Commission [PUC] monitored fairness by comparing repair times for Verizon and different CLECs, for different classes of repairs and time periods. In each case a hypothesis test was performed at the 1% significance level, to determine whether repairs for CLEC’s customers were significantly slower than for Verizon’s customers. There were hundreds of such tests. If substantially more than 1% of the tests were significant, then Verizon would pay large penalties. These tests were performed using t tests; Verizon proposed using permutation tests instead

The data for one combination of CLEC, class of service, and period are shown in Table 1 and Figure 1 . Both samples are positively skewed. The mean CLEC repair time is nearly double that for ILEC, suggesting discrimination, though the difference could be just chance.

Mở trong cửa sổ riêng

Hình 1

Biểu đồ lượng tử bình thường của thời gian sửa chữa ILEC và CLEC

Bảng 1

Thời gian sửa chữa của Verizon

nmeansdILEC16648. 4116. 5CLEC2316. 6919. 5

Mở trong cửa sổ riêng

The one-sided permutation test p-value is 0.0171, well above the 1% cutoff mandated by the PUC. In comparison, the pooled t-test p-value is 0.0045, about four times too small. The permutation test gives the correct answer, with nearly exact Type 1 error rates; this was recognized as far back as Fisher [1936], who used t-tests as an approximation because perturbation tests were computationally infeasible then. The t-test is inaccurate because it is sensitive to skewness when the sample sizes differ. Using t-tests for < ![CDATA[10, 000]] > Verizon fairness tests would result in about 400 false positive results instead of the expected 100, resulting in large monetary penalties. Similarly, t confidence intervals are inaccurate. We will see how inaccurate, and explore alternatives, using the bootstrap.

1. 2. Bootstrap một mẫu

Cho θ^ là một thống kê được tính toán từ một mẫu quan sát n iid [chuỗi thời gian và dữ liệu phụ thuộc khác nằm ngoài phạm vi của bài viết này]. Trong bootstrap không theo tham số thông thường, chúng tôi rút ra n quan sát với sự thay thế từ dữ liệu gốc để tạo mẫu bootstrap hoặc lấy mẫu lại và tính toán thống kê θ^* cho mẫu này [chúng tôi sử dụng * để biểu thị số lượng bootstrap]. Chúng tôi lặp lại điều đó nhiều lần, giả sử r=10.000 [chúng tôi sử dụng 10.000 trừ khi có ghi chú khác]. The bootstrap statistics comprise the bootstrap distribution. Hình 2 hiển thị các bản phân phối bootstrap của θ^=x‾ cho bộ dữ liệu ILEC và CLEC. Chúng tôi sử dụng mỗi phân phối để ước tính những điều nhất định về phân phối lấy mẫu tương ứng, bao gồm.

  • lỗi tiêu chuẩn. lỗi chuẩn bootstrap là độ lệch chuẩn mẫu của phân phối bootstrap, sb=1/[r-1]∑i=1r[θ^i*-θ^*‾]2

  • khoảng tin cậy. một khoảng thời gian nhanh và bẩn, khoảng phần trăm bootstrap, là phạm vi của 95% trung bình của phân phối bootstrap,

  • Thiên kiến. ước tính sai lệch bootstrap là θ^*‾-θ^

Mở trong cửa sổ riêng

Hình 2

Phân phối Bootstrap cho dữ liệu Verizon. Bản phân phối Bootstrap cho x‾, cho bộ dữ liệu ILEC và CLEC

Summary statistics of the bootstrap distributions are

  •  Observed SE Mean Bias

  • CLEC 16. 50913 3. 961816 16. 53088  0. 0217463

  • ILEC  8. 41161 0. 357599  8. 40411 -0. 0075032

The CLEC SE is larger primarily due to the smaller sample size and secondly to the larger sample sd in the original data. Bootstrap percentile intervals are [7. 73, 9. 13] for ILEC and [10. 1, 25. 4] for CLEC. For comparison, s/n=0. 36 for ILEC and 4. 07 for CLEC, and standard t intervals are [7. 71, 9. 12] and [8. 1, 24. 9]. The distribution appears approximately normal for the ILEC sample but not for the smaller CLEC sample, suggesting that t intervals might be reasonable for the ILEC mean but not the CLEC mean

The bootstrap separates the concept of a standard error—the standard deviation of a sampling distribution—from the common formula s/n for estimating the SE of a sample mean. This separation should help students understand the concept. Based on extensive experience interviewing job candidates, I attest that a better way to teach about SEs is needed—too many do not understand SEs, and even confuse SEs in other contexts with the formula for the SE of a sample mean

1. 3. Two-Sample Bootstrap

For a two-sample bootstrap, we independently draw bootstrap samples with replacement from each sample, and compute a statistic that compares the samples. For the Verizon data, we draw a sample of size 1664 from the ILEC data and 23 from the CLEC data, and compute the difference in means x‾1-x‾2. The bootstrap distribution [see online supplement] is centered at the observed statistic; it is used for confidence intervals and standard errors. It is skewed like the CLEC distribution; t intervals would not be appropriate

Để so sánh, thử nghiệm hoán vị gộp dữ liệu và chia dữ liệu gộp thành hai nhóm bằng cách lấy mẫu mà không cần thay thế, trước khi lấy sự khác biệt về phương tiện. The sampling is consistent with the null hypothesis of no difference between groups, and the distribution is centered at zero

1. 4. Bootstrap t-Distribution

It is not surprising that t procedures are inaccurate for skewed data with a sample of size 23, or for the difference when one sample is that small. More surprising is how bad t confidence intervals are for the larger sample, size 1664. Để thấy điều này, chúng tôi khởi động t thống kê

Above we resampled univariate distributions of estimators like x‾ or x‾1-x‾2. Here, we look at joint distributions, for example, the joint distribution of X‾ and s, and distributions of statistics that depend on both θ^ and θ. To estimate the sampling distribution of θ^-θ, we use the bootstrap distribution of θ^*-θ^. The bootstrap bias estimate is E[θ^*-θ^], an estimate of E[θ^-θ]. Để ước tính phân phối lấy mẫu của thống kê t

t=θ^-θSE,

[1]

trong đó SE là một lỗi tiêu chuẩn được tính toán từ mẫu ban đầu, chúng tôi sử dụng phân phối bootstrap của

t*=θ^*-θ^SE*

[2]

Hình 3 hiển thị phân phối chung của X‾* và s*/n cũng như phân phối của t* đối với dữ liệu ILEC có n = 1664. Lý thuyết chuẩn nói rằng đối với các quần thể bình thường X‾ và s là độc lập và thống kê t t=[X‾-μ]/[s/n] có phân phối t. Tuy nhiên, đối với các quần thể có độ lệch dương X‾ và s có mối tương quan thuận, mối tương quan không nhỏ hơn với n lớn và thống kê t không có phân phối t. Trong khi X‾* bị lệch dương với giá trị trung bình x‾, thì t bị lệch gấp đôi theo hướng ngược lại vì mẫu số s/n bị ảnh hưởng nhiều hơn bởi các quan sát lớn so với tử số X‾ là. Và t có trung vị âm, do đó, lượng tử của nó kết thúc bằng 3x không đối xứng bên trái.

Mở trong cửa sổ riêng

Hình 3

CLT với n = 1664. Bên trái. scatterplot of bootstrap means and standard errors, ILEC data. Right. bootstrap t-distribution

The amount of skewness apparent in the bootstrap t-distribution matters. The bootstrap distribution is a sampling distribution, not raw data; the CLT has already had its one chance to work. At this point, any deviations indicate errors in procedures that assume normal or t sampling distributions. 3. 6% of the bootstrap distribution is below − t α/2, n − 1, and 1. 7% is above t α/2, n − 1 [based on r = 106 samples, α = 0. 05]. Even with n = 1664, the t statistic is not even close to having a t-distribution, based on what matters—tail probabilities

In my experience giving talks and courses, typically over half of the audience indicates there is no problem with the skewness apparent in plots like Figure 3 . They are used to looking at normal quantile plots of data, not of sampling distributions. A common flaw in statistical practice is to fail to judge how accurate standard CLT-based methods are for specific data; the bootstrap t-distribution provides an effective way to do so.

1. 5 . Pedagogical and Practical Value

The bootstrap process reinforces the central role that sampling from a population plays in statistics. Sampling variability is visible, and it is natural to measure the variability of the bootstrap distribution using methods students learned for summarizing data, such as the standard deviation. Students can see if the bootstrap distribution is bell-shaped. It is natural to use the middle 95% of the distribution as a 95% confidence interval

The bootstrap makes the abstract concrete—abstract concepts like sampling distributions, standard errors, bias, central limit theorem, and confidence intervals are visible in plots of the bootstrap distribution

The bootstrap works the same way with a wide variety of statistics. This makes it easy for students to work with a variety of statistics, and focus on ideas rather than formulas. This also lets us do better statistics, because we can work with statistics that are appropriate rather than just those that are easy—for example, a median or trimmed mean instead of a mean

Students can obtain confidence intervals by working directly with the statistic of interest, rather than using a t statistic. You could skip talking about t statistics and t intervals, or defer that until later. At that point you may introduce another quick-and-dirty confidence interval, the t interval with bootstrap standard error, θ^±tα/2sb. In mathematical statistics, students can use the bootstrap to help understand joint distributions of estimators like X‾ and s, and to understand the distribution of t statistics, and compute bootstrap t confidence intervals, see Section 4. 3

The bootstrap can also reinforce the understanding of formula methods, and provide a way for students to check their work. Students may know the formula s/n without understanding what it really is; but they can compare it to sb or to an eyeball estimate of standard deviation from a histogram of the bootstrap distribution, and see that it measures how the sample mean varies due to random sampling

Resampling is also important in practice. It often provides the only practical way to do inference—when it is too difficult to derive formulas, or the data are stored in a way that make calculating the formulas impractical; a longer version of this article [Hesterberg 2014] and [Chamandy 2015] contains examples from Google, from my work and others. In other cases, resampling provides better accuracy than formula methods. For one simple example, consider confidence intervals for the variance of the CLEC population. s 2 = 380. 4, the bootstrap SE for s 2 is 267, and the 95% percentile interval is [59, 932]. The classical normal-based interval is [[n − 1]s 2/χ2 22, 0. 975, [n − 1]s 2/χ2 22, 0. 025] = [228, 762]. It assumes that [n − 1]s 2/σ2 ∼ χ2[n − 1], but for long-tailed distributions the actual variance of s 2 is far greater than for normal distributions. I recommend not teaching the χ2 intervals for a variance, or F-based intervals for the ratio of variances, because they are not useful in practice, with no robustness against nonnormality. Their coverage does not improve as n → ∞

2.  THE IDEA BEHIND BOOTSTRAPPING

Inferential statistics is based on sampling distributions. In theory, to get these we

  • draw [all or infinitely many] samples from the population, and

  • compute the statistic of interest for each sample [such as the mean, median, etc. ]

The distribution of the statistics is the sampling distribution, see Figure 4 .

Mở trong cửa sổ riêng

Figure 4

Ideal world. Sampling distributions are obtained by drawing repeated samples from the population, computing the statistic of interest for each, and collecting [an infinite number of] those statistics as the sampling distribution

However, in practice we cannot draw arbitrarily many samples from the population; we have only one sample. The bootstrap idea is to draw samples from an estimate of the population, in lieu of the population

  • draw samples from an estimate of the population, and

  • compute the statistic of interest for each sample

The distribution of the statistics is the bootstrap distribution, see Figure 5 .

Mở trong cửa sổ riêng

Figure 5

Bootstrap world. The bootstrap distribution is obtained by drawing repeated samples from an estimate of the population, computing the statistic of interest for each, and collecting those statistics. The distribution is centered at the observed statistic [x‾], not the parameter [μ]

2. 1 . Plug-In Principle

The bootstrap is based on the plug-in principle—if something is unknown, we substitute an estimate for it. This principle is very familiar to statisticians. For example, the sd of the sample mean is σ/n; when σ is unknown we substitute an estimate s, the sample standard deviation. With the bootstrap we go one step farther—instead of plugging in an estimate for a single parameter, we plug in an estimate for the whole population F

This raises the question of what to substitute for F. Possibilities include the nonparametric, parametric, and smoothed bootstrap. The primary focus of this article is the nonparametric bootstrap, the most common procedure, which consists of drawing samples from the empirical distribution F^n [with probability 1/n on each observation], that is, drawing samples with replacement from the data

In the parametric bootstrap, we assume a model [e. g. , a gamma distribution with unknown shape and scale], estimate parameters for that model, then draw bootstrap samples from the model with those estimated parameters

The smoothed bootstrap is a compromise between parametric and nonparametric approaches; if we believe the population is continuous, we may sample from a continuous F^, say a kernel density estimate [Silverman and Young 1987; Hall, DiCiccio, and Romano 1989; Hesterberg 2014]. Smoothing is not common; it is rarely needed, and does not generalize well to multivariate and factor data

2. 2 . Fundamental Bootstrap Principle

Nguyên tắc bootstrap cơ bản là sự thay thế này thường hoạt động — chúng ta có thể đưa vào ước tính cho F, sau đó lấy mẫu và kết quả phân phối bootstrap cung cấp thông tin hữu ích về phân phối lấy mẫu

Bản phân phối bootstrap trên thực tế là một bản phân phối lấy mẫu. The bootstrap uses a sampling distribution [from an estimate F^] to estimate things about the sampling distribution [from F]

There are some things to watch out for, ways the bootstrap distribution differs from the sampling distribution. Chúng tôi thảo luận về một số điều này dưới đây, nhưng một điều đủ quan trọng để đề cập ngay lập tức

2. 3 . Inference, Not Better Estimates

Phân phối bootstrap tập trung vào thống kê được quan sát, không phải tham số dân số, ví dụ, tại x‾, không phải μ

Điều này có hai ý nghĩa sâu sắc. Đầu tiên, điều đó có nghĩa là chúng tôi không sử dụng giá trị trung bình của số liệu thống kê bootstrap để thay thế cho ước tính ban đầu. 1 Ví dụ: chúng tôi không thể sử dụng bootstrap để cải thiện x‾; . Thay vào đó, chúng tôi sử dụng bootstrap để cho biết ước tính ban đầu chính xác đến mức nào. In this regard the bootstrap is like formula methods that use the data twice—once to compute an estimate, and again to compute a standard error for the estimate. The bootstrap just uses a different approach to estimating the standard error

Nếu phân phối bootstrap không tập trung vào thống kê được quan sát—nếu có độ chệch—chúng ta có thể trừ đi độ chệch ước tính để tạo ra ước tính đã điều chỉnh độ lệch, θ^-Độ lệch^=2θ^-θ^*‾. Chúng tôi thường không làm điều này—ước tính sai lệch có thể có độ biến thiên cao [Efron và Tibshirani 1993]. Độ lệch là một lý do khác để không sử dụng giá trị trung bình của các ước tính bootstrap θ^*‾=θ^+Độ lệch^ để thay thế ước tính ban đầu θ^—điều này thêm ước tính độ lệch vào thống kê ban đầu, nhân đôi bất kỳ độ lệch nào

The second implication is that we do not use the CDF or quantiles of the bootstrap distribution of θ^* to estimate the CDF or quantiles of the sampling distribution of an estimator θ^. Instead, we bootstrap to estimate things like the standard deviation, the expected value of θ^-θ, and the CDF and quantiles of θ^-θ or [θ^-θ]/SE

2. 4 . Key Idea Versus Implementation Details

What people may think of as the key bootstrap idea—drawing samples with replacement from the data—is just a pair of implementation details. Đầu tiên là thay thế phân phối theo kinh nghiệm cho dân số; . Thứ hai là sử dụng lấy mẫu ngẫu nhiên. Ở đây cũng có những lựa chọn thay thế, bao gồm các phương pháp phân tích [e. g. , khi θ^=x‾ chúng ta có thể tính toán giá trị trung bình và phương sai của phân phối bootstrap một cách phân tích] và tính toán toàn diện. Có thể có nn mẫu bootstrap từ một mẫu cố định có kích thước n, 2n-1n nếu thứ tự không quan trọng hoặc thậm chí ít hơn trong một số trường hợp như dữ liệu nhị phân; . We call this an exhaustive bootstrap or theoretical bootstrap. Nhưng các phương pháp toàn diện thường không khả thi, vì vậy thay vào đó, chúng tôi rút ra 10.000 mẫu ngẫu nhiên;

2. 5. Cách lấy mẫu

Thông thường chúng ta nên lấy mẫu bootstrap giống như cách lấy mẫu ngoài đời, ví dụ lấy mẫu ngẫu nhiên đơn giản hoặc lấy mẫu phân tầng. Về mặt sư phạm, điều này củng cố vai trò của việc lấy mẫu ngẫu nhiên trong thống kê

Một ngoại lệ đối với quy tắc đó là điều kiện dựa trên thông tin được quan sát. Ví dụ: khi so sánh các mẫu có kích thước n 1 và n 2, chúng tôi cố định các số đó, ngay cả khi quy trình lấy mẫu ban đầu có thể tạo ra các số đếm khác nhau. [Đây là nguyên tắc điều kiện trong thống kê, ý tưởng về điều kiện hóa thống kê phụ trợ. ] Điều hòa cũng tránh được một số vấn đề kỹ thuật, đặc biệt là trong hồi quy, xem Phần 5

Chúng tôi cũng có thể sửa đổi việc lấy mẫu để trả lời các câu hỏi nếu-thì. Ví dụ: chúng ta có thể khởi động có và không có phân tầng và so sánh các lỗi tiêu chuẩn thu được để điều tra giá trị của phân tầng. Chúng tôi cũng có thể vẽ các mẫu có kích thước khác nhau; . Ngược lại, điều này cũng trả lời một câu hỏi phổ biến về bootstrapping—tại sao chúng tôi lấy mẫu với cùng kích thước với dữ liệu gốc—bởi vì làm như vậy, các lỗi tiêu chuẩn phản ánh dữ liệu thực tế, thay vì tập dữ liệu giả định lớn hơn hoặc nhỏ hơn

3. BIẾN ĐỔI TRONG PHÂN PHỐI BOOTSTRAP

Ở trên, chúng tôi đã khẳng định rằng bản phân phối bootstrap thường cung cấp thông tin hữu ích về bản phân phối lấy mẫu. Bây giờ chúng tôi giải thích thêm về điều đó bằng một loạt ví dụ trực quan, một ví dụ về mọi thứ thường hoạt động tốt và ba ví dụ có vấn đề. Chúng tôi giải quyết hai câu hỏi

  • Bootstrap lý thuyết [đầy đủ] chính xác đến mức nào?

  • Việc triển khai Monte Carlo gần đúng với bootstrap lý thuyết chính xác đến mức nào?

Cả hai đều phản ánh sự thay đổi ngẫu nhiên

  • Mẫu ban đầu được chọn ngẫu nhiên từ tổng thể

  • Các mẫu lại Bootstrap được chọn ngẫu nhiên từ mẫu ban đầu

3. 1. trung bình mẫu. Kích thước mẫu lớn

Hình 6 hiển thị tổng thể, phân phối lấy mẫu cho giá trị trung bình với n = 50, bốn mẫu và phân phối bootstrap tương ứng. Mỗi phân phối bootstrap tập trung vào thống kê x‾ từ mẫu tương ứng chứ không phải ở trung bình dân số μ. Độ chênh lệch và hình dạng của các bản phân phối bootstrap thay đổi một chút nhưng không nhiều.

Mở trong cửa sổ riêng

Hình 6

Phân phối Bootstrap cho giá trị trung bình, n = 50. Cột bên trái hiển thị dân số và bốn mẫu. Cột ở giữa hiển thị phân phối lấy mẫu cho X‾ và phân phối bootstrap của X‾* cho mỗi mẫu, với r = 104. Cột bên phải hiển thị nhiều bản phân phối bootstrap hơn cho mẫu đầu tiên, ba bản có r = 1000 và hai bản có r = 104

Những quan sát này cho biết bản phân phối bootstrap có thể được sử dụng cho mục đích gì. Phương tiện bootstrap không cung cấp ước tính tốt hơn về tham số dân số, bởi vì phương tiện bootstrap được căn giữa tại x‾, không phải μ. Tương tự, lượng phân vị của phân phối bootstrap không hữu ích để ước tính lượng phân vị của phân phối lấy mẫu. Thay vào đó, các bản phân phối bootstrap rất hữu ích để ước tính mức độ lây lan và hình dạng của bản phân phối lấy mẫu

Cột bên phải hiển thị các bản phân phối bootstrap bổ sung cho mẫu đầu tiên, với r = 1000 hoặc r = 104 mẫu lại. Sử dụng nhiều mẫu lại làm giảm biến thể Monte Carlo ngẫu nhiên, nhưng về cơ bản không thay đổi phân phối bootstrap—nó vẫn có cùng tâm, trải rộng và hình dạng gần đúng

Biến thể Monte Carlo nhỏ hơn nhiều so với biến thể do các mẫu ban đầu khác nhau. Đối với nhiều mục đích sử dụng, chẳng hạn như ước tính nhanh sai số chuẩn hoặc khoảng tin cậy gần đúng, r = 1000 mẫu lại là đủ. Tuy nhiên, có sự thay đổi đáng chú ý [bao gồm cả sự thay đổi quan trọng nhưng ít đáng chú ý hơn ở phần đuôi], do đó, khi độ chính xác quan trọng, nên sử dụng r = 104 hoặc nhiều mẫu hơn

3. 2. trung bình mẫu. Kích thước mẫu nhỏ

Hình 7 tương tự như Hình 6 , nhưng đối với cỡ mẫu nhỏ hơn, n = 9 . Như trước đây, các bản phân phối bootstrap được định tâm ở phương tiện mẫu tương ứng, nhưng hiện tại, mức độ trải rộng và hình dạng của các bản phân phối bootstrap thay đổi đáng kể, bởi vì mức độ trải rộng và hình dạng của các mẫu thay đổi đáng kể. Kết quả là độ rộng của khoảng tin cậy bootstrap thay đổi đáng kể [điều này cũng đúng với khoảng tin cậy t tiêu chuẩn]. Như trước đây, biến thể Monte Carlo nhỏ và có thể giảm khi có nhiều mẫu lại hơn.

Mở trong cửa sổ riêng

Hình 7

Phân phối Bootstrap cho giá trị trung bình, n = 9. Cột bên trái hiển thị dân số và bốn mẫu. Cột ở giữa hiển thị phân phối lấy mẫu cho X‾ và phân phối bootstrap của X‾* cho mỗi mẫu, với r = 104. Cột bên phải hiển thị nhiều bản phân phối bootstrap hơn cho mẫu đầu tiên, ba bản có r = 1000 và hai bản có r = 104

Mặc dù không rõ ràng trong ảnh, các bản phân phối bootstrap có xu hướng trung bình quá hẹp, theo hệ số [n-1]/n đối với giá trị trung bình của mẫu và xấp xỉ mức đó đối với nhiều thống kê khác. Điều này quay trở lại nguyên tắc trình cắm thêm; . Nghĩa là, nhỏ hơn công thức thông thường s/n theo hệ số [n-1]/n. Ví dụ: CLEC sb = 3. 96 nhỏ hơn s/n=4. 07

Sự kết hợp giữa xu hướng thu hẹp này và sự thay đổi trong mức chênh lệch làm cho một số khoảng tin cậy bootstrap bị che giấu, hãy xem Phần 4. Các khoảng t cổ điển bù bằng cách sử dụng hai hệ số mờ—hệ số n/[n-1] trong tính toán độ lệch chuẩn mẫu s và sử dụng t thay vì lượng phân vị thông thường. Khoảng phân vị Bootstrap thiếu các yếu tố này, do đó có xu hướng quá hẹp và được che phủ trong các mẫu nhỏ. khoảng thời gian t với bootstrap SE bao gồm hệ số t/z, nhưng bị sai lệch độ hẹp. Một số thủ tục bootstrap khác làm tốt hơn. Đối với Stat 101, tôi đề nghị cảnh báo sinh viên về vấn đề này;

Trong các tình huống lấy mẫu hai mẫu hoặc phân tầng, độ lệch độ hẹp phụ thuộc vào kích thước mẫu hoặc tầng riêng lẻ. Điều này có thể dẫn đến sai lệch nghiêm trọng. Ví dụ, U. K. Bộ Lao động và Lương hưu muốn khởi động một cuộc khảo sát về gian lận phúc lợi. Họ đã sử dụng quy trình lấy mẫu phân tầng dẫn đến hai đối tượng trong mỗi tầng—do đó, sai số chuẩn bootstrap chưa được hiệu chỉnh sẽ quá nhỏ theo hệ số [ni-1]/ni=1/2

3. 3. trung bình mẫu

Bây giờ hãy chuyển sang Hình 8 , trong đó thống kê là trung bình mẫu. Ở đây, các bản phân phối bootstrap là các xấp xỉ kém của bản phân phối lấy mẫu. Phân phối lấy mẫu là liên tục, nhưng các phân phối bootstrap thì rời rạc—đối với n lẻ, trung vị mẫu bootstrap luôn là một trong những quan sát ban đầu—và với các hình dạng rất khác nhau.

Mở trong cửa sổ riêng

Hình 8

Phân phối Bootstrap cho trung vị, n = 15. Cột bên trái hiển thị dân số và bốn mẫu. Cột giữa hiển thị phân phối lấy mẫu và phân phối bootstrap cho mỗi mẫu, với r = 104. Cột bên phải hiển thị các bản phân phối bootstrap được làm mịn, với kernel sd s/n và r = 104

Bootstrap thông thường có xu hướng không hoạt động tốt đối với các số liệu thống kê như trung bình hoặc các lượng tử khác trong các mẫu nhỏ phụ thuộc nhiều vào một số lượng nhỏ các quan sát trong một mẫu lớn hơn. Bootstrap phụ thuộc vào mẫu phản ánh chính xác những gì quan trọng về dân số và một vài quan sát đó không thể làm được điều đó. Cột bên phải hiển thị bootstrap đã được làm mịn;

Mặc dù hình dạng và sự lan rộng của các bản phân phối bootstrap không chính xác, khoảng phân vị bootstrap cho trung vị không tệ [Efron 1982]. Đối với n lẻ, các điểm cuối của khoảng phần trăm rơi vào một trong các giá trị được quan sát. Các điểm cuối khoảng thời gian chính xác cũng rơi vào một trong các giá trị được quan sát [thống kê thứ tự] và trong khoảng thời gian 95%, những điểm cuối này thường giống hoặc thống kê thứ tự liền kề như khoảng phần trăm

3. 4. Mối quan hệ trung bình-phương sai

Trong nhiều ứng dụng, độ rộng hoặc hình dạng của phân phối lấy mẫu phụ thuộc vào tham số quan tâm. Ví dụ, dạng và dạng phân phối nhị thức phụ thuộc vào p. Tương tự, đối với phân phối hàm mũ, độ lệch chuẩn của phân phối lấy mẫu của x‾ tỷ lệ với μ

Mối quan hệ phương sai trung bình này được phản ánh trong các bản phân phối bootstrap. Hình 9 hiển thị mẫu và bản phân phối bootstrap cho dân số theo cấp số nhân. Có sự phụ thuộc chặt chẽ giữa x‾ và bootstrap SE tương ứng. Mối quan hệ này có ý nghĩa quan trọng đối với khoảng tin cậy; . Chúng ta sẽ thảo luận thêm về vấn đề này trong Phần 4. 5.

Mở trong cửa sổ riêng

Hình 9

Phân phối Bootstrap cho giá trị trung bình, n = 50, dân số theo cấp số nhân. Cột bên trái hiển thị dân số và năm mẫu. [Các mẫu này được chọn từ một tập hợp các mẫu ngẫu nhiên lớn hơn, để có giá trị trung bình trải rộng trên phạm vi giá trị trung bình của mẫu và độ lệch chuẩn trung bình tùy thuộc vào giá trị trung bình. ] Cột giữa hiển thị phân phối lấy mẫu và phân phối bootstrap cho từng mẫu. Cột bên phải hiển thị các bản phân phối bootstrap t

Có những ứng dụng khác mà phân phối lấy mẫu phụ thuộc nhiều vào tham số, ví dụ: phân phối lấy mẫu cho thống kê chi bình phương phụ thuộc vào tham số không tập trung. Hãy thận trọng khi khởi động các ứng dụng như vậy;

Ở đây có một điểm sáng. Cột bên phải của Hình 9 hiển thị phân phối lấy mẫu và phân phối bootstrap của thống kê t, Phương trình [1] và [2]. Những bản phân phối này ít nhạy cảm hơn nhiều so với mẫu ban đầu. Chúng tôi sử dụng các bản phân phối bootstrap t bên dưới để xây dựng khoảng tin cậy chính xác.

3. 5. Tổng hợp các bài học trực quan

Bản phân phối bootstrap phản ánh mẫu ban đầu. Nếu mẫu hẹp hơn dân số, phân phối bootstrap hẹp hơn phân phối lấy mẫu. Thông thường đối với các mẫu lớn, dữ liệu đại diện tốt cho dân số; . Bootstrapping không khắc phục được nhược điểm lấy mẫu nhỏ làm cơ sở suy luận. Thật vậy, đối với các mẫu rất nhỏ, có thể tốt hơn nếu đưa ra các giả định bổ sung, chẳng hạn như họ tham số

Nhìn về phía trước, hai điều quan trọng để suy luận chính xác

  • phân phối bootstrap gần giống như thế nào với phân phối lấy mẫu [bootstrap t có lợi thế hơn, xem Hình 9 ];

  • các quy trình cho phép thay đổi mẫu tốt như thế nào, ví dụ, bằng cách sử dụng các hệ số giả mạo

Một bài học trực quan khác là việc lấy mẫu ngẫu nhiên chỉ sử dụng 1000 mẫu lại gây ra nhiều biến thể ngẫu nhiên hơn trong các bản phân phối bootstrap. Hãy để chúng tôi xem xét vấn đề này một cách cẩn thận hơn

3. 6. Có bao nhiêu mẫu Bootstrap

Tôi đã đề xuất ở trên bằng cách sử dụng 1000 mẫu bootstrap để tính gần đúng hoặc 104 mẫu trở lên để có độ chính xác cao hơn. Đây là về độ chính xác của Monte Carlo—việc triển khai bootstrap thông thường của Monte Carlo gần đúng như thế nào với phân phối bootstrap lý thuyết. Một phân phối bootstrap dựa trên r mẫu ngẫu nhiên tương ứng với việc vẽ r quan sát với sự thay thế từ phân phối bootstrap lý thuyết

Brad Efron, người phát minh ra bootstrap, đã đề xuất vào năm 1993 rằng r = 200, hoặc thậm chí chỉ cần r = 25, là đủ để ước lượng sai số chuẩn và r = 1000 là đủ cho khoảng tin cậy [Efron và Tibshirani 1993]

Tôi lập luận rằng nhiều mẫu lại là phù hợp. Đầu tiên, máy tính bây giờ nhanh hơn. Thứ hai, các tiêu chí đó được phát triển bằng cách sử dụng các đối số kết hợp biến thể do mẫu ngẫu nhiên ban đầu với biến thể bổ sung từ việc triển khai Monte Carlo. Tôi thích xử lý dữ liệu như đã cho và chỉ xem xét sự thay đổi do triển khai. Hai người phân tích cùng một dữ liệu sẽ không nhận được câu trả lời khác nhau đáng kể do biến thể Monte Carlo

Định lượng độ chính xác bằng công thức hoặc bootstrapping

Chúng ta có thể định lượng biến thể Monte Carlo theo hai cách—sử dụng công thức hoặc bằng cách khởi động. Ví dụ: đặt G là cdf của phân phối bootstrap lý thuyết và G^ phép tính gần đúng Monte Carlo, khi đó phương sai của G^[x] là G[x][1 − G[x]]/r, mà chúng tôi ước tính bằng cách sử dụng

Tương tự như vậy, ước tính độ lệch bootstrap là giá trị trung bình của r giá trị ngẫu nhiên trừ đi một hằng số, θ^*‾-θ^;

Chúng tôi cũng có thể khởi động phân phối bootstrap. Số liệu thống kê bootstrap r là một mẫu iid từ bản phân phối bootstrap đầy đủ; . Ví dụ: khoảng tin cậy phần trăm 95% cho dữ liệu CLEC là [10. 09, 25. 41]; . 5% và 97. 5% phân vị của phân phối bootstrap; . Để ước tính độ chính xác của các lượng tử đó, chúng tôi rút ra các mẫu có kích thước r từ bản phân phối bootstrap và tính toán các lượng tử cho mỗi mẫu lại. Các SE kết quả cho các ước tính lượng tử là 0. 066 và 0. 141

Cần r ≥ 15.000 để nằm trong 10%. Tiếp theo, chúng tôi xác định r nên lớn như thế nào để có kết quả chính xác, bắt đầu bằng kiểm tra hai phía với kích thước 5%. Giả sử giá trị p một phía thực sự là 0. 025 và chúng tôi muốn giá trị p ước tính nằm trong khoảng 10% của giá trị đó, trong khoảng từ 0. 0225 và 0. 0275. Để có xác suất gần như vậy là 95%, cần phải có 1. 960. 025·0. 975/r

Chủ Đề