Khi nào bootstrapping không hữu ích

Tác giả cảm ơn David Diez, Jo Hardin, Beth Chance, Fabian Gallusser, Laura Chihara, Nicholas Horton, Hal Varian, Brad Efron, năm trọng tài và hai biên tập viên vì những nhận xét hữu ích

Nội dung chính Show

Dữ liệu liên quan
trừu tượng
1. INTRODUCTION
1. 1. Verizon Example
1. 2. Bootstrap một mẫu
1. 3. Two-Sample Bootstrap
1. 4. Bootstrap t-Distribution
1. 5 . Pedagogical and Practical Value
2. THE IDEA BEHIND BOOTSTRAPPING
2. 1 . Plug-In Principle
2. 2 . Fundamental Bootstrap Principle
2. 3 . Inference, Not Better Estimates
2. 4 . Key Idea Versus Implementation Details
2. 5. Cách lấy mẫu
3. BIẾN ĐỔI TRONG PHÂN PHỐI BOOTSTRAP
3. 1. trung bình mẫu. Kích thước mẫu lớn
3. 2. trung bình mẫu. Kích thước mẫu nhỏ
3. 3. trung bình mẫu
3. 4. Mối quan hệ trung bình-phương sai
3. 5. Tổng hợp các bài học trực quan
3. 6. Có bao nhiêu mẫu Bootstrap
4. KHOẢNG TIN TỨC
4. 1. Thống kê 101—Phần trăm và t với Bootstrap SE
4. 2. Đảo ngược khoảng thời gian phần trăm Bootstrap
4. 3. Bootstrap t Khoảng thời gian
4. 4. Độ chính xác của khoảng tin cậy
4. 5. Skewness và Mean-Variance Mối quan hệ
4. 6. Chi tiết khoảng tin cậy
4. 7. Thử nghiệm giả thuyết Bootstrap
5. HỒI QUY
5. 1. Lấy mẫu lại các quan sát hoặc phân phối có điều kiện
6. THẢO LUẬN
SUPPLEMENTARY MATERIALS
Tài liệu bổ sung
Tiểu sử
APPENDIX. CHI TIẾT MÔ PHỎNG
chú thích
Tại sao không luôn luôn sử dụng bootstrap?
Bootstrapping nên được sử dụng trong những trường hợp nào?
Tại sao bootstrap không phù hợp với dữ liệu chuỗi thời gian giải thích ngắn gọn?
Khi nào chúng ta nên bootstrap?

Phiên bản màu của một hoặc nhiều hình trong bài viết có thể được tìm thấy trực tuyến tại www. tandfonline. com/r/ta

Nhận được ngày 1 tháng 12 năm 2014;

Đây là một bài báo truy cập mở. Cho phép sử dụng lại, phân phối và sao chép phi thương mại dưới bất kỳ phương tiện nào, miễn là tác phẩm gốc được quy kết, trích dẫn hợp lý và không bị thay đổi, biến đổi hoặc xây dựng dựa trên dưới bất kỳ hình thức nào. Quyền nhân thân của (các) tác giả có tên đã được khẳng định

Dữ liệu liên quan

Nguyên liệu bổ sung

utas_a_1089789_sm8185. zip (945K)

GUID. 4AC3C68F-2B59-414E-A638-25EE4BD76225

trừu tượng

Bootstrapping có tiềm năng to lớn trong giáo dục và thực hành thống kê, nhưng có những vấn đề tế nhị và cách làm sai. Ví dụ: sự kết hợp phổ biến giữa khoảng tin cậy phân vị khởi động không tham số và bootstrap ít chính xác hơn so với sử dụng khoảng t cho các mẫu nhỏ, mặc dù chính xác hơn đối với các mẫu lớn hơn. My goals in this article are to provide a deeper understanding of bootstrap methods—how they work, when they work or not, and which methods work better—and to highlight pedagogical issues. Supplementary materials for this article are available online

[Received December 2014. Revised August 2015]

Keywords. Độ chệch, Khoảng tin cậy, Phân phối mẫu, Sai số chuẩn, Khái niệm thống kê, Giảng dạy.

1. INTRODUCTION

Resampling methods, including permutation tests and the bootstrap, have enormous potential in statistics education and practice. They are beginning to make inroads in education. Cobb (2007) was influential in arguing for the pedagogical value of permutation tests in particular. Undergraduate textbooks that consistently use resampling as tools in their own right and to motivate classical methods are beginning to appear, including Lock et al. (2013) for Introductory Statistics and Chihara and Hesterberg (2011) for Mathematical Statistics. Other texts (Diez, Barr, and Çetinkaya Rundel 2014; Tintle et al. 2014a) use permutation or other randomization texts, though minimal bootstrapping. Experimental evidence suggests that students learn better using these methods (Tintle et al. 2014b)

The primary focus of this article is the bootstrap, where there are a variety of competing methods and issues that are subtler and less well-known than for permutation tests. I hope to provide a better understanding of the key ideas behind the bootstrap, and the merits of different methods. Without this understanding, things can go wrong. For example, people may prefer the bootstrap for small samples, to avoid relying on the central limit theorem (CLT). However, the common bootstrap percentile confidence interval is poor for small samples; it is like a t-interval computed using z instead of t quantiles and estimating s with a divisor of n instead of n − 1. Conversely, it is more accurate than t-intervals for larger samples. Some other bootstrap intervals have the same small-sample issues

The bootstrap is used for estimating standard errors and bias, obtaining confidence intervals, and sometimes for tests. The focus here is on relatively simple bootstrap methods and their pedagogical application, particularly for Stat 101 (introductory statistics with an emphasis on data analysis) and Mathematical Statistics (a first course in statistical theory, using math and simulation), though the methods are useful elsewhere in the curriculum. For more background on the bootstrap and a broader array of applications, see Efron and Tibshirani (1993) and Davison and Hinkley (1997). Hesterberg (2014) is a longer version of this article. Hesterberg et al. (2005) is an introduction to the bootstrap and permutation tests for Stat 101 students

Section 1 introduces the bootstrap for estimators and t statistics, and discusses its pedagogical and practical value. Section 2 develops the idea behind the bootstrap, and implications thereof. Section 3 visually explores when the bootstrap works or not, and compares the effects of two sources of variation—the original sample and bootstrap sampling. Section 4 surveys selected confidence intervals and their pedagogical and practical merits. Section 5 covers pedagogical and practical issues in regression. Section 6 contains a summary and discussion

Examples and figures are created in R (R Core Team 2014), using the resample package (Hesterberg 2015). Scripts are in an online supplement

1. 1. Verizon Example

The following example is used throughout this article. Verizon was an Incumbent Local Exchange Carrier (ILEC), responsible for maintaining land-line phone service in certain areas. Verizon also sold long-distance service, as did a number of competitors, termed Competitive Local Exchange Carriers (CLEC). When something went wrong, Verizon was responsible for repairs, and was supposed to make repairs as quickly for CLEC long-distance customers as for their own. The New York Public Utilities Commission (PUC) monitored fairness by comparing repair times for Verizon and different CLECs, for different classes of repairs and time periods. In each case a hypothesis test was performed at the 1% significance level, to determine whether repairs for CLEC’s customers were significantly slower than for Verizon’s customers. There were hundreds of such tests. If substantially more than 1% of the tests were significant, then Verizon would pay large penalties. These tests were performed using t tests; Verizon proposed using permutation tests instead

The data for one combination of CLEC, class of service, and period are shown in Table 1 and Figure 1 . Both samples are positively skewed. The mean CLEC repair time is nearly double that for ILEC, suggesting discrimination, though the difference could be just chance.

Mở trong cửa sổ riêng

Hình 1

Biểu đồ lượng tử bình thường của thời gian sửa chữa ILEC và CLEC

Bảng 1

Thời gian sửa chữa của Verizon

nmeansdILEC16648. 4116. 5CLEC2316. 6919. 5

Mở trong cửa sổ riêng

The one-sided permutation test p-value is 0.0171, well above the 1% cutoff mandated by the PUC. In comparison, the pooled t-test p-value is 0.0045, about four times too small. The permutation test gives the correct answer, with nearly exact Type 1 error rates; this was recognized as far back as Fisher (1936), who used t-tests as an approximation because perturbation tests were computationally infeasible then. The t-test is inaccurate because it is sensitive to skewness when the sample sizes differ. Using t-tests for < ![CDATA[10, 000]] > Verizon fairness tests would result in about 400 false positive results instead of the expected 100, resulting in large monetary penalties. Similarly, t confidence intervals are inaccurate. We will see how inaccurate, and explore alternatives, using the bootstrap.

1. 2. Bootstrap một mẫu

Cho θ^ là một thống kê được tính toán từ một mẫu quan sát n iid (chuỗi thời gian và dữ liệu phụ thuộc khác nằm ngoài phạm vi của bài viết này). Trong bootstrap không theo tham số thông thường, chúng tôi rút ra n quan sát với sự thay thế từ dữ liệu gốc để tạo mẫu bootstrap hoặc lấy mẫu lại và tính toán thống kê θ^* cho mẫu này (chúng tôi sử dụng * để biểu thị số lượng bootstrap). Chúng tôi lặp lại điều đó nhiều lần, giả sử r=10.000 (chúng tôi sử dụng 10.000 trừ khi có ghi chú khác). The bootstrap statistics comprise the bootstrap distribution. Hình 2 hiển thị các bản phân phối bootstrap của θ^=x‾ cho bộ dữ liệu ILEC và CLEC. Chúng tôi sử dụng mỗi phân phối để ước tính những điều nhất định về phân phối lấy mẫu tương ứng, bao gồm.

lỗi tiêu chuẩn. lỗi chuẩn bootstrap là độ lệch chuẩn mẫu của phân phối bootstrap, sb=1/(r-1)∑i=1r(θ^i*-θ^*‾)2
khoảng tin cậy. một khoảng thời gian nhanh và bẩn, khoảng phần trăm bootstrap, là phạm vi của 95% trung bình của phân phối bootstrap,
Thiên kiến. ước tính sai lệch bootstrap là θ^*‾-θ^

Mở trong cửa sổ riêng

Hình 2

Phân phối Bootstrap cho dữ liệu Verizon. Bản phân phối Bootstrap cho x‾, cho bộ dữ liệu ILEC và CLEC

Summary statistics of the bootstrap distributions are

Observed SE Mean Bias
CLEC 16. 50913 3. 961816 16. 53088 0. 0217463
ILEC 8. 41161 0. 357599 8. 40411 -0. 0075032

The CLEC SE is larger primarily due to the smaller sample size and secondly to the larger sample sd in the original data. Bootstrap percentile intervals are (7. 73, 9. 13) for ILEC and (10. 1, 25. 4) for CLEC. For comparison, s/n=0. 36 for ILEC and 4. 07 for CLEC, and standard t intervals are (7. 71, 9. 12) and (8. 1, 24. 9). The distribution appears approximately normal for the ILEC sample but not for the smaller CLEC sample, suggesting that t intervals might be reasonable for the ILEC mean but not the CLEC mean

The bootstrap separates the concept of a standard error—the standard deviation of a sampling distribution—from the common formula s/n for estimating the SE of a sample mean. This separation should help students understand the concept. Based on extensive experience interviewing job candidates, I attest that a better way to teach about SEs is needed—too many do not understand SEs, and even confuse SEs in other contexts with the formula for the SE of a sample mean

1. 3. Two-Sample Bootstrap

For a two-sample bootstrap, we independently draw bootstrap samples with replacement from each sample, and compute a statistic that compares the samples. For the Verizon data, we draw a sample of size 1664 from the ILEC data and 23 from the CLEC data, and compute the difference in means x‾1-x‾2. The bootstrap distribution (see online supplement) is centered at the observed statistic; it is used for confidence intervals and standard errors. It is skewed like the CLEC distribution; t intervals would not be appropriate

Để so sánh, thử nghiệm hoán vị gộp dữ liệu và chia dữ liệu gộp thành hai nhóm bằng cách lấy mẫu mà không cần thay thế, trước khi lấy sự khác biệt về phương tiện. The sampling is consistent with the null hypothesis of no difference between groups, and the distribution is centered at zero

1. 4. Bootstrap t-Distribution

It is not surprising that t procedures are inaccurate for skewed data with a sample of size 23, or for the difference when one sample is that small. More surprising is how bad t confidence intervals are for the larger sample, size 1664. Để thấy điều này, chúng tôi khởi động t thống kê

Above we resampled univariate distributions of estimators like x‾ or x‾1-x‾2. Here, we look at joint distributions, for example, the joint distribution of X‾ and s, and distributions of statistics that depend on both θ^ and θ. To estimate the sampling distribution of θ^-θ, we use the bootstrap distribution of θ^*-θ^. The bootstrap bias estimate is E(θ^*-θ^), an estimate of E(θ^-θ). Để ước tính phân phối lấy mẫu của thống kê t

t=θ^-θSE,

(1)

trong đó SE là một lỗi tiêu chuẩn được tính toán từ mẫu ban đầu, chúng tôi sử dụng phân phối bootstrap của

t*=θ^*-θ^SE*

(2)

Hình 3 hiển thị phân phối chung của X‾* và s*/n cũng như phân phối của t* đối với dữ liệu ILEC có n = 1664. Lý thuyết chuẩn nói rằng đối với các quần thể bình thường X‾ và s là độc lập và thống kê t t=(X‾-μ)/(s/n) có phân phối t. Tuy nhiên, đối với các quần thể có độ lệch dương X‾ và s có mối tương quan thuận, mối tương quan không nhỏ hơn với n lớn và thống kê t không có phân phối t. Trong khi X‾* bị lệch dương với giá trị trung bình x‾, thì t bị lệch gấp đôi theo hướng ngược lại vì mẫu số s/n bị ảnh hưởng nhiều hơn bởi các quan sát lớn so với tử số X‾ là. Và t có trung vị âm, do đó, lượng tử của nó kết thúc bằng 3x không đối xứng bên trái.

Mở trong cửa sổ riêng

Hình 3

CLT với n = 1664. Bên trái. scatterplot of bootstrap means and standard errors, ILEC data. Right. bootstrap t-distribution

The amount of skewness apparent in the bootstrap t-distribution matters. The bootstrap distribution is a sampling distribution, not raw data; the CLT has already had its one chance to work. At this point, any deviations indicate errors in procedures that assume normal or t sampling distributions. 3. 6% of the bootstrap distribution is below − t α/2, n − 1, and 1. 7% is above t α/2, n − 1 (based on r = 106 samples, α = 0. 05). Even with n = 1664, the t statistic is not even close to having a t-distribution, based on what matters—tail probabilities

In my experience giving talks and courses, typically over half of the audience indicates there is no problem with the skewness apparent in plots like Figure 3 . They are used to looking at normal quantile plots of data, not of sampling distributions. A common flaw in statistical practice is to fail to judge how accurate standard CLT-based methods are for specific data; the bootstrap t-distribution provides an effective way to do so.

1. 5 . Pedagogical and Practical Value

The bootstrap process reinforces the central role that sampling from a population plays in statistics. Sampling variability is visible, and it is natural to measure the variability of the bootstrap distribution using methods students learned for summarizing data, such as the standard deviation. Students can see if the bootstrap distribution is bell-shaped. It is natural to use the middle 95% of the distribution as a 95% confidence interval

The bootstrap makes the abstract concrete—abstract concepts like sampling distributions, standard errors, bias, central limit theorem, and confidence intervals are visible in plots of the bootstrap distribution

The bootstrap works the same way with a wide variety of statistics. This makes it easy for students to work with a variety of statistics, and focus on ideas rather than formulas. This also lets us do better statistics, because we can work with statistics that are appropriate rather than just those that are easy—for example, a median or trimmed mean instead of a mean

Students can obtain confidence intervals by working directly with the statistic of interest, rather than using a t statistic. You could skip talking about t statistics and t intervals, or defer that until later. At that point you may introduce another quick-and-dirty confidence interval, the t interval with bootstrap standard error, θ^±tα/2sb. In mathematical statistics, students can use the bootstrap to help understand joint distributions of estimators like X‾ and s, and to understand the distribution of t statistics, and compute bootstrap t confidence intervals, see Section 4. 3

The bootstrap can also reinforce the understanding of formula methods, and provide a way for students to check their work. Students may know the formula s/n without understanding what it really is; but they can compare it to sb or to an eyeball estimate of standard deviation from a histogram of the bootstrap distribution, and see that it measures how the sample mean varies due to random sampling

Resampling is also important in practice. It often provides the only practical way to do inference—when it is too difficult to derive formulas, or the data are stored in a way that make calculating the formulas impractical; a longer version of this article (Hesterberg 2014) and (Chamandy 2015) contains examples from Google, from my work and others. In other cases, resampling provides better accuracy than formula methods. For one simple example, consider confidence intervals for the variance of the CLEC population. s 2 = 380. 4, the bootstrap SE for s 2 is 267, and the 95% percentile interval is (59, 932). The classical normal-based interval is ((n − 1)s 2/χ2 22, 0. 975, (n − 1)s 2/χ2 22, 0. 025) = (228, 762). It assumes that (n − 1)s 2/σ2 ∼ χ2(n − 1), but for long-tailed distributions the actual variance of s 2 is far greater than for normal distributions. I recommend not teaching the χ2 intervals for a variance, or F-based intervals for the ratio of variances, because they are not useful in practice, with no robustness against nonnormality. Their coverage does not improve as n → ∞

2. THE IDEA BEHIND BOOTSTRAPPING

Inferential statistics is based on sampling distributions. In theory, to get these we

draw (all or infinitely many) samples from the population, and
compute the statistic of interest for each sample (such as the mean, median, etc. )

The distribution of the statistics is the sampling distribution, see Figure 4 .

Mở trong cửa sổ riêng

Figure 4

Ideal world. Sampling distributions are obtained by drawing repeated samples from the population, computing the statistic of interest for each, and collecting (an infinite number of) those statistics as the sampling distribution

However, in practice we cannot draw arbitrarily many samples from the population; we have only one sample. The bootstrap idea is to draw samples from an estimate of the population, in lieu of the population

draw samples from an estimate of the population, and
compute the statistic of interest for each sample

The distribution of the statistics is the bootstrap distribution, see Figure 5 .

Mở trong cửa sổ riêng

Figure 5

Bootstrap world. The bootstrap distribution is obtained by drawing repeated samples from an estimate of the population, computing the statistic of interest for each, and collecting those statistics. The distribution is centered at the observed statistic (x‾), not the parameter (μ)

2. 1 . Plug-In Principle

The bootstrap is based on the plug-in principle—if something is unknown, we substitute an estimate for it. This principle is very familiar to statisticians. For example, the sd of the sample mean is σ/n; when σ is unknown we substitute an estimate s, the sample standard deviation. With the bootstrap we go one step farther—instead of plugging in an estimate for a single parameter, we plug in an estimate for the whole population F

This raises the question of what to substitute for F. Possibilities include the nonparametric, parametric, and smoothed bootstrap. The primary focus of this article is the nonparametric bootstrap, the most common procedure, which consists of drawing samples from the empirical distribution F^n (with probability 1/n on each observation), that is, drawing samples with replacement from the data

In the parametric bootstrap, we assume a model (e. g. , a gamma distribution with unknown shape and scale), estimate parameters for that model, then draw bootstrap samples from the model with those estimated parameters

The smoothed bootstrap is a compromise between parametric and nonparametric approaches; if we believe the population is continuous, we may sample from a continuous F^, say a kernel density estimate (Silverman and Young 1987; Hall, DiCiccio, and Romano 1989; Hesterberg 2014). Smoothing is not common; it is rarely needed, and does not generalize well to multivariate and factor data

2. 2 . Fundamental Bootstrap Principle

Nguyên tắc bootstrap cơ bản là sự thay thế này thường hoạt động — chúng ta có thể đưa vào ước tính cho F, sau đó lấy mẫu và kết quả phân phối bootstrap cung cấp thông tin hữu ích về phân phối lấy mẫu

Bản phân phối bootstrap trên thực tế là một bản phân phối lấy mẫu. The bootstrap uses a sampling distribution (from an estimate F^) to estimate things about the sampling distribution (from F)

There are some things to watch out for, ways the bootstrap distribution differs from the sampling distribution. Chúng tôi thảo luận về một số điều này dưới đây, nhưng một điều đủ quan trọng để đề cập ngay lập tức

2. 3 . Inference, Not Better Estimates

Phân phối bootstrap tập trung vào thống kê được quan sát, không phải tham số dân số, ví dụ, tại x‾, không phải μ

Điều này có hai ý nghĩa sâu sắc. Đầu tiên, điều đó có nghĩa là chúng tôi không sử dụng giá trị trung bình của số liệu thống kê bootstrap để thay thế cho ước tính ban đầu. 1 Ví dụ: chúng tôi không thể sử dụng bootstrap để cải thiện x‾; . Thay vào đó, chúng tôi sử dụng bootstrap để cho biết ước tính ban đầu chính xác đến mức nào. In this regard the bootstrap is like formula methods that use the data twice—once to compute an estimate, and again to compute a standard error for the estimate. The bootstrap just uses a different approach to estimating the standard error

Nếu phân phối bootstrap không tập trung vào thống kê được quan sát—nếu có độ chệch—chúng ta có thể trừ đi độ chệch ước tính để tạo ra ước tính đã điều chỉnh độ lệch, θ^-Độ lệch^=2θ^-θ^*‾. Chúng tôi thường không làm điều này—ước tính sai lệch có thể có độ biến thiên cao (Efron và Tibshirani 1993). Độ lệch là một lý do khác để không sử dụng giá trị trung bình của các ước tính bootstrap θ^*‾=θ^+Độ lệch^ để thay thế ước tính ban đầu θ^—điều này thêm ước tính độ lệch vào thống kê ban đầu, nhân đôi bất kỳ độ lệch nào

The second implication is that we do not use the CDF or quantiles of the bootstrap distribution of θ^* to estimate the CDF or quantiles of the sampling distribution of an estimator θ^. Instead, we bootstrap to estimate things like the standard deviation, the expected value of θ^-θ, and the CDF and quantiles of θ^-θ or (θ^-θ)/SE

2. 4 . Key Idea Versus Implementation Details

What people may think of as the key bootstrap idea—drawing samples with replacement from the data—is just a pair of implementation details. Đầu tiên là thay thế phân phối theo kinh nghiệm cho dân số; . Thứ hai là sử dụng lấy mẫu ngẫu nhiên. Ở đây cũng có những lựa chọn thay thế, bao gồm các phương pháp phân tích (e. g. , khi θ^=x‾ chúng ta có thể tính toán giá trị trung bình và phương sai của phân phối bootstrap một cách phân tích) và tính toán toàn diện. Có thể có nn mẫu bootstrap từ một mẫu cố định có kích thước n, 2n-1n nếu thứ tự không quan trọng hoặc thậm chí ít hơn trong một số trường hợp như dữ liệu nhị phân; . We call this an exhaustive bootstrap or theoretical bootstrap. Nhưng các phương pháp toàn diện thường không khả thi, vì vậy thay vào đó, chúng tôi rút ra 10.000 mẫu ngẫu nhiên;

2. 5. Cách lấy mẫu

Thông thường chúng ta nên lấy mẫu bootstrap giống như cách lấy mẫu ngoài đời, ví dụ lấy mẫu ngẫu nhiên đơn giản hoặc lấy mẫu phân tầng. Về mặt sư phạm, điều này củng cố vai trò của việc lấy mẫu ngẫu nhiên trong thống kê

Một ngoại lệ đối với quy tắc đó là điều kiện dựa trên thông tin được quan sát. Ví dụ: khi so sánh các mẫu có kích thước n 1 và n 2, chúng tôi cố định các số đó, ngay cả khi quy trình lấy mẫu ban đầu có thể tạo ra các số đếm khác nhau. (Đây là nguyên tắc điều kiện trong thống kê, ý tưởng về điều kiện hóa thống kê phụ trợ. ) Điều hòa cũng tránh được một số vấn đề kỹ thuật, đặc biệt là trong hồi quy, xem Phần 5

Chúng tôi cũng có thể sửa đổi việc lấy mẫu để trả lời các câu hỏi nếu-thì. Ví dụ: chúng ta có thể khởi động có và không có phân tầng và so sánh các lỗi tiêu chuẩn thu được để điều tra giá trị của phân tầng. Chúng tôi cũng có thể vẽ các mẫu có kích thước khác nhau; . Ngược lại, điều này cũng trả lời một câu hỏi phổ biến về bootstrapping—tại sao chúng tôi lấy mẫu với cùng kích thước với dữ liệu gốc—bởi vì làm như vậy, các lỗi tiêu chuẩn phản ánh dữ liệu thực tế, thay vì tập dữ liệu giả định lớn hơn hoặc nhỏ hơn

3. BIẾN ĐỔI TRONG PHÂN PHỐI BOOTSTRAP

Ở trên, chúng tôi đã khẳng định rằng bản phân phối bootstrap thường cung cấp thông tin hữu ích về bản phân phối lấy mẫu. Bây giờ chúng tôi giải thích thêm về điều đó bằng một loạt ví dụ trực quan, một ví dụ về mọi thứ thường hoạt động tốt và ba ví dụ có vấn đề. Chúng tôi giải quyết hai câu hỏi

Bootstrap lý thuyết (đầy đủ) chính xác đến mức nào?
Việc triển khai Monte Carlo gần đúng với bootstrap lý thuyết chính xác đến mức nào?

Cả hai đều phản ánh sự thay đổi ngẫu nhiên

Mẫu ban đầu được chọn ngẫu nhiên từ tổng thể
Các mẫu lại Bootstrap được chọn ngẫu nhiên từ mẫu ban đầu

3. 1. trung bình mẫu. Kích thước mẫu lớn

Hình 6 hiển thị tổng thể, phân phối lấy mẫu cho giá trị trung bình với n = 50, bốn mẫu và phân phối bootstrap tương ứng. Mỗi phân phối bootstrap tập trung vào thống kê x‾ từ mẫu tương ứng chứ không phải ở trung bình dân số μ. Độ chênh lệch và hình dạng của các bản phân phối bootstrap thay đổi một chút nhưng không nhiều.

Mở trong cửa sổ riêng

Hình 6

Phân phối Bootstrap cho giá trị trung bình, n = 50. Cột bên trái hiển thị dân số và bốn mẫu. Cột ở giữa hiển thị phân phối lấy mẫu cho X‾ và phân phối bootstrap của X‾* cho mỗi mẫu, với r = 104. Cột bên phải hiển thị nhiều bản phân phối bootstrap hơn cho mẫu đầu tiên, ba bản có r = 1000 và hai bản có r = 104

Những quan sát này cho biết bản phân phối bootstrap có thể được sử dụng cho mục đích gì. Phương tiện bootstrap không cung cấp ước tính tốt hơn về tham số dân số, bởi vì phương tiện bootstrap được căn giữa tại x‾, không phải μ. Tương tự, lượng phân vị của phân phối bootstrap không hữu ích để ước tính lượng phân vị của phân phối lấy mẫu. Thay vào đó, các bản phân phối bootstrap rất hữu ích để ước tính mức độ lây lan và hình dạng của bản phân phối lấy mẫu

Cột bên phải hiển thị các bản phân phối bootstrap bổ sung cho mẫu đầu tiên, với r = 1000 hoặc r = 104 mẫu lại. Sử dụng nhiều mẫu lại làm giảm biến thể Monte Carlo ngẫu nhiên, nhưng về cơ bản không thay đổi phân phối bootstrap—nó vẫn có cùng tâm, trải rộng và hình dạng gần đúng

Biến thể Monte Carlo nhỏ hơn nhiều so với biến thể do các mẫu ban đầu khác nhau. Đối với nhiều mục đích sử dụng, chẳng hạn như ước tính nhanh sai số chuẩn hoặc khoảng tin cậy gần đúng, r = 1000 mẫu lại là đủ. Tuy nhiên, có sự thay đổi đáng chú ý (bao gồm cả sự thay đổi quan trọng nhưng ít đáng chú ý hơn ở phần đuôi), do đó, khi độ chính xác quan trọng, nên sử dụng r = 104 hoặc nhiều mẫu hơn

3. 2. trung bình mẫu. Kích thước mẫu nhỏ

Hình 7 tương tự như Hình 6 , nhưng đối với cỡ mẫu nhỏ hơn, n = 9 . Như trước đây, các bản phân phối bootstrap được định tâm ở phương tiện mẫu tương ứng, nhưng hiện tại, mức độ trải rộng và hình dạng của các bản phân phối bootstrap thay đổi đáng kể, bởi vì mức độ trải rộng và hình dạng của các mẫu thay đổi đáng kể. Kết quả là độ rộng của khoảng tin cậy bootstrap thay đổi đáng kể (điều này cũng đúng với khoảng tin cậy t tiêu chuẩn). Như trước đây, biến thể Monte Carlo nhỏ và có thể giảm khi có nhiều mẫu lại hơn.

Mở trong cửa sổ riêng

Hình 7

Phân phối Bootstrap cho giá trị trung bình, n = 9. Cột bên trái hiển thị dân số và bốn mẫu. Cột ở giữa hiển thị phân phối lấy mẫu cho X‾ và phân phối bootstrap của X‾* cho mỗi mẫu, với r = 104. Cột bên phải hiển thị nhiều bản phân phối bootstrap hơn cho mẫu đầu tiên, ba bản có r = 1000 và hai bản có r = 104

Mặc dù không rõ ràng trong ảnh, các bản phân phối bootstrap có xu hướng trung bình quá hẹp, theo hệ số (n-1)/n đối với giá trị trung bình của mẫu và xấp xỉ mức đó đối với nhiều thống kê khác. Điều này quay trở lại nguyên tắc trình cắm thêm; . Nghĩa là, nhỏ hơn công thức thông thường s/n theo hệ số (n-1)/n. Ví dụ: CLEC sb = 3. 96 nhỏ hơn s/n=4. 07

Sự kết hợp giữa xu hướng thu hẹp này và sự thay đổi trong mức chênh lệch làm cho một số khoảng tin cậy bootstrap bị che giấu, hãy xem Phần 4. Các khoảng t cổ điển bù bằng cách sử dụng hai hệ số mờ—hệ số n/(n-1) trong tính toán độ lệch chuẩn mẫu s và sử dụng t thay vì lượng phân vị thông thường. Khoảng phân vị Bootstrap thiếu các yếu tố này, do đó có xu hướng quá hẹp và được che phủ trong các mẫu nhỏ. khoảng thời gian t với bootstrap SE bao gồm hệ số t/z, nhưng bị sai lệch độ hẹp. Một số thủ tục bootstrap khác làm tốt hơn. Đối với Stat 101, tôi đề nghị cảnh báo sinh viên về vấn đề này;

Trong các tình huống lấy mẫu hai mẫu hoặc phân tầng, độ lệch độ hẹp phụ thuộc vào kích thước mẫu hoặc tầng riêng lẻ. Điều này có thể dẫn đến sai lệch nghiêm trọng. Ví dụ, U. K. Bộ Lao động và Lương hưu muốn khởi động một cuộc khảo sát về gian lận phúc lợi. Họ đã sử dụng quy trình lấy mẫu phân tầng dẫn đến hai đối tượng trong mỗi tầng—do đó, sai số chuẩn bootstrap chưa được hiệu chỉnh sẽ quá nhỏ theo hệ số (ni-1)/ni=1/2

3. 3. trung bình mẫu

Bây giờ hãy chuyển sang Hình 8 , trong đó thống kê là trung bình mẫu. Ở đây, các bản phân phối bootstrap là các xấp xỉ kém của bản phân phối lấy mẫu. Phân phối lấy mẫu là liên tục, nhưng các phân phối bootstrap thì rời rạc—đối với n lẻ, trung vị mẫu bootstrap luôn là một trong những quan sát ban đầu—và với các hình dạng rất khác nhau.

Mở trong cửa sổ riêng

Hình 8

Phân phối Bootstrap cho trung vị, n = 15. Cột bên trái hiển thị dân số và bốn mẫu. Cột giữa hiển thị phân phối lấy mẫu và phân phối bootstrap cho mỗi mẫu, với r = 104. Cột bên phải hiển thị các bản phân phối bootstrap được làm mịn, với kernel sd s/n và r = 104

Bootstrap thông thường có xu hướng không hoạt động tốt đối với các số liệu thống kê như trung bình hoặc các lượng tử khác trong các mẫu nhỏ phụ thuộc nhiều vào một số lượng nhỏ các quan sát trong một mẫu lớn hơn. Bootstrap phụ thuộc vào mẫu phản ánh chính xác những gì quan trọng về dân số và một vài quan sát đó không thể làm được điều đó. Cột bên phải hiển thị bootstrap đã được làm mịn;

Mặc dù hình dạng và sự lan rộng của các bản phân phối bootstrap không chính xác, khoảng phân vị bootstrap cho trung vị không tệ (Efron 1982). Đối với n lẻ, các điểm cuối của khoảng phần trăm rơi vào một trong các giá trị được quan sát. Các điểm cuối khoảng thời gian chính xác cũng rơi vào một trong các giá trị được quan sát (thống kê thứ tự) và trong khoảng thời gian 95%, những điểm cuối này thường giống hoặc thống kê thứ tự liền kề như khoảng phần trăm

3. 4. Mối quan hệ trung bình-phương sai

Trong nhiều ứng dụng, độ rộng hoặc hình dạng của phân phối lấy mẫu phụ thuộc vào tham số quan tâm. Ví dụ, dạng và dạng phân phối nhị thức phụ thuộc vào p. Tương tự, đối với phân phối hàm mũ, độ lệch chuẩn của phân phối lấy mẫu của x‾ tỷ lệ với μ

Mối quan hệ phương sai trung bình này được phản ánh trong các bản phân phối bootstrap. Hình 9 hiển thị mẫu và bản phân phối bootstrap cho dân số theo cấp số nhân. Có sự phụ thuộc chặt chẽ giữa x‾ và bootstrap SE tương ứng. Mối quan hệ này có ý nghĩa quan trọng đối với khoảng tin cậy; . Chúng ta sẽ thảo luận thêm về vấn đề này trong Phần 4. 5.

Mở trong cửa sổ riêng

Hình 9

Phân phối Bootstrap cho giá trị trung bình, n = 50, dân số theo cấp số nhân. Cột bên trái hiển thị dân số và năm mẫu. (Các mẫu này được chọn từ một tập hợp các mẫu ngẫu nhiên lớn hơn, để có giá trị trung bình trải rộng trên phạm vi giá trị trung bình của mẫu và độ lệch chuẩn trung bình tùy thuộc vào giá trị trung bình. ) Cột giữa hiển thị phân phối lấy mẫu và phân phối bootstrap cho từng mẫu. Cột bên phải hiển thị các bản phân phối bootstrap t

Có những ứng dụng khác mà phân phối lấy mẫu phụ thuộc nhiều vào tham số, ví dụ: phân phối lấy mẫu cho thống kê chi bình phương phụ thuộc vào tham số không tập trung. Hãy thận trọng khi khởi động các ứng dụng như vậy;

Ở đây có một điểm sáng. Cột bên phải của Hình 9 hiển thị phân phối lấy mẫu và phân phối bootstrap của thống kê t, Phương trình (1) và (2). Những bản phân phối này ít nhạy cảm hơn nhiều so với mẫu ban đầu. Chúng tôi sử dụng các bản phân phối bootstrap t bên dưới để xây dựng khoảng tin cậy chính xác.

3. 5. Tổng hợp các bài học trực quan

Bản phân phối bootstrap phản ánh mẫu ban đầu. Nếu mẫu hẹp hơn dân số, phân phối bootstrap hẹp hơn phân phối lấy mẫu. Thông thường đối với các mẫu lớn, dữ liệu đại diện tốt cho dân số; . Bootstrapping không khắc phục được nhược điểm lấy mẫu nhỏ làm cơ sở suy luận. Thật vậy, đối với các mẫu rất nhỏ, có thể tốt hơn nếu đưa ra các giả định bổ sung, chẳng hạn như họ tham số

Nhìn về phía trước, hai điều quan trọng để suy luận chính xác

phân phối bootstrap gần giống như thế nào với phân phối lấy mẫu (bootstrap t có lợi thế hơn, xem Hình 9 );
các quy trình cho phép thay đổi mẫu tốt như thế nào, ví dụ, bằng cách sử dụng các hệ số giả mạo

Một bài học trực quan khác là việc lấy mẫu ngẫu nhiên chỉ sử dụng 1000 mẫu lại gây ra nhiều biến thể ngẫu nhiên hơn trong các bản phân phối bootstrap. Hãy để chúng tôi xem xét vấn đề này một cách cẩn thận hơn

3. 6. Có bao nhiêu mẫu Bootstrap

Tôi đã đề xuất ở trên bằng cách sử dụng 1000 mẫu bootstrap để tính gần đúng hoặc 104 mẫu trở lên để có độ chính xác cao hơn. Đây là về độ chính xác của Monte Carlo—việc triển khai bootstrap thông thường của Monte Carlo gần đúng như thế nào với phân phối bootstrap lý thuyết. Một phân phối bootstrap dựa trên r mẫu ngẫu nhiên tương ứng với việc vẽ r quan sát với sự thay thế từ phân phối bootstrap lý thuyết

Brad Efron, người phát minh ra bootstrap, đã đề xuất vào năm 1993 rằng r = 200, hoặc thậm chí chỉ cần r = 25, là đủ để ước lượng sai số chuẩn và r = 1000 là đủ cho khoảng tin cậy (Efron và Tibshirani 1993)

Tôi lập luận rằng nhiều mẫu lại là phù hợp. Đầu tiên, máy tính bây giờ nhanh hơn. Thứ hai, các tiêu chí đó được phát triển bằng cách sử dụng các đối số kết hợp biến thể do mẫu ngẫu nhiên ban đầu với biến thể bổ sung từ việc triển khai Monte Carlo. Tôi thích xử lý dữ liệu như đã cho và chỉ xem xét sự thay đổi do triển khai. Hai người phân tích cùng một dữ liệu sẽ không nhận được câu trả lời khác nhau đáng kể do biến thể Monte Carlo

Định lượng độ chính xác bằng công thức hoặc bootstrapping

Chúng ta có thể định lượng biến thể Monte Carlo theo hai cách—sử dụng công thức hoặc bằng cách khởi động. Ví dụ: đặt G là cdf của phân phối bootstrap lý thuyết và G^ phép tính gần đúng Monte Carlo, khi đó phương sai của G^(x) là G(x)(1 − G(x))/r, mà chúng tôi ước tính bằng cách sử dụng

Tương tự như vậy, ước tính độ lệch bootstrap là giá trị trung bình của r giá trị ngẫu nhiên trừ đi một hằng số, θ^*‾-θ^;

Chúng tôi cũng có thể khởi động phân phối bootstrap. Số liệu thống kê bootstrap r là một mẫu iid từ bản phân phối bootstrap đầy đủ; . Ví dụ: khoảng tin cậy phần trăm 95% cho dữ liệu CLEC là (10. 09, 25. 41); . 5% và 97. 5% phân vị của phân phối bootstrap; . Để ước tính độ chính xác của các lượng tử đó, chúng tôi rút ra các mẫu có kích thước r từ bản phân phối bootstrap và tính toán các lượng tử cho mỗi mẫu lại. Các SE kết quả cho các ước tính lượng tử là 0. 066 và 0. 141

Cần r ≥ 15.000 để nằm trong 10%. Tiếp theo, chúng tôi xác định r nên lớn như thế nào để có kết quả chính xác, bắt đầu bằng kiểm tra hai phía với kích thước 5%. Giả sử giá trị p một phía thực sự là 0. 025 và chúng tôi muốn giá trị p ước tính nằm trong khoảng 10% của giá trị đó, trong khoảng từ 0. 0225 và 0. 0275. Để có xác suất gần như vậy là 95%, cần phải có 1. 960. 025·0. 975/r<0. 025/10 hoặc r ⩾ 14, 982. Các kết quả tương tự giữ cho phần trăm bootstrap hoặc khoảng tin cậy bootstrap t. Nếu q là đúng 2. 5% phân vị của phân phối bootstrap lý thuyết (tương ứng với θ^* hoặc t*), để ước tính G^(q) nằm trong khoảng 2. 25% và 2. 75% với xác suất 95% yêu cầu r ≥ 14.982

Đối với khoảng thời gian t với bootstrap SE, r phải đủ lớn để sự thay đổi trong sb có tác động nhỏ tương tự đối với vùng phủ sóng. Đối với n lớn và phân phối bootstrap xấp xỉ bình thường, khoảng r ⩾ 5000 là đủ (Hesterberg 2014)

Làm tròn lên, chúng ta cần r≥15.000 để có 95% xác suất nằm trong phạm vi 10%, đối với các phép thử hoán vị và khoảng tin cậy phần trăm và bootstrap t, và r ⩾ 5000 đối với t với bootstrap SE. Mặc dù học sinh có thể không cần mức độ chính xác này, nhưng sẽ rất tốt nếu bạn có thói quen thực hiện các mô phỏng chính xác. Do đó, tôi khuyên dùng 104 để sử dụng thường xuyên. Trong thực tế, nếu kết quả với r = 104 là cận biên, thì chúng ta có thể tăng r để giảm sai số Monte Carlo. Chúng tôi muốn các quyết định phụ thuộc vào dữ liệu, không phải biến thể ngẫu nhiên trong quá trình triển khai Monte Carlo. Chúng tôi đã sử dụng r=500.000 trong dự án Verizon

Học sinh có thể thực hiện nhiều lần chạy với r khác nhau, để xem kết quả thay đổi như thế nào. Họ nên phát triển một số trực giác về cách các kết quả thay đổi theo các r khác nhau;

4. KHOẢNG TIN TỨC

Trong phần này, tôi mô tả một số khoảng tin cậy và so sánh giá trị sư phạm và độ chính xác của chúng

Kiểm tra giả thuyết hoặc khoảng tin cậy là chính xác bậc nhất nếu xác suất từ chối một phía thực tế hoặc xác suất không phủ sóng một phía khác với các giá trị danh nghĩa bằng O(n - 1/2). Nó là chính xác bậc hai nếu sự khác biệt là O(n - 1)

4. 1. Thống kê 101—Phần trăm và t với Bootstrap SE

Đối với Stat 101, tôi sẽ gắn bó với hai khoảng thời gian nhanh và bẩn đã đề cập trước đó. khoảng phân vị bootstrap và khoảng t với lỗi chuẩn bootstrap θ^±tα/2sb. Nếu sử dụng phần mềm cung cấp tính năng này, thì bạn cũng có thể sử dụng khoảng thời gian bootstrap t được mô tả bên dưới. Khoảng phân vị sẽ trực quan hơn cho sinh viên. T với lỗi tiêu chuẩn bootstrap giúp họ tìm hiểu các phương thức công thức. Học sinh có thể tính cả hai và so sánh

Không khoảng thời gian nào là rất chính xác. Chúng chỉ chính xác ở bậc một và kém trong các mẫu nhỏ—chúng có xu hướng quá hẹp. Lỗi tiêu chuẩn của bootstrap quá nhỏ, theo hệ số (n-1)/n nên khoảng t với bootstrap SE quá hẹp theo hệ số đó, đây chính là sai số hẹp được thảo luận trong Phần 3. 2

Khoảng phần trăm có cùng độ hẹp và hơn thế nữa—đối với dữ liệu đối xứng, nó giống như sử dụng zα/2σ^/n thay cho tα/2,n-1s/n. Sự thay đổi ngẫu nhiên về mức độ sai lệch của dữ liệu cũng làm tăng thêm khả năng thay đổi cho các điểm cuối, làm giảm phạm vi bao phủ hơn nữa. Các hiệu ứng này là O(n - 1) (ảnh hưởng đến xác suất bao phủ) hoặc nhỏ hơn, vì vậy chúng trở nên không đáng kể khá nhanh khi n tăng. Nhưng chúng quan trọng đối với n nhỏ, hãy xem Hình 10 . Khoảng này cũng có lỗi O(n − 1/2)—vì nó chỉ thực hiện hiệu chỉnh độ lệch một phần, hãy xem Phần 4. 5.

Mở trong cửa sổ riêng

Hình 10

Khoảng tin cậy xác suất bỏ lỡ một phía đối với dân số bình thường và theo cấp số nhân. Khoảng tin cậy 95%, mức không phủ sóng lý tưởng là 2. 5% mỗi bên. Khoảng thời gian được mô tả ở đầu Phần 4. 4. Đối với dân số bình thường, xác suất không bao phủ là như nhau ở cả hai bên và khoảng phân vị ngược bị bỏ qua (nó có cùng phạm vi bao phủ như khoảng phân vị). Đối với dân số theo cấp số nhân, các đường cong có chữ cái là xác suất không phủ sóng ở bên phải, trong đó khoảng nằm dưới θ và các đường cong không có chữ cái tương ứng với bên trái

Trong thực tế, t với lỗi tiêu chuẩn bootstrap không mang lại lợi thế nào so với quy trình t tiêu chuẩn cho giá trị trung bình mẫu. Ưu điểm của nó là tính sư phạm và nó có thể được sử dụng cho các số liệu thống kê thiếu các công thức lỗi tiêu chuẩn dễ dàng

Khoảng phần trăm không phải là một sự thay thế tốt cho khoảng t tiêu chuẩn cho giá trị trung bình của các mẫu nhỏ—mặc dù nó xử lý các tổng thể bị sai lệch tốt hơn, nhưng nó lại kém chính xác hơn đối với các mẫu nhỏ vì nó quá hẹp. Đối với các quần thể theo cấp số nhân, khoảng phần trăm kém chính xác hơn khoảng t tiêu chuẩn cho n ⩽ 34

Trong Stat 101, tốt nhất nên tránh các vấn đề về mẫu nhỏ bằng cách sử dụng các ví dụ có n lớn hơn. Ngoài ra, một số phần mềm sửa lỗi cho các sự cố mẫu nhỏ, chẳng hạn như gói mẫu lại (Hesterberg 2015) bao gồm khoảng phân vị mở rộng (Hesterberg 1999, 2014) một khoảng phân vị với các yếu tố sai lệch được thúc đẩy bởi các khoảng t tiêu chuẩn

4. 2. Đảo ngược khoảng thời gian phần trăm Bootstrap

Khoảng phân vị bootstrap ngược (được gọi là “khoảng tin cậy bootstrap cơ bản” trong Davison và Hinkley 1997) là một khoảng phổ biến, có giá trị sư phạm trong việc dạy các thao tác như được hiển thị ngay bên dưới. Nhưng nó kém trong thực tế;

Nó dựa trên sự phân phối của δ^=θ^-θ. Chúng tôi ước tính CDF của δ^ bằng cách sử dụng phân phối bootstrap của δ^*=θ^*-θ^. Gọi q α là lượng phân vị α của phân phối bootstrap của δ^*, tức là α=P(δ^*≤qα). sau đó

α/2=P(θ^*-θ^

Tương tự cho cái đuôi còn lại. Khoảng tin cậy kết quả là

(θ^-q1-α/2,θ^-qα/2)=(2θ^-Q1-α/2,2θ^-Qα/2),

(3)

trong đó Q α là lượng tử phân phối bootstrap của θ^*

Khoảng thời gian này là hình ảnh phản chiếu của khoảng phần trăm bootstrap; . Ví dụ: đối với giá trị trung bình CLEC, giá trị trung bình mẫu là 16. 5, khoảng phân vị là (10. 1, 25. 4) = 16. 5 + ( − 6. 4, 8. 9) và khoảng phân vị ngược là 16. 5 + ( − 8. 9, 6. 4) = 2 · 16. 5 − (25. 4, 10. 1) = (7. 6, 22. 9)

Đảo ngược hoạt động tốt đối với họ dịch thuật thuần túy, nhưng những điều đó rất hiếm trong thực tế. Phổ biến hơn là các trường hợp như Hình 9 , trong đó mức độ lan truyền của bản phân phối bootstrap phụ thuộc vào số liệu thống kê. Sau đó, một khoảng tốt cần phải không đối xứng theo cùng hướng với dữ liệu, hãy xem Phần 4. 5. Khoảng phân vị ngược không đối xứng theo hướng sai. Độ chính xác bao phủ của nó trong Hình 10 thật tệ. Nó cũng gặp phải các vấn đề về độ hẹp của mẫu nhỏ giống như khoảng phân vị.

Hall (1992) gọi khoảng phân vị bootstrap là “trục sai, lạc hậu”; . δ^ là trục sai vì nó thậm chí không gần với trục—thống kê trục là thống kê có phân phối độc lập với tham số. Thống kê t gần với mấu chốt hơn;

4. 3. Bootstrap t Khoảng thời gian

Chúng ta đã thấy trong Phần 1. 4 rằng thống kê t không có phân phối t khi tổng thể bị lệch. Khoảng tin cậy bootstrap t dựa trên thống kê t, nhưng ước tính lượng phân vị của phân phối thực tế bằng cách sử dụng dữ liệu thay vì bảng. Efron và Tibshirani (1993) gọi đây là “Khoảng tin cậy dựa trên bảng bootstrap”—sử dụng bootstrap để tạo bảng phù hợp cho một tập dữ liệu riêng lẻ, thay vì sử dụng bảng từ sách. Khoảng thời gian này có độ chính xác bao phủ tốt nhất trong tất cả các khoảng thời gian trong Hình 10 .

Chúng tôi giả định rằng phân phối của t* xấp xỉ bằng phân phối của t (Phương trình (1) và (2)); . Gọi q α là lượng tử α của phân phối bootstrap t, sau đóFigure 9 suggests that this assumption holds, that is, the statistic is close to pivotal. Let q α be the α quantile of the bootstrap t-distribution, then

α/2=Pθ^*-θ^SE*

Tương tự cho cái đuôi còn lại. Khoảng tin cậy kết quả là

(θ^-q1-α/2SE,θ^-qα/2SE)

(4)

Lưu ý rằng các điểm cuối được đảo ngược. chúng tôi trừ một phân vị trên của phân phối t bootstrap để có điểm cuối thấp hơn của khoảng và ngược lại (sự đảo ngược này rất dễ bị bỏ qua với các khoảng t tiêu chuẩn do tính đối xứng)

4. 4. Độ chính xác của khoảng tin cậy

Tiếp theo, chúng tôi so sánh độ chính xác của các khoảng tin cậy khác nhau

t = t. khoảng thời gian t bình thường;
B = khởi động. t khoảng thời gian với lỗi tiêu chuẩn bootstrap;
p = phần trăm. khoảng phần trăm bootstrap;
r = đảo ngược. khoảng phân vị ngược;
T = bootY. bootstrap t

Đối với khoảng thời gian 95%, khoảng thời gian hoàn toàn chính xác sẽ bỏ lỡ tham số 2. 5% thời gian cho mỗi bên. Hình 10 lần lượt thể hiện xác suất không được bảo hiểm thực tế đối với dân số bình thường và dân số theo cấp số nhân. Con số này dựa trên các mô phỏng cực kỳ chính xác, xem phần phụ lục.

dân số bình thường. Khoảng phần trăm (“p” trên biểu đồ) hoạt động kém. Nó tương ứng với việc sử dụng z thay vì t, sử dụng ước số của n thay vì n − 1 khi tính toán SE và thực hiện hiệu chỉnh một phần cho độ lệch; . Đối với dữ liệu bình thường, hiệu chỉnh độ lệch không giúp được gì và ba điều khác sẽ giết nó đối với các mẫu nhỏ. Khoảng phân vị ngược cũng kém tương tự, với độ bao phủ chính xác như nhau đối với dân số bình thường

Khoảng t với bootstrap SE (“B”) hoạt động tốt hơn một chút, mặc dù vẫn còn ẩn. Khoảng thời gian t (“t”) và khoảng thời gian khởi động t (“T”) hoạt động rất tốt. Điều đó không có gì đáng ngạc nhiên đối với khoảng t được tối ưu hóa cho dân số này, nhưng bootstrap t hoạt động rất tốt, ngay cả đối với các mẫu rất nhỏ

dân số mũ. Đây là một vấn đề khó khăn hơn. Tất cả các khoảng không được che phủ quá mức ở bên phải—các khoảng thời gian quá ngắn ở phía bên phải—và che phủ quá mức (với số lượng nhỏ hơn) ở bên trái. (Việc che phủ quá mức ở một bên không bù đắp cho việc che phủ dưới mức ở bên còn lại—thay vào đó, việc cả hai điểm cuối quá thấp sẽ tạo ra một bức tranh thậm chí còn sai lệch hơn về vị trí của tham số hơn là chỉ có một điểm cuối quá thấp. )

Khoảng thời gian bootstrap t (“T”) hoạt động tốt nhất, với biên độ đáng kể. Đó là độ chính xác bậc hai và cung cấp phạm vi bảo hiểm trong vòng 10% cho n ⩾ 101. Các quãng khác đều kém. Khoảng phân vị ngược (“r”) là tồi tệ nhất. Khoảng phân vị (“p”) kém đối với các mẫu nhỏ, nhưng tốt hơn t (“t”) thông thường đối với n ⩾ 35. Để đạt được độ chính xác 10%, cần n ⩾ 2383 cho phân vị, 4815 cho t thông thường, 5063 cho t với các lỗi tiêu chuẩn bootstrap và hơn 8000 cho phương pháp phân vị ngược

4. 5. Skewness và Mean-Variance Mối quan hệ

Hãy xem lại Hình 9 , để biết giá trị trung bình của mẫu từ một tổng thể bị sai lệch. Lưu ý mức độ lan rộng của phân phối bootstrap cho x‾* phụ thuộc vào thống kê x‾. Để có được khoảng tin cậy chính xác, chúng ta cần chấp nhận mối quan hệ như vậy (và sinh viên Toán Thống kê nên biết điều này).

For positively skewed populations, when x‾<μ the sample standard deviation and bootstrap SE also tend to be small, so a confidence interval needs to reach many (small) SE’s to the right to avoid missing μ too often. Conversely, when x‾>μ, s and sb tend to be large, so a confidence interval does not need to reach many (large) SE’s to the left to reach μ.

Trên thực tế, một khoảng thời gian tốt, chẳng hạn như khoảng thời gian bootstrap t, thậm chí còn bất đối xứng hơn khoảng thời gian phần trăm bootstrap—bất đối xứng gấp khoảng ba lần trong trường hợp khoảng thời gian 95% cho một giá trị trung bình (Hesterberg 2014). Bootstrap ước tính rõ ràng có bao nhiêu lỗi tiêu chuẩn xảy ra theo mỗi hướng. Bảng này cho biết khoảng cách giữa các điểm cuối cho khoảng thời gian t, phân vị phần trăm, phân vị ngược và bootstrap t nằm trên và dưới giá trị trung bình mẫu của dữ liệu ILEC của Verizon

Bảng NaN

tReversePercentilebootstrapT2. 5%−0. 701−0. 718−0. 683−0. 64697. 5%0. 7010. 6830. 7180. 762-tỷ lệ10. 9511. 0501. 180

Mở trong cửa sổ riêng

Khoảng phân vị bootstrap không đối xứng theo đúng hướng, nhưng ngắn;

Đối với dữ liệu lệch phải, bạn có thể ngạc nhiên rằng khoảng tin cậy tốt gấp 3 lần bất đối xứng như khoảng phần trăm bootstrap; . Thay vào đó, hãy nghĩ về nó theo cách này. dữ liệu cho thấy dân số bị sai lệch, hãy coi đó là điều đã cho;

4. 6. Chi tiết khoảng tin cậy

Có nhiều cách khác nhau để tính lượng tử phổ biến trong thực hành thống kê. Đối với các khoảng dựa trên phân vị của phân phối bootstrap, tôi khuyên bạn nên để giá trị lớn thứ k trong phân phối bootstrap là phân vị (k + 1)/r và nội suy cho các phân vị khác. Trong R (Nhóm R Core 2014), đây là lượng tử(x, type=6). Các định nghĩa khác đưa ra các khoảng thời gian hẹp hơn và làm trầm trọng thêm vấn đề về các khoảng thời gian quá ngắn

Các khoảng thời gian bootstrap t yêu cầu lỗi tiêu chuẩn—đối với mẫu ban đầu và mỗi mẫu bootstrap. Khi công thức SE không có sẵn, chúng ta có thể sử dụng bootstrap để lấy các SE này (Efron và Tibshirani 1993), sử dụng một bootstrap lặp lại, trong đó một tập hợp các mẫu bootstrap cấp hai được rút ra từ mỗi mẫu bootstrap cấp cao nhất để ước tính . Điều này yêu cầu r + rr 2 mẫu lại nếu r 2 mẫu cấp hai được rút ra từ mỗi mẫu cấp cao nhất. Chi phí tính toán là một trở ngại, nhưng sẽ ít hơn trong tương lai khi máy tính sử dụng nhiều bộ xử lý

Mặc dù các kết quả mô phỏng ở đây là dành cho giá trị trung bình mẫu, bootstrap t chính xác ở bậc hai và các kết quả khác chính xác ở bậc một trong các điều kiện khá chung chung, hãy xem Efron và Tibshirani (1993) và Davison và Hinkley (1997). Efron và Tibshirani (1993) lưu ý rằng bootstrap t đặc biệt phù hợp với thống kê vị trí như giá trị trung bình mẫu, giá trị trung bình, giá trị trung bình đã cắt hoặc phần trăm, nhưng hoạt động kém đối với hệ số tương quan; . Phương pháp tương tự cải thiện khoảng phân vị ngược (Davison và Hinkley 1997)

4. 7. Thử nghiệm giả thuyết Bootstrap

Có hai cách tiếp cận rộng rãi để kiểm tra giả thuyết bootstrap. Một cách tiếp cận là đảo ngược khoảng tin cậy—từ chối H 0 nếu khoảng tương ứng loại trừ θ0

Một cách tiếp cận khác là lấy mẫu theo cách phù hợp với H 0, sau đó tính giá trị p dưới dạng xác suất đuôi. Ví dụ: chúng tôi có thể thực hiện thử nghiệm bootstrap hai mẫu bằng cách gộp dữ liệu và vẽ các mẫu bootstrap có kích thước n 1 và n 2 với sự thay thế từ dữ liệu gộp. Tuy nhiên, phép thử bootstrap này không chính xác bằng phép thử hoán vị. Ví dụ: giả sử dữ liệu chứa ba giá trị ngoại lệ. Kiểm tra hoán vị cho biết mức độ phổ biến của thống kê được quan sát, với ba ngoại lệ. Với một bootstrap gộp, số lượng ngoại lệ sẽ thay đổi. Các điều kiện kiểm tra hoán vị trên dữ liệu, chỉ coi việc gán nhóm là ngẫu nhiên

Một ví dụ khác, đối với giá trị trung bình một mẫu, là dịch dữ liệu, trừ x‾-μ0 từ mỗi xi để giá trị trung bình được dịch là μ0, sau đó lấy mẫu lại từ dữ liệu đã dịch. Điều này tương đương với việc đảo ngược khoảng tin cậy phân vị ngược, với độ không chính xác tương ứng đối với dữ liệu sai lệch. Nó cũng có thể mang lại dữ liệu không thể, chẳng hạn như giá trị âm cho dữ liệu phải dương

Bản dịch sửa đổi phân phối bằng cách sửa đổi các giá trị. Một cách tốt hơn để sửa đổi một phân phối là giữ nguyên các giá trị, nhưng thay đổi xác suất trên các giá trị đó, sử dụng phương pháp nghiêng bootstrap (Efron 1981; Davison và Hinkley 1997); . Nghiêng bảo tồn các mối quan hệ trung bình-phương sai. Tôi tin rằng phép nghiêng có tiềm năng sư phạm lớn đối với thống kê toán học; . Xem phần bổ sung trực tuyến để biết ví dụ. Nhưng phần mềm phù hợp cho mục đích giáo dục hiện không có sẵn

Không có cách tiếp cận nào chính xác bằng phép thử hoán vị, trong các trường hợp có thể sử dụng phép thử hoán vị. Xác suất từ chối một phía thực tế khi đảo ngược khoảng tin cậy tương ứng với Hình 10 . Ngược lại, phép thử hoán vị gần chính xác.

5. HỒI QUY

Có hai cách mà bootstrapping trong hồi quy đặc biệt hữu ích về mặt sư phạm. Đầu tiên là giúp sinh viên hiểu được tính biến thiên của các dự đoán hồi quy bằng bootstrap đồ họa. Ví dụ: trong Hình 11 chúng tôi khởi động các đường hồi quy; . Chúng ta càng ngoại suy theo một trong hai hướng, các dự đoán càng trở nên thay đổi. Khoảng tin cậy phần trăm bootstrap cho E(Y. x) là phạm vi của 95% giá trị trung bình của các giá trị y cho các đường hồi quy tại bất kỳ x nào; .

Mở trong cửa sổ riêng

Hình 11

Bootstrapping hồi quy tuyến tính. Bên trái. Hồi quy tuyến tính mô hình tuyến tính phù hợp. Tại bất kỳ x nào, các giá trị y từ các dòng bootstrap tạo thành một phân phối bootstrap có thể được sử dụng cho các lỗi tiêu chuẩn hoặc khoảng tin cậy. Khoảng thời gian dự đoán rộng hơn, để nắm bắt các quan sát riêng lẻ. Đúng. Khớp mối quan hệ tuyến tính với dữ liệu không tuyến tính;

Thứ hai là giúp học sinh hiểu được sự khác biệt giữa khoảng tin cậy và khoảng dự đoán. Trong bảng điều khiển bên trái, chúng ta thấy rằng độ biến thiên của các quan sát riêng lẻ lớn hơn nhiều so với độ biến thiên của các đường hồi quy; . Để nắm bắt các quan sát, các khoảng dự đoán phải rộng hơn nhiều và phải xấp xỉ các lượng tử của phân bố dư, bởi vì chúng chủ yếu là các khoảng cho các quan sát riêng lẻ—không áp dụng CLT cho các khoảng dự đoán

Bootstrap ước tính hiệu suất của mô hình thực sự phù hợp với dữ liệu, bất kể đó có phải là mô hình kém hay không. Trong bảng bên phải của Hình 11 , phép tính gần đúng tuyến tính đã được sử dụng mặc dù mối quan hệ là bậc hai; . Bootstrap không tìm thấy sai lệch—đối với bất kỳ x nào, các đường bootstrap được căn giữa theo chiều dọc xung quanh phần khớp ban đầu.

5. 1. Lấy mẫu lại các quan sát hoặc phân phối có điều kiện

Hai quy trình phổ biến khi hồi quy bootstrapping là

quan sát bootstrap, và
phần dư bootstrap

Cái sau là trường hợp đặc biệt của một quy tắc tổng quát hơn

lấy mẫu lại y từ phân phối có điều kiện ước tính của nó cho trước x

Trong các quan sát bootstrapping, chúng tôi lấy mẫu với sự thay thế từ các quan sát, giữ y và x tương ứng cùng nhau. Trong bất kỳ mẫu bootstrap nào, một số quan sát có thể được lặp lại nhiều lần và những quan sát khác không được đưa vào

Trong phần dư bootstrapping, chúng tôi điều chỉnh mô hình hồi quy, tính toán các giá trị dự đoán y^i và phần dư ei=yi-y^i, sau đó tạo một mẫu bootstrap sử dụng các giá trị x giống như trong dữ liệu gốc, nhưng với y thu được bằng cách thêm các dự đoán

Phần dư bootstrapping tương ứng với một thử nghiệm được thiết kế trong đó x là cố định và chỉ y là ngẫu nhiên và các quan sát bootstrapping đối với dữ liệu được lấy mẫu ngẫu nhiên trong đó cả x và y đều được lấy mẫu từ một phân phối chung. Theo nguyên tắc lấy mẫu theo cách dữ liệu được vẽ, chúng tôi sẽ khởi động các quan sát nếu x là ngẫu nhiên. Ngoài ra, chúng ta có thể tuân theo tiền lệ do phương pháp tiếp cận công thức chung đặt ra, trong đó các công thức được suy ra với giả định rằng x là cố định và trong thực tế, chúng ta sử dụng chúng ngay cả khi x là ngẫu nhiên. Khi làm như vậy, chúng tôi đưa ra điều kiện dựa trên x được quan sát, và do đó dựa trên thông tin được quan sát (trong hồi quy, thông tin phụ thuộc vào độ rộng của x - độ rộng càng rộng thì β^ càng ít thay đổi). Tương tự như vậy, trong bootstrapping, chúng ta có thể lấy mẫu lại phần dư, dựa trên x được quan sát

Sửa lỗi x có thể tạo ra sự khác biệt lớn trong thực tế; . Ví dụ: giả sử một trong số x là biến nhân tố có mức độ hiếm, giả sử chỉ có năm quan sát. Khi lấy mẫu lại các quan sát, khoảng 67 trong số 10.000 mẫu bỏ qua hoàn toàn năm quan sát đó; . Tồi tệ hơn, nhiều mẫu sẽ chỉ bao gồm một hoặc hai quan sát từ cấp độ đó; . Similar problems occur in models with interactions, or with continuous variables when some linear combination ∑cjxj has most of its variation in a small number of observations. Chúng tôi tránh những vấn đề này bằng cách khởi động phần dư

Phần dư bootstrapping là trường hợp đặc biệt của quy tắc tổng quát hơn, để lấy mẫu Y từ phân phối có điều kiện ước tính của nó với X. Ví dụ: khi khởi động hồi quy logistic, chúng tôi điều chỉnh mô hình và tính toán các giá trị dự đoán y^i=E^(Y. X=xi)=P^(Y=1. X=xi). Để tạo một mẫu bootstrap, chúng tôi giữ nguyên các x và đặt y*i = 1 với xác suất y^i, nếu không thì y*i = 0. Đây là một ví dụ về bootstrap tham số. Chúng tôi sử dụng điều này tại Google trong quy trình hồi quy logistic nhiều giai đoạn phức tạp

Ý tưởng phân phối có điều kiện cũng giúp hồi quy tuyến tính khi có phương sai thay đổi hoặc thiếu sự phù hợp;

6. THẢO LUẬN

Đầu tiên chúng tôi tóm tắt một số điểm từ trên, sau đó thảo luận về sách và phần mềm

Bootstrapping cung cấp một số lợi ích sư phạm. Quá trình bootstrapping bắt chước vai trò trung tâm của việc lấy mẫu trong thống kê. Học sinh có thể sử dụng các công cụ quen thuộc như biểu đồ để trực quan hóa phân phối lấy mẫu và sai số chuẩn. Họ có thể hiểu rằng SE là độ lệch chuẩn của phân phối lấy mẫu. Học sinh có thể làm việc trực tiếp với các ước tính quan tâm, chẳng hạn như phương tiện mẫu, thay vì thống kê t và sử dụng cùng một quy trình cơ bản cho nhiều thống kê khác nhau mà không cần công thức mới. Số liệu thống kê mạnh mẽ như trung bình và phương tiện cắt giảm có thể được sử dụng trong suốt khóa học. Học sinh có thể tập trung vào ý tưởng chứ không phải công thức. Khi học các công thức, họ có thể so sánh các câu trả lời công thức và bootstrap. Khởi động đồ họa cho hồi quy thể hiện sự thay đổi trong dự đoán hồi quy và sự khác biệt giữa khoảng tin cậy và khoảng dự đoán

Hiểu ý tưởng chính đằng sau bootstrap—lấy mẫu từ ước tính dân số—là điều quan trọng để sử dụng bootstrap một cách thích hợp và giúp hiểu được khi nào nó có thể không hoạt động tốt hoặc phương pháp nào có thể hoạt động tốt hơn. Khi sử dụng phương pháp lấy mẫu Monte Carlo, nên sử dụng đủ số mẫu để thu được câu trả lời chính xác—10.000 là tốt cho việc sử dụng thường xuyên. Học sinh có thể hiểu rõ hơn về biến thể lấy mẫu bằng cách thử các số khác nhau

Phân phối bootstrap và khoảng tin cậy phần trăm có xu hướng quá hẹp, đặc biệt đối với các mẫu nhỏ. Do đó, các khoảng phần trăm kém chính xác hơn các khoảng t phổ biến đối với các mẫu nhỏ, mặc dù chính xác hơn đối với các mẫu lớn hơn. Chính xác nhất là khoảng thời gian bootstrap t. Lý do liên quan đến ý tưởng cơ bản của bootstrap—thay thế dân số bằng ước tính dân số, sau đó sử dụng phân phối bootstrap kết quả làm ước tính phân phối lấy mẫu. Sự thay thế này chính xác hơn đối với thống kê quan trọng—và thống kê t gần với thống kê quan trọng

Đối với dữ liệu sai lệch, khoảng tin cậy sẽ dài hơn theo hướng sai lệch;

Chúng tôi thường lấy mẫu cách dữ liệu được tạo ra (e. g. , lấy mẫu ngẫu nhiên hoặc phân tầng đơn giản), ngoại trừ điều kiện về thông tin quan sát được. Đối với hồi quy, điều đó có nghĩa là cố định các giá trị x, tức là lấy mẫu lại phần dư thay vì quan sát. Điều này tránh các vấn đề trong thực tế

Để phát huy hết tiềm năng của bootstrapping trong thực tế và giáo dục, chúng ta cần phần mềm và tài liệu hướng dẫn tốt hơn. Phần mềm như https. //www. thống kê. auckland. AC. nz/wild/VIT hoặc http. // khóa5stat. com/statkey có chỗ đứng trong giáo dục, giúp sinh viên hình dung quy trình lấy mẫu, nhưng không phù hợp khi sinh viên đi làm thực tế. Trong R (R Core Team 2014), sinh viên có thể viết vòng lặp bootstrap từ đầu, nhưng điều này khó đối với sinh viên Stat 101. Đối với vấn đề đó, có thể khó đối với học sinh cấp cao hơn, nhưng nỗ lực đó rất đáng. Thống kê hiện đại yêu cầu các kỹ năng tính toán chuyên sâu bao gồm lấy mẫu lại và mô phỏng (ASA 2014) và việc phát triển các kỹ năng đó nên bắt đầu sớm. Gói Khảm (Pruim, Kaplan và Horton 2015) có thể giúp việc này dễ dàng hơn và gói chứa một họa tiết để lấy mẫu lại và một gói khác có tài nguyên bao gồm các phần bổ sung sử dụng Khảm cho (Lock et al. 2013; . 2014a). Trong thực tế, việc triển khai một số phương pháp bootstrap chính xác hơn rất khó (đặc biệt là những phương pháp không được mô tả ở đây) và mọi người nên sử dụng một gói thay vì tự mình thử. Đối với R, gói khởi động (Canty và Ripley 2014) mạnh nhưng khó sử dụng. Gói lấy mẫu lại (Hesterberg 2015) dễ dàng hơn nhưng bị giới hạn về phạm vi. Các gói khởi động và lấy mẫu lại được thiết kế để thực hành, không dành cho sư phạm, chúng ẩn các chi tiết và không cung cấp các mô phỏng động thể hiện việc lấy mẫu lại. khởi động cung cấp nghiêng. lấy mẫu lại cung cấp khoảng phần trăm mở rộng, với phạm vi bao phủ mẫu nhỏ được cải thiện

Sách cần cải thiện. Quá ít sách giáo khoa sử dụng bootstrap và những sách có thể cải thiện. Chihara và Hesterberg (2011) và Lock et al. (2013) đã sử dụng các thử nghiệm hoán vị/ngẫu nhiên hóa và bootstrapping để giới thiệu suy luận và sau đó giới thiệu các phương pháp công thức. Các phương pháp điều trị phần lớn là phù hợp về mặt sư phạm và có giá trị. Tuy nhiên, cả hai đều không nhận ra rằng khoảng phần trăm bootstrap quá hẹp đối với các mẫu nhỏ và đề xuất phương pháp đó cho các mẫu nhỏ một cách không phù hợp. Khóa và cộng sự. (2013) cũng đề xuất thử nghiệm một giá trị trung bình duy nhất bằng cách sử dụng kỹ thuật dịch được thảo luận trong Phần 4. 7; . Diez, Barr và Çetinkaya Rundel (2014) đã sử dụng bootstrap chỉ cho một ứng dụng, một khoảng t với bootstrap SE cho khoảng tin cậy cho độ lệch chuẩn. Otherwise they avoid the bootstrap, due to poor small-sample coverage of percentile intervals

Những điểm không hoàn hảo này sẽ không ngăn cản giáo viên sử dụng bootstrap ngay bây giờ. Các kỹ thuật này có thể giúp sinh viên hiểu các khái niệm thống kê liên quan đến tính biến thiên của mẫu

Tôi hy vọng rằng bài viết này sẽ thúc đẩy sự tiến bộ—rằng giáo viên hiểu rõ hơn những gì bootstrap có thể làm và sử dụng nó để giúp học sinh hiểu các khái niệm thống kê, rằng mọi người sử dụng hiệu quả hơn các kỹ thuật bootstrap phù hợp với ứng dụng (không phải khoảng phân vị cho các mẫu nhỏ. ), rằng các tác giả sách giáo khoa đề xuất các kỹ thuật tốt hơn và phần mềm tốt hơn cho kết quả thực hành và sư phạm

SUPPLEMENTARY MATERIALS

Phần bổ sung trực tuyến chứa các tập lệnh R cho tất cả các ví dụ và một tài liệu có số liệu bổ sung và thông tin thêm về ước tính sai lệch và khoảng tin cậy

Tài liệu bổ sung

Nguyên liệu bổ sung

Nhấn vào đây để thêm tập tin dữ liệu. (945K, zip)

Tiểu sử

•

Tim C. Hesterberg is Senior Statistician, Google, (E-mail. timhesterberg@gmail. com)

APPENDIX. CHI TIẾT MÔ PHỎNG

Hình 10 dựa trên 104 mẫu (ngoại trừ 5 · 103 đối với n ⩾ 6000), với r = 104 mẫu lại cho các khoảng thời gian bootstrap, sử dụng kỹ thuật giảm phương sai dựa trên điều hòa. Đối với dữ liệu thông thường, X‾ và V=(X1-X‾,. ,Xn-X‾) là độc lập và mỗi khoảng là bất biến tịnh tiến (các khoảng của V và V+x‾ khác nhau x‾). Đặt U là điểm cuối trên của một khoảng và P(U < μ) = EV(E(U < μ). V)). Giá trị kỳ vọng bên trong là một xác suất bình thường. E(U

Tương tự, đối với phân phối mũ, X‾ và V=(X1/X‾,. ,Xn/X‾) là độc lập và chúng tôi sử dụng cùng một kỹ thuật điều hòa. Điều này làm giảm phương sai Monte Carlo theo các yếu tố từ 8. 9 (với n = 5) đến hơn 5000 (với n = 8000). Độ chính xác thu được tương đương với việc sử dụng 89.000 mẫu trở lên mà không cần điều hòa. Ví dụ: các lỗi tiêu chuẩn cho phạm vi bảo hiểm một phía cho n = 8000 là 0. 000030 hoặc nhỏ hơn

chú thích

Có những trường hợp ngoại lệ, trong đó bootstrap được sử dụng để có được ước tính tốt hơn, chẳng hạn như trong các khu rừng ngẫu nhiên. Đây là những trường hợp điển hình khi quy trình giống như bootstrap được sử dụng để khắc phục một lỗ hổng trong quy trình cơ bản. Ví dụ: xem xét ước tính E(Y. X = x) trong đó mối quan hệ thực sự suôn sẻ, chỉ sử dụng hàm bước với số bước tương đối ít. Bằng cách lấy các mẫu bootstrap và áp dụng quy trình ước tính hàm bước cho từng mẫu, ranh giới các bước sẽ khác nhau giữa các mẫu; . Đây là đóng bao (bootstrap tổng hợp)

REFERENCES

Curriculum Guidelines for Undergraduate Programs in Statistical Science. Alexandria, VA. American Statistical Association; 2014. [Google Scholar]
Canty A. Ripley B. khởi động. Bootstrap R (S-Plus) Functions. Gói R; . version 1. 3-16. Available at https. //cran. r-project. org/web/packages/boot/index. html. [Google Scholar]
Chamandy, N. , Muralidharan, O. , and Wager, S. 2015. “Teaching Statistics at Google Scale,” The American Statistician, 69, this issue. [Google Scholar]
Chihara L. Hesterberg T. Mathematical Statistics With Resampling and R. Hoboken, NJ. Wiley; 2011. [Google Scholar]
Cobb G. The Introductory Statistics Course. A Ptolemaic Curriculum. Technology Innovations in Statistics Education. 2007. 1. Available at http. //escholarship. org/uc/item/6hb3k0nz. [Google Scholar]
Davison A. Hinkley D. Bootstrap Methods and Their Applications. Cambridge, UK. Cambridge University Press; 1997. [Google Scholar]
Diez D. M. Barr C. D. Rundel M. Introductory Statistics With Randomization and Simulation (1st ed. ) CreateSpace Independent Publishing Platform; 2014. Available at https. //www. openintro. org/stat/textbook. php?stat_book=isrs. [Google Scholar]
Efron B. Nonparametric Standard Errors and Confidence Intervals. Canadian Journal of Statistics. 1981; 9 . 139–172. [Google Scholar]
——— . The Jackknife, the Bootstrap and Other Resampling Plans, National Science Foundation – Conference Board of the Mathematical Sciences Monograph 38. Philadelphia, PA. Society for Industrial and Applied Mathematics; 1982. [Google Scholar]
Efron B. Tibshirani R. J. An Introduction to the Bootstrap. London. Chapman and Hall; 1993. [Google Scholar]
Fisher R. A. Coefficient of Racial Likeness and the Future of Craniometry. Journal of the Royal Anthropological Institute. 1936; 66 . 57–63. [Google Scholar]
Hall P. The Bootstrap and Edgeworth Expansion. New York. Springer; 1992. [Google Scholar]
Hall P. DiCiccio T. Romano J. On Smoothing and the Bootstrap. The Annals of Statistics. 1989; 17 . 692–704. [Google Scholar]
Hesterberg T. C. Bootstrap Tilting Confidence Intervals. 1999 Computer Science and Statistics. Proceedings of the 31st Symposium on the Interface, Fairfax Station, VA. Interface Foundation of North America, pp. 389–393. [Google Scholar]
——— . Proceedings of the Section on Statistics & the Environment. Alexandria, VA. American Statistical Association; 2004. Unbiasing the Bootstrap—Bootknife Sampling vs. Smoothing; pp. 2924–2930. [Google Scholar]
——— What Teachers Should Know About the Bootstrap. Resampling in the Undergraduate Statistics Curriculum. 2014 available at http. //arxiv. org/abs/1411. 5279. [Bài báo miễn phí của PMC] [PubMed] [Google Scholar]
———. Lấy mẫu lại. chức năng lấy mẫu lại. 2015. Phiên bản gói R 0. 4. [Google Scholar]
Hesterberg T. Moore D. S. Monaghan S. clipson A. Epstein R. Phương pháp Bootstrap và kiểm tra hoán vị. Trong. Moore D. S. , biên tập viên; . , biên tập viên. Giới thiệu về Thực hành Thống kê (tái bản lần 2. ) New York. W. h. người tự do; . [Google Scholar]
Khóa R. H. Khóa R. H. Morgan K. L. Khóa E. F. Khóa D. F. Thống kê. Mở khóa sức mạnh của dữ liệu. Hoboken, NJ. Wiley; . [Google Scholar]
Owen A. Khả năng thực nghiệm. Luân Đôn. Nhà xuất bản Chapman & Hall/CRC; . [Google Scholar]
Pruim R. Kaplan D. Horton N. Khảm. Gói MOSAIC dự án. Phiên bản gói R 0. 10. 0; . [Google Scholar]
R. Ngôn ngữ và môi trường cho tính toán thống kê. Viên, Áo. Nền tảng R cho Điện toán Thống kê; . [Google Scholar]
Silverman B. trẻ G. Bootstrap. làm mịn hoặc không làm mịn. Triệu chứng sinh trắc học. 1987; 74 . 469–479. [Google Scholar]
Title N. Cơ hội B. Cobb G. Rossman A. Roy S. Swanson T. VanderStoep J. Giới thiệu về Điều tra Thống kê (ấn bản sơ bộ) Hoboken, NJ. Wiley; . [Google Scholar]
Title N. L. Roger A. Cơ hội B. Cobb G. Rossman A. Roy S. Swanson T. VanderStoep J. 2014b Bằng chứng định lượng cho việc sử dụng mô phỏng và ngẫu nhiên hóa trong khóa học thống kê nhập môn

Tại sao không luôn luôn sử dụng bootstrap?

Bootstrap không phải lúc nào cũng hoạt động. Nó có thể không thành công vì nhiều lý do, chẳng hạn như khi thứ nguyên cao hoặc khi [công cụ ước tính] hoạt động kém . Vì vậy, chúng tôi không thể đảm bảo rằng bootstrap sẽ giúp chúng tôi không cần CLT.

Bootstrapping nên được sử dụng trong những trường hợp nào?

Hãy nhớ rằng bootstrapping không chỉ hữu ích cho việc tính toán các lỗi tiêu chuẩn, mà còn có thể được sử dụng để xây dựng khoảng tin cậy và thực hiện kiểm tra giả thuyết. Vì vậy, hãy nhớ ghi nhớ các kỹ thuật bootstrapping khi bạn đối mặt với dữ liệu có vẻ không khả thi với các kỹ thuật truyền thống .

Tại sao bootstrap không phù hợp với dữ liệu chuỗi thời gian giải thích ngắn gọn?

Dựa trên cuộc thảo luận ở trên, rõ ràng là việc áp dụng một bootstrap cơ bản cho dữ liệu chuỗi thời gian nói chung là một ý tưởng tồi. Bootstrap cơ bản ở trên chủ yếu phụ thuộc vào mẫu ban đầu bao gồm iid rút ra từ phân bố dân số cố định - nói chung sẽ không đúng với các mô hình chuỗi thời gian khác nhau.

Khi nào chúng ta nên bootstrap?

Tôi thấy bootstrapping rất hữu ích trong hai trường hợp chính. khi mẫu khá nhỏ (nhưng không nhỏ) và khi phân phối không sạch (giả sử đó là hỗn hợp của hai phân phối).

programming bootstrap

Khi nào bootstrapping không hữu ích

Dữ liệu liên quan

trừu tượng

1. INTRODUCTION

1. 1. Verizon Example

Bảng 1

1. 2. Bootstrap một mẫu

1. 3. Two-Sample Bootstrap

1. 4. Bootstrap t-Distribution

1. 5 . Pedagogical and Practical Value

2. THE IDEA BEHIND BOOTSTRAPPING

2. 1 . Plug-In Principle

2. 2 . Fundamental Bootstrap Principle

2. 3 . Inference, Not Better Estimates

2. 4 . Key Idea Versus Implementation Details

2. 5. Cách lấy mẫu

3. BIẾN ĐỔI TRONG PHÂN PHỐI BOOTSTRAP

3. 1. trung bình mẫu. Kích thước mẫu lớn

3. 2. trung bình mẫu. Kích thước mẫu nhỏ

3. 3. trung bình mẫu

3. 4. Mối quan hệ trung bình-phương sai

3. 5. Tổng hợp các bài học trực quan

3. 6. Có bao nhiêu mẫu Bootstrap

Định lượng độ chính xác bằng công thức hoặc bootstrapping

4. KHOẢNG TIN TỨC

4. 1. Thống kê 101—Phần trăm và t với Bootstrap SE

4. 2. Đảo ngược khoảng thời gian phần trăm Bootstrap

4. 3. Bootstrap t Khoảng thời gian

4. 4. Độ chính xác của khoảng tin cậy

4. 5. Skewness và Mean-Variance Mối quan hệ

Bảng NaN

4. 6. Chi tiết khoảng tin cậy

4. 7. Thử nghiệm giả thuyết Bootstrap

5. HỒI QUY

5. 1. Lấy mẫu lại các quan sát hoặc phân phối có điều kiện

6. THẢO LUẬN

SUPPLEMENTARY MATERIALS

Tài liệu bổ sung

Tiểu sử

APPENDIX. CHI TIẾT MÔ PHỎNG

chú thích

REFERENCES

Tại sao không luôn luôn sử dụng bootstrap?

Bootstrapping nên được sử dụng trong những trường hợp nào?

Tại sao bootstrap không phù hợp với dữ liệu chuỗi thời gian giải thích ngắn gọn?

Khi nào chúng ta nên bootstrap?

Bài Viết Liên Quan

Quảng Cáo

Có thể bạn quan tâm

Toplist được quan tâm

Quảng cáo

Xem Nhiều

Quảng cáo

Chúng tôi

Điều khoản

Trợ giúp

Mạng xã hội