Giả định Bootstrap

Thật tuyệt khi có thể giả định tính bình thường và do đó biết rất nhiều về dữ liệu của chúng tôi trước khi chúng tôi bắt đầu, có những vấn đề. Vấn đề rõ ràng nhất là chúng ta có thể sai. Có lẽ dữ liệu của chúng tôi không được phân phối bình thường từ xa. Trong trường hợp đó, suy luận của chúng tôi có thể bị lỗi

Một trong những điều rất hay mà các nhà thống kê đã học được trong nhiều năm là, trong nhiều tình huống, việc vi phạm giả định về tính quy tắc sẽ không đưa chúng ta vào tù ngay lập tức mà không vượt qua "Đi. " Trong một tập hợp các điều kiện khá rộng, chúng ta có thể vi phạm giả định của mình và thoát khỏi nó. Điều này có nghĩa là câu trả lời của chúng tôi vẫn có thể đúng ngay cả khi giả định của chúng tôi là sai. Đây là những gì chúng tôi muốn nói khi chúng tôi nói về một bài kiểm tra là mạnh mẽ

Tuy nhiên, điều này vẫn để lại ít nhất hai vấn đề. Trước tiên, không khó để tạo dữ liệu hợp lý vi phạm giả định về tính quy phạm (hoặc tính đồng nhất của phương sai) và có câu trả lời "đúng" hoàn toàn khác với câu trả lời mà chúng ta sẽ nhận được bằng cách đưa ra giả định về tính quy tắc. Nói cách khác, không phải lúc nào chúng ta cũng thoát khỏi những giả định vi phạm. Thứ hai, có nhiều tình huống mà ngay cả với sự bình thường, chúng ta không biết đủ về số liệu thống kê mà chúng ta đang sử dụng để rút ra những suy luận phù hợp. Ví dụ, một trong những điều đầu tiên học sinh học về thống kê là sai số chuẩn của giá trị trung bình có thể được ước tính một cách độc đáo như sau:. Nhưng lỗi tiêu chuẩn của trung vị, hoặc lỗi tiêu chuẩn của sự khác biệt giữa các trung vị là gì? . Đối với sự khác biệt giữa các trung bình, tính quy tắc sẽ không giúp chúng tôi. Chúng tôi cần một số cách khác để tìm lỗi tiêu chuẩn đó

Một cách để xem xét các thủ tục bootstrap là các thủ tục xử lý dữ liệu khi chúng tôi không sẵn sàng đưa ra các giả định về các tham số của quần thể mà chúng tôi đã lấy mẫu. Điều tốt nhất mà chúng tôi sẵn sàng giả định (và đó là một giả định cực kỳ quan trọng) là dữ liệu chúng tôi có là một đại diện hợp lý về dân số mà họ đến từ đó. Sau đó, chúng tôi lấy mẫu lại từ nhóm dữ liệu mà chúng tôi có và rút ra kết luận về dân số tương ứng và các tham số của nó

Cách thứ hai để xem xét các thủ tục bootstrap là nghĩ về chúng như những gì chúng ta sử dụng khi chúng ta không biết đủ. Ví dụ: nếu chúng ta không biết lỗi tiêu chuẩn của sự khác biệt giữa các trung vị, một điều chúng ta có thể làm là tiếp tục và vẽ nhiều cặp mẫu. Đối với mỗi cặp, chúng tôi tính toán và ghi lại, sự khác biệt giữa các trung vị. Sau đó, độ lệch chuẩn của những khác biệt này là lỗi tiêu chuẩn của sự khác biệt của trung vị. Nói cách khác, khi chúng ta không có phân tích (i. e. công thức) giải pháp, chúng tôi sử dụng một giải pháp thực nghiệm vũ phu

Ý tưởng cơ bản đằng sau bootstrapping thực sự rất đơn giản. Những khó khăn xảy ra khi chúng ta cố gắng đối phó với những điều nhỏ nhặt của tình huống và loại bỏ sự thiên vị và/hoặc sự bất ổn. Ngay bây giờ tôi sẽ bỏ qua những điều tốt đẹp

Giả thuyết Bootstrap

Gee, tôi đã luôn muốn có thể sử dụng một cụm từ ấn tượng như thế

Hãy tưởng tượng rằng chúng ta có một bộ dữ liệu được lấy từ một số dân số. Các phần tử của quần thể đó là X1, X2, X3,. XN. Quần thể này có một số tham số đáng quan tâm (có thể là trung vị hoặc phương sai), và chúng ta sẽ gọi đó là q. (Mọi người thường khó chịu khi các loại toán học đưa ra các thuật ngữ chung được dán nhãn bằng các ký hiệu Hy Lạp. Vâng, đôi khi chúng ta phải làm điều đó. Nếu nó thực sự làm phiền bạn, hãy thay đổi q thành m hoặc s hoặc một số thông số cụ thể khác mà bạn cảm thấy thoải mái hơn. ) Nếu chúng ta rút ra n quan sát từ tổng thể này, tính ước lượng của q, ký hiệu, rút ​​ra n quan sát khác, tính ước lượng của chúng, v.v., chúng ta có thể kết thúc với phân phối mẫu của q. Và độ lệch chuẩn của phân phối này sẽ là sai số chuẩn của q. Nhưng để làm được điều này, hoặc chúng ta phải có toàn bộ dân số trong tầm tay, để có thể rút ra tất cả các mẫu đó, hoặc chúng ta phải đưa ra một giả định, chẳng hạn như tính quy tắc, để có thể tính toán sai số chuẩn sẽ là bao nhiêu nếu không có . Và nếu q là một số tham số mà chúng tôi không có công thức để ước tính, thì chúng tôi có vấn đề ngay cả với tính quy tắc

Bây giờ giả sử rằng chúng ta có một mẫu từ quần thể đó. Biểu thị mẫu là x1, x2,. , xn. (Lưu ý rằng tôi đã sử dụng các ký hiệu chữ thường để biểu thị các giá trị mà tôi thực sự đã vẽ, trong khi tôi sử dụng các ký hiệu chữ hoa để biểu thị các giá trị trong tập hợp. Đó là một thiết bị phổ biến và nó được sử dụng như một cách để giữ cho mọi thứ rõ ràng. ) Ước tính của tham số dựa trên mẫu này là. Bây giờ giả sử rằng chúng ta xử lý các giá trị x1, x2,. xn như thể chúng đại diện cho dân số và rút ra một mẫu quan sát với sự thay thế từ các giá trị n này. Ví dụ: nếu n = 8, mẫu của chúng ta có thể chứa x4, x2, x8, x2, x1, x2, x4, x5. Lưu ý rằng, vì chúng tôi đã lấy mẫu bằng cách thay thế nên một số giá trị xuất hiện nhiều lần và một số giá trị không bao giờ xuất hiện. Đối với mẫu này, chúng tôi sẽ tính toán ước tính,*. Tôi đã thêm dấu hoa thị để chỉ ra rằng đây là ước tính dựa trên mẫu khởi động. Tôi vẽ một mẫu khác, có thay thế, từ dữ liệu gốc của mình và lấy một mẫu khác*. Lặp lại B lần này, tôi có B giá trị của*. Phân phối lấy mẫu của các giá trị B này là phân phối lấy mẫu của và độ lệch chuẩn của các giá trị B này là sai số chuẩn của. Giả thuyết bootstrap là phân phối này phản ánh phân phối lấy mẫu của q

Bạn có thể thắc mắc tại sao tôi lại quan tâm đến việc ước tính sai số chuẩn của q. Lý do là tôi thường cần thống kê đó để tính khoảng tin cậy trên q. Tôi sẽ sử dụng sai số chuẩn ước tính đó, theo cách tôi sử dụng bất kỳ sai số chuẩn nào trong công thức chung cho một khoảng tin cậy, hoặc tôi sẽ sử dụng phân phối mẫu của chính nó để tính khoảng tin cậy. Bạn sẽ thấy nhiều hơn về điều này trong các trang dành cho các thủ tục cụ thể

Bootstrap ban đầu được phát triển bởi Efron, bắt đầu từ năm 1979, mặc dù một số ý tưởng đã có trước khi ông xuất hiện. Nguồn tốt nhất mà tôi biết là Efron và Tibshirani (1993). Efron đã vượt qua nhiều "khúc mắc" và đã đặt bootstrap trên một nền tảng lý thuyết vững chắc. Mối quan tâm chính của Efron luôn là tối ưu hóa các ước tính tham số của chúng tôi và kỹ thuật này thường được coi là một kỹ thuật ước tính. Nhưng những người bạn tuyên bố hiếm khi muốn biết giá trị của một tham số không nên giơ tay. Bởi vì nhấn mạnh vào giới hạn tin cậy, đây cũng là một công cụ rất tốt để kiểm tra giả thuyết. Chỉ là thử nghiệm giả thuyết không phải là nguyên nhân khiến Efron nhảy ra khỏi giường vào buổi sáng.   

Bootstrapping tham số

Với bootstrapping, chúng tôi xử lý dữ liệu thu được như thể chúng phản ánh chính xác tổng thể gốc, sau đó rút ra nhiều mẫu bootstrapping bằng cách lấy mẫu lặp lại, có thay thế, từ một quần thể giả bao gồm dữ liệu thu được. Về mặt kỹ thuật, những gì chúng tôi có ở đây thực sự được gọi là "bootstrapping phi tham số", bởi vì chúng tôi đang lấy mẫu từ dữ liệu thực tế và chúng tôi không đưa ra giả định nào về các tham số của quần thể gốc (bao gồm cả hình dạng của nó), ngoài việc dữ liệu thô phản ánh đầy đủ . Nếu chúng ta sẵn sàng đưa ra nhiều giả định hơn, chẳng hạn như giả định rằng quần thể gốc tuân theo phân phối hàm mũ, thì chúng ta có thể thực hiện lấy mẫu, với sự thay thế, từ phân phối hàm mũ. Điều này sẽ được gọi là bootstrapping tham số. Ví dụ: nếu chúng tôi nghĩ rằng dân số có cấp số nhân với một bộ tham số nhất định, chúng tôi có thể sử dụng trình tạo số ngẫu nhiên với các tham số đó và lấy các mẫu của chúng tôi từ đó. Bootstrapping tham số như vậy có thể cực kỳ hữu ích trong một số tình huống nhất định.  

Các yếu tố chính của bootstrap là gì?

CSS đuôi gió
CSS nền tảng
Vật chất hóa CSS
Bulma
CSS thuần túy
CSS mồi
giao diện người dùng rực lửa
Giao diện người dùng ngữ nghĩa

Một hạn chế chính của bootstrap là gì?

Nó không thực hiện hiệu chỉnh sai lệch , v.v. Không có cách chữa trị cho cỡ mẫu nhỏ. Bootstrap rất mạnh, nhưng nó không phải là ma thuật — nó chỉ có thể hoạt động với thông tin có sẵn trong mẫu ban đầu. Nếu các mẫu không đại diện cho toàn bộ dân số, thì bootstrap sẽ không chính xác lắm.

Bootstrapping có cho rằng mẫu là đại diện cho dân số không?

Giả định trung tâm của quá trình khởi động là dữ liệu được lấy mẫu mà bạn làm việc đại diện cho tổng thể . Khi điều này đúng, chúng ta có thể lấy mẫu lại dữ liệu đã lấy mẫu để có ý tưởng về phạm vi các mẫu có thể khác nhau có thể thu được từ dân số để tạo phân phối lấy mẫu.

Bootstrapping có yêu cầu bình thường không?

Bootstrap thường hữu ích để ước tính phân phối của một thống kê (e. g. trung bình, phương sai) mà không sử dụng các giả định về tính quy tắc (theo yêu cầu, e. g. , đối với thống kê z hoặc thống kê t).