Hướng dẫn anova in data science with python - anova trong khoa học dữ liệu với python
RENESH BEDRE & NBSP; & NBSP; 16 phút đọc16 minute read Show
ANOVA (phân tích phương sai) là gì?
Lưu ý: Trong ANOVA, nhóm, các yếu tố và biến độc lập là các thuật ngữ tương tự ANOVA Giả thuyết
Tìm hiểu thêm về kiểm tra và giải thích giả thuyết Giả định ANOVA
ANOVA hoạt động như thế nào?
Một chiều (một yếu tố) ANOVA với PythonMô hình hiệu ứng ANOVA, bảng và công thứcBảng ANOVA biểu thị các nguồn biến thể giữa và trong nhóm và mức độ tự do liên quan của chúng, tổng hình vuông (SS) và bình phương trung bình (MS). Tổng biến thể là tổng của các phương sai giữa và trong nhóm. Giá trị F là tỷ lệ bình phương trung bình giữa và trong nhóm (MS). Giá trị P được ước tính từ giá trị F và mức độ tự do. Ví dụ ANOVADữ liệu ví dụ cho hướng dẫn phân tích ANOVA một chiều, tập dữ liệu
Ở đây, có bốn phương pháp điều trị (A, B, C và D), là các nhóm để phân tích ANOVA. Phương pháp điều trị là biến độc lập và được gọi là yếu tố. Vì có bốn loại điều trị, yếu tố điều trị có bốn cấp độ. Đối với thiết kế thử nghiệm này, chỉ có yếu tố (phương pháp điều trị) hoặc biến độc lập để đánh giá, và do đó, phương pháp ANOVA một chiều là phù hợp để phân tích. Lưu ý: Nếu bạn có bộ dữ liệu của riêng mình, bạn nên nhập nó dưới dạng gấu trúc DataFrame. Tìm hiểu cách nhập dữ liệu bằng gấu trúc
Kiểm tra cách tính giá trị P bằng tay Diễn dịchGiá trị P thu được từ phân tích ANOVA là rất đáng kể (p <0,05), và do đó, chúng tôi kết luận rằng có sự khác biệt đáng kể giữa các phương pháp điều trị. Lưu ý trên giá trị F: Giá trị F có liên quan nghịch đảo với giá trị P và giá trị F cao hơn (lớn hơn giá trị tới F) cho thấy giá trị P đáng kể.
Từ phân tích ANOVA, chúng tôi biết rằng sự khác biệt điều trị có ý nghĩa thống kê, nhưng ANOVA không cho biết phương pháp điều trị nào khác biệt đáng kể với nhau. Để biết các cặp điều trị khác nhau, chúng tôi sẽ thực hiện phân tích so sánh nhiều cặp (so sánh sau hoc) cho tất cả các so sánh không có kế hoạch bằng cách sử dụng thử nghiệm khác biệt đáng kể (HSD) của Tukey.post hoc comparison) analysis for all unplanned comparison using Tukey’s honestly significantly differenced (HSD) test.
Tukey từ HSD kiểm tra tài khoản cho nhiều so sánh và sửa chữa tỷ lệ lỗi theo gia đình (FWER) (lỗi loại I tăng cao) Công thức Tukey và Tukey-Kramer Ngoài ra, phương pháp Scheffe, hoàn toàn mạch lạc với ANOVA và được coi là bài kiểm tra bài hoc phù hợp hơn cho ANOVA đáng kể cho tất cả các so sánh không có kế hoạch. Tuy nhiên, nó rất bảo thủ so với các bài kiểm tra bài hoc khác.
Kết quả trên từ Tukey, HSD cho thấy rằng ngoại trừ A-C, tất cả các so sánh theo cặp khác đối với các phương pháp điều trị đều bác bỏ giả thuyết null (p <0,05) và cho thấy sự khác biệt có ý nghĩa thống kê.
Kiểm tra các giả định ANOVA
Bây giờ, tôi sẽ tạo ra lỗi QQ từ phần dư được tiêu chuẩn hóa (các ngoại lệ có thể dễ dàng được phát hiện từ phần dư được tiêu chuẩn hóa so với dư bình thường)
Khi các phần dư được tiêu chuẩn hóa nằm xung quanh dòng 45 độ, nó cho thấy rằng phần dư được phân phối xấp xỉ bình thường Trong biểu đồ, phân phối trông xấp xỉ bình thường và cho thấy rằng phần dư được phân phối xấp xỉ bình thường Thử nghiệm Shapiro-Wilk có thể được sử dụng để kiểm tra phân phối bình thường của phần dư. Giả thuyết Null: Dữ liệu được rút ra từ phân phối bình thường. can be used to check the normal distribution of residuals. Null hypothesis: data is drawn from normal distribution.
Vì giá trị P không có ý nghĩa, chúng tôi không từ chối giả thuyết null và kết luận rằng dữ liệu được rút ra từ phân phối bình thường. Khi dữ liệu được rút ra từ phân phối bình thường, hãy sử dụng thử nghiệm Bartlett, để kiểm tra tính đồng nhất của phương sai. Giả thuyết null: Các mẫu từ quần thể có phương sai như nhau.Homogeneity of variances. Null hypothesis: samples from populations have equal variances.
Vì giá trị p (0,12) là không có ý nghĩa, chúng tôi không bác bỏ giả thuyết null và kết luận rằng các phương pháp điều trị có phương sai như nhau. Thử nghiệm Levene sườn có thể được sử dụng để kiểm tra tính đồng nhất của phương sai khi dữ liệu không được rút ra từ phân phối bình thường. can be used to check the Homogeneity of variances when the data is not drawn from normal distribution.
Hai chiều (hai yếu tố) ANOVA (thiết kế giai thừa) với PythonỞ đây, tôi sẽ thảo luận về ANOVA độc lập hai chiều, khác với ANOVA hỗn hợp hai chiều và ANOVA đo lặp lại. Mô hình hiệu ứng nhân tố ANOVA, bảng và công thứcDữ liệu ví dụ cho hướng dẫn phân tích ANOVA hai chiều, tập dữ liệu Từ bộ dữ liệu, có hai yếu tố (biến độc lập) viz. Kiểu gen và năng suất trong năm. Kiểu gen và năm có sáu và ba cấp độ tương ứng (xem ANOVA một chiều để biết các yếu tố và cấp độ). Đối với thiết kế thử nghiệm này, có hai yếu tố để đánh giá, và do đó, phương pháp ANOVA hai chiều phù hợp để phân tích. Ở đây, sử dụng ANOVA hai chiều, chúng ta có thể đồng thời đánh giá cách loại kiểu gen và năm ảnh hưởng đến sản lượng của thực vật. Nếu bạn áp dụng ANOVA một chiều ở đây, bạn chỉ có thể đánh giá một yếu tố tại một thời điểm. Từ ANOVA hai chiều, chúng ta có thể kiểm tra ba giả thuyết 1) ảnh hưởng của kiểu gen đến năng suất 2) ảnh hưởng của thời gian (năm) đến năng suất và 3) ảnh hưởng của kiểu gen và thời gian (năm) Lưu ý: Nếu bạn có bộ dữ liệu của riêng mình, bạn nên nhập nó dưới dạng gấu trúc DataFrame. Tìm hiểu cách nhập dữ liệu bằng gấu trúc
Vì có 6 và 3 cấp độ cho kiểu gen và năm, tương ứng, đây là thiết kế giai thừa 6 x 3 mang lại 18 kết hợp độc đáo để đo biến phản ứng.
Lưu ý: Nếu bạn có dữ liệu không cân bằng (kích thước mẫu không đồng đều cho mỗi nhóm), bạn có thể thực hiện các bước tương tự như được mô tả cho ANOVA hai chiều với thiết kế cân bằng nhưng đặt `typ = 3`. Tổng số 3 của hình vuông (SS) không giả định kích thước mẫu bằng nhau giữa các nhóm và được khuyến nghị cho một thiết kế không cân bằng cho ANOVA đa yếu tố.: If you have unbalanced (unequal sample size for each group) data, you can perform similar steps as described for two-way ANOVA with the balanced design but set `typ=3`. Type 3 sums of squares (SS) does not assume equal sample sizes among the groups and is recommended for an unbalanced design for multifactorial ANOVA. Diễn dịchGiá trị P thu được từ phân tích ANOVA cho kiểu gen, năm và tương tác có ý nghĩa thống kê (P Vì sự tương tác rất có ý nghĩa, hãy để trực quan hóa biểu đồ tương tác (còn gọi là biểu đồ hồ sơ) cho các hiệu ứng tương tác, 0
So sánh nhiều cặp (bài kiểm tra sau hoc)Bây giờ, chúng ta biết rằng sự khác biệt về kiểu gen và thời gian (năm) có ý nghĩa thống kê, nhưng ANOVA không cho biết kiểu gen và thời gian (năm) khác nhau đáng kể với nhau. Để biết các cặp kiểu gen và thời gian khác nhau đáng kể (năm), thực hiện phân tích so sánh nhiều cặp (so sánh sau đại học) bằng cách sử dụng thử nghiệm HSD Tukey.Post-hoc comparison) analysis using Tukey’s HSD test. 1Kiểm tra các giả định ANOVATương tự như ANOVA một chiều, bạn có thể sử dụng các phương pháp trực quan, Bartlett, hoặc Levene, và thử nghiệm Shapiro-Wilk để xác nhận các giả định về tính đồng nhất của phương sai và phân phối bình thường của phần dư.Bartlett’s or Levene’s, and Shapiro-Wilk test to validate the assumptions for homogeneity of variances and normal distribution of residuals. 2Mặc dù chúng tôi đã từ chối số liệu thống kê thử nghiệm Shapiro-Wilk (p <0,05), chúng tôi nên tìm kiếm thêm các ô và biểu đồ còn lại. Trong biểu đồ dư, phần dư được tiêu chuẩn hóa nằm xung quanh dòng 45 độ, nó cho thấy rằng phần dư được phân phối xấp xỉ bình thường. Bên cạnh đó, biểu đồ cho thấy sự phân phối khoảng bình thường của phần dư. Lưu ý: Mô hình ANOVA rất mạnh mẽ đối với việc vi phạm giả định tính quy tắc, điều đó có nghĩa là nó sẽ có tác động không đáng kể đến tỷ lệ lỗi loại I và giá trị p sẽ vẫn đáng tin cậy miễn là không có ngoại lệ nào: The ANOVA model is remarkably robust to the violation of normality assumption, which means that it will have a non-significant effect on Type I error rate and p values will remain reliable as long as there are no outliers Chúng tôi sẽ sử dụng thử nghiệm Levene, để kiểm tra giả định về tính đồng nhất của phương sai, 3Vì giá trị P (0,09) là không đáng kể, chúng tôi không từ chối giả thuyết khống và kết luận rằng các phương pháp điều trị có phương sai như nhau. Nâng cao kỹ năng của bạn với các khóa học trên ANOVA
Người giới thiệu
Nếu bạn có bất kỳ câu hỏi, nhận xét, sửa chữa hoặc đề xuất nào, vui lòng gửi email cho tôi tại Nếu bạn nâng cao kiến thức và kỹ năng thực tế từ bài viết này, hãy xem xét hỗ trợ tôi Công việc này được cấp phép theo giấy phép Creative Commons Attribution 4.0 quốc tế Một số liên kết trên trang này có thể là các liên kết liên kết, điều đó có nghĩa là chúng tôi có thể nhận được một khoản hoa hồng liên kết khi mua hàng hợp lệ. Các nhà bán lẻ sẽ trả tiền hoa hồng mà không phải trả thêm chi phí cho bạn. ANOVA được sử dụng như thế nào trong khoa học dữ liệu?Phân tích phương sai, hoặc ANOVA, là một phương pháp thống kê phân tách dữ liệu phương sai quan sát thành các thành phần khác nhau để sử dụng cho các thử nghiệm bổ sung. ANOVA một chiều được sử dụng cho ba hoặc nhiều nhóm dữ liệu, để có được thông tin về mối quan hệ giữa các biến phụ thuộc và độc lập.separates observed variance data into different components to use for additional tests. A one-way ANOVA is used for three or more groups of data, to gain information about the relationship between the dependent and independent variables.
ANOVA có thể sử dụng cho 3 biến không?Một thử nghiệm ANOVA ba chiều nào trong ba biến riêng biệt có ảnh hưởng đến kết quả và mối quan hệ giữa ba biến.Nó cũng được gọi là ANOVA ba yếu tố, với ANOVA đứng để "phân tích phương sai".. It is also called a three-factor ANOVA, with ANOVA standing for "analysis of variance."
ANOVA được sử dụng tốt nhất để làm gì?ANOVA là viết tắt của phân tích phương sai.Đó là một thử nghiệm thống kê được phát triển bởi Ronald Fisher vào năm 1918 và đã được sử dụng kể từ đó.Nói một cách đơn giản, ANOVA cho bạn biết nếu có bất kỳ sự khác biệt thống kê nào giữa các phương tiện của ba hoặc nhiều nhóm độc lập.ANOVA một chiều là hình thức cơ bản nhất.tells you if there are any statistical differences between the means of three or more independent groups. One-way ANOVA is the most basic form.
ANOVA có khó không?Thật dễ dàng để nhập tập dữ liệu và chạy ANOVA đơn giản, nhưng thật khó để chọn ANOVA thích hợp cho các thiết kế thử nghiệm khác nhau, để kiểm tra xem dữ liệu có tuân thủ các giả định mô hình hóa hay không và để giải thích chính xác kết quả.it is challenging to choose the appropriate ANOVA for different experimental designs, to examine whether data adhere to the modeling assumptions, and to interpret the results correctly. |