Giới thiệu về thống kê trong Python GitHub

Trong ví dụ hoa diên vĩ ở trên, chúng tôi muốn kiểm tra xem chiều dài cánh hoa có khác nhau giữa versicolor và virginica hay không, sau khi loại bỏ ảnh hưởng của chiều rộng đài hoa. Điều này có thể được coi là kiểm tra sự khác biệt giữa hệ số liên quan đến đa sắc tố và trinh nữ trong mô hình tuyến tính được ước tính ở trên (đó là Phân tích phương sai, ANOVA. Đối với điều này, chúng tôi viết một vectơ 'độ tương phản' trên các tham số được ước tính. chúng tôi muốn kiểm tra "name[T.versicolor] - name[T.virginica]", với bài kiểm tra F

Jupyter Notebooks về các chủ đề phân tích thống kê, toán học và điện toán số/khoa học (bằng Python)

Vui lòng kết nối với tôi trên LinkedIn nếu bạn quan tâm đến khoa học dữ liệu và muốn kết nối


Yêu cầu

  • Trăn 3. 6+
  • NumPy ($ pip install numpy)
  • Gấu trúc ($ pip install pandas)
  • Scikit-học ($ pip install scikit-learn)
  • Khoa học viễn tưởng ($ pip install scipy)
  • Mô hình thống kê ($ pip install statsmodels)
  • MatplotLib ($ pip install matplotlib)
  • Seaborn ($ pip install seaborn)

Đặt đại số cơ bản

Hoán vị và kết hợp

Giới thiệu về thống kê trong Python GitHub

Phân phối xác suất (Rời rạc)

Phương pháp hồi quy tuyến tính

Các hàm thống kê kiểu R được viết bằng Python

Chẩn đoán một vấn đề hồi quy tuyến tính

Giới thiệu về kiểm định giả thuyết

Bài viết

Hãy xem bài viết này tôi đã viết trên Medium về "Mô hình thống kê với “Lựu” — nhanh chóng và trực quan"

Kho lưu trữ này chứa mã Python cho tuyển tập các bảng, số liệu và phần LAB từ ấn bản đầu tiên của cuốn sách 'Giới thiệu về Học tập Thống kê với Ứng dụng trong R' của James, Witten, Hastie, Tibshirani (2013)

Để phân tích dữ liệu Bayes bằng PyMC3, hãy xem kho lưu trữ này

2018-01-15
Cập nhật nhỏ cho kho lưu trữ do thay đổi/không dùng nữa trong một số gói. Sổ ghi chép đã được thử nghiệm với các phiên bản gói này. Cảm ơn @lincolnfrias và @telescopeuser

2016-08-30
Chương 6. Tôi đã bao gồm mã hồi quy Ridge/Lasso bằng thư viện python-glmnet mới. Đây là trình bao bọc python cho thư viện Fortran được sử dụng trong gói R glmnet

Giới thiệu về thống kê trong Python GitHub

Chương 3 - Hồi quy tuyến tính
Chương 4 - Phân loại
Chương 5 - Phương pháp lấy mẫu lại
Chương 6 - Lựa chọn mô hình tuyến tính và chính quy hóa
Chương 7 - Vượt ra khỏi tuyến tính
Chương 8 - Phương pháp dựa trên cây
Chương 9 - Máy Vector hỗ trợ
Chương 10 - Học không giám sát

Thêm. Mô phỏng tỷ lệ phân loại sai - SVM và hồi quy logistic

Cuốn sách tuyệt vời này giới thiệu kỹ lưỡng về lĩnh vực Thống kê/Học máy. Cuốn sách có sẵn để tải xuống (xem liên kết bên dưới), nhưng tôi nghĩ đây là một trong những cuốn sách chắc chắn đáng mua. Cuốn sách chứa các phần có ứng dụng trong R dựa trên bộ dữ liệu công khai có sẵn để tải xuống hoặc là một phần của ISLR gói R. Hơn nữa, có một khóa học trực tuyến của Đại học Stanford dựa trên cuốn sách này và do các tác giả giảng dạy (Xem danh mục khóa học để biết lịch trình hiện tại)

Vì Python là ngôn ngữ mà tôi lựa chọn để phân tích dữ liệu, nên tôi đã quyết định thử thực hiện một số tính toán và vẽ đồ thị trong Jupyter Notebooks bằng cách sử dụng

  • gấu trúc
  • cục mịch
  • scipy
  • scikit-học
  • python-glmnet
  • mô hình thống kê
  • bánh pía
  • matplotlib
  • sinh ra biển

Đó là một cách hay để tìm hiểu thêm về Machine Learning trong Python bằng cách tạo những sổ ghi chép này. Tôi đã tạo một số hình/bảng của các chương và làm việc qua một số phần LAB. Tại một số điểm, tôi nhận ra rằng có vẻ như tôi đã cố gắng quá mức để làm cho đầu ra giống hệt với các bảng và biểu đồ R trong cuốn sách. Nhưng tôi đã làm điều này để khám phá một số chi tiết của các thư viện được đề cập ở trên (chủ yếu là matplotlib và seaborn). Lưu ý rằng kho lưu trữ này không phải là một hướng dẫn độc lập và có lẽ bạn nên có một bản sao của cuốn sách để theo dõi. Đề xuất cải tiến và trợ giúp với các vấn đề chưa được giải quyết đều được hoan nghênh. Xem Hastie và cộng sự. (2009) để xử lý nâng cao các chủ đề này

Người giới thiệu

James, G. , Witten, D. , Hatie, T. , Tibshirani, R. (2013). Giới thiệu về học tập thống kê với các ứng dụng trong R, Springer Science + Business Media, New York. https. //www. học thống kê. com/

James, G. , Witten, D. , Hatie, T. , Tibshirani, R. (2021). Giới thiệu về học tập thống kê với các ứng dụng trong R, Phiên bản thứ hai, Springer Science + Business Media, New York. https. //www. học thống kê. com/

vội vã, T. , Tibshirani, R. , Friedman, J. (2009). Elements of Statistical Learning, Second Edition, Springer Science+Business Media, New York. http. //thống kê web. standford. edu/~tibs/ElemStatLearn/