Hướng dẫn how to find covariance between two variables in python - cách tìm hiệp phương sai giữa hai biến trong python
Giới thiệuLàm việc với các biến trong phân tích dữ liệu luôn thúc đẩy câu hỏi: các biến phụ thuộc, liên kết và thay đổi với nhau như thế nào? Hiệp phương sai và các biện pháp tương quan hỗ trợ trong việc thiết lập điều này. Show
Trong bài viết này, chúng ta sẽ học cách tính toán hiệp phương sai và tương quan trong Python. Hiệp phương sai và tương quan - nói đơn giảnCả hiệp phương sai và tương quan là về mối quan hệ giữa các biến. Hiệp phương sai xác định sự liên kết định hướng giữa các biến. Các giá trị hiệp phương sai nằm trong phạm vi từ -inf đến +inf trong đó giá trị dương biểu thị rằng cả hai biến di chuyển theo cùng một hướng và giá trị âm biểu thị rằng cả hai biến di chuyển theo hướng ngược lại. Tương quan là một biện pháp thống kê được tiêu chuẩn hóa thể hiện mức độ mà hai biến có liên quan tuyến tính (có nghĩa là chúng thay đổi bao nhiêu với tốc độ không đổi). Mức độ sức mạnh và sự liên kết định hướng của mối quan hệ giữa hai biến được xác định bởi mối tương quan và nó dao động từ -1 đến +1. Tương tự như hiệp phương sai, một giá trị dương biểu thị rằng cả hai biến di chuyển theo cùng một hướng trong khi một giá trị âm cho chúng ta biết rằng chúng di chuyển theo hướng ngược lại. Cả hiệp phương sai và tương quan là các công cụ quan trọng được sử dụng trong thăm dò dữ liệu để lựa chọn tính năng và phân tích đa biến. Ví dụ, một nhà đầu tư đang tìm cách truyền bá rủi ro của một danh mục đầu tư có thể tìm kiếm các cổ phiếu có hiệp phương sai cao, vì nó cho thấy giá của họ tăng lên cùng một lúc. Tuy nhiên, một phong trào tương tự là không đủ. Sau đó, nhà đầu tư sẽ sử dụng số liệu tương quan để xác định mức độ liên kết mạnh mẽ của giá cổ phiếu với nhau. Thiết lập mã Python - Lấy dữ liệu mẫuVới những điều cơ bản đã học được từ phần trước, chúng ta hãy tiến lên để tính toán hiệp phương sai trong Python. Trong ví dụ này, chúng tôi sẽ làm việc trên bộ dữ liệu IRIS nổi tiếng. Chúng tôi chỉ làm việc với các loài Chúng ta hãy xem bộ dữ liệu, trên đó chúng ta sẽ thực hiện phân tích: Chúng tôi sắp chọn hai cột, để phân tích - Trong một tệp Python mới (bạn có thể đặt tên cho nó
Trong khoa học dữ liệu, nó luôn giúp trực quan hóa dữ liệu bạn đang làm việc. Đây là một âm mưu hồi quy Seaborn (sơ đồ phân tán + Phù hợp hồi quy tuyến tính) của các thuộc tính setosa này trên các trục khác nhau: Trực quan các điểm dữ liệu dường như có mối tương quan cao gần với đường hồi quy. Hãy xem liệu các quan sát của chúng tôi có khớp với giá trị hiệp phương sai và tương quan của họ không. Tính toán hiệp phương sai trong PythonCông thức sau đây tính toán hiệp phương sai: Trong công thức trên,
Mẫu số là 1 cho toàn bộ tập dữ liệu và 2 trong trường hợp mẫu. Vì bộ dữ liệu của chúng tôi là một mẫu nhỏ của toàn bộ bộ dữ liệu IRIS, chúng tôi sử dụng 2.Với công thức toán học được đề cập ở trên là tài liệu tham khảo của chúng tôi, hãy tạo chức năng này trong Python Pure Python:
Trước tiên chúng tôi tìm thấy các giá trị trung bình của bộ dữ liệu của chúng tôi. Sau đó, chúng tôi sử dụng một danh sách hiểu để lặp lại trên mọi yếu tố trong hai chuỗi dữ liệu của chúng tôi và trừ các giá trị của chúng khỏi giá trị trung bình. Một vòng lặp cho vòng lặp có thể đã được sử dụng một cái giếng nếu đó là sở thích của bạn. Sau đó, chúng tôi sử dụng các giá trị trung gian của hai chuỗi 'và nhân chúng với nhau trong một danh sách hiểu danh sách khác. Chúng tôi tổng hợp kết quả của danh sách đó và lưu trữ nó dưới dạng 4. 5 dễ tính toán dễ dàng hơn rất nhiều, hãy chắc chắn để decraese vào 1 khi bạn tìm thấy hiệp phương sai cho dữ liệu mẫu!Kiểm tra hướng dẫn thực hành của chúng tôi, thực tế để học Git, với các thực hành tốt nhất, các tiêu chuẩn được công nghiệp chấp nhận và bao gồm bảng gian lận. Ngừng các lệnh git googling và thực sự tìm hiểu nó! Sau đó, chúng tôi trả về giá trị khi 4 được chia cho 5 của nó, dẫn đến hiệp phương sai.Chạy tập lệnh của chúng tôi sẽ cung cấp cho chúng tôi đầu ra này:
Giá trị dương biểu thị rằng cả hai biến di chuyển theo cùng một hướng. Tính tương quan trong PythonCông thức được sử dụng rộng rãi nhất để tính toán hệ số tương quan là 'R' của Pearson: Trong công thức trên,
Có vẻ như chúng ta đã thảo luận về mọi thứ chúng ta cần để có được mối tương quan trong loạt bài viết này! Hãy tính toán mối tương quan ngay bây giờ:
Vì giá trị này cần sự hiệp phương sai của hai biến, chức năng của chúng tôi khá nhiều hoạt động lại giá trị đó một lần nữa. Khi hiệp phương sai được tính toán, chúng tôi sẽ tính độ lệch chuẩn cho từng biến. Từ đó, mối tương quan chỉ đơn giản là phân chia hiệp phương sai với sự nhân lên của các hình vuông của độ lệch chuẩn. Chạy mã này, chúng tôi nhận được đầu ra sau, xác nhận rằng các thuộc tính này có một giá trị dương (dấu hiệu của giá trị, +, hoặc không có nếu 0) và mạnh (giá trị gần với 1) mối quan hệ:
Sự kết luậnTrong bài viết này, chúng tôi đã học được hai công cụ thống kê: hiệp phương sai và tương quan một cách chi tiết. Chúng tôi đã học được giá trị của chúng có ý nghĩa gì đối với dữ liệu của chúng tôi, cách chúng được thể hiện trong toán học và cách thực hiện chúng trong Python. Cả hai biện pháp này có thể rất hữu ích trong việc xác định mối quan hệ giữa hai biến. Hiệp phương sai trong numpy là gì?Hiệp phương sai chỉ ra mức độ mà hai biến khác nhau.indicates the level to which two variables vary together.
Sự hiệp phương sai của hai biến là gì?Hiệp phương sai là gì?Trong toán học và thống kê, hiệp phương sai là thước đo mối quan hệ giữa hai biến ngẫu nhiên.Số liệu đánh giá bao nhiêu - đến mức độ nào - các biến thay đổi cùng nhau.Nói cách khác, về cơ bản nó là thước đo phương sai giữa hai biến. |