Hướng dẫn correlation matrix python csv - ma trận tương quan python csv


Một ma trận tương quan là một bảng chứa các hệ số tương quan cho nhiều biến. Mỗi ô trong bảng biểu thị mối tương quan giữa hai biến. Giá trị có thể nằm trong khoảng từ -1 đến 1. Một ma trận tương quan được sử dụng để tóm tắt dữ liệu, chẩn đoán phân tích nâng cao và là một đầu vào cho một nghiên cứu phức tạp hơn.

Ma trận tương quan được sử dụng để biểu thị mối quan hệ giữa các biến trong tập dữ liệu. Đây là một loại ma trận giúp các lập trình viên phân tích mối quan hệ giữa các thành phần dữ liệu. Nó đại diện cho hệ số tương quan giữa 0 đến 1.

Giá trị dương ngụ ý một mối tương quan tốt, giá trị âm cho thấy mối tương quan yếu/thấp và giá trị bằng 0 (0) cho thấy không có sự phụ thuộc giữa tập hợp các biến đã cho.

Phân tích hồi quy và ma trận tương quan cho thấy các quan sát sau -

  • Nhận ra mối quan hệ giữa các biến độc lập trong tập dữ liệu.

  • Giúp lựa chọn các biến quan trọng và không dư thừa từ một tập dữ liệu.

  • Điều này chỉ áp dụng cho các biến số hoặc liên tục.

Trong bài viết này, chúng tôi sẽ chỉ cho bạn cách tạo ma trận tương quan bằng Python.

Giả sử chúng tôi đã lấy một tệp CSV với tên starbucksmenu.csv bao gồm một số dữ liệu ngẫu nhiên. Chúng ta cần tạo một ma trận tương quan cho các cột được chỉ định trong tập dữ liệu và vẽ đồ thị ma trận tương quan.starbucksMenu.csv consisting of some random data. We need to create a correlation matrix for the specified columns in a dataset and plot the correlation matrix.

Dữ liệu tệp đầu vào

starbucksMenu.csv

Tên mục Calo Mập mạp Lòng carb Chất xơ Chất đạm Natri
& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;
Cool Lime Starbucks Refreshers ™ 45 0 11 0 0 10
Evolution Fresh ™ hữu cơ Ginger Limeade 80 0 18 1 0 10
Cà phê đá 60 0 14 1 0 10
Tazo® Berry Berry Blossom White 0 0 0 0 0 0
Tazo® đóng chai Brambleberry 130 2.5 21 0 5 65
TAZO® Đóng chai Đập đào 140 2.5 23 0 5 90
Tazo® đóng chai niềm đam mê 130 2.5 21 0 5 65
Tazo® đóng chai quả lựu mận 80 0 19 0 0 10
TazoBerry đóng chai Tazo® 60 0 15 0 0 10
Tazo® Bang Cranberry đóng chai 150 0 38 0 0 15

Tạo một ma trận tương quan

Chúng tôi sẽ vẽ vẽ ma trận tương quan cho ba cột của bộ dữ liệu là các biến liên tục độc lập.

  • Lòng carb
  • Chất đạm
  • Natri

Thuật toán (bước)

Sau đây là các thuật toán/các bước được tuân thủ để thực hiện nhiệm vụ mong muốn -

  • Nhập khẩu các thư viện HĐH, Gandas, Numpy và Seaborn.

  • Đọc tệp CSV đã cho bằng hàm read_csv () (tải tệp CSV dưới dạng dữ liệu pandas).read_csv() function(loads a CSV file as a pandas dataframe).

  • Tạo danh sách các cột từ bộ dữ liệu đã cho mà ma trận tương quan phải được tạo.

  • Tạo một ma trận tương quan bằng cách sử dụng hàm Corr () (nó tính toán tương quan theo cặp của tất cả các cột trong khung dữ liệu. Bất kỳ giá trị Na (NULL) nào cũng được lọc ra. .corr() function(It calculates the pairwise correlation of all columns in a data frame. Any na(null) values are automatically filtered out. It is discarded for any non-numeric data type columns in the dataframe).

  • In ma trận tương quan của các cột được chỉ định của bộ dữ liệu.

  • Vẽ ma trận tương quan bằng cách sử dụng hàm nhiệt () (cho mỗi giá trị được vẽ, một bản đồ nhiệt có các giá trị biểu thị một số sắc thái cùng màu. Tương tự như vậy được sử dụng cho một giá trị khác nhau đáng kể) của Thư viện Seaborn.heatmap() function(For each value to be plotted, a heatmap has values indicating several shades of the same color. The darker colors of the chart typically represent higher values than the lighter shades. A completely different color can likewise be utilized for a significantly different value) of the seaborn library.

Nhập bộ dữ liệu vào một khung dữ liệu gấu trúc

Trước tiên chúng tôi đang nhập bất kỳ bộ dữ liệu mẫu nào (ở đây chúng tôi đang sử dụng starbucksmenu.csv) vào gấu trúc DataFrame và in nó.

ví dụ 1

# Import pandas module as pd using the import keyword import pandas as pd # Reading a dataset givenDataset = pd.read_csv('starbucksMenu.csv') print(givenDataset)

Đầu ra

Tên mục Calo Mập mạp Lòng carb Chất xơ Chất đạm Natri
& nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;
Cool Lime Starbucks Refreshers ™ 45 0 11 0 0 10
Evolution Fresh ™ hữu cơ Ginger Limeade 80 0 18 1 0 10
Cà phê đá 60 0 14 1 0 10
Tazo® Berry Berry Blossom White 0 0 0 0 0 0
Tazo® đóng chai Brambleberry 130 2.5 21 0 5 65
TAZO® Đóng chai Đập đào 140 2.5 23 0 5 90
Tazo® đóng chai niềm đam mê 130 2.5 21 0 5 65
Tazo® đóng chai quả lựu mận 80 0 19 0 0 10
TazoBerry đóng chai Tazo® 60 0 15 0 0 10
Tazo® Bang Cranberry đóng chai 150 0 38 0 0 15

Tạo một ma trận tương quan

Chúng tôi sẽ vẽ vẽ ma trận tương quan cho ba cột của bộ dữ liệu là các biến liên tục độc lập.

Lòng carb

import os # Importing pandas module import pandas as pd import numpy as np import seaborn # Reading a dataset givenDataset = pd.read_csv('starbucksMenu.csv') # Assigning the list of columns from the dataset numericColumns = ['Carb','Protein','Sodium'] # Creating a correlation matrix correlationMatrix = givenDataset.loc[:,numericColumns].corr() # Printing the correlation matrix. print(correlationMatrix) # Displaying the correlation matrix seaborn.heatmap(correlationMatrix, annot=True)

Đầu ra

Tạo ma trận tương quan sau khi nhập bộ dữ liệu

Hướng dẫn correlation matrix python csv - ma trận tương quan python csv

Chương trình sau đây tìm ra cách tạo một ma trận tương quan cho bộ dữ liệu đã cho, in chúng và vẽ âm mưu ma trận tương quan -

Hướng dẫn correlation matrix python csv - ma trận tương quan python csv

Cập nhật ngày 10 tháng 8 năm 2022 09:29:47

  • Câu hỏi và câu trả lời liên quan
  • Làm thế nào để tạo biểu đồ ma trận tương quan trong r?
  • Làm thế nào để tạo một ma trận tương quan bằng một cột phân loại trong đối tượng Data.Table trong r?
  • Làm thế nào để tạo biểu đồ ma trận tương quan mà không có nhãn biến trong r?
  • Đi qua đường chéo trong một ma trận trong JavaScript
  • Làm thế nào để chuyển đổi một ma trận tương quan thành một ma trận logic dựa trên hệ số tương quan trong r?
  • Làm thế nào để làm tròn các giá trị tương quan trong ma trận tương quan với các vị trí thập phân 0 trong r?
  • Làm thế nào để so sánh hai dòng khác nhau từng dòng trong Python?
  • Làm thế nào để chuyển một ma trận trong một dòng trong Python?
  • Làm thế nào để tìm ma trận tương quan bằng cách chỉ xem xét các cột số trong khung dữ liệu R?
  • Làm thế nào để tạo một đường đứt nét đi qua y = 1 trong cơ sở r?
  • Làm thế nào để tạo một dòng đi qua các điểm được chỉ định trong biểu đồ R?
  • Làm thế nào để đọc hoàn chỉnh dòng tệp văn bản từng dòng bằng Python?
  • Làm thế nào để thay đổi kích thước của giá trị hệ số tương quan trong biểu đồ ma trận tương quan bằng cách sử dụng Corrplot trong r?
  • Làm thế nào để làm động một bản đồ nhiệt trên biển hoặc ma trận tương quan (matplotlib)?
  • Làm thế nào để đối phó với các giá trị bị thiếu để tính toán ma trận tương quan trong r?
  • Có nghĩa là gì bởi mối tương quan?