Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu

Chào mừng bạn đến với bài viết này về hồi quy tuyến tính đơn giản. Hôm nay chúng ta sẽ xem xét cách xây dựng một mô hình hồi quy tuyến tính đơn giản được đưa ra một bộ dữ liệu. Bạn có thể đi qua bài viết của chúng tôi chi tiết về khái niệm hồi quy tuyến tính đơn giản trước ví dụ mã hóa trong bài viết này.

6 bước để xây dựng mô hình hồi quy tuyến tính

Bước 1: Nhập DataSetStep 2: Dữ liệu Pre-ProctStep 3: Tách bài kiểm tra và Bộ đào tạo 4: Đóng mô hình hồi quy tuyến tính vào SetStep 5: Dự đoán kết quả kiểm tra Bước 6: Trực quan hóa kết quả kiểm tra kết quả kiểm tra
Step 2: Data pre-processing
Step 3: Splitting the test and train sets
Step 4: Fitting the linear regression model to the training set
Step 5: Predicting test results
Step 6: Visualizing the test results

Bây giờ chúng ta đã thấy các bước, chúng ta hãy bắt đầu với việc mã hóa giống nhau

Thực hiện mô hình hồi quy tuyến tính trong Python

Trong bài viết này, chúng tôi sẽ sử dụng bộ dữ liệu lương. Bộ dữ liệu của chúng tôi sẽ có 2 cột là - nhiều năm kinh nghiệm và tiền lương.

Liên kết đến bộ dữ liệu là-https://github.com/content-anu/dataset-simple-linear

1. Nhập bộ dữ liệu

Chúng tôi sẽ bắt đầu với việc nhập bộ dữ liệu bằng gấu trúc và cũng nhập các thư viện khác như Numpy và Matplotlib.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

dataset = pd.read_csv('Salary_Data.csv')
dataset.head()

dataset.head() hiển thị một vài cột đầu tiên của bộ dữ liệu của chúng tôi. Đầu ra của đoạn trích trên như sau:

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
Bộ dữ liệu

2. Tiền xử lý dữ liệu

Bây giờ chúng tôi đã nhập bộ dữ liệu, chúng tôi sẽ thực hiện tiền xử lý dữ liệu.

X = dataset.iloc[:,:-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector

X là mảng biến độc lập và

X = dataset.iloc[:,:-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector
0 là vectơ biến phụ thuộc. Lưu ý sự khác biệt giữa mảng và vectơ. Biến phụ thuộc phải có trong vectơ và biến độc lập phải là một mảng.

3. Tách bộ dữ liệu

Chúng tôi cần chia bộ dữ liệu của chúng tôi thành bài kiểm tra và bộ đào tạo. Nói chung, chúng tôi tuân theo chính sách 20-80 hoặc chính sách 30-70 tương ứng.

Tại sao cần phải thực hiện phân tách? Điều này là do chúng tôi muốn đào tạo mô hình của chúng tôi theo những năm và tiền lương. Sau đó chúng tôi kiểm tra mô hình của chúng tôi trên bộ thử nghiệm.This is because we wish to train our model according to the years and salary. We then test our model on the test set.

Chúng tôi kiểm tra xem các dự đoán được thực hiện bởi mô hình trên dữ liệu tập kiểm tra có khớp với những gì được đưa ra trong tập dữ liệu hay không.

Nếu nó phù hợp, nó ngụ ý rằng mô hình của chúng tôi là chính xác và đang đưa ra dự đoán đúng.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=1/3,random_state=0)

Chúng tôi không cần phải áp dụng tỷ lệ tính năng cho hồi quy tuyến tính khi các thư viện chăm sóc nó.

4. Mô hình hồi quy tuyến tính phù hợp vào tập huấn luyện

Từ thư viện mô hình tuyến tính của Sklearn, lớp hồi quy tuyến tính. Tạo một đối tượng cho một lớp hồi quy tuyến tính được gọi là hồi quy.

Để phù hợp với bộ hồi quy vào bộ đào tạo, chúng tôi sẽ gọi phương pháp FIT - chức năng để phù hợp với bộ hồi quy vào bộ đào tạo.

Chúng ta cần phù hợp với x_train (dữ liệu đào tạo của ma trận các tính năng) vào các giá trị đích y_train. Do đó, mô hình học được mối tương quan và học cách dự đoán các biến phụ thuộc dựa trên biến độc lập.

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train,y_train) #actually produces the linear eqn for the data

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
Phương trình đầu ra

5. Dự đoán kết quả tập kiểm tra

Chúng tôi tạo một vector chứa tất cả các dự đoán của mức lương tập kiểm tra. Các mức lương dự đoán sau đó được đưa vào vectơ được gọi là ____ 11. (chứa dự đoán cho tất cả các quan sát trong bộ thử nghiệm)

Phương pháp

X = dataset.iloc[:,:-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector
2 đưa ra dự đoán cho tập kiểm tra. Do đó, đầu vào là tập kiểm tra. Tham số để dự đoán phải là một mảng hoặc ma trận thưa thớt, do đó đầu vào là x_test.

y_pred = regressor.predict(X_test) 
y_pred

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
đầu ra y-pred

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
đầu ra y-test

X = dataset.iloc[:,:-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector
3 là mức lương thực sự của bộ kiểm tra .________ 11 là mức lương dự đoán.
X = dataset.iloc[:,:-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector
1 are the predicted salaries.

Hình dung kết quả

Hãy cùng xem kết quả của mã của chúng tôi sẽ trông như thế nào khi chúng tôi hình dung nó.

1. Vẽ các điểm (quan sát)

Để trực quan hóa dữ liệu, chúng tôi vẽ đồ thị bằng matplotlib. Để vẽ các điểm quan sát thực, IE vẽ các giá trị đã cho thực.

Trục X sẽ có nhiều năm kinh nghiệm và trục y sẽ có mức lương dự đoán.

X = dataset.iloc[:,:-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector
5 vẽ một biểu đồ phân tán của dữ liệu. Tham số bao gồm:

  1. X - Tọa độ (x_train: số năm)
  2. Y - Phối hợp (Y_TRAIN: Mức lương thực sự của nhân viên)
  3. Màu sắc (đường hồi quy màu đỏ và đường quan sát màu xanh lam)

2. Vẽ đường hồi quy

plt.plot có các tham số sau:

  1. X tọa độ (x_train) - Số năm
  2. Y tọa độ (dự đoán trên x_train)-Dự đoán X-Train (dựa trên một số năm).

LƯU Ý: Tọa độ y không phải là y_pred vì y_pred được dự đoán mức lương của các quan sát tập kiểm tra.

#plot for the TRAIN

plt.scatter(X_train, y_train, color='red') # plotting the observation line

plt.plot(X_train, regressor.predict(X_train), color='blue') # plotting the regression line

plt.title("Salary vs Experience (Training set)") # stating the title of the graph

plt.xlabel("Years of experience") # adding the name of x-axis
plt.ylabel("Salaries") # adding the name of y-axis
plt.show() # specifies end of graph

Mã trên tạo ra một biểu đồ cho bộ tàu được hiển thị bên dưới:

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
Biểu đồ đầu ra cho bộ đào tạo

#plot for the TEST

plt.scatter(X_test, y_test, color='red') 
plt.plot(X_train, regressor.predict(X_train), color='blue') # plotting the regression line

plt.title("Salary vs Experience (Testing set)")

plt.xlabel("Years of experience") 
plt.ylabel("Salaries") 
plt.show() 

Đoạn trích mã trên tạo ra một biểu đồ như hình dưới đây:

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
Đồ thị đầu ra cho bộ kiểm tra

Hoàn thành mã Python để thực hiện hồi quy tuyến tính

# importing the dataset
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
 
dataset = pd.read_csv('Salary_Data.csv')
dataset.head()

# data preprocessing
X = dataset.iloc[:, :-1].values  #independent variable array
y = dataset.iloc[:,1].values  #dependent variable vector

# splitting the dataset
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=1/3,random_state=0)

# fitting the regression model
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train,y_train) #actually produces the linear eqn for the data

# predicting the test set results
y_pred = regressor.predict(X_test) 
y_pred

y_test

# visualizing the results
#plot for the TRAIN
 
plt.scatter(X_train, y_train, color='red') # plotting the observation line
plt.plot(X_train, regressor.predict(X_train), color='blue') # plotting the regression line
plt.title("Salary vs Experience (Training set)") # stating the title of the graph
 
plt.xlabel("Years of experience") # adding the name of x-axis
plt.ylabel("Salaries") # adding the name of y-axis
plt.show() # specifies end of graph

#plot for the TEST
 
plt.scatter(X_test, y_test, color='red') 
plt.plot(X_train, regressor.predict(X_train), color='blue') # plotting the regression line
plt.title("Salary vs Experience (Testing set)")
 
plt.xlabel("Years of experience") 
plt.ylabel("Salaries") 
plt.show() 

Đầu ra của đoạn mã trên như hình dưới đây:

Hướng dẫn linear regression python code with dataset - hồi quy tuyến tính mã python với tập dữ liệu
Đồ thị đầu ra

Sự kết luận

Chúng tôi đã đi đến cuối bài viết này về hồi quy tuyến tính đơn giản. Hy vọng bạn thích ví dụ của chúng tôi và cũng đã thử mã hóa mô hình. Hãy cho chúng tôi biết phản hồi của bạn trong phần bình luận dưới đây.

Nếu bạn quan tâm đến nhiều mô hình hồi quy hơn, hãy đọc qua nhiều mô hình hồi quy tuyến tính.

Làm thế nào để thực hiện mô hình hồi quy tuyến tính trong Python?

Thực hiện mô hình hồi quy tuyến tính trong Python 1. Nhập bộ dữ liệu. Chúng tôi sẽ bắt đầu với việc nhập bộ dữ liệu bằng gấu trúc và cũng nhập các thư viện khác như ... 2. Tiền xử lý dữ liệu. Bây giờ chúng tôi đã nhập bộ dữ liệu, chúng tôi sẽ thực hiện tiền xử lý dữ liệu. X là độc lập ... 3. ...

Hồi quy trong thống kê trong Python là gì?

Về cơ bản, hồi quy là một thuật ngữ thống kê, hồi quy là một quá trình thống kê để xác định mối quan hệ ước tính của hai bộ biến. Sơ đồ hồi quy tuyến tính - Python. Trong sơ đồ này, chúng ta có thể vây các chấm đỏ. Họ đại diện cho giá theo trọng lượng. Đường màu xanh là đường hồi quy.

Dữ liệu của bạn có phù hợp cho hồi quy tuyến tính không?

Điều này cho thấy rằng dữ liệu của chúng tôi không phù hợp cho hồi quy tuyến tính. Nhưng đôi khi, một bộ dữ liệu có thể chấp nhận hồi quy tuyến tính nếu chúng ta chỉ xem xét một phần của nó. Hãy để chúng tôi kiểm tra khả năng đó.

Bộ dữ liệu chỉ có thể chấp nhận một phần của bộ hồi quy tuyến tính?

Nhưng đôi khi, một bộ dữ liệu có thể chấp nhận hồi quy tuyến tính nếu chúng ta chỉ xem xét một phần của nó. Hãy để chúng tôi kiểm tra khả năng đó. Chúng ta đã có thể thấy rằng 500 hàng đầu tiên theo mô hình tuyến tính.

Làm thế nào để bạn thực hiện hồi quy tuyến tính trên bộ dữ liệu trong Python?

Hồi quy tuyến tính đơn giản trong Python..
Bước 1: Tải bộ dữ liệu Boston ..
Bước 2: Nhìn thoáng qua hình dạng ..
Bước 3: Nhìn thoáng qua các biến phụ thuộc và độc lập ..
Bước 4: Hình dung sự thay đổi trong các biến ..
Bước 5: Chia dữ liệu thành các biến độc lập và phụ thuộc ..

Làm thế nào để bạn thực hiện hồi quy tuyến tính trên một tập dữ liệu?

Introduction..
Hồi quy tuyến tính với một biến ..
Bước 1: Nhập thư viện Python ..
Bước 2: Tạo bộ dữ liệu ..
Bước 3: Mở bộ dữ liệu ..
Bước 4: Tải lên bộ dữ liệu ..
Bước 5: Tính năng chia tỷ lệ và chuẩn hóa ..
Bước 6: Thêm một cột của các cái vào vectơ x ..

Bộ dữ liệu nào được sử dụng trong hồi quy tuyến tính?

Bộ dữ liệu cho hồi quy tuyến tính được định nghĩa là trong học máy, nó là một thuật toán có thể được phân loại trong học tập có giám sát để tìm biến mục tiêu giữa các biến phụ thuộc và các biến độc lập;Ngoài ra, nó có thể cho phép chúng ta thiết lập mối quan hệ giữa các biến đó là tốt nhất ...an algorithm that can be categorized in supervised learning to find the target variable between the dependent variables and the independent variables; also, it can allow us to establish a relationship between those variables which are the best ...

Python có tốt cho hồi quy tuyến tính không?

Python có các phương pháp để tìm mối quan hệ giữa các điểm dữ liệu và để vẽ một dòng hồi quy tuyến tính..