Biểu đồ là biểu đồ sử dụng các thanh biểu thị tần số giúp trực quan hóa việc phân phối dữ liệu
Trong bài đăng này, bạn sẽ tìm hiểu cách tạo biểu đồ bằng Python, bao gồm Matplotlib và Pandas
Mục lục
Video hướng dẫn
Biểu đồ là gì?
Biểu đồ là biểu đồ sử dụng các thanh biểu thị tần số giúp trực quan hóa việc phân phối dữ liệu
Các thanh có thể đại diện cho các giá trị duy nhất hoặc các nhóm số nằm trong phạm vi. Thanh càng cao, càng nhiều dữ liệu rơi vào phạm vi đó
Hình dạng của biểu đồ hiển thị sự trải rộng của một mẫu dữ liệu liên tục
Nếu bạn muốn tìm hiểu cách tạo thùng chứa dữ liệu của riêng mình, bạn có thể xem hướng dẫn của tôi về cách tạo thùng dữ liệu với Pandas
Biểu đồ có thể biến một bảng tần số của dữ liệu được đánh dấu thành một hình ảnh hữu ích
Đang tải tập dữ liệu của chúng tôi
Hãy bắt đầu bằng cách tải các thư viện cần thiết và tập dữ liệu của chúng tôi. Sau đó, chúng ta có thể tạo biểu đồ bằng Python trên cột tuổi để trực quan hóa phân phối của biến đó
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_excel['//github.com/datagy/Intro-to-Python/raw/master/sportsdata.xls', usecols=['Age']]
print[df.describe[]]
# Returns:
# Age
# count 5000.000000
# mean 25.012200
# std 5.013849
# min 4.000000
# 25% 22.000000
# 50% 25.000000
# 75% 28.000000
# max 43.000000
Chúng ta có thể thấy từ dữ liệu trên rằng dữ liệu lên tới 43. Có thể hợp lý khi chia dữ liệu theo gia số 5 năm
Tạo biểu đồ trong Python bằng Matplotlib
Để tạo biểu đồ trong Python bằng Matplotlib, bạn có thể sử dụng hàm hist[]
Hàm lịch sử này nhận một số đối số, đối số chính là đối số thùng, chỉ định số lượng thùng có chiều rộng bằng nhau trong phạm vi
Mẹo. Nếu bạn đang làm việc trong môi trường Jupyter, hãy đảm bảo bao gồm ma thuật Jupyter nội tuyến %matplotlib để hiển thị biểu đồ nội tuyến
Cách dễ nhất để tạo biểu đồ bằng Matplotlib, đơn giản là gọi hàm hist
plt.hist[df['Age']]
Điều này trả về biểu đồ với tất cả các tham số mặc định
Xác định kích thước thùng biểu đồ Matplotlib
Bạn có thể xác định các thùng bằng cách sử dụng đối số bins=. Điều này chấp nhận một số [đối với số lượng thùng] hoặc danh sách [đối với các thùng cụ thể]
Nếu bạn muốn để biểu đồ của mình có 9 thùng, bạn có thể viết
plt.hist[df['Age'], bins=9]
Điều này tạo ra hình ảnh sau đây
Xác định thùng biểu đồ Matplotlib
Nếu bạn muốn cụ thể hơn về kích thước của các thùng mà bạn có, bạn có thể xác định chúng hoàn toàn. Ví dụ: nếu bạn muốn thùng rác của mình giảm theo gia số năm năm, bạn có thể viết
plt.hist[df['Age'], bins=[0,5,10,15,20,25,35,40,45,50]]
Điều này cho phép bạn rõ ràng về nơi dữ liệu sẽ rơi. Mã này trả về như sau
Giới hạn thùng biểu đồ Matplotlib
Bạn cũng có thể sử dụng các thùng để loại trừ dữ liệu. Nếu bạn chỉ quan tâm đến độ tuổi trả lại trên một độ tuổi nhất định, bạn chỉ cần loại trừ những độ tuổi đó khỏi danh sách của mình
Ví dụ: nếu bạn muốn loại trừ độ tuổi dưới 20, bạn có thể viết
plt.hist[df['Age'], bins=[20,25,35,40,45,50]]
Biểu đồ Matplotlib Thang logarit
Nếu dữ liệu của bạn có một số thùng chứa nhiều dữ liệu hơn đáng kể so với các thùng khác, thì có thể hữu ích khi trực quan hóa dữ liệu bằng thang logarit. Điều này có thể được thực hiện bằng cách sử dụng đối số log=True
plt.hist[df['Age'], bins=range[0,55,5], log=True]
Điều này trả về hình ảnh sau đây
Thay đổi giao diện biểu đồ Matplotlib
Để thay đổi giao diện của biểu đồ, có ba đối số quan trọng cần biết
- căn chỉnh. chấp nhận giữa, phải, trái để chỉ định vị trí các thanh sẽ căn chỉnh liên quan đến điểm đánh dấu của chúng
- màu. chấp nhận màu Matplotlib, mặc định là màu xanh và
- màu cạnh. chấp nhận màu Matplotlib và phác thảo các thanh
Để thay đổi căn chỉnh và màu sắc của biểu đồ, chúng ta có thể viết
plt.hist[df['Age'], bins=9, align='right', color='purple', edgecolor='black']
Điều này tạo ra biểu đồ sau
Để tìm hiểu thêm về hàm lịch sử Matplotlib, hãy xem tài liệu chính thức
Tạo biểu đồ bằng Python với Pandas
Khi làm việc với khung dữ liệu Pandas, thật dễ dàng để tạo biểu đồ. Pandas tích hợp rất nhiều chức năng Matplotlib Pyplot để giúp vẽ đồ thị dễ dàng hơn nhiều
Biểu đồ gấu trúc có thể được áp dụng trực tiếp cho khung dữ liệu, sử dụng. hàm lịch sử []
df.hist[]
Điều này tạo ra biểu đồ bên dưới
Chúng tôi có thể tùy chỉnh thêm bằng cách sử dụng các đối số chính bao gồm
- cột. vì khung dữ liệu của chúng tôi chỉ có một cột nên điều này là không cần thiết
- lưới. mặc định là True
- thùng. mặc định là 10
Xem một số hướng dẫn Python khác về datagy, bao gồm hướng dẫn đầy đủ của chúng tôi về cách tạo kiểu cho Pandas và tổng quan toàn diện của chúng tôi về Pivot Tables trong Pandas
Hãy thay đổi mã của chúng tôi để chỉ bao gồm 9 thùng và loại bỏ lưới
________số 8_______Điều này trả về khung dữ liệu bên dưới
Bạn cũng có thể thêm tiêu đề và nhãn trục bằng cách sử dụng cách sau
df.hist[grid=False, bins=9]
plt.xlabel['Age of Players']
plt.ylabel['# of Players']
plt.title['Age Distribution']
Cái nào trả về sau
Tương tự, nếu bạn muốn xác định ranh giới cạnh thực tế, bạn có thể thực hiện việc này bằng cách đưa vào danh sách các giá trị mà bạn muốn ranh giới của mình là
Điều này có thể được tăng tốc bằng cách sử dụng hàm range[]
plt.hist[df['Age']]
0Điều này trả về như sau
Nếu bạn muốn tìm hiểu thêm về chức năng, hãy xem tài liệu chính thức
Phần kết luận
Trong bài đăng này, bạn đã tìm hiểu biểu đồ tần suất là gì và cách tạo biểu đồ bằng Python, bao gồm sử dụng Matplotlib, Pandas và Seaborn. Mỗi thư viện này đều có những ưu điểm và nhược điểm riêng. Nếu bạn đang tìm kiếm một tùy chọn thân thiện với số liệu thống kê hơn, Seaborn là lựa chọn phù hợp