Hướng dẫn data analysis visualization with python - trực quan hóa phân tích dữ liệu với python

Trong khi làm việc với dữ liệu, có thể khó hiểu dữ liệu của bạn khi nó chỉ ở dạng bảng. Để hiểu chính xác dữ liệu của chúng tôi truyền tải, và để làm sạch tốt hơn và chọn các mô hình phù hợp cho nó, chúng tôi cần hình dung nó hoặc đại diện cho nó ở dạng hình ảnh. Điều này giúp phơi bày các mẫu, tương quan và xu hướng không thể thu được khi dữ liệu nằm trong tệp bảng hoặc tệp CSV.

Quá trình tìm kiếm xu hướng và mối tương quan trong dữ liệu của chúng tôi bằng cách thể hiện nó được gọi là trực quan hóa dữ liệu. Để thực hiện trực quan hóa dữ liệu trong Python, chúng ta có thể sử dụng các mô -đun trực quan hóa dữ liệu Python khác nhau như Matplotlib, Seaborn, Plotly, v.v. Trong bài viết này, hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng ta sẽ thảo luận & NBSP; Cách làm việc với một số mô -đun này để trực quan hóa dữ liệu trong Python và bao gồm các chủ đề sau đây một cách chi tiết.

  • Trực quan hóa dữ liệu là gì?
  • Trực quan hóa dữ liệu trong Python
  • Matplotlib và Seaborn
  • Biểu đồ dòng
  • Đồ thị thanh
  • Biểu đồ
  • Điểm phân tán
  • Bản đồ nhiệt

Trực quan hóa dữ liệu là gì?

Trực quan hóa dữ liệu trong Python

Matplotlib và Seaborn

Trực quan hóa dữ liệu trong Python

Matplotlib và Seaborn

Biểu đồ dòng

Matplotlib và Seaborn

Biểu đồ dòng

Đồ thị thanh

Biểu đồ

Điểm phân tán

Bản đồ nhiệt

Trực quan hóa dữ liệu là một lĩnh vực trong phân tích dữ liệu liên quan đến biểu diễn trực quan của dữ liệu. Nó vẽ đồ họa dữ liệu và là một cách hiệu quả để truyền đạt các suy luận từ dữ liệu.

Sử dụng trực quan hóa dữ liệu, chúng tôi có thể nhận được một bản tóm tắt trực quan về dữ liệu của chúng tôi. Với hình ảnh, bản đồ và đồ thị, tâm trí con người có thời gian xử lý và hiểu bất kỳ dữ liệu nào dễ dàng hơn. Trực quan hóa dữ liệu đóng một vai trò quan trọng trong việc thể hiện cả bộ dữ liệu nhỏ và lớn, nhưng nó đặc biệt hữu ích khi chúng tôi có các bộ dữ liệu lớn, trong đó không thể thấy tất cả dữ liệu của chúng tôi, chứ đừng nói đến việc xử lý và hiểu thủ công.

Python cung cấp một số thư viện âm mưu, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu khác với các tính năng khác nhau để tạo các ô thông tin, tùy chỉnh và hấp dẫn để trình bày dữ liệu theo cách đơn giản và hiệu quả nhất.

Hình 1: Trực quan hóa dữ liệu

Matplotlib và Seaborn là các thư viện Python được sử dụng để trực quan hóa dữ liệu. Họ có các mô -đun sẵn có để vẽ đồ thị khác nhau. Trong khi matplotlib được sử dụng để nhúng đồ thị vào các ứng dụng, Seaborn chủ yếu được sử dụng cho các biểu đồ thống kê.

Nhưng khi nào chúng ta nên sử dụng một trong hai? Hãy để hiểu điều này với sự trợ giúp của một phân tích so sánh. Bảng dưới đây cung cấp so sánh giữa hai gói trực quan nổi tiếng của Python, Matplotlib và Seaborn.

Matplotlib

SeaBall

Biểu đồ dòng

Đồ thị thanh

Biểu đồ

Điểm phân tán

Bản đồ nhiệt

Trực quan hóa dữ liệu là một lĩnh vực trong phân tích dữ liệu liên quan đến biểu diễn trực quan của dữ liệu. Nó vẽ đồ họa dữ liệu và là một cách hiệu quả để truyền đạt các suy luận từ dữ liệu.

Sử dụng trực quan hóa dữ liệu, chúng tôi có thể nhận được một bản tóm tắt trực quan về dữ liệu của chúng tôi. Với hình ảnh, bản đồ và đồ thị, tâm trí con người có thời gian xử lý và hiểu bất kỳ dữ liệu nào dễ dàng hơn. Trực quan hóa dữ liệu đóng một vai trò quan trọng trong việc thể hiện cả bộ dữ liệu nhỏ và lớn, nhưng nó đặc biệt hữu ích khi chúng tôi có các bộ dữ liệu lớn, trong đó không thể thấy tất cả dữ liệu của chúng tôi, chứ đừng nói đến việc xử lý và hiểu thủ công.

Python cung cấp một số thư viện âm mưu, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu khác với các tính năng khác nhau để tạo các ô thông tin, tùy chỉnh và hấp dẫn để trình bày dữ liệu theo cách đơn giản và hiệu quả nhất.

Hình 1: Trực quan hóa dữ liệu

Matplotlib và Seaborn là các thư viện Python được sử dụng để trực quan hóa dữ liệu. Họ có các mô -đun sẵn có để vẽ đồ thị khác nhau. Trong khi matplotlib được sử dụng để nhúng đồ thị vào các ứng dụng, Seaborn chủ yếu được sử dụng cho các biểu đồ thống kê.

  

Nhưng khi nào chúng ta nên sử dụng một trong hai? Hãy để hiểu điều này với sự trợ giúp của một phân tích so sánh. Bảng dưới đây cung cấp so sánh giữa hai gói trực quan nổi tiếng của Python, Matplotlib và Seaborn.

Matplotlib

SeaBall

Nó được sử dụng để vẽ đồ thị cơ bản như biểu đồ dòng, & nbsp; Biểu đồ thanh, v.v.

Nó chủ yếu được sử dụng để trực quan hóa thống kê và có thể thực hiện trực quan hóa phức tạp với ít lệnh hơn.

Nó chủ yếu hoạt động với bộ dữ liệu và mảng.

Nó hoạt động với toàn bộ bộ dữ liệu.

Seaborn có tổ chức và chức năng hơn đáng kể so với matplotlib và coi toàn bộ bộ dữ liệu là một đơn vị đơn độc.

Bạn có thể sử dụng chức năng PLT.Figure để thay đổi kích thước của hình.

Hình 9: Thay đổi kích thước đồ thị

Sử dụng SeaBorn

Một cách dễ dàng để làm cho biểu đồ của bạn trông đẹp là sử dụng một số kiểu mặc định từ Thư viện Seaborn. Chúng có thể được áp dụng trên toàn cầu bằng cách sử dụng hàm SNS.Set_Style.

Hình 10: Sử dụng Seaborn

Chúng ta cũng có thể sử dụng tùy chọn Darkgrid để thay đổi màu nền thành màu tối hơn.

Hình 11: Sử dụng Darkgrid trong Seaborn

Đồ thị thanh

Khi bạn có dữ liệu phân loại, bạn có thể đại diện cho nó bằng biểu đồ thanh. Một biểu đồ thanh vẽ dữ liệu với sự trợ giúp của các thanh, đại diện cho giá trị trên trục y và danh mục trên trục x. Biểu đồ thanh sử dụng các thanh có độ cao khác nhau để hiển thị dữ liệu thuộc về một danh mục cụ thể.

Hình 12: Biểu đồ đồ thị thanh âm mưu

Chúng ta cũng có thể xếp các thanh lên trên nhau. Hãy vẽ dữ liệu cho táo và cam.

Hình 13: Biểu đồ đồ thị thanh xếp chồng lên nhau

Hãy để sử dụng bộ dữ liệu TIPS trong Seaborn tiếp theo. Bộ dữ liệu bao gồm:

  • Thông tin về tình dục [giới tính]
  • Thời gian trong ngày
  • Hóa đơn tổng cộng
  • Mẹo được đưa ra bởi khách hàng đến thăm nhà hàng trong một tuần

Hình 14: Bộ dữ liệu IRIS

Chúng ta có thể vẽ một biểu đồ thanh để hình dung số lượng hóa đơn trung bình thay đổi như thế nào trong các ngày khác nhau trong tuần. Chúng ta có thể làm điều này bằng cách tính toán trung bình ngày và sau đó sử dụng plt.bar. Thư viện Seaborn cũng cung cấp chức năng Barplot có thể tự động tính toán trung bình.

Hình 15: Trung bình âm mưu của mỗi thanh

Nếu bạn muốn so sánh các ô bên cạnh nhau, bạn có thể sử dụng đối số HUE. Việc so sánh sẽ được thực hiện dựa trên tính năng thứ ba được chỉ định trong đối số này.

Hình 16: Vẽ đồ thị nhiều thanh

Bạn có thể làm cho các thanh ngang bằng cách chuyển các trục.

Hình 17: Vẽ đồ thị thanh ngang

Biểu đồ

Biểu đồ là một biểu diễn thanh của dữ liệu & nbsp; Điều đó thay đổi trong một phạm vi. Nó biểu thị chiều cao của dữ liệu thuộc một phạm vi dọc theo trục y và phạm vi dọc theo trục x. Biểu đồ được sử dụng để vẽ dữ liệu trên một loạt các giá trị. Họ sử dụng một biểu diễn thanh để hiển thị dữ liệu thuộc mỗi phạm vi. Một lần nữa, hãy sử dụng dữ liệu ‘Iris, có chứa thông tin về hoa để vẽ biểu đồ.

Hình 18: Cơ sở dữ liệu mống mắt

Bây giờ, hãy để âm mưu biểu đồ bằng cách sử dụng hàm hist [].

Hình 19: Biểu đồ biểu đồ

Chúng ta cũng có thể kiểm soát số lượng hoặc kích thước của thùng.

Hình 20: Thay đổi số thùng

Chúng ta cũng có thể thay đổi số lượng và kích thước của thùng bằng cách sử dụng Numpy.

Hình 21: Thay đổi số lượng và kích thước của thùng

Chúng ta cũng có thể tạo ra các thùng có kích thước không đồng đều.

Hình 22: Các thùng có kích thước không đồng đều

Tương tự như biểu đồ dòng, chúng ta có thể vẽ nhiều biểu đồ trong một biểu đồ duy nhất. Chúng ta có thể giảm độ mờ của từng biểu đồ để các thanh của một biểu đồ không che giấu các thanh khác '. Hãy vẽ biểu đồ riêng cho từng loài hoa.

Hình 23: Nhiều biểu đồ

Nhiều biểu đồ có thể được xếp chồng lên nhau bằng cách đặt tham số xếp chồng lên đúng.

Hình 24: Biểu đồ xếp chồng

Điểm phân tán

Các sơ đồ phân tán được sử dụng khi chúng ta phải vẽ hai hoặc nhiều biến có mặt ở các tọa độ khác nhau. Dữ liệu được phân tán trên tất cả các biểu đồ và không bị giới hạn trong một phạm vi. Hai hoặc nhiều biến được vẽ trong một biểu đồ phân tán, với mỗi biến được biểu thị bằng một màu khác nhau. Chúng ta hãy sử dụng bộ dữ liệu ‘Iris, để vẽ một biểu đồ phân tán.

Hình 25: Bộ dữ liệu IRIS

Đầu tiên, hãy để chúng tôi thấy có bao nhiêu loài hoa khác nhau chúng ta có.

Hình 26: Các loài hoa độc đáo

Hãy cùng thử vẽ sơ đồ dữ liệu với sự trợ giúp của biểu đồ dòng.

Hình 27: Biểu đồ đường nét vẽ biểu đồ

Điều này không phải là nhiều thông tin. Chúng ta không thể tìm ra mối quan hệ giữa các điểm dữ liệu khác nhau.

Hình 28: Biểu đồ phân tán

Điều này tốt hơn nhiều. Nhưng chúng tôi vẫn không thể phân biệt các điểm dữ liệu khác nhau thuộc các loại khác nhau. Chúng ta có thể tô màu các chấm bằng cách sử dụng các loài hoa như một màu sắc.

Hình 29: Biểu đồ phân tán với nhiều màu

Vì Seaborn sử dụng các hàm âm mưu của Matplotlib trong nội bộ, chúng ta có thể sử dụng các chức năng như PLT.Figure và plt.title để sửa đổi hình.

Hình 30: Thay đổi kích thước của biểu đồ phân tán & nbsp;

Bản đồ nhiệt

Các bản đồ nhiệt được sử dụng để thấy những thay đổi trong hành vi hoặc thay đổi dần dần trong dữ liệu. Nó sử dụng các màu khác nhau để thể hiện các giá trị khác nhau. Dựa trên cách các màu này phạm vi trong màu sắc, cường độ, v.v., cho chúng ta biết hiện tượng khác nhau như thế nào. Chúng ta hãy sử dụng các bản đồ nhiệt để trực quan hóa chân hành khách hàng tháng tại sân bay hơn 12 năm kể từ bộ dữ liệu chuyến bay ở Seaborn.

Hình 31: Bộ dữ liệu chuyến bay & NBSP;

Bộ dữ liệu trên, FLIGHTS_DF cho chúng ta thấy bước chân hàng tháng trong một sân bay mỗi năm, từ năm 1949 đến 1960. Các giá trị đại diện cho số lượng hành khách [trong hàng ngàn] đi qua sân bay. Hãy để sử dụng một bản đồ nhiệt để trực quan hóa dữ liệu trên.

 

Hình 32: Vẽ bản đồ nhiệt

Màu sắc càng sáng, chân càng cao tại sân bay. Bằng cách nhìn vào biểu đồ, chúng ta có thể suy ra rằng: & nbsp;

  1. Bước chân hàng năm cho bất kỳ năm nào là cao nhất vào khoảng tháng 7 và tháng 8.
  2. Những bước chân tăng lên hàng năm. Bất kỳ tháng nào trong một năm sẽ có một bước chân cao hơn khi so sánh với những năm trước.

Hãy hiển thị các giá trị thực tế trong bản đồ nhiệt của chúng tôi và thay đổi màu sắc thành màu xanh. & Nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;

Hình 33: Vẽ bản đồ nhiệt với các giá trị

Học tập sâu sắc, học máy và các ngôn ngữ lập trình khác với & NBSP; Chương trình Thạc sĩ Kỹ sư Trí tuệ Nhân tạo

Sự kết luận

Trong bài viết này, hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng tôi đã đưa ra một cái nhìn tổng quan về & nbsp; Trực quan hóa dữ liệu trong Python và thảo luận về cách tạo biểu đồ dòng, biểu đồ thanh, biểu đồ, biểu đồ phân tán và bản đồ nhiệt bằng cách sử dụng các gói trực quan dữ liệu khác nhau được cung cấp bởi Python như Matplotlib và Seaborn. & NBSP;

Nếu bạn cần làm rõ thêm hoặc muốn tìm hiểu thêm về trực quan hóa dữ liệu trong Python và muốn hiểu cách thực hiện trực quan hóa dữ liệu, hãy chia sẻ các truy vấn của bạn với chúng tôi bằng cách đề cập đến chúng trong phần nhận xét của trang này. Chúng tôi sẽ có các chuyên gia của chúng tôi xem xét chúng sớm nhất!

Python cung cấp nhiều gói trực quan khác có thể được sử dụng để tạo các loại hình ảnh trực quan khác nhau và không chỉ các biểu đồ và sơ đồ. Do đó, điều quan trọng là cũng quan trọng để hiểu những thách thức và lợi thế của các thư viện khác nhau và cách sử dụng chúng với toàn bộ tiềm năng của chúng. Kiểm tra khóa học Trí tuệ nhân tạo của SimplileArn để làm chủ các khái niệm chính bao gồm khoa học dữ liệu với Python, học máy, học sâu, NLP và nhiều hơn nữa. Mục tiêu của khóa học này là làm cho bạn sẵn sàng công việc và đảm bảo thành công trong sự nghiệp của bạn.

Python có thể được sử dụng để trực quan hóa dữ liệu không?

Python cung cấp các thư viện khác nhau đi kèm với các tính năng khác nhau để trực quan hóa dữ liệu.Tất cả các thư viện này đi kèm với các tính năng khác nhau và có thể hỗ trợ các loại đồ thị khác nhau.. All these libraries come with different features and can support various types of graphs.

Làm thế nào để bạn phân tích và trực quan hóa dữ liệu trong Python?

Để thực hiện trực quan hóa dữ liệu trong Python, chúng ta có thể sử dụng các mô -đun trực quan hóa dữ liệu Python khác nhau như Matplotlib, Seaborn, Plotly, ETC.use various python data visualization modules such as Matplotlib, Seaborn, Plotly, etc.

Công cụ trực quan hóa dữ liệu nào là tốt nhất cho Python?

10 thư viện trực quan hóa dữ liệu Python..
Matplotlib.Với hơn 461k người dùng trên GitHub, Matplotlib là gói python phổ biến và được sử dụng rộng rãi nhất được sử dụng bởi các nhà khoa học dữ liệu để tạo trực quan hóa dữ liệu nâng cao.....
SeaBall.....
GGPLOT.....
Âm mưu.....
Geoplotlib.....
Bokeh.....
Folium.....
Altair..

Python có tốt cho nhà phân tích dữ liệu không?

Python là một ngôn ngữ lập trình đa năng phổ biến được sử dụng rộng rãi cho tính linh hoạt của nó, cũng như bộ sưu tập các thư viện rộng rãi của nó, có giá trị cho các phân tích và tính toán phức tạp.valuable for analytics and complex calculations.

Bài Viết Liên Quan

Chủ Đề