Trong khi làm việc với dữ liệu, có thể khó hiểu dữ liệu của bạn khi nó chỉ ở dạng bảng. Để hiểu chính xác dữ liệu của chúng tôi truyền tải, và để làm sạch tốt hơn và chọn các mô hình phù hợp cho nó, chúng tôi cần hình dung nó hoặc đại diện cho nó ở dạng hình ảnh. Điều này giúp phơi bày các mẫu, tương quan và xu hướng không thể thu được khi dữ liệu nằm trong tệp bảng hoặc tệp CSV. Quá trình tìm kiếm xu hướng và mối tương quan trong dữ liệu của chúng tôi bằng cách thể hiện nó được gọi là trực quan hóa dữ liệu. Để thực hiện trực quan hóa dữ liệu trong Python, chúng ta có thể sử dụng các mô -đun trực quan hóa dữ liệu Python khác nhau như Matplotlib, Seaborn, Plotly, v.v. Trong bài viết này, hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng ta sẽ thảo luận & NBSP; Cách làm việc với một số mô -đun này để trực quan hóa dữ liệu trong Python và bao gồm các chủ đề sau đây một cách chi tiết. Trực quan hóa dữ liệu trong Python Matplotlib và Seaborn Matplotlib và SeabornTrực quan hóa dữ liệu là gì?
Trực quan hóa dữ liệu trong Python
Biểu đồ dòng
Matplotlib và Seaborn
Biểu đồ dòng
Đồ thị thanh
Biểu đồ | Điểm phân tán |
Bản đồ nhiệt | Trực quan hóa dữ liệu là một lĩnh vực trong phân tích dữ liệu liên quan đến biểu diễn trực quan của dữ liệu. Nó vẽ đồ họa dữ liệu và là một cách hiệu quả để truyền đạt các suy luận từ dữ liệu. |
Sử dụng trực quan hóa dữ liệu, chúng tôi có thể nhận được một bản tóm tắt trực quan về dữ liệu của chúng tôi. Với hình ảnh, bản đồ và đồ thị, tâm trí con người có thời gian xử lý và hiểu bất kỳ dữ liệu nào dễ dàng hơn. Trực quan hóa dữ liệu đóng một vai trò quan trọng trong việc thể hiện cả bộ dữ liệu nhỏ và lớn, nhưng nó đặc biệt hữu ích khi chúng tôi có các bộ dữ liệu lớn, trong đó không thể thấy tất cả dữ liệu của chúng tôi, chứ đừng nói đến việc xử lý và hiểu thủ công. | Python cung cấp một số thư viện âm mưu, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu khác với các tính năng khác nhau để tạo các ô thông tin, tùy chỉnh và hấp dẫn để trình bày dữ liệu theo cách đơn giản và hiệu quả nhất. |
Hình 1: Trực quan hóa dữ liệu | Matplotlib và Seaborn là các thư viện Python được sử dụng để trực quan hóa dữ liệu. Họ có các mô -đun sẵn có để vẽ đồ thị khác nhau. Trong khi matplotlib được sử dụng để nhúng đồ thị vào các ứng dụng, Seaborn chủ yếu được sử dụng cho các biểu đồ thống kê. |
Nhưng khi nào chúng ta nên sử dụng một trong hai? Hãy để hiểu điều này với sự trợ giúp của một phân tích so sánh. Bảng dưới đây cung cấp so sánh giữa hai gói trực quan nổi tiếng của Python, Matplotlib và Seaborn. | Matplotlib |
SeaBall
Biểu đồ dòng
Đồ thị thanh
Biểu đồ
Điểm phân tán
Bản đồ nhiệt
Trực quan hóa dữ liệu là một lĩnh vực trong phân tích dữ liệu liên quan đến biểu diễn trực quan của dữ liệu. Nó vẽ đồ họa dữ liệu và là một cách hiệu quả để truyền đạt các suy luận từ dữ liệu.
Sử dụng trực quan hóa dữ liệu, chúng tôi có thể nhận được một bản tóm tắt trực quan về dữ liệu của chúng tôi. Với hình ảnh, bản đồ và đồ thị, tâm trí con người có thời gian xử lý và hiểu bất kỳ dữ liệu nào dễ dàng hơn. Trực quan hóa dữ liệu đóng một vai trò quan trọng trong việc thể hiện cả bộ dữ liệu nhỏ và lớn, nhưng nó đặc biệt hữu ích khi chúng tôi có các bộ dữ liệu lớn, trong đó không thể thấy tất cả dữ liệu của chúng tôi, chứ đừng nói đến việc xử lý và hiểu thủ công.
Python cung cấp một số thư viện âm mưu, cụ thể là Matplotlib, Seaborn và nhiều gói trực quan hóa dữ liệu khác với các tính năng khác nhau để tạo các ô thông tin, tùy chỉnh và hấp dẫn để trình bày dữ liệu theo cách đơn giản và hiệu quả nhất.
Hình 1: Trực quan hóa dữ liệu
Matplotlib và Seaborn là các thư viện Python được sử dụng để trực quan hóa dữ liệu. Họ có các mô -đun sẵn có để vẽ đồ thị khác nhau. Trong khi matplotlib được sử dụng để nhúng đồ thị vào các ứng dụng, Seaborn chủ yếu được sử dụng cho các biểu đồ thống kê.
Nhưng khi nào chúng ta nên sử dụng một trong hai? Hãy để hiểu điều này với sự trợ giúp của một phân tích so sánh. Bảng dưới đây cung cấp so sánh giữa hai gói trực quan nổi tiếng của Python, Matplotlib và Seaborn.
Matplotlib
SeaBall
Nó được sử dụng để vẽ đồ thị cơ bản như biểu đồ dòng, & nbsp; Biểu đồ thanh, v.v.
Nó chủ yếu hoạt động với bộ dữ liệu và mảng.
Nó hoạt động với toàn bộ bộ dữ liệu.
Seaborn có tổ chức và chức năng hơn đáng kể so với matplotlib và coi toàn bộ bộ dữ liệu là một đơn vị đơn độc.
Bạn có thể sử dụng chức năng PLT.Figure để thay đổi kích thước của hình.
Hình 9: Thay đổi kích thước đồ thị
Sử dụng SeaBorn
Một cách dễ dàng để làm cho biểu đồ của bạn trông đẹp là sử dụng một số kiểu mặc định từ Thư viện Seaborn. Chúng có thể được áp dụng trên toàn cầu bằng cách sử dụng hàm SNS.Set_Style.
Hình 10: Sử dụng Seaborn
Chúng ta cũng có thể sử dụng tùy chọn Darkgrid để thay đổi màu nền thành màu tối hơn.
Hình 11: Sử dụng Darkgrid trong Seaborn
Đồ thị thanh
Khi bạn có dữ liệu phân loại, bạn có thể đại diện cho nó bằng biểu đồ thanh. Một biểu đồ thanh vẽ dữ liệu với sự trợ giúp của các thanh, đại diện cho giá trị trên trục y và danh mục trên trục x. Biểu đồ thanh sử dụng các thanh có độ cao khác nhau để hiển thị dữ liệu thuộc về một danh mục cụ thể.
Hình 12: Biểu đồ đồ thị thanh âm mưu
Chúng ta cũng có thể xếp các thanh lên trên nhau. Hãy vẽ dữ liệu cho táo và cam.
Hình 13: Biểu đồ đồ thị thanh xếp chồng lên nhau
Hãy để sử dụng bộ dữ liệu TIPS trong Seaborn tiếp theo. Bộ dữ liệu bao gồm:
- Thông tin về tình dục [giới tính]
- Thời gian trong ngày
- Hóa đơn tổng cộng
- Mẹo được đưa ra bởi khách hàng đến thăm nhà hàng trong một tuần
Hình 14: Bộ dữ liệu IRIS
Chúng ta có thể vẽ một biểu đồ thanh để hình dung số lượng hóa đơn trung bình thay đổi như thế nào trong các ngày khác nhau trong tuần. Chúng ta có thể làm điều này bằng cách tính toán trung bình ngày và sau đó sử dụng plt.bar. Thư viện Seaborn cũng cung cấp chức năng Barplot có thể tự động tính toán trung bình.
Hình 15: Trung bình âm mưu của mỗi thanh
Nếu bạn muốn so sánh các ô bên cạnh nhau, bạn có thể sử dụng đối số HUE. Việc so sánh sẽ được thực hiện dựa trên tính năng thứ ba được chỉ định trong đối số này.
Hình 16: Vẽ đồ thị nhiều thanh
Bạn có thể làm cho các thanh ngang bằng cách chuyển các trục.
Hình 17: Vẽ đồ thị thanh ngang
Biểu đồ
Biểu đồ là một biểu diễn thanh của dữ liệu & nbsp; Điều đó thay đổi trong một phạm vi. Nó biểu thị chiều cao của dữ liệu thuộc một phạm vi dọc theo trục y và phạm vi dọc theo trục x. Biểu đồ được sử dụng để vẽ dữ liệu trên một loạt các giá trị. Họ sử dụng một biểu diễn thanh để hiển thị dữ liệu thuộc mỗi phạm vi. Một lần nữa, hãy sử dụng dữ liệu ‘Iris, có chứa thông tin về hoa để vẽ biểu đồ.
Hình 18: Cơ sở dữ liệu mống mắt
Bây giờ, hãy để âm mưu biểu đồ bằng cách sử dụng hàm hist [].
Hình 19: Biểu đồ biểu đồ
Chúng ta cũng có thể kiểm soát số lượng hoặc kích thước của thùng.
Hình 20: Thay đổi số thùng
Chúng ta cũng có thể thay đổi số lượng và kích thước của thùng bằng cách sử dụng Numpy.
Hình 21: Thay đổi số lượng và kích thước của thùng
Chúng ta cũng có thể tạo ra các thùng có kích thước không đồng đều.
Hình 22: Các thùng có kích thước không đồng đều
Tương tự như biểu đồ dòng, chúng ta có thể vẽ nhiều biểu đồ trong một biểu đồ duy nhất. Chúng ta có thể giảm độ mờ của từng biểu đồ để các thanh của một biểu đồ không che giấu các thanh khác '. Hãy vẽ biểu đồ riêng cho từng loài hoa.
Hình 23: Nhiều biểu đồ
Nhiều biểu đồ có thể được xếp chồng lên nhau bằng cách đặt tham số xếp chồng lên đúng.
Hình 24: Biểu đồ xếp chồng
Điểm phân tán
Các sơ đồ phân tán được sử dụng khi chúng ta phải vẽ hai hoặc nhiều biến có mặt ở các tọa độ khác nhau. Dữ liệu được phân tán trên tất cả các biểu đồ và không bị giới hạn trong một phạm vi. Hai hoặc nhiều biến được vẽ trong một biểu đồ phân tán, với mỗi biến được biểu thị bằng một màu khác nhau. Chúng ta hãy sử dụng bộ dữ liệu ‘Iris, để vẽ một biểu đồ phân tán.
Hình 25: Bộ dữ liệu IRIS
Đầu tiên, hãy để chúng tôi thấy có bao nhiêu loài hoa khác nhau chúng ta có.
Hình 26: Các loài hoa độc đáo
Hãy cùng thử vẽ sơ đồ dữ liệu với sự trợ giúp của biểu đồ dòng.
Hình 27: Biểu đồ đường nét vẽ biểu đồ
Điều này không phải là nhiều thông tin. Chúng ta không thể tìm ra mối quan hệ giữa các điểm dữ liệu khác nhau.
Hình 28: Biểu đồ phân tán
Điều này tốt hơn nhiều. Nhưng chúng tôi vẫn không thể phân biệt các điểm dữ liệu khác nhau thuộc các loại khác nhau. Chúng ta có thể tô màu các chấm bằng cách sử dụng các loài hoa như một màu sắc.
Hình 29: Biểu đồ phân tán với nhiều màu
Vì Seaborn sử dụng các hàm âm mưu của Matplotlib trong nội bộ, chúng ta có thể sử dụng các chức năng như PLT.Figure và plt.title để sửa đổi hình.
Hình 30: Thay đổi kích thước của biểu đồ phân tán & nbsp;
Bản đồ nhiệt
Các bản đồ nhiệt được sử dụng để thấy những thay đổi trong hành vi hoặc thay đổi dần dần trong dữ liệu. Nó sử dụng các màu khác nhau để thể hiện các giá trị khác nhau. Dựa trên cách các màu này phạm vi trong màu sắc, cường độ, v.v., cho chúng ta biết hiện tượng khác nhau như thế nào. Chúng ta hãy sử dụng các bản đồ nhiệt để trực quan hóa chân hành khách hàng tháng tại sân bay hơn 12 năm kể từ bộ dữ liệu chuyến bay ở Seaborn.
Hình 31: Bộ dữ liệu chuyến bay & NBSP;
Bộ dữ liệu trên, FLIGHTS_DF cho chúng ta thấy bước chân hàng tháng trong một sân bay mỗi năm, từ năm 1949 đến 1960. Các giá trị đại diện cho số lượng hành khách [trong hàng ngàn] đi qua sân bay. Hãy để sử dụng một bản đồ nhiệt để trực quan hóa dữ liệu trên.
Hình 32: Vẽ bản đồ nhiệt
Màu sắc càng sáng, chân càng cao tại sân bay. Bằng cách nhìn vào biểu đồ, chúng ta có thể suy ra rằng: & nbsp;
- Bước chân hàng năm cho bất kỳ năm nào là cao nhất vào khoảng tháng 7 và tháng 8.
- Những bước chân tăng lên hàng năm. Bất kỳ tháng nào trong một năm sẽ có một bước chân cao hơn khi so sánh với những năm trước.
Hãy hiển thị các giá trị thực tế trong bản đồ nhiệt của chúng tôi và thay đổi màu sắc thành màu xanh. & Nbsp; & nbsp; & nbsp; & nbsp; & nbsp; & nbsp;
Hình 33: Vẽ bản đồ nhiệt với các giá trị
Học tập sâu sắc, học máy và các ngôn ngữ lập trình khác với & NBSP; Chương trình Thạc sĩ Kỹ sư Trí tuệ Nhân tạo
Sự kết luận
Trong bài viết này, hướng dẫn đầy đủ về trực quan hóa dữ liệu trong Python, chúng tôi đã đưa ra một cái nhìn tổng quan về & nbsp; Trực quan hóa dữ liệu trong Python và thảo luận về cách tạo biểu đồ dòng, biểu đồ thanh, biểu đồ, biểu đồ phân tán và bản đồ nhiệt bằng cách sử dụng các gói trực quan dữ liệu khác nhau được cung cấp bởi Python như Matplotlib và Seaborn. & NBSP;
Nếu bạn cần làm rõ thêm hoặc muốn tìm hiểu thêm về trực quan hóa dữ liệu trong Python và muốn hiểu cách thực hiện trực quan hóa dữ liệu, hãy chia sẻ các truy vấn của bạn với chúng tôi bằng cách đề cập đến chúng trong phần nhận xét của trang này. Chúng tôi sẽ có các chuyên gia của chúng tôi xem xét chúng sớm nhất!
Python cung cấp nhiều gói trực quan khác có thể được sử dụng để tạo các loại hình ảnh trực quan khác nhau và không chỉ các biểu đồ và sơ đồ. Do đó, điều quan trọng là cũng quan trọng để hiểu những thách thức và lợi thế của các thư viện khác nhau và cách sử dụng chúng với toàn bộ tiềm năng của chúng. Kiểm tra khóa học Trí tuệ nhân tạo của SimplileArn để làm chủ các khái niệm chính bao gồm khoa học dữ liệu với Python, học máy, học sâu, NLP và nhiều hơn nữa. Mục tiêu của khóa học này là làm cho bạn sẵn sàng công việc và đảm bảo thành công trong sự nghiệp của bạn.