Hướng dẫn r vs python for data visualization - r so với python để trực quan hóa dữ liệu

Một bước quyết định trong quá trình khoa học dữ liệu đang truyền đạt kết quả phân tích của bạn. Là một nhà khoa học dữ liệu, bạn thường được giao nhiệm vụ trình bày những kết quả này cho những người có ít hoặc không có nền tảng thống kê, làm cho điều quan trọng là có thể trình bày nội dung rõ ràng và hiểu biết.

Nó cũng thường hữu ích để bắt đầu một dự án khoa học dữ liệu bằng cách tạo các biểu đồ đơn giản để khám phá dữ liệu, trước khi phân tích thực tế.

Các công cụ để trực quan hóa có thể được tìm thấy trong cả R và Python, với một số khác biệt chính giữa hai. Nếu bạn đang tìm cách xác định ngôn ngữ nào phù hợp với bạn và các dự án của bạn, bài viết này có thể thú vị cho bạn.

Bài viết này bao gồm sự khác biệt cụ thể giữa R và Python về mặt trực quan hóa dữ liệu. & NBSP;

Trực quan trong r

Gói đồ họa để khám phá dữ liệu

R cung cấp một số gói cơ bản được cài đặt theo mặc định. Điều này bao gồm gói đồ họa, chứa khoảng 100 chức năng để tạo ra các lô truyền thống. Các chức năng chung rất đơn giản này cho phép bạn nhanh chóng tạo các hình ảnh đơn giản như Scatterplots, Boxplots và Biểu đồ. Điều này có ích cho việc thăm dò dữ liệu nhanh chóng.graphics package, which contains about 100 functions to create traditional plots. These very simple generic functions allow you to quickly create simple images such as scatterplots, boxplots, and histograms. This comes in handy for speedy data exploration.

Ví dụ: nếu chúng ta áp dụng hàm lô [] cho bộ dữ liệu iris, chúng ta sẽ thấy một ma trận các biểu đồ phân tán tương ứng với ma trận tương quan của tất cả các cột. Điều này rất hữu ích để có được một cái nhìn tổng quan đơn giản về các mối quan hệ giữa các biến.plot[] function to the iris dataset, we see a matrix of scatterplots corresponding to a correlation matrix of all of the columns. This is useful for getting a simple overview of the relationships between the variables.

plot[iris]

Ví dụ, ở đây chúng ta có thể thấy rằng các biến petal.length và petal.width có mối tương quan tích cực với nhau.

Trực quan hóa với gói R GGPLOT2

Bên cạnh các chức năng âm mưu chung, R cũng cung cấp nhiều thư viện như GGPLOT2, mạng và cốt truyện, có thể tạo ra các loại lô khác nhau, cải thiện ngoại hình của chúng hoặc thậm chí làm cho chúng tương tác.ggplot2, lattice, and plotly, which can create different types of plots, improve their appearance, or even make them interactive.

Cụ thể, GGPLOT2 và trực quan hóa dữ liệu trong R GO HOUND. Với GGPLOT2, R cung cấp một hệ thống thanh lịch và linh hoạt để tạo ra các lô, theo cách tiếp cận nhiều lớp cho phép bạn tạo các lô từng bước: bắt đầu với dữ liệu, sau đó thêm tính thẩm mỹ của Hồi [như trục và vị trí của dữ liệu các điểm trên cốt truyện] và các yếu tố kiểu như đường, quy mô hoặc khoảng tin cậy. Ngữ pháp này về triết lý của đồ họa, trong đó các đối tượng được thêm vào cốt truyện trong các lớp, cho phép tạo ra hình ảnh tương đối đơn giản và trực quan.ggplot2 and data visualization in R go hand-in-hand. With ggplot2, R offers an elegant and versatile system for creating plots, following a layered approach that allows you to create plots step-by-step: starting with the data, then adding “aesthetics” [such as axes and the position of the data points on the plot], and style elements like lines, scales, or confidence intervals. This “Grammar of Graphics” philosophy, where objects are added to the plot in layers, allows a relatively simple and intuitive creation of images.

Tạo một cốt truyện đơn giản dựa trên bộ dữ liệu IRIS minh họa triết lý này. Đầu tiên, chúng tôi tạo cấu trúc cơ bản của biểu đồ của chúng tôi, chứa dữ liệu và trục. Biến nhóm nhóm của loài này cũng được chỉ định ở đây. Trong bước tiếp theo, các điểm dữ liệu được thêm vào. Cuối cùng, chúng tôi thêm một tiêu đề, thay đổi nhãn trục và tùy chỉnh nền.

ggplot[iris, aes[x = Sepal.Length, y = Sepal.Width, col = Species]] +
  geom_point[] +
  labs[title = "A Nice Iris Dataset Graphic", x = "Sepal Length", y = "Sepal Width"] +
  theme_minimal[]

Tất nhiên, R cũng có thể được sử dụng để tạo ra các lô công phu hơn nhiều. Cốt truyện dưới đây là một ví dụ điển hình. & NBSP; Nó được lấy từ bài đăng trên blog [tiếng Đức] của chúng tôi Để chạy ví dụ sau, đường dẫn đến logo và bộ dữ liệu IPSOS.XLSX phải được điều chỉnh. Bộ dữ liệu có thể được tải xuống qua //extras.springer.com/zip/2018/978-3-662-54819-6.zip

# devtools::install_github["INWTlab/ggCorpIdent"]
library[ggCorpIdent]

ggCorpIdent[base_family = "Open Sans",
            textColor = "#000000",
            colors = c["#2B4894", "#cd5364", "#93BB51"],
            logo = "path/to/logo.png",
            logoSize = 0.1,
            logoTransparency = 0.8]

ipsos 

Bài Viết Liên Quan

Chủ Đề