Đầu nối CDATA Python cho CSV cho phép bạn sử dụng gấu trúc và các mô -đun khác để phân tích và trực quan hóa dữ liệu CSV trực tiếp trong Python.
Hệ sinh thái phong phú của các mô -đun Python cho phép bạn hoạt động nhanh chóng và tích hợp các hệ thống của bạn hiệu quả hơn. Với đầu nối CDATA Python cho CSV, các mô-đun Pandas & Matplotlib và bộ công cụ SQLalchemy, bạn có thể xây dựng các ứng dụng và tập lệnh Python kết nối CSV để trực quan hóa dữ liệu CSV. Bài viết này cho thấy cách sử dụng các chức năng tích hợp gấu trúc, sqlalchemy và matplotlib để kết nối với dữ liệu CSV, thực thi truy vấn và trực quan hóa kết quả.
Với xử lý dữ liệu được tối ưu hóa tích hợp, đầu nối CDATA Python cung cấp hiệu suất chưa từng có để tương tác với dữ liệu CSV trực tiếp trong Python. Khi bạn phát hành các truy vấn SQL phức tạp từ CSV, trình điều khiển sẽ thúc đẩy các hoạt động SQL được hỗ trợ, như các bộ lọc và tập hợp, trực tiếp đến CSV và sử dụng công cụ SQL nhúng để xử lý các hoạt động không được hỗ trợ [thường là các hàm SQL và tham gia hoạt động].
Kết nối với dữ liệu CSV
Kết nối với dữ liệu CSV trông giống như kết nối với bất kỳ nguồn dữ liệu quan hệ nào. Tạo một chuỗi kết nối bằng các thuộc tính kết nối cần thiết. Đối với bài viết này, bạn sẽ chuyển chuỗi kết nối dưới dạng tham số cho hàm created_engine.
Thuộc tính DataSource phải được đặt thành một tên thư mục địa phương hợp lệ.DataSource property must be set to a valid local folder name.
Ngoài ra, chỉ định thuộc tính Bao gồm các tệp để làm việc với các tệp văn bản có các tiện ích mở rộng khác với .csv, .tab hoặc .txt. Chỉ định nhiều tiện ích mở rộng tệp trong danh sách được phân tách bằng dấu phẩy. Bạn cũng có thể đặt các thuộc tính mở rộng tương thích với trình điều khiển Microsoft Jet Ole DB 4.0. Ngoài ra, bạn có thể cung cấp định dạng của các tệp văn bản trong tệp lược đồ.ini.IncludeFiles property to work with text files having extensions that differ from .csv, .tab, or .txt. Specify multiple file extensions in a comma-separated list. You can also set Extended Properties compatible with the Microsoft Jet OLE DB 4.0 driver. Alternatively, you can provide the format of text files in a Schema.ini file.
Đặt người dùng thành true nếu bạn đang xóa hoặc cập nhật trong CSV. Điều này sẽ tạo ra một cột mới với tên Rownumber sẽ được sử dụng làm khóa cho bảng đó.UseRowNumbers to true if you are deleting or updating in CSV. This will create a new column with the name RowNumber which will be used as key for that table.
Thực hiện theo quy trình bên dưới để cài đặt các mô -đun cần thiết và bắt đầu truy cập CSV thông qua các đối tượng Python.
Cài đặt các mô -đun cần thiết
Sử dụng tiện ích PIP để cài đặt các mô -đun Pandas & Matplotlib và bộ công cụ SQLalchemy:
pip install pandas pip install matplotlib pip install sqlalchemy
Đảm bảo nhập mô -đun với các mục sau:
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine
Trực quan hóa dữ liệu CSV trong Python
Bây giờ bạn có thể kết nối với một chuỗi kết nối. Sử dụng chức năng created_engine để tạo động cơ để làm việc với dữ liệu CSV.
engine = create_engine["csv:///?DataSource=MyCSVFilesFolder"]
Thực hiện SQL thành CSV
Sử dụng hàm read_sql từ gấu trúc để thực hiện bất kỳ câu lệnh SQL nào và lưu trữ kết quả trong DataFrame.
df = pandas.read_sql["SELECT City, TotalDue FROM Customer WHERE FirstName = 'Bob'", engine]
Trực quan hóa dữ liệu CSV
Với kết quả truy vấn được lưu trữ trong DataFrame, hãy sử dụng chức năng cốt truyện để xây dựng biểu đồ để hiển thị dữ liệu CSV. Phương thức hiển thị biểu đồ trong một cửa sổ mới.
df.plot[kind="bar", x="City", y="TotalDue"] plt.show[]
Dùng thử miễn phí và thêm thông tin
Tải xuống một bản dùng thử miễn phí trong 30 ngày của Trình kết nối CSV Python để bắt đầu xây dựng các ứng dụng và tập lệnh Python với kết nối với dữ liệu CSV. Tiếp cận với nhóm hỗ trợ của chúng tôi nếu bạn có bất kỳ câu hỏi.
Mã nguồn đầy đủ
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engin engine = create_engine["csv:///?DataSource=MyCSVFilesFolder"] df = pandas.read_sql["SELECT City, TotalDue FROM Customer WHERE FirstName = 'Bob'", engine] df.plot[kind="bar", x="City", y="TotalDue"] plt.show[]
Các giá trị được phân phối CSV hoặc dấu phẩy là một định dạng rất phổ biến để lưu trữ dữ liệu có cấu trúc. Trong hướng dẫn này, chúng ta sẽ thấy cách vẽ đồ thị đẹp bằng dữ liệu CSV và gấu trúc. Chúng tôi sẽ tìm hiểu cách nhập dữ liệu CSV từ một nguồn bên ngoài [URL] và vẽ nó bằng cách sử dụng Plotly và Pandas.
Đầu tiên chúng tôi nhập dữ liệu và xem xét nó.
In [1]:
import pandas as pd df = pd.read_csv['//raw.githubusercontent.com/plotly/datasets/master/2014_apple_stock.csv'] df.head[]
Out[1]:
2014-01-02 | 77.445395 |
2014-01-03 | 77.045575 |
2014-01-06 | 74.896972 |
2014-01-07 | 75.856461 |
2014-01-08 | 75.091947 |
Lô từ CSV với Plotly Express¶
In [2]:
import pandas as pd import plotly.express as px df = pd.read_csv['//raw.githubusercontent.com/plotly/datasets/master/2014_apple_stock.csv'] fig = px.line[df, x = 'AAPL_x', y = 'AAPL_y', title='Apple Share Prices over time [2014]'] fig.show[]
Lô đất từ CSV trong Dash¶
Dash là cách tốt nhất để xây dựng các ứng dụng phân tích trong Python bằng cách sử dụng các số liệu thuần túy. Để chạy ứng dụng bên dưới, chạy
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine0, nhấp vào "Tải xuống" để lấy mã và chạy
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine1.
Bắt đầu với các tài liệu Dash chính thức và tìm hiểu cách dễ dàng tạo kiểu và triển khai các ứng dụng như thế này với Dash Enterprise.learn how to effortlessly style & deploy apps like this with Dash Enterprise.
Đăng ký Câu lạc bộ Dash → Bảng gian lận miễn phí cộng với các bản cập nhật từ Chris Parmer và Adam Schroeder đã gửi đến hộp thư đến của bạn hai tháng một lần. Bao gồm các mẹo và thủ thuật, ứng dụng cộng đồng và lặn sâu vào kiến trúc Dash. Tham gia ngay. → Free cheat sheets plus updates from Chris Parmer and Adam Schroeder delivered to your inbox every two months. Includes tips and tricks, community apps, and deep dives into the Dash architecture. Join now.
Lô đất từ CSV với ________ 12¶
In [4]:
import pandas as pd import plotly.graph_objects as go df = pd.read_csv['//raw.githubusercontent.com/plotly/datasets/master/2014_apple_stock.csv'] fig = go.Figure[go.Scatter[x = df['AAPL_x'], y = df['AAPL_y'], name='Share Prices [in USD]']] fig.update_layout[title='Apple Share Prices over time [2014]', plot_bgcolor='rgb[230, 230,230]', showlegend=True] fig.show[]
Còn Dash thì sao? ¶
Dash là một khung nguồn mở để xây dựng các ứng dụng phân tích, không cần JavaScript và nó được tích hợp chặt chẽ với thư viện đồ thị đồ họa.
Tìm hiểu về cách cài đặt Dash tại //dash.plot.ly/installation.
Ở mọi nơi trong trang này mà bạn thấy
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine3, bạn có thể hiển thị cùng một hình trong một ứng dụng Dash bằng cách chuyển nó sang đối số
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine4 của thành phần
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine5 từ gói
import pandas import matplotlib.pyplot as plt from sqlalchemy import create_engine6 tích hợp như thế này:
import plotly.graph_objects as go # or plotly.express as px fig = go.Figure[] # or any Plotly Express function e.g. px.bar[...] # fig.add_trace[ ... ] # fig.update_layout[ ... ] import dash import dash_core_components as dcc import dash_html_components as html app = dash.Dash[] app.layout = html.Div[[ dcc.Graph[figure=fig] ]] app.run_server[debug=True, use_reloader=False] # Turn off reloader if inside Jupyter