Hướng dẫn how do i import data into python? - làm cách nào để nhập dữ liệu vào python?

Hướng dẫn này giải thích các phương pháp khác nhau để đọc dữ liệu trong Python. Dữ liệu có thể ở bất kỳ định dạng phổ biến nào - CSV, TXT, XLS/XLSX (Excel), SAS7BDAT (SAS), STATA, RDATA (R), v.v. Tải dữ liệu trong môi trường Python là bước ban đầu nhất để phân tích dữ liệu.

Cài đặt và tải Gói Pandas

Pandas là một gói phân tích dữ liệu mạnh mẽ. Nó làm cho việc thăm dò dữ liệu và thao tác dễ dàng. Nó có một số chức năng để đọc dữ liệu từ các nguồn khác nhau. Nếu bạn đang sử dụng Anaconda, gấu trúc phải đã được cài đặt. Bạn cần tải gói bằng cách sử dụng lệnh sau -is a powerful data analysis package. It makes data exploration and manipulation easy. It has several functions to read data from various sources.
If you are using Anaconda, pandas must be already installed. You need to load the package by using the following command -

nhập khẩu gấu trúc dưới dạng PD

Nếu gói Pandas không được cài đặt, bạn có thể cài đặt nó bằng cách chạy mã sau trong bảng điều khiển Ipython. Nếu bạn đang sử dụng Spyder, bạn có thể gửi mã sau trong bảng điều khiển Ipython trong Spyder.Ipython Console. If you are using Spyder, you can submit the following code in Ipython console within Spyder.

! Pip Cài đặt gấu trúc

Nếu bạn đang sử dụng Anaconda, bạn có thể thử dòng mã sau để cài đặt gấu trúc -Anaconda, you can try the following line of code to install pandas -

! Conda cài đặt gấu trúc

1. Nhập các tệp CSV

Điều quan trọng cần lưu ý là một SingleBackslash không hoạt động khi chỉ định đường dẫn tệp. Bạn cần phải thay đổi nó để chuyển tiếp Slash hoặc thêm một dấu gạch chéo ngược như bên dướia singlebackslash does not work when specifying the file path. You need to either change it to forward slash or add one more backslash like below

Nhập gấu trúc dưới dạng pd mydata = pd.read_csv ("C: \\ users \\ Deepanshu \\ documents \\ file1.csv")
mydata= pd.read_csv("C:\\Users\\Deepanshu\\Documents\\file1.csv")

Nếu không có tiêu đề (tiêu đề) trong tệp dữ liệu thô

myData1 = pd.Read_csv ("C: \\ users \\ Deepanshu \\ documents \\ file1.csv", header = none)header = None)

Bạn cần bao gồm tiêu đề = không có tùy chọn để nói Python không có tên cột (tiêu đề) trong dữ liệu.header = None option to tell Python there is no column name (header) in data.

Thêm tên cột

Chúng ta có thể bao gồm tên cột bằng cách sử dụng Tùy chọn Tên =.

myData2 = pd.Read_csv ("C: \\ users \\ Deepanshu \\ documents \\ file1.csv", header = none, name = ['id', 'first_name', 'malary'])names = ['ID', 'first_name', 'salary'])

Các tên biến cũng có thể được thêm riêng biệt bằng cách sử dụng lệnh sau.

mydata1.columns = ['id', 'first_name', 'tiền lương']]]

2. Nhập tệp từ URL

Bạn không cần thực hiện các bước bổ sung để tìm nạp dữ liệu từ URL. Chỉ cần đặt URL vào hàm read_csv () (chỉ áp dụng cho các tệp CSV được lưu trữ trong URL).URL in read_csv() function (applicable only for CSV files stored in URL).

mydata = pd.read_csv ("http://winterolympicsmedals.com/medals.csv")

3. Đọc tệp văn bản

Chúng ta có thể sử dụng hàm read_table () để lấy dữ liệu từ tệp văn bản. Chúng ta cũng có thể sử dụng read_csv () với sep = "\ t" để đọc dữ liệu từ tệp được phân tách bằng tab.

mydata = pd.read_table ("C: \\ users \\ Deepanshu \\ Desktop \\ example2.txt") myData = pd.Read_csv (" sep = "\ t")
mydata = pd.read_csv("C:\\Users\\Deepanshu\\Desktop\\example2.txt", sep ="\t")

4. Đọc tệp Excel

Hàm read_excel () có thể được sử dụng để nhập dữ liệu excel vào python.

mydata = pd.read_excel ("https://www.eia.gov/dnav/pet/hist_xls/rbrted.xls", sheetName = "data 1", skiprows = 2)

Nếu bạn không chỉ định tên của trang tính trong Tùy chọn SheetName =, nó sẽ lấy theo mặc định bảng đầu tiên.sheetname= option, it would take by default first sheet.

5. Đọc tệp được phân định

Giả sử bạn cần nhập một tệp được phân tách bằng không gian trắng.

mydata2 = pd.read_table ("http://www.ssc.wisc.edu/~bhansen/econometrics/invest.dat", sep = "\ s+", header = none)sep="\s+", header = None)

Để bao gồm các tên biến, hãy sử dụng tùy chọn Tên = như bên dưới -

mydata3 = pd.read_table ("http://www.ssc.wisc.edu/~bhansen/econometrics/invest.dat", sep = "\ s+", name = ['a', 'b', 'c' , 'd'])

6. Đọc tệp SAS

Chúng ta có thể nhập tệp dữ liệu SAS bằng cách sử dụng hàm read_sas ().

myData4 = pd.Read_sas ('cars.sas7bdat')

Nếu bạn có một tệp SAS lớn, bạn có thể thử gói có tên pyreadstat nhanh hơn gấu trúc. Nó tương đương với gói haven trong R cung cấp cách dễ dàng và nhanh chóng để đọc dữ liệu từ SAS, SPSS và Stata. Để cài đặt gói này, bạn có thể sử dụng lệnh pip install pyreadstat

import pyreadstat
df, meta = pyreadstat.read_sas7bdat('cars.sas7bdat')

# done! let's see what we got
print(df.head())
print(meta.column_names)
print(meta.column_labels)
print(meta.number_rows)
print(meta.number_columns)

7. Đọc tệp Stata

Chúng ta có thể tải tệp dữ liệu Stata thông qua hàm read_stata ().

MyData41 = pd.read_stata ('cars.dta')

pyreadstat Gói cho phép bạn kéo nhãn giá trị từ các tệp stata.

import pyreadstat
df, meta = pyreadstat.read_dta("cars.dta")

Để nhận nhãn, đặt

import pyreadstat
df, meta = pyreadstat.read_dta("cars.dta")
0 là đúngTRUE

df, meta = pyreadstat.read_dta("cars.dta", apply_value_formats=True)

8. Nhập tệp dữ liệu r

Sử dụng gói pyreadr, bạn có thể tải các tệp định dạng .rdata và .rds nói chung chứa khung dữ liệu r. Bạn có thể cài đặt gói này bằng lệnh bên dưới -pyreadr package, you can load .RData and .Rds format files which in general contains R data frame. You can install this package using the command below -

Pip Cài đặt PyReadr

Với việc sử dụng hàm read_r (), chúng ta có thể nhập các tệp định dạng dữ liệu r.read_r( ) function, we can import R data format files.

Nhập pyreadrrresult = pyreadr.read_r ('c: /users/sampledata.rdata') in (result.keys ())
result = pyreadr.read_r('C:/Users/sampledata.RData')
print(result.keys()) # let's check what objects we got
df1 = result["df1"] # extract the pandas data frame for object df1

Tương tự, bạn có thể đọc tệp được định dạng .rds..Rds formatted file.

9. Đọc bảng SQL

Chúng tôi có thể trích xuất bảng từ cơ sở dữ liệu SQL (SQL Server / Teradata). Xem chương trình dưới đây -

Máy chủ SQL

Bạn có thể đọc dữ liệu từ các bảng được lưu trữ trong SQL Server bằng cách xây dựng kết nối. Bạn cần phải có máy chủ, ID người dùng (UID), chi tiết cơ sở dữ liệu để thiết lập kết nối.

import pandas as pd
import pyodbc 
conn = pyodbc.connect("Driver={SQL Server};Server=serverName;UID=UserName;PWD=Password;Database=RCO_DW;")
df = pd.read_sql_query('select * from dbo.Table WHERE ID > 10', conn)
df.head()

Teradata

Bạn cần nhập mô -đun Teradata giúp Python dễ dàng tích hợp với cơ sở dữ liệu Teradata.Teradata module which makes python easily integrated with Teradata Database.

import pandas as pd
import teradata
udaExec = teradata.UdaExec(appName="HelloWorld", version="1.0",
                           logConsole=False)
session = udaExec.connect(method="odbc",
                          USEREGIONALSETTINGS="N",
                          system="tdprod",
                          username="xxx",
                          password="xxx");

query = "SELECT * FROM flight"
df = pd.read_sql(query , session)

Giải trình

  • import pyreadstat
    df, meta = pyreadstat.read_dta("cars.dta")
    
    1 cung cấp các tính năng hỗ trợ DevOps như cấu hình và ghi nhật ký.
  • Bạn có thể gán bất kỳ tên và phiên bản nào trong
    import pyreadstat
    df, meta = pyreadstat.read_dta("cars.dta")
    
    2 và
    import pyreadstat
    df, meta = pyreadstat.read_dta("cars.dta")
    
    3
  • import pyreadstat
    df, meta = pyreadstat.read_dta("cars.dta")
    
    4 bảo Python không đăng nhập vào bảng điều khiển.
  • import pyreadstat
    df, meta = pyreadstat.read_dta("cars.dta")
    
    5 đề cập đến tên của hệ thống chúng tôi đang kết nối bằng ODBC làm phương thức kết nối
  • import pyreadstat
    df, meta = pyreadstat.read_dta("cars.dta")
    
    6 được sử dụng để đảm bảo rằng các giá trị nổi có thể được tải và làm cho dấu phân cách thập phân là ‘.

Giả sử bạn có tệp mở rộng

import pyreadstat
df, meta = pyreadstat.read_dta("cars.dta")
7 là tệp cơ sở dữ liệu và bạn muốn trích xuất dữ liệu từ nó.

Nhập sqlite3 từ pandas.io Nhập SQL Conn = sqlite3.connect ('C: /Users results.head ()
from pandas.io import sql
conn = sqlite3.connect('C:/Users/Deepanshu/Downloads/flight.db')
query = "SELECT * FROM flight"
results = pd.read_sql(query, con=conn)
print results.head()

10. Nhập dữ liệu từ tệp SPSS

import pyreadstat
df, meta = pyreadstat.read_sav("file.sav", apply_value_formats=True)

Nếu bạn không muốn nhãn giá trị, hãy làm cho Ứng dụng_value_formats là sai.apply_value_formats as False.

11. Đọc mẫu hàng và cột

Bằng cách chỉ định NROWS = và Usecols =, bạn có thể tìm nạp số lượng hàng và cột được chỉ định.

MyData7 = pd.Read_CSV ("http://winterolympicsmedals.com/medals.csv", nrows = 5, usecols = (1,5,7))nrows=5, usecols=(1,5,7))

NROWS = 5 ngụ ý bạn chỉ muốn nhập 5 hàng đầu tiên và usecols = đề cập đến các cột được chỉ định bạn muốn nhập.

12. Bỏ qua hàng trong khi nhập

Giả sử bạn muốn bỏ qua 5 hàng đầu tiên và muốn đọc dữ liệu từ hàng thứ 6 (hàng thứ 6 sẽ là hàng tiêu đề)

MyData8 = pd.Read_CSV ("http://winterolympicsmedals.com/medals.csv", bỏ qua = 5)skiprows=5)

13. Chỉ định các giá trị là các giá trị bị thiếu

Bằng cách bao gồm na_values ​​= tùy chọn, bạn có thể chỉ định các giá trị dưới dạng các giá trị bị thiếu. Trong trường hợp này, chúng tôi đang bảo Python xem xét DOT (.) Là trường hợp bị thiếu.

myData9 = pd.Read_csv ("workfile.csv", na_values ​​= ['.']))

Lệnh nào được sử dụng để nhập dữ liệu trong Python?

Hàm read_excel () có thể được sử dụng để nhập dữ liệu excel vào python.read_excel() function can be used to import excel data into Python.

Bạn có thể nhập một tệp vào Python không?

Các mô -đun Python có thể nhận được quyền truy cập vào mã từ một mô -đun khác bằng cách nhập tệp/chức năng bằng Nhập..