Hướng dẫn how do i import data into python? - làm cách nào để nhập dữ liệu vào python?
Hướng dẫn này giải thích các phương pháp khác nhau để đọc dữ liệu trong Python. Dữ liệu có thể ở bất kỳ định dạng phổ biến nào - CSV, TXT, XLS/XLSX (Excel), SAS7BDAT (SAS), STATA, RDATA (R), v.v. Tải dữ liệu trong môi trường Python là bước ban đầu nhất để phân tích dữ liệu. Show
Cài đặt và tải Gói Pandas Pandas là một gói phân tích dữ liệu mạnh mẽ. Nó làm cho việc thăm dò dữ liệu và thao tác dễ dàng. Nó có một số chức năng để đọc dữ liệu từ các nguồn khác nhau. Nếu bạn đang sử dụng Anaconda, gấu trúc phải đã được cài đặt. Bạn cần tải gói bằng cách sử dụng lệnh sau -is a powerful data analysis package. It makes data exploration and manipulation easy. It has several functions to read data from various sources. nhập khẩu gấu trúc dưới dạng PD Nếu gói Pandas không được cài đặt, bạn có thể cài đặt nó bằng cách chạy mã sau trong bảng điều khiển Ipython. Nếu bạn đang sử dụng Spyder, bạn có thể gửi mã sau trong bảng điều khiển Ipython trong Spyder.Ipython Console. If you are using Spyder, you can submit the following code in Ipython console within Spyder. ! Pip Cài đặt gấu trúc Nếu bạn đang sử dụng Anaconda, bạn có thể thử dòng mã sau để cài đặt gấu trúc -Anaconda, you can try the following line of code to install pandas - ! Conda cài đặt gấu trúc 1. Nhập các tệp CSVĐiều quan trọng cần lưu ý là một SingleBackslash không hoạt động khi chỉ định đường dẫn tệp. Bạn cần phải thay đổi nó để chuyển tiếp Slash hoặc thêm một dấu gạch chéo ngược như bên dướia singlebackslash does not work when specifying the file path. You need to either change it to forward slash or add one more backslash like below Nhập gấu trúc dưới dạng pd mydata = pd.read_csv ("C: \\ users \\ Deepanshu \\ documents \\ file1.csv") Nếu không có tiêu đề (tiêu đề) trong tệp dữ liệu thô myData1 = pd.Read_csv ("C: \\ users \\ Deepanshu \\ documents \\ file1.csv", header = none)header = None) Bạn cần bao gồm tiêu đề = không có tùy chọn để nói Python không có tên cột (tiêu đề) trong dữ liệu.header = None option to tell Python there is no column name (header) in data. Thêm tên cột Chúng ta có thể bao gồm tên cột bằng cách sử dụng Tùy chọn Tên =. myData2 = pd.Read_csv ("C: \\ users \\ Deepanshu \\ documents \\ file1.csv", header = none, name = ['id', 'first_name', 'malary'])names = ['ID', 'first_name', 'salary']) Các tên biến cũng có thể được thêm riêng biệt bằng cách sử dụng lệnh sau. mydata1.columns = ['id', 'first_name', 'tiền lương']]] 2. Nhập tệp từ URLBạn không cần thực hiện các bước bổ sung để tìm nạp dữ liệu từ URL. Chỉ cần đặt URL vào hàm read_csv () (chỉ áp dụng cho các tệp CSV được lưu trữ trong URL).URL in read_csv() function (applicable only for CSV files stored in URL). mydata = pd.read_csv ("http://winterolympicsmedals.com/medals.csv") 3. Đọc tệp văn bảnChúng ta có thể sử dụng hàm read_table () để lấy dữ liệu từ tệp văn bản. Chúng ta cũng có thể sử dụng read_csv () với sep = "\ t" để đọc dữ liệu từ tệp được phân tách bằng tab. mydata = pd.read_table ("C: \\ users \\ Deepanshu \\ Desktop \\ example2.txt") myData = pd.Read_csv (" sep = "\ t") 4. Đọc tệp ExcelHàm read_excel () có thể được sử dụng để nhập dữ liệu excel vào python. mydata = pd.read_excel ("https://www.eia.gov/dnav/pet/hist_xls/rbrted.xls", sheetName = "data 1", skiprows = 2) Nếu bạn không chỉ định tên của trang tính trong Tùy chọn SheetName =, nó sẽ lấy theo mặc định bảng đầu tiên.sheetname= option, it would take by default first sheet. 5. Đọc tệp được phân địnhGiả sử bạn cần nhập một tệp được phân tách bằng không gian trắng. mydata2 = pd.read_table ("http://www.ssc.wisc.edu/~bhansen/econometrics/invest.dat", sep = "\ s+", header = none)sep="\s+", header = None) Để bao gồm các tên biến, hãy sử dụng tùy chọn Tên = như bên dưới - mydata3 = pd.read_table ("http://www.ssc.wisc.edu/~bhansen/econometrics/invest.dat", sep = "\ s+", name = ['a', 'b', 'c' , 'd']) 6. Đọc tệp SASChúng ta có thể nhập tệp dữ liệu SAS bằng cách sử dụng hàm read_sas (). myData4 = pd.Read_sas ('cars.sas7bdat') Nếu bạn có một tệp SAS lớn, bạn có thể thử gói có tên import pyreadstat df, meta = pyreadstat.read_sas7bdat('cars.sas7bdat') # done! let's see what we got print(df.head()) print(meta.column_names) print(meta.column_labels) print(meta.number_rows) print(meta.number_columns) 7. Đọc tệp StataChúng ta có thể tải tệp dữ liệu Stata thông qua hàm read_stata (). MyData41 = pd.read_stata ('cars.dta')
import pyreadstat df, meta = pyreadstat.read_dta("cars.dta") Để nhận nhãn, đặt import pyreadstat df, meta = pyreadstat.read_dta("cars.dta")0 là đúngTRUE df, meta = pyreadstat.read_dta("cars.dta", apply_value_formats=True) 8. Nhập tệp dữ liệu rSử dụng gói pyreadr, bạn có thể tải các tệp định dạng .rdata và .rds nói chung chứa khung dữ liệu r. Bạn có thể cài đặt gói này bằng lệnh bên dưới -pyreadr package, you can load .RData and .Rds format files which in general contains R data frame. You can install this package using the command below - Pip Cài đặt PyReadr Với việc sử dụng hàm read_r (), chúng ta có thể nhập các tệp định dạng dữ liệu r.read_r( ) function, we can import R data format files. Nhập pyreadrrresult = pyreadr.read_r ('c: /users/sampledata.rdata') in (result.keys ()) Tương tự, bạn có thể đọc tệp được định dạng .rds..Rds formatted file. 9. Đọc bảng SQLChúng tôi có thể trích xuất bảng từ cơ sở dữ liệu SQL (SQL Server / Teradata). Xem chương trình dưới đây - Máy chủ SQL Bạn có thể đọc dữ liệu từ các bảng được lưu trữ trong SQL Server bằng cách xây dựng kết nối. Bạn cần phải có máy chủ, ID người dùng (UID), chi tiết cơ sở dữ liệu để thiết lập kết nối. import pandas as pd import pyodbc conn = pyodbc.connect("Driver={SQL Server};Server=serverName;UID=UserName;PWD=Password;Database=RCO_DW;") df = pd.read_sql_query('select * from dbo.Table WHERE ID > 10', conn) df.head() Teradata Bạn cần nhập mô -đun Teradata giúp Python dễ dàng tích hợp với cơ sở dữ liệu Teradata.Teradata module which makes python easily integrated with Teradata Database. import pandas as pd import teradata udaExec = teradata.UdaExec(appName="HelloWorld", version="1.0", logConsole=False) session = udaExec.connect(method="odbc", USEREGIONALSETTINGS="N", system="tdprod", username="xxx", password="xxx"); query = "SELECT * FROM flight" df = pd.read_sql(query , session) Giải trình
Giả sử bạn có tệp mở rộng import pyreadstat df, meta = pyreadstat.read_dta("cars.dta")7 là tệp cơ sở dữ liệu và bạn muốn trích xuất dữ liệu từ nó. Nhập sqlite3 từ pandas.io Nhập SQL Conn = sqlite3.connect ('C: /Users results.head () 10. Nhập dữ liệu từ tệp SPSSimport pyreadstat df, meta = pyreadstat.read_sav("file.sav", apply_value_formats=True) Nếu bạn không muốn nhãn giá trị, hãy làm cho Ứng dụng_value_formats là sai.apply_value_formats as False. 11. Đọc mẫu hàng và cộtBằng cách chỉ định NROWS = và Usecols =, bạn có thể tìm nạp số lượng hàng và cột được chỉ định. MyData7 = pd.Read_CSV ("http://winterolympicsmedals.com/medals.csv", nrows = 5, usecols = (1,5,7))nrows=5, usecols=(1,5,7)) NROWS = 5 ngụ ý bạn chỉ muốn nhập 5 hàng đầu tiên và usecols = đề cập đến các cột được chỉ định bạn muốn nhập. 12. Bỏ qua hàng trong khi nhậpGiả sử bạn muốn bỏ qua 5 hàng đầu tiên và muốn đọc dữ liệu từ hàng thứ 6 (hàng thứ 6 sẽ là hàng tiêu đề) MyData8 = pd.Read_CSV ("http://winterolympicsmedals.com/medals.csv", bỏ qua = 5)skiprows=5) 13. Chỉ định các giá trị là các giá trị bị thiếuBằng cách bao gồm na_values = tùy chọn, bạn có thể chỉ định các giá trị dưới dạng các giá trị bị thiếu. Trong trường hợp này, chúng tôi đang bảo Python xem xét DOT (.) Là trường hợp bị thiếu. myData9 = pd.Read_csv ("workfile.csv", na_values = ['.'])) Lệnh nào được sử dụng để nhập dữ liệu trong Python?Hàm read_excel () có thể được sử dụng để nhập dữ liệu excel vào python.read_excel() function can be used to import excel data into Python.
Bạn có thể nhập một tệp vào Python không?Các mô -đun Python có thể nhận được quyền truy cập vào mã từ một mô -đun khác bằng cách nhập tệp/chức năng bằng Nhập.. |