Có một số điều rất cơ bản trong mọi ngôn ngữ lập trình cực kỳ đơn giản nhưng đôi khi, nó không xảy ra với chúng ta đúng lúc, vì vậy tôi muốn đề cập đến một khái niệm đơn giản như vậy trong python trong bài viết này
Trong python, chúng ta có thể nhập dữ liệu từ nhiều nguồn khác nhau như tệp csv, tệp excel, tệp txt, SAS, cơ sở dữ liệu khác nhau. Vì vậy, ý tưởng của tôi ở đây là tóm tắt các mã khác nhau được sử dụng để nhập bất kỳ loại tệp nào trong python
Để thực hiện điều này, chúng ta cần cài đặt sẵn một gói có tên 'gấu trúc'. Nói chung, khi chúng tôi đã cài đặt anaconda trong hệ thống của mình, việc cài đặt gấu trúc riêng là không bắt buộc vì nó được tích hợp sẵn với anaconda. Điều duy nhất được yêu cầu là nhập thư viện gấu trúc bằng cách sử dụng lệnh bên dưới trước khi chạy bất kỳ mã python nào khác để theo dõi trong bài viết
nhập gấu trúc dưới dạng pd
1> Tệp giá trị được phân tách bằng dấu phẩy CSV-CommaChức năng read_csv[] có thể được sử dụng để đọc tệp csv
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_csv[“đường dẫn tệp/tên tệp. csv”]
Ghi chú. Khi chúng tôi chỉ định đường dẫn tệp từ thư mục hệ thống, nó sẽ đi kèm với một dấu gạch chéo ngược [\]. Nhưng python không nhận ra nó và để tránh điều tương tự, chúng ta cần thay đổi dấu gạch chéo đơn thành dấu gạch chéo ngược [/] hoặc dấu gạch chéo ngược kép [\\]
ví dụ
Dữ liệu = pd. read_csv[‘C. /Users/Anju/Desktop/Documents/file1. csv']
2> Tệp giá trị được phân tách bằng dấu phẩy CSV-Comma không có tiêu đềVì chúng tôi thu thập dữ liệu từ nhiều nguồn khác nhau nên hầu hết các lần chúng tôi không nhận được định dạng bắt buộc, dữ liệu trong tệp có thể chứa các giá trị rác, thiếu giá trị, đôi khi dữ liệu thậm chí có thể không có tiêu đề [tên cột], v.v.
Mặc dù chúng tôi luôn có thể sửa dữ liệu trong chính tệp csv, ví dụ:. chúng ta có thể thêm tên cột vào chính tệp csv trong trường hợp tiêu đề bị thiếu, nhưng cũng có một cách để làm điều tương tự trong python
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_csv[“đường dẫn tệp/tên tệp. csv”, tiêu đề = Không có, tên = [‘col1’ , ’col2’ , ‘col3’ , ‘col4’ , ‘col5’]]
Trong đoạn mã trên, “header=None” báo cho python biết dữ liệu bị thiếu tiêu đề [tên cột]
Còn ‘names=[‘col names’] là hàm dùng để thêm tên cột vào dữ liệu
ví dụ
Dữ liệu = pd. read_csv[‘C. /Users/Anju/Desktop/Documents/file1. csv’, tiêu đề = Không có , tên = [‘ID’ , ’Tên’ , ‘Lname’ , ‘Chủ đề’ , ‘Marks’]]
Chúng tôi cũng có thể làm tương tự bằng cách sử dụng mã dưới đây
Dữ liệu. cột = [‘ID’ , ’Fname’ , ‘Lname’ , ‘Subject’ , ‘Marks’]
3> Tệp giá trị được phân tách bằng dấu phẩy CSV-CommaGiả sử tôi chỉ cần nhập số lượng hàng và cột được chỉ định hoặc bỏ qua một số hàng, chúng tôi có thể sử dụng mã bên dưới
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_csv[“đường dẫn tệp/tên tệp. csv”, nrows=10, usecols = [2,5,7,8]]
Trong đoạn mã trên, nrows = 10 sẽ chỉ nhập mười hàng đầu tiên từ tệp csv và thông tin được truy xuất cho các biến/cột được đề cập trong hàm usecols
Ở đây, usecols = [2,5,7,8] sẽ chỉ lấy các hàng cho các cột 2,5,7,8
ví dụ
Dữ liệu = pd. read_csv[‘C. /Users/Anju/Desktop/Documents/file1. csv’, nrows=10, usecols = [2,5,7,8]]
Bỏ qua hàng
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_csv[“đường dẫn tệp/tên tệp. csv”, bỏ qua=10]
Hàm bỏ qua = 10 sẽ bỏ qua mười hàng đầu tiên từ dữ liệu
4> Tệp ExcelHàm read_excel[] có thể được sử dụng để đọc các tệp EXCEL
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_excel[“đường dẫn tệp/tên tệp. xlsx”]
ví dụ
Dữ liệu = pd. read_excel[‘C. /Users/Anju/Desktop/Documents/file1. xlsx’]
5> Tệp Excel — Đôi khi một tệp excel có thể có nhiều trang tínhNếu chúng ta cần làm việc trên bất kỳ trang tính cụ thể nào từ tệp excel, thì chúng ta có thể chỉ định tên của trang tính. Giả sử, tôi cần nhập trang tính thứ hai từ tệp excel
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_excel[“đường dẫn tệp/tên tệp. xlsx”, sheetname = ‘sheet2’]
ví dụ
Dữ liệu = pd. read_excel[‘C. /Users/Anju/Desktop/Documents/file1. xlsx’, sheetname = ‘sheet2’]
Hàm “sheetname = ‘sheet2’” sẽ nhập sheet2 trong python
Ghi chú. Nếu không có tên trang tính nào được đề cập, theo mặc định, trang tính đầu tiên sẽ được nhập từ tệp excel gồm nhiều trang tính
6> Bất kỳ tệp nào [CSV/EXCEL/TXT, v.v.]Giả sử dữ liệu trong tệp có một số ký tự đặc biệt hoặc một số giá trị rác như dấu chấm [. ], dấu gạch dưới[_] , dấu chấm hỏi[?] v.v. và chúng tôi muốn chỉ định chúng là các giá trị bị thiếu trong khi nhập tệp, đoạn mã dưới đây có thể giúp chúng tôi thực hiện điều tương tự
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_excel[“đường dẫn tệp/tên tệp. xlsx”, na_values = [‘. ’ , ‘_’ , ‘?’]]
ví dụ
Dữ liệu = pd. read_excel[‘C. /Users/Anju/Desktop/Documents/file1. xlsx’, na_values = [‘. ’ , ‘_’ , ‘?’]]
Tất cả các ký tự trong tùy chọn 'na_values' sẽ được coi là giá trị bị thiếu
7> Tệp VĂN BẢNHàm read_table[] có thể được sử dụng để đọc tệp văn bản
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_table[“đường dẫn tệp/tên tệp. txt”]
ví dụ
Dữ liệu = pd. read_table[‘C. /Users/Anju/Desktop/Documents/file1. txt']
8> Tệp TEXT được phân tách/phân tách bằng tabnhập gấu trúc dưới dạng pd
dữ liệu = pd. read_table[“đường dẫn tệp/tên tệp. txt”, sep = “\t” ]
ví dụ
Dữ liệu = pd. read_table[‘C. /Users/Anju/Desktop/Documents/file1. txt’ , sep = ‘\t’]
9> Tệp TEXT được phân tách/phân tách bằng dấu cáchnhập gấu trúc dưới dạng pd
dữ liệu = pd. read_table[“đường dẫn tệp/tên tệp. txt”, sep = “\s+” ]
ví dụ
Dữ liệu = pd. read_table[‘C. /Users/Anju/Desktop/Documents/file1. txt’ , sep = ‘\s+’]
Nếu chúng ta chỉ muốn nhập dữ liệu cho một vài cột, thì chúng ta có thể sử dụng chức năng 'tên'
Dữ liệu = pd. read_table[‘C. /Users/Anju/Desktop/Documents/file1. txt’ , sep = ‘\s+’ , names = [‘ID’ , ’Fname’ , ‘Lname’ , ‘Subject’ , ‘Marks’]]
10> Tệp TEXT có dữ liệu nhị phânnhập gấu trúc dưới dạng pd
dữ liệu = pd. read_table[“đường dẫn tệp/tên tệp. dat”]
dữ liệu = pd. read_table[“đường dẫn tệp/tên tệp. dat”, sep = “\t” ] — dữ liệu được phân định bằng tab
dữ liệu = pd. read_table[“đường dẫn tệp/tên tệp. dat”, sep = “\s+” ] — dữ liệu được phân cách bằng dấu cách
11> Từ URLĐể nhập tệp trong python từ bất kỳ URL nào, chỉ cần bao gồm liên kết url và có thể sử dụng lệnh read_xxxx tùy thuộc vào loại tệp mà dữ liệu được lưu trữ
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_csv[“https. //www. trắc nghiệm khách quan. com//doc. csv”]
dữ liệu = pd. read_excel[“https. //www. trắc nghiệm khách quan. com//doc. xlsx”]
dữ liệu = pd. read_table[“https. //www. trắc nghiệm khách quan. com//doc. txt”]
dữ liệu = pd. read_table[“https. //www. trắc nghiệm khách quan. com//doc. dat”]
12> Tệp SASĐể nhập tệp SAS trong python, có thể sử dụng chức năng 'read_sas'
nhập gấu trúc dưới dạng pd
dữ liệu = pd. read_sas[“tập dữ liệu. thư viện"]
ví dụ
dữ liệu = pd. read_sas[“ô tô. sasuser”]
13> Cơ sở dữ liệuGiả sử chúng ta muốn nhập dữ liệu được lưu trữ trong một bảng từ bất kỳ cơ sở dữ liệu nào như máy chủ SQL, trước tiên chúng ta cần tạo kết nối với máy chủ SQL mà tên máy chủ, id người dùng, mật khẩu và thông tin cơ sở dữ liệu khác được yêu cầu
pd. read_sql_query có thể được sử dụng cho cùng một
Tại đây, chúng ta cũng cần nhập một thư viện khác ‘pyodbc’ để thiết lập kết nối với máy chủ
Nhập gấu trúc dưới dạng pd
Nhập pyodbc
conc = pyodbc. connect[“Trình điều khiển = { SQL Server}; Server = tên máy chủ; UID = id của người dùng, NKT = mật khẩu của người dùng; Cơ sở dữ liệu = tên cơ sở dữ liệu;”]