Hướng dẫn extract data from csv file python pandas - trích xuất dữ liệu từ tệp csv python pandas

Giới thiệu: Trong bài viết này, tôi sẽ hướng dẫn bạn các cách đọc và viết các tệp CSV khác nhau bằng Python.In this article, I will walk you through the different ways of reading and writing CSV files in Python.

Mục lục:

  1. CSV là gì?
  2. Đọc CSV
  3. Viết cho CSV

1. CSV là gì?

CSV là viết tắt của các giá trị phân tách dấu phẩy. Đây là hình thức đơn giản nhất để lưu trữ dữ liệu ở dạng bảng dưới dạng văn bản thuần túy. Điều quan trọng là phải biết làm việc với CSV vì chúng tôi chủ yếu dựa vào dữ liệu CSV trong cuộc sống hàng ngày của chúng tôi với tư cách là các nhà khoa học dữ liệu.

Cấu trúc của CSV: & nbsp;

Hướng dẫn extract data from csv file python pandas - trích xuất dữ liệu từ tệp csv python pandas

Chúng tôi có một tệp có tên là Salary Salary_Data.csv.

Sau khi tiêu đề, mỗi dòng của tệp là một bản ghi quan sát/một bản ghi. Các giá trị của một bản ghi được phân tách bằng dấu phẩy.

2. Đọc CSV

Các tệp CSV có thể được xử lý theo nhiều cách trong Python.

2.1 Sử dụng CSV.Reader

Đọc CSV bằng mô -đun sẵn có Python, có tên CSV & NBSP; sử dụng đối tượng CSV.Reader.csv using csv.reader object.

Các bước để đọc tệp CSV:

1. Nhập thư viện CSV

import csv

2. Mở tệp CSV

Phương thức .Open () trong Python được sử dụng để mở các tệp và trả về một đối tượng tệp.open()method in python is used to open files and return a file object.

file = open('Salary_Data.csv')

type(file)

Loại tệp là _io.textiowrapper, đây là đối tượng tệp được trả về bằng phương thức Open ()._io.TextIOWrapper” which is a file object that is returned by the open() method.

3. Sử dụng đối tượng CSV.Reader để đọc tệp CSV

csvreader = csv.reader(file)

4. Trích xuất tên trường

Tạo một danh sách trống gọi là tiêu đề. Sử dụng phương thức tiếp theo () để có được tiêu đề.

Phương thức .next () trả về hàng hiện tại và chuyển sang hàng tiếp theo.

Lần đầu tiên bạn chạy tiếp theo (), nó trả về tiêu đề và lần sau bạn chạy, nó sẽ trả về bản ghi đầu tiên, v.v.

header = []
header = next(csvreader)
header

5. Trích xuất các hàng/hồ sơ

Tạo một danh sách trống được gọi là hàng và lặp qua đối tượng CSVReader và nối từng hàng vào danh sách hàng.

rows = []
for row in csvreader:
        rows.append(row)
rows

6. Đóng tệp

Phương thức .Close () được sử dụng để đóng tệp đã mở. Khi nó được đóng, chúng tôi không thể thực hiện bất kỳ hoạt động nào trên đó. method is used to close the opened file. Once it is closed, we cannot perform any operations on it.

file.close()

Mã hoàn chỉnh:

Mã Python:

Đương nhiên, chúng ta có thể quên đóng một tệp mở. Để tránh rằng chúng ta có thể sử dụng câu lệnh With () & NBSP; để tự động phát hành tài nguyên. Nói một cách đơn giản, không cần gọi phương thức .Close () nếu chúng ta đang sử dụng với câu lệnh ().with() statement to automatically release the resources. In simple terms, there is no need to call the .close() method if we are using with() statement.

Thực hiện mã trên bằng cách sử dụng câu lệnh ():

Cú pháp: Với Open (Tên tệp, Chế độ) là Alias_Filename:with open(filename, mode) as alias_filename:

Modes:

‘R, để đọc một tệp hiện có,‘ W, - để tạo một tệp mới nếu tệp đã cho không tồn tại và ghi cho nó, ‘A, - để nối vào nội dung tệp hiện có,‘+, - & nbsp; Để tạo một tệp mới để đọc và viết
‘w’ – to create a new file if the given file doesn’t exist and write to it,
‘a’ – to append to existing file content,
‘+’ –  to create a new file for reading and writing

import csv
rows = []
with open("Salary_Data.csv", 'r) as file:
    csvreader = csv.reader(file)
    header = next(csvreader)
    for row in csvreader:
        rows.append(row)
print(header)
print(rows)

2.2 Sử dụng .ReadLines ()

Bây giờ câu hỏi là - có thể lấy tiêu đề, hàng chỉ sử dụng các câu lệnh mở () và với () và không có thư viện CSV? Hãy xem nào…

Phương thức .ReadLines () là câu trả lời. Nó trả về tất cả các dòng trong một tệp dưới dạng danh sách. Mỗi mục của danh sách là một hàng của tệp CSV của chúng tôi. method is the answer. It returns all the lines in a file as a list. Each item of the list is a row of our CSV file.

Hàng đầu tiên của tệp.ReadLines () là tiêu đề và phần còn lại của chúng là các bản ghi.

with open('Salary_Data.csv') as file:
    content = file.readlines()
header = content[:1]
rows = content[1:]
print(header)
print(rows)

** Có thể loại bỏ ’n, từ đầu ra bằng phương thức .Strip ().

Điều gì sẽ xảy ra nếu chúng ta có một bộ dữ liệu lớn với hàng trăm tính năng và hàng ngàn hồ sơ. Có thể xử lý danh sách không ??

Đây là thư viện Pandas vào hình.

2.3 Sử dụng gấu trúc

Các bước đọc các tệp CSV bằng cách sử dụng gấu trúc

1. Nhập thư viện Pandas

________số 8

2. Tải các tệp CSV & NBSP;

Cú pháp cơ bản: pandas.read_csv (tên tệp, delimiter = xông,,)pandas.read_csv(filename, delimiter=’,’)

data= pd.read_csv("Salary_Data.csv")
data

3. Trích xuất tên trường

.Columns được sử dụng để có được tên tiêu đề/trường.is used to obtain the header/field names.

file = open('Salary_Data.csv')

type(file)
0

4. Trích xuất các hàng

Tất cả dữ liệu của khung dữ liệu có thể được truy cập bằng tên trường.

file = open('Salary_Data.csv')

type(file)
1

3. Viết vào tệp CSV

Chúng ta có thể viết vào một tệp CSV theo nhiều cách.

3.1 Sử dụng CSV.Writer

Hãy giả sử rằng chúng tôi đang ghi lại 3 dữ liệu của sinh viên (tên, điểm M1, điểm M2)

file = open('Salary_Data.csv')

type(file)
2

Các bước ghi vào tệp CSV:

1. Nhập thư viện CSV

import csv

2. Xác định tên tệp và mở tệp bằng Open ()

3. Tạo đối tượng CSVWriter bằng CSV.Writer ()

4. Viết tiêu đề

5. Viết phần còn lại của dữ liệu

Mã cho các bước 2-5

file = open('Salary_Data.csv')

type(file)
4

Dưới đây là cách tập tin CSV của chúng tôi trông như thế nào.

3.2 Sử dụng .Writelines ()

Lặp lại từng danh sách và chuyển đổi các thành phần danh sách thành một chuỗi và ghi vào tệp CSV.

file = open('Salary_Data.csv')

type(file)
5

3.3. Sử dụng gấu trúc

Các bước để viết cho CSV bằng Pandas

1. Nhập thư viện Pandas

import pandas as pd

________số 8

2. Tải các tệp CSV & NBSP;pd.DataFrame(data, columns)

Cú pháp cơ bản: pandas.read_csv (tên tệp, delimiter = xông,,)

file = open('Salary_Data.csv')

type(file)
7

3. Trích xuất tên trường

.Columns được sử dụng để có được tên tiêu đề/trường. DataFrame.to_csv(filename, sep=’,’, index=False)

4. Trích xuất các hàng

Tất cả dữ liệu của khung dữ liệu có thể được truy cập bằng tên trường.

file = open('Salary_Data.csv')

type(file)
8

3. Viết vào tệp CSV

Chúng ta có thể viết vào một tệp CSV theo nhiều cách.

3.1 Sử dụng CSV.Writer

Tôi hy vọng bài viết này là thông tin.Hãy chia sẻ nó với bạn bè học tập của bạn.

References:

Kiểm tra mã hoàn chỉnh từ & nbsp; github repo.

Các bài đăng trên blog khác của tôi

Hãy kiểm tra các bài đăng trên blog khác của tôi từ hồ sơ Vidhya phân tích của tôi.

Bạn có thể tìm thấy tôi trên LinkedIn, Twitter trong trường hợp bạn muốn kết nối.Tôi sẽ rất vui khi được kết nối với bạn.

Để trao đổi suy nghĩ ngay lập tức, xin vui lòng viết thư cho tôi tại [Email & NBSP; được bảo vệ].[email protected].

Các phương tiện truyền thông được hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định của tác giả.