Hướng dẫn parsing binary data in python - phân tích cú pháp dữ liệu nhị phân trong python

Sử dụng mô -đun struct, nó cũng sẽ cho phép bạn giải thích dữ liệu nhị phân theo nhiều cách; Bạn cần xác định các loại trong định dạng chuỗi được ghi lại với thư viện đó:

struct.unpack['=HHf255s', bytes]

Ví dụ trên mong đợi thứ tự byte gốc, hai quần short không dấu, một chiếc phao và một chuỗi gồm 255 ký tự.

Ví dụ về mã của bạn trở thành:

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

Trong trường hợp bạn gặp lỗi

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

Nhưng có lẽ trường hợp chuỗi byte 8/16 của bạn là số nguyên dài? Trong trường hợp đó, sử dụng định dạng thích hợp cho cấu trúc.

Chỉnh sửa: Hóa ra bạn muốn đọc 8 bit [không phải byte], sau đó là 16 bit tiếp theo, sau đó là 8 bit tiếp theo, vì vậy bạn có thể đọc nó dưới dạng một [không dấu?] Chuỗi định dạng bạn nên sử dụng là

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

3 [hoặc

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

4 cho không dấu]. Thí dụ:bits [not bytes], then the next 16 bits, then the next 8 bits, so you can read it as one [unsigned?] byte, one short, and another byte. The format string you should use is

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

3 [or

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

4 for unsigned]. Example:

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

Mô -đun struct cung cấp các hàm cho các trường phân tích các byte thành một bộ các đối tượng python và để thực hiện chuyển đổi ngược lại, từ một tuple thành byte đóng gói. struct có thể được sử dụng với các đối tượng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

8 và

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

Mô -đun struct rất mạnh mẽ và thuận tiện, nhưng trước khi sử dụng nó, bạn nên nghiêm túc xem xét các lựa chọn thay thế, do đó, phần ngắn đầu tiên trong bài đăng này.

Contents:

Chúng ta có nên sử dụng struct không?
Cấu trúc 101
Các cấu trúc và chế độ xem bộ nhớ

Chúng ta có nên sử dụng `struct` không?

Cấu trúc 101

Các cấu trúc và chế độ xem bộ nhớ

Hồ sơ nhị phân độc quyền trong thế giới thực là giòn và có thể bị hỏng dễ dàng. Ví dụ siêu đơn giản trong struct 101 sẽ phơi bày một trong nhiều cảnh báo: trường chuỗi chỉ có thể bị giới hạn bởi kích thước của nó trong byte, nó có thể được đệm bởi không gian hoặc nó có thể chứa một chuỗi kết thúc không kích thước nhất định. Ngoài ra còn có vấn đề về tính endian: thứ tự của các byte được sử dụng để đại diện cho số nguyên và phao, phụ thuộc vào kiến trúc CPU.

Nếu bạn cần đọc hoặc viết từ định dạng nhị phân hiện có, tôi khuyên bạn nên cố gắng tìm một thư viện sẵn sàng sử dụng thay vì cuộn giải pháp của riêng bạn.

Cấu trúc 101

Các cấu trúc và chế độ xem bộ nhớ

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

Nếu bạn cần trao đổi dữ liệu nhị phân giữa các hệ thống Python trong công ty, mô-đun Pickle là cách dễ nhất, nhưng hãy cẩn thận rằng các phiên bản khác nhau của Python sử dụng các định dạng nhị phân khác nhau theo mặc định và đọc Pickle có thể chạy mã tùy ý, vì vậy nó không an toàn cho sử dụng bên ngoài.

>>> from struct import unpack, calcsize
>>> FORMAT = 'i12s2sf'
>>> size = calcsize[FORMAT]
>>> data = open['metro_areas.bin', 'rb'].read[size]
>>> data
b"\xe2\x07\x00\x00Tokyo\x00\xc5\x05\x01\x00\x00\x00JP\x00\x00\x11X'L"
>>> unpack[FORMAT, data]
[2018, b'Tokyo\x00\xc5\x05\x01\x00\x00\x00', b'JP', 43868228.0]

Nếu trao đổi liên quan đến các chương trình bằng các ngôn ngữ khác, hãy sử dụng JSON hoặc định dạng tuần tự nhị phân đa nền tảng như bộ đệm thông báo hoặc giao thức.

Giả sử bạn cần đọc một tệp nhị phân chứa dữ liệu về các khu vực đô thị, được tạo bởi một chương trình trong C với bản ghi được xác định là ví dụ 1

Ví dụ 1. Metroarea: Một cấu trúc trong ngôn ngữ C.Dưới đây là cách đọc một bản ghi ở định dạng đó, sử dụng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

3:Ví dụ 2. Đọc cấu trúc C trong bảng điều khiển Python.Lưu ý cách

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

4 trả về một tuple với bốn trường, như được chỉ định bởi chuỗi

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

5. Các chữ cái và số trong

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

5 là các ký tự định dạng được mô tả trong tài liệu mô -đun struct.Bảng 1 giải thích các phần tử của chuỗi định dạng từ Ví dụ 2. Bảng 1. Các phần của chuỗi định dạng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', bytes[each_word, 'utf-8']]

phần

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

kích thước

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

Loại c

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

Loại Python

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

giới hạn nội dung thực tế

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

4 byte

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

phần

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

import struct
with open['test.bin','rb'] as f:
    var1, var2, var3 = struct.unpack['=BHB', f.read[4]]
    print[var1, var2, var3]

kích thước

Loại c

Loại Python

$ python3 metro_read.py
2018    Tokyo, JP       43,868,228
2015    Shanghai, CN    38,700,000
2015    Jakarta, ID     31,689,592

giới hạn nội dung thực tế

Ví dụ 3. Metro_read.py: Liệt kê tất cả các bản ghi từ

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

from struct import iter_unpack

FORMAT = 'i12s2sf'                             # [1]

def text[field: bytes] -> str:                 # [2]
    octets = field.split[b'\0', 1][0]          # [3]
    return octets.decode['cp437']              # [4]

with open['metro_areas.bin', 'rb'] as fp:      # [5]
    data = fp.read[]

for fields in iter_unpack[FORMAT, data]:       # [6]
    year, name, country, pop = fields
    place = text[name] + ', ' + text[country]  # [7]
    print[f'{year}\t{place}\t{pop:,.0f}']

Định dạng struct.
Chức năng tiện ích để giải mã và làm sạch các trường
```
for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]
```
1; Trả về A ________ 12. [2]
Xử lý chuỗi C chấm dứt NULL: Chia một lần trên
```
struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};
```
6, sau đó lấy phần đầu tiên.

Giải mã

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

1 thành

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

Mở và đọc toàn bộ tệp ở chế độ nhị phân;

>>> from struct import unpack, calcsize
>>> FORMAT = 'i12s2sf'
>>> size = calcsize[FORMAT]
>>> data = open['metro_areas.bin', 'rb'].read[size]
>>> data
b"\xe2\x07\x00\x00Tokyo\x00\xc5\x05\x01\x00\x00\x00JP\x00\x00\x11X'L"
>>> unpack[FORMAT, data]
[2018, b'Tokyo\x00\xc5\x05\x01\x00\x00\x00', b'JP', 43868228.0]

7 là một đối tượng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

>>> from struct import unpack, calcsize
>>> FORMAT = 'i12s2sf'
>>> size = calcsize[FORMAT]
>>> data = open['metro_areas.bin', 'rb'].read[size]
>>> data
b"\xe2\x07\x00\x00Tokyo\x00\xc5\x05\x01\x00\x00\x00JP\x00\x00\x11X'L"
>>> unpack[FORMAT, data]
[2018, b'Tokyo\x00\xc5\x05\x01\x00\x00\x00', b'JP', 43868228.0]

9 Trả về một trình tạo tạo một bộ trường cho mỗi chuỗi byte khớp với chuỗi định dạng.

Các trường

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

2 và

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

3 cần xử lý thêm theo hàm

$ python3 metro_read.py
2018    Tokyo, JP       43,868,228
2015    Shanghai, CN    38,700,000
2015    Jakarta, ID     31,689,592

Mô-đun struct không cung cấp cách nào để chỉ định các trường chuỗi chấm dứt null. Khi xử lý một trường như

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

2 trong ví dụ trên, sau khi giải nén, chúng tôi cần kiểm tra các byte được trả về để loại bỏ

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

6 đầu tiên và tất cả các byte sau khi nó trong trường đó. Hoàn toàn có thể là byte sau

struct MetroArea {
    int year;
    char name[12];
    char country[2];
    float population;
};

6 đầu tiên và cho đến cuối trường là rác. Bạn thực sự có thể thấy điều đó trong ví dụ 2.

Chế độ xem bộ nhớ có thể giúp thử nghiệm và gỡ lỗi các chương trình dễ dàng hơn bằng cách sử dụng struct, như phần tiếp theo giải thích.

Các cấu trúc và chế độ xem bộ nhớ

Loại Python từ

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

9 không cho phép bạn tạo hoặc lưu trữ các chuỗi byte. Thay vào đó, nó cung cấp quyền truy cập bộ nhớ được chia sẻ cho các lát dữ liệu từ các chuỗi nhị phân khác, các mảng được đóng gói và các bộ đệm như hình ảnh Thư viện hình ảnh Python [PIL], [3] mà không sao chép byte.

Ví dụ 4 cho thấy việc sử dụng

for each_word in logData:
    var1, var2, var3 = struct.unpack['8s16s8s', each_word]

9 và struct cùng nhau để trích xuất chiều rộng và chiều cao của hình ảnh GIF.

Ví dụ 4. Sử dụng MemoryView và Struct để kiểm tra tiêu đề hình ảnh GIF

>>> import struct
>>> fmt = '


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Hướng dẫn which is used to insert a row in a table in html? - cái nào được sử dụng để chèn một hàng trong bảng trong html?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you code the area of a square in python? - làm thế nào để bạn mã diện tích của một hình vuông trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do u turn off javascript? - làm cách nào để bạn tắt javascript?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn mongodb compass là gì

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn is spyder a good ide for python? - spyder có phải là một lý tưởng tốt cho python?

		
	

		
		
		   
		   
		   
		
		
			Hack cf 2023 full chức năng mới nhất

		
	

		
		
		   
		   
		   
		
		
			Yêu miêu truyện 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn check string is float python - chuỗi kiểm tra là float python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn lowest precedence operator in python - toán tử ưu tiên thấp nhất trong python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn filter data between two dates in php - lọc dữ liệu giữa hai ngày trong php

		
	

		
		
		   
		   
		   
		
		
			Tử vi tuổi Sửu 1985 nữ mạng 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn is a python function can return only a single value? - là một hàm python chỉ có thể trả về một giá trị duy nhất?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn which php function is used to make a user logged out from a website? - chức năng php nào được sử dụng để làm cho người dùng đăng xuất khỏi một trang web?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python max heap for string - đống tối đa python cho chuỗi

		
	

		
		
		   
		   
		   
		
		
			Click thái 150i 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn inline css - css nội tuyến

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how to link css file in php - cách liên kết tệp css trong php

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you print an array of strings in python? - làm thế nào để bạn in một mảng chuỗi trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn flip function python - Python chức năng lật

		
	

		
		
		   
		   
		   
		
		
			Mức tiêu hao nhiên liệu air blade 2023

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 9 tập bản đồ lớp 8 bài 31 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 6 kết quả thi hsg đà nẵng 2022 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 9 tủ nhựa đài loan 4 cánh 3d 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 9 chất khí có thể làm mất màu dung dịch nước brom là: a. so2. b. co2. c. o2. d. hcl. 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 8 tìm việc làm tiện, phay bảo q7 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 3 tôi xuyên thành tiểu kiều the của lão đại phản 2 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 9 đổi mới phong cách, thái độ phục vụ của cán bộ y tế hướng tới sự hài lòng của người bệnh 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 2 bài the dục phát triển chung lớp 6 2022 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 3 bài giảng vũ điệu sắc màu (lớp 4) 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Ngày 14 3 là ngày gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập cấu hình electron nguyên tử khó năm 2024

		
	

		
		
		   
		   
		   
		
		
			Nghiệp vụ tín dụng ngân hàng là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lý luận mác lênin có phải đã lỗi thời năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi không cài dat dirve may in sp7000 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi font chữ trong tiêu đề thư trong outlook 2007 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi trùng chưng minh thư của người phụ thuộc năm 2024

		
	

		
		
		   
		   
		   
		
		
			Viết một đoạn văn tả cây bóng mát năm 2024

		
	

		
		
		   
		   
		   
		
		
			Top 10 headhunt tuyen dung bat dong san hieu qua năm 2024

		
	

		
		
		   
		   
		   
		
		
			Kèo ft châu á 1x2 là gì năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Toplist
		  Là gì
		  Mẹo Hay
		  Địa Điểm Hay
		  Học Tốt
		  mẹo hay
		  Công Nghệ
		  Nghĩa của từ
		  Bao nhiêu
		  Khỏe Đẹp
		  đánh giá
		  Top List
		  bao nhieu
		  bao nhiêu
		  hướng dẫn
		  Xây Đựng
		  So Sánh
		  Bài tập
		  So sánh
		  Tiếng anh
		  Sản phẩm tốt
		  Ngôn ngữ
		  Bài Tập
		  javascript
		  Ở đâu
		  Thế nào
		  Hướng dẫn
		  Dịch 
		  Máy tính
		  Tại sao
		  Đại học
		  Món Ngon
		  Khoa Học

Chúng ta có nên sử dụng struct không?

Cấu trúc 101

Các cấu trúc và chế độ xem bộ nhớ

Bài Viết Liên Quan

Toplist mới

Bài mới nhất

Chủ Đề

Chúng ta có nên sử dụng `struct` không?