Hướng dẫn what is bytestring in python? - bytestring trong python là gì?

Giới thiệu

Trong bài viết này, chúng ta sẽ xem xét cách chuyển đổi byte thành một chuỗi trong Python. Đến cuối bài viết này, bạn sẽ có một ý tưởng rõ ràng về những loại này là gì và làm thế nào để xử lý dữ liệu một cách hiệu quả bằng cách sử dụng chúng.

Tùy thuộc vào phiên bản Python bạn đang sử dụng, nhiệm vụ này sẽ khác nhau. Mặc dù Python 2 đã kết thúc cuộc đời, nhiều dự án vẫn sử dụng nó, vì vậy chúng tôi sẽ bao gồm cả hai phương pháp Python 2 và Python 3.

Chuyển đổi byte thành chuỗi trong Python 3

Kể từ Python 3, cách làm ascii cũ phải đi, và Python trở nên hoàn toàn đơn giản.

Điều này có nghĩa là chúng tôi đã mất loại unicode rõ ràng:

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
2 - Mỗi chuỗi là
>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
2!

Để phân biệt các chuỗi này với các bytests cũ tốt, chúng tôi được giới thiệu với một nhà xác định mới cho chúng -

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
4.

Điều này đã được thêm vào Python 2.6, nhưng nó không phục vụ mục đích thực sự nào ngoài việc chuẩn bị cho Python 3 vì tất cả các chuỗi đều là bytestrings trong 2.6.

Bytestrings trong Python 3 chính thức được gọi là

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
5, một chuỗi số nguyên bất biến trong phạm vi 0

Chuyển đổi byte thành chuỗi bằng giải mã ()

Chúng ta hãy xem cách chúng ta có thể chuyển đổi byte thành một chuỗi, sử dụng phương thức

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
9 tích hợp cho lớp
>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
5:

>>> b = b"Lets grab a \xf0\x9f\x8d\x95!"
# Let's check the type
>>> type(b)
<class 'bytes'>

# Now, let's decode/convert them into a string
>>> s = b.decode('UTF-8')
>>> s
"Let's grab a 🍕!"

Chuyển định dạng mã hóa, chúng tôi đã giải mã đối tượng

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
5 thành một chuỗi và in nó.

Chuyển đổi byte thành chuỗi với codecs

Ngoài ra, chúng tôi cũng có thể sử dụng mô-đun

>>> codecs.decode(b)
"Let's grab a 🍕!"
2 tích hợp cho mục đích này:

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"

Tuy nhiên, bạn không thực sự cần phải vượt qua tham số mã hóa

>>> codecs.decode(b)
"Let's grab a 🍕!"

Chuyển đổi byte thành chuỗi bằng str ()

Cuối cùng, bạn có thể sử dụng hàm

>>> codecs.decode(b)
"Let's grab a 🍕!"
3, chấp nhận các giá trị khác nhau và chuyển đổi chúng thành các chuỗi:

>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'
>>> str(b, 'UTF-8')
"Let's grab a 🍕!"

Đảm bảo cung cấp đối số mã hóa cho

>>> codecs.decode(b)
"Let's grab a 🍕!"
3, nếu không, bạn có thể nhận được một số kết quả bất ngờ:

>>> str(b)
b'Lets grab a \xf0\x9f\x8d\x95!'

Điều này đưa chúng ta đến mã hóa một lần nữa. Nếu bạn chỉ định mã hóa sai, trường hợp tốt nhất là chương trình của bạn bị sập vì nó không thể giải mã dữ liệu. Ví dụ: nếu chúng tôi đã thử sử dụng chức năng

>>> codecs.decode(b)
"Let's grab a 🍕!"
3 với
>>> codecs.decode(b)
"Let's grab a 🍕!"
6, chúng tôi sẽ được chào đón:

>>> str(b, 'UTF-16')
'敌❴\u2073牧扡愠\uf020趟↕'

Điều này thậm chí còn quan trọng hơn khi Python 3 thích giả định Unicode - vì vậy nếu bạn đang làm việc với các tệp hoặc nguồn dữ liệu sử dụng mã hóa tối nghĩa, hãy đảm bảo chú ý thêm.

Chuyển đổi byte thành chuỗi trong Python 2

Trong Python 2, một bó byte và một chuỗi thực tế là cùng một thứ - các chuỗi là các đối tượng bao gồm các ký tự dài 1 byte, có nghĩa là mỗi ký tự có thể lưu trữ 256 giá trị. Đó là lý do tại sao chúng đôi khi được gọi là bytestrings.bytestrings.

Điều này thật tuyệt khi làm việc với dữ liệu byte - chúng tôi chỉ tải nó vào một biến và chúng tôi đã sẵn sàng để in:

>>> s = "Hello world!"

>>> s
'Hello world!'

>>> len(s)
12

Sử dụng các ký tự unicode trong bytestrings không thay đổi hành vi này một chút: mặc dù:

>>> s = "Let's grab a 🍕!"

>>> s
'Lets grab a \xf0\x9f\x8d\x95!'
# Where has the pizza gone to?

>>> len(s)
17
# Shouldn't that be 15?

Chuyển đổi byte thành unicode (Python 2)

Ở đây, chúng ta sẽ phải sử dụng loại

>>> codecs.decode(b)
"Let's grab a 🍕!"
7 của Python 2, được giả định và tự động sử dụng trong Python 3. Điều này lưu trữ các chuỗi dưới dạng một loạt các điểm mã, thay vì byte.

>>> codecs.decode(b)
"Let's grab a 🍕!"
8 đại diện cho các byte là số HEX hai chữ số như Python không biết cách đại diện cho chúng dưới dạng các ký tự ASCII:

>>> u = u"Let's grab a 🍕!"
u"Let's grab a \U0001f355!""

>>> u
"Let's grab a 🍕!"
# Yum.

>>> len(u)
15

Như bạn có thể thấy ở trên, chuỗi Unicode chứa

>>> codecs.decode(b)
"Let's grab a 🍕!"
9 - một ký tự thoát ra Unicode mà thiết bị đầu cuối của chúng tôi bây giờ biết cách in ra như một lát bánh pizza! Cài đặt điều này dễ dàng như sử dụng bộ xác định
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'
>>> str(b, 'UTF-8')
"Let's grab a 🍕!"
0 trước giá trị của bytestring.

Vì vậy, làm thế nào để tôi chuyển đổi giữa hai?

Kiểm tra hướng dẫn thực hành của chúng tôi, thực tế để học Git, với các thực hành tốt nhất, các tiêu chuẩn được công nghiệp chấp nhận và bao gồm bảng gian lận. Ngừng các lệnh git googling và thực sự tìm hiểu nó!

Bạn có thể nhận được chuỗi unicode bằng cách giải mã bytestring của bạn. Điều này có thể được thực hiện bằng cách xây dựng một đối tượng Unicode, cung cấp bytestring và một chuỗi chứa tên mã hóa dưới dạng đối số hoặc bằng cách gọi

>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'
>>> str(b, 'UTF-8')
"Let's grab a 🍕!"
1 trên một bytestring.

Chuyển đổi byte thành chuỗi bằng Decode () (Python 2)

Bạn cũng có thể sử dụng

>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'
>>> str(b, 'UTF-8')
"Let's grab a 🍕!"
2 từ mô -đun
>>> codecs.decode(b)
"Let's grab a 🍕!"
2.

>>> s = "Let's grab a \xf0\x9f\x8d\x95!"
>>> u = unicode(s, 'UTF-8')

>>> u
"Let's grab a 🍕!"

>>> s.decode('UTF-8')
"Let's grab a 🍕!"

Chuyển đổi byte thành chuỗi bằng cách sử dụng codecs (Python 2)

Hoặc, sử dụng mô -đun

>>> codecs.decode(b)
"Let's grab a 🍕!"
2:

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
0

Hãy chú ý đến mã hóa của bạn

Một lời cảnh báo ở đây - byte có thể được giải thích khác nhau trong các mã hóa khác nhau. Với khoảng 80 mã hóa khác nhau có sẵn ngoài hộp, có thể không dễ để biết nếu bạn có đúng!80 different encodings available out of the box, it might not be easy to know if you've got the right one!

>>> import codecs
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'

>>> codecs.decode(b, 'UTF-8')
"Let's grab a 🍕!"
1

Thông báo ban đầu là

>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'
>>> str(b, 'UTF-8')
"Let's grab a 🍕!"
5 hoặc
>>> b = b'Lets grab a \xf0\x9f\x8d\x95!'
>>> str(b, 'UTF-8')
"Let's grab a 🍕!"
6 và cả hai dường như là chuyển đổi hợp lệ.

Sự kết luận

Là lập trình viên, có một số điều chúng ta phải liên tục nghĩ đến và tích cực chuẩn bị để tránh những cạm bẫy. Điều này đặc biệt đúng ở cấp độ thấp hơn, nơi chúng ta hiếm khi đi khi chúng ta sử dụng một ngôn ngữ cấp cao như Python làm trình điều khiển hàng ngày của chúng ta.

Những thứ như ký tự, mã hóa và nhị phân ở đó để nhắc nhở chúng ta rằng công việc của chúng ta là mã hóa - mã hóa suy nghĩ của chúng ta thành các giải pháp làm việc. Rất may, rất nhiều suy nghĩ này trở thành một phần của thói quen của chúng tôi sau một vài vòng tại bàn phím.code - to encode our thoughts into working solutions. Thankfully, a lot of this thinking becomes part of our routine after a few rounds at the keyboard.

Trong bài viết này, chúng tôi đã đi qua cách chuyển đổi byte thành chuỗi trong Python.

Các đối tượng byte trong Python là gì?

Đối tượng byte là một trong những loại tích hợp cốt lõi để thao tác dữ liệu nhị phân. Đối tượng byte là một chuỗi bất biến của các giá trị byte đơn. Mỗi phần tử trong một đối tượng byte là một số nguyên nhỏ trong phạm vi từ 0 đến 255.one of the core built-in types for manipulating binary data. A bytes object is an immutable sequence of single byte values. Each element in a bytes object is a small integer in the range of 0 to 255.

Tại sao chúng ta sử dụng byte trong Python?

Sự định nghĩa.Hàm python byte () được sử dụng để chuyển đổi một đối tượng thành đối tượng byte bất biến (không thể sửa đổi) của kích thước và dữ liệu đã cho.Hàm python byte () trả về đối tượng của một byte, đây là một chuỗi số nguyên số nguyên từ 0 đến 256.to convert an object to an immutable (cannot be modified) byte object of the given size and data. The Python bytes() function returns a byte's object, which is an immutable series of integer numbers ranging from 0 to 256.

Sự khác biệt giữa mảng byte và chuỗi là gì?

Các đối tượng byte là chuỗi byte, trong khi các chuỗi là chuỗi các ký tự.Các đối tượng byte ở dạng máy có thể đọc được nội bộ, các chuỗi chỉ ở dạng người có thể đọc được.Vì các đối tượng byte có thể đọc được máy, chúng có thể được lưu trữ trực tiếp trên đĩa.. Byte objects are in machine readable form internally, Strings are only in human readable form. Since Byte objects are machine readable, they can be directly stored on the disk.

Sự khác biệt giữa byte và bytearray là gì?

Sự khác biệt giữa byte () và bytearray () là byte () trả về một đối tượng không thể sửa đổi và bytearray () trả về một đối tượng có thể được sửa đổi.bytes() returns an object that cannot be modified, and bytearray() returns an object that can be modified.