Với sự trợ giúp của mô-đun
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]8, chúng tôi có thể trích xuất mã thông báo từ chuỗi bằng cách sử dụng biểu thức chính quy với phương thức
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]9
def __init__[ self, pattern, gap=False, discard_empty=True, flags=re. UNICODE. lại. ĐA DẠNG. lại. CHẤM, ]. # Nếu họ đưa cho chúng ta một đối tượng biểu thức chính quy, hãy trích xuất mẫu. mẫu = getattr[mẫu, "mẫu", mẫu] tự. _pattern = mẫu tự. _gaps = bản thân khoảng trống. _discard_empty = discard_empty tự. _flags = cờ tự. _regexp = Không có
def _check_regexp[tự]. nếu tự. _regexp là Không có. bản thân. _regrec = lại. biên dịch [tự. _mô hình, bản thân. _flags]def tokenize[bản thân, văn bản]. bản thân. _check_regexp[] # Nếu biểu thức chính quy của chúng tôi khớp với các khoảng trống, hãy sử dụng lại. tách ra. nếu tự. _khoảng trống. nếu tự. _discard_empty. trả lại [tok cho tok trong chính nó. _regrec. tách [văn bản] nếu tok] khác. tự trở về. _regrec. split[text] # Nếu biểu thức chính quy của chúng tôi khớp với mã thông báo, hãy sử dụng lại. tìm tất cả. khác. tự trở về. _regrec. tìm tất cả [văn bản]
def span_tokenize[bản thân, văn bản]. bản thân. _check_regexp[] nếu tự. _khoảng trống. cho trái, phải trong regexp_span_tokenize[text, self. _regrec]. nếu không [tự. _discard_empty và trái == phải]. nhường trái, phải khác. cho tôi ở lại. công cụ tìm kiếm [tự. _regexp, văn bản]. năng suất m. nhịp[]
def __repr__[tự]. trả về "{}[mẫu={. r}, khoảng trống = {. r}, discard_empty={. r}, cờ = {. r}]". định dạng [tự. __lớp__. __tên__, bản thân. _mô hình, bản thân. _gap, tự. _discard_empty, tự. _flags, ]lớp WhitespaceTokenizer [RegexpTokenizer]. r""" Mã hóa một chuỗi trên khoảng trắng [dấu cách, tab, dòng mới]. Nói chung, người dùng nên sử dụng phương thức chuỗi ``split[]`` để thay thế. >>> từ nltk. tokenize import WhitespaceTokenizer >>> s = "Bánh nướng xốp ngon có giá $3. 88\ở New York. Vui lòng mua cho tôi\nhai cái. \n\nCảm ơn. " >>> WhitespaceTokenizer[]. tokenize[s] # doctest. +NORMALIZE_WHITESPACE ['Tốt', 'bánh nướng xốp', 'giá', '3 đô la. 88', 'trong', 'Mới', 'York. ', 'Làm ơn', 'mua', 'tôi', 'hai', 'của', 'họ. ', 'Cảm ơn. '] """
def __init__[bản thân]. RegexpTokenizer. __init__[self, r"\s+", gap=True]
lớp BlanklineTokenizer [RegexpTokenizer]. """ Mã hóa một chuỗi, coi bất kỳ chuỗi dòng trống nào là dấu phân cách. Các dòng trống được định nghĩa là các dòng không chứa ký tự nào, ngoại trừ ký tự khoảng trắng hoặc tab. """
def __init__[bản thân]. RegexpTokenizer. __init__[self, r"\s*\n\s*\n\s*", gap=True]
lớp WordPunctTokenizer [RegexpTokenizer]. r""" Mã hóa một văn bản thành một chuỗi các ký tự chữ cái và không phải chữ cái, sử dụng biểu thức chính quy ``\w+. [^\w\s]+``. >>> từ nltk. tokenize nhập WordPunctTokenizer >>> s = "Bánh nướng xốp ngon có giá $3. 88\ở New York. Vui lòng mua cho tôi\nhai cái. \n\nCảm ơn. " >>> WordPunctTokenizer[]. tokenize[s] # doctest. +NORMALIZE_WHITESPACE ['Tốt', 'bánh nướng xốp', 'giá', '$', '3', '. ', '88', 'trong', 'Mới', 'York', '. ', 'Làm ơn', 'mua', 'tôi', 'hai', 'của', 'họ', '. ', 'Cảm ơn', '. '] """
def __init__[bản thân]. RegexpTokenizer. __init__[tự, r"\w+. [^\w\s]+"]
#################################################def regexp_tokenize[ văn bản, mẫu, gap=False, discard_empty=True, flags=re. UNICODE. lại. ĐA DẠNG. lại. CHẤM, ]. """ Trả lại bản sao được mã hóa của *văn bản*. Nhìn thấy. lớp. `. RegexpTokenizer` để biết mô tả về các đối số. """ tokenizer = RegexpTokenizer[pattern, gaps, discard_empty, flags] trả về tokenizer. mã hóa [văn bản]
Bây giờ bạn sẽ có cơ hội viết một số biểu thức chính quy để khớp các chữ số, chuỗi và ký tự không phải chữ và số. Trước tiên, hãy xem
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"6 bằng cách in nó trong IPython Shell, để xác định cách bạn có thể kết hợp tốt nhất các bước khác nhau
Ghi chú. Điều quan trọng là thêm tiền tố vào các mẫu biểu thức chính quy của bạn bằng
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"7 để đảm bảo rằng các mẫu của bạn được diễn giải theo cách bạn muốn. Mặt khác, bạn có thể gặp phải các sự cố liên quan đến trình tự thoát trong chuỗi. Ví dụ:
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"8 trong Python được dùng để chỉ một dòng mới, nhưng nếu bạn sử dụng tiền tố
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"7 thì nó sẽ được hiểu là chuỗi thô
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"8 - tức là ký tự
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]1 theo sau là ký tự
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]2 - chứ không phải là một dòng mới
Hãy nhớ từ video rằng cú pháp cho thư viện regex là luôn chuyển mẫu trước, sau đó là chuỗi thứ hai
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']
Giới thiệu về token hóa
- Token hóa
- Biến một chuỗi hoặc tài liệu thành mã thông báo [khối nhỏ hơn]
- Một bước chuẩn bị văn bản cho NLP
- Nhiều lý thuyết và quy tắc khác nhau
- Bạn có thể tạo quy tắc của riêng mình bằng cách sử dụng các biểu thức thông thường
- Vài ví dụ
- Phá vỡ các từ hoặc câu
- Tách dấu câu
- Tách tất cả các thẻ bắt đầu bằng # trong một tweet
- Tại sao mã hóa?
- Dễ dàng hơn để ánh xạ một phần của bài phát biểu
- Nối các từ thông dụng
- Xóa mã thông báo không mong muốn
- Mã thông báo
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]
3 khácsentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]
4. mã hóa tài liệu thành câusentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]
5. mã hóa một chuỗi hoặc tài liệu dựa trên mẫu biểu thức chính quysentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]
6. lớp đặc biệt chỉ dành cho mã thông báo tweet, cho phép bạn tách các thẻ bắt đầu bằng #, đề cập và rất nhiều dấu chấm than
Mã hóa từ với NLTK
Tại đây, bạn sẽ sử dụng cảnh đầu tiên của Monty Python's Holy Grail, đã được tải sẵn dưới dạng
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]7
Công việc của bạn trong bài tập này là sử dụng
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]8 và
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]4 từ
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']0 để mã hóa cả từ và câu từ chuỗi Python - trong trường hợp này, cảnh đầu tiên của Chén Thánh của Monty Python
Ghi chú. Trước khi sử dụng NLTK, bạn phải cài đặt gói
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']1 cho tokenizer
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"9
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"0
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"1
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"2
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"30
Thêm regex với lại. Tìm kiếm[]
Trong bài tập này, bạn sẽ sử dụng
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']2 và
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']3 để tìm các mã thông báo cụ thể. Cả tìm kiếm và đối sánh đều mong đợi các mẫu biểu thức chính quy, tương tự như các mẫu bạn đã xác định trong bài tập trước. Bạn sẽ áp dụng các phương thức thư viện regex này cho cùng một văn bản Monty Python từ kho văn bản
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]3
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"31
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"32
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"33
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"34
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"35
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"36
Mã thông báo nâng cao với NLTK và regex
- Nhóm Regex sử dụng hoặc
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']
5- OR được biểu diễn bằng cách sử dụng
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']
5 - Bạn có thể xác định một nhóm bằng cách sử dụng
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']
7 - Bạn có thể xác định phạm vi ký tự rõ ràng bằng cách sử dụng
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']
8
- OR được biểu diễn bằng cách sử dụng
- Phạm vi và nhóm Regex
Chọn một mã thông báo
Cho chuỗi sau, mẫu nào dưới đây là mã thông báo tốt nhất?
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"37
Ngoài ra,
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]5 đã được nhập từ
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']0. Bạn có thể sử dụng
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"92 với
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"6 và một trong các mẫu làm đối số để tự mình thử nghiệm và xem đâu là mã thông báo tốt nhất
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"38
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"39
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"50
Regex với mã thông báo NLTK
Twitter là nguồn được sử dụng thường xuyên cho các tác vụ và văn bản NLP. Trong bài tập này, bạn sẽ xây dựng một mã thông báo phức tạp hơn cho các tweet có thẻ bắt đầu bằng # và đề cập bằng cách sử dụng nltk và regex. Lớp
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"94 cung cấp cho bạn một số phương thức và thuộc tính bổ sung để phân tích các tweet
Tại đây, bạn được cung cấp một số tweet mẫu để phân tích cú pháp bằng cách sử dụng cả
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]6 và
sentence_endings = r"[.?!]" # Split my_string on sentence endings and print the result print[re.split[sentence_endings, my_string]] # Find all capicalized words in my_string and print the result capitalized_words = r"[A-Z]\w+" print[re.findall[capitalized_words, my_string]] # Split my_string on spaces and print the result spaces = r"\s+" print[re.split[spaces, my_string]] # Find all digits in my_string and print the result digits = r"\d+" print[re.findall[digits, my_string]]5 từ mô-đun
["Let's write RegEx", " Won't that be fun", ' I sure think so', ' Can you find 4 sentences', ' Or perhaps, all 19 words', ''] ['Let', 'RegEx', 'Won', 'Can', 'Or'] ["Let's", 'write', 'RegEx!', "Won't", 'that', 'be', 'fun?', 'I', 'sure', 'think', 'so.', 'Can', 'you', 'find', '4', 'sentences?', 'Or', 'perhaps,', 'all', '19', 'words?'] ['4', '19']0
Không giống như cú pháp của thư viện regex, với
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"98 bạn chuyển mẫu làm đối số thứ hai
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"51
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"52
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"53
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"54
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"55
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"56
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"57
Mã thông báo không phải ascii
Trong bài tập này, bạn sẽ thực hành mã hóa nâng cao bằng cách mã hóa một số văn bản không dựa trên ascii. Bạn sẽ sử dụng tiếng Đức với biểu tượng cảm xúc
Tại đây, bạn có quyền truy cập vào một chuỗi có tên là
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"99, chuỗi này đã được in cho bạn trong Shell. Chú ý biểu tượng cảm xúc và các ký tự tiếng Đức
Phạm vi Unicode cho biểu tượng cảm xúc là
________ 200, ________ 201, ________ 202 và ________ 203
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"58
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"59
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"0
Biểu đồ độ dài từ với NLTK
thực hành biểu đồ
Hãy thử sử dụng các kỹ năng mới của bạn để tìm và lập biểu đồ số lượng từ trên mỗi dòng trong tập lệnh bằng matplotlib. Tập lệnh Chén Thánh được tải cho bạn và bạn cần sử dụng regex để tìm các từ trên mỗi dòng
Sử dụng hiểu danh sách ở đây sẽ tăng tốc độ tính toán của bạn. Ví dụ.
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"04 sẽ gọi một hàm tokenize trên mỗi dòng trong danh sách các dòng. Danh sách được chuyển đổi mới sẽ được lưu trong biến
my_string = "Let's write RegEx! Won't that be fun? I sure think so. Can you find 4 sentences? Or perhaps, all 19 words?"05