Hướng dẫn nghe python

Các khóa học miễn phí qua video:
Lập trình C Java C# SQL Server PHP HTML5-CSS3-JavaScript

Mục lục bài viết:

  • Cách hoạt động của tính năng Nhận dạng giọng nói - Tổng quan
  • Chọn gói nhận dạng giọng nói Python
  • Cài đặt SpeechRecognition
  • Lớp nhận dạng
  • Làm việc với tệp âm thanh
    • Các loại tệp được hỗ trợ
    • Sử dụng record [] để chụp dữ liệu từ tệp
    • Chụp phân đoạn với độ lệch và thời lượng
    • Ảnh hưởng của tiếng ồn đối với nhận dạng giọng nói
  • Làm việc với micrô
    • Cài đặt PyAudio
    • Lớp Micrô
    • Sử dụng nghe [] để chụp đầu vào micrô
    • Xử lý giọng nói không thể nhận dạng
  • Kết hợp tất cả lại với nhau: Trò chơi “Đoán từ”
  • Tóm tắt và bổ sung tài nguyên
  • Phụ lục: Nhận dạng giọng nói bằng các ngôn ngữ khác ngoài tiếng Anh

Bạn đã bao giờ tự hỏi làm thế nào để thêm nhận dạng giọng nói vào dự án Python của mình? Nếu vậy, sau đó tiếp tục đọc! Nó dễ dàng hơn bạn nghĩ.

Không còn là một thứ lỗi mốt, sự thành công vượt bậc của các sản phẩm hỗ trợ giọng nói như Amazon Alexa đã chứng minh rằng hỗ trợ giọng nói ở một mức độ nào đó sẽ là một khía cạnh thiết yếu của công nghệ gia dụng trong tương lai gần. Nếu bạn nghĩ về nó, lý do tại sao là khá rõ ràng. Việc kết hợp tính năng nhận dạng giọng nói vào ứng dụng Python của bạn mang lại mức độ tương tác và khả năng truy cập mà ít công nghệ nào có thể sánh kịp.

Chỉ riêng các cải tiến về khả năng tiếp cận cũng đáng được xem xét Nhận dạng giọng nói cho phép người già và người khiếm thị tương tác với các sản phẩm và dịch vụ hiện đại một cách nhanh chóng và tự nhiên — không cần GUI!

Hơn hết, bao gồm cả nhận dạng giọng nói trong một dự án Python thực sự đơn giản. Trong hướng dẫn này, bạn sẽ tìm hiểu cách thực hiện. Bạn sẽ học:

  • Cách thức hoạt động của tính năng nhận dạng giọng nói,
  • Những gói nào có sẵn trên PyPI; và
  • Cách cài đặt và sử dụng gói SpeechRecognition — thư viện nhận dạng giọng nói Python đầy đủ tính năng và dễ sử dụng.

Cuối cùng, bạn sẽ áp dụng những gì bạn đã học được vào trò chơi “Đoán từ” đơn giản và xem tất cả kết hợp với nhau như thế nào.

Cách hoạt động của tính năng Nhận dạng giọng nói - Tổng quan

Trước khi chúng ta đi đến thực tế của việc thực hiện nhận dạng giọng nói bằng Python, hãy dành một chút thời gian để nói về cách hoạt động của nhận dạng giọng nói. Một cuộc thảo luận đầy đủ sẽ lấp đầy một cuốn sách, vì vậy tôi sẽ không cung cấp cho bạn tất cả các chi tiết kỹ thuật ở đây. Trên thực tế, phần này không bắt buộc đối với phần còn lại của hướng dẫn. Nếu bạn muốn đi thẳng vào vấn đề, vui lòng bỏ qua.

Nhận dạng giọng nói bắt nguồn từ nghiên cứu được thực hiện tại Bell Labs vào đầu những năm 1950. Các hệ thống ban đầu chỉ giới hạn ở một người nói duy nhất và có lượng từ vựng giới hạn khoảng một chục từ. Các hệ thống nhận dạng giọng nói hiện đại đã có một chặng đường dài kể từ những hệ thống cổ xưa của chúng. Họ có thể nhận dạng bài phát biểu từ nhiều người nói và có vốn từ vựng khổng lồ bằng nhiều ngôn ngữ.

Tất nhiên, thành phần đầu tiên của nhận dạng giọng nói là giọng nói. Lời nói phải được chuyển đổi từ âm thanh vật lý sang tín hiệu điện bằng micrô, sau đó sang dữ liệu kỹ thuật số bằng bộ chuyển đổi tương tự sang kỹ thuật số. Sau khi được số hóa, một số mô hình có thể được sử dụng để chuyển âm thanh thành văn bản.

Hầu hết các hệ thống nhận dạng giọng nói hiện đại dựa trên cái được gọi là Mô hình Markov ẩn [HMM]. Cách tiếp cận này hoạt động dựa trên giả định rằng một tín hiệu giọng nói, khi được xem trên một khoảng thời gian đủ ngắn [ví dụ, mười mili giây], có thể gần đúng một cách hợp lý như một quá trình tĩnh — nghĩa là một quá trình trong đó các thuộc tính thống kê không thay đổi theo thời gian.

Trong HMM điển hình, tín hiệu lời nói được chia thành các đoạn dài 10 mili giây. Phổ công suất của mỗi đoạn, về cơ bản là một đồ thị công suất của tín hiệu như một hàm của tần số, được ánh xạ tới một vectơ của các số thực được gọi là hệ số cepstral . Thứ nguyên của vectơ này thường nhỏ — đôi khi thấp nhất là 10, mặc dù các hệ thống chính xác hơn có thể có thứ nguyên 32 trở lên. Đầu ra cuối cùng của HMM là một chuỗi các vectơ này.

Để giải mã lời nói thành văn bản, các nhóm vectơ được đối sánh với một hoặc nhiều âm vị —một đơn vị cơ bản của lời nói. Việc tính toán này đòi hỏi phải được đào tạo, vì âm thanh của một âm vị thay đổi từ người nói này sang người nói khác, và thậm chí thay đổi từ cách phát âm này sang cách phát âm khác của cùng một người nói. Một thuật toán đặc biệt sau đó được áp dụng để xác định từ [hoặc các từ] có nhiều khả năng nhất tạo ra chuỗi âm vị nhất định.

Người ta có thể tưởng tượng rằng toàn bộ quá trình này có thể tốn kém về mặt tính toán. Trong nhiều hệ thống nhận dạng giọng nói hiện đại, mạng nơ-ron được sử dụng để đơn giản hóa tín hiệu giọng nói bằng cách sử dụng các kỹ thuật chuyển đổi đặc trưng và giảm kích thước trước khi nhận dạng HMM. Bộ phát hiện hoạt động giọng nói [VAD] cũng được sử dụng để giảm tín hiệu âm thanh xuống chỉ những phần có khả năng chứa giọng nói. Điều này ngăn bộ nhận dạng mất thời gian phân tích các phần không cần thiết của tín hiệu.

May mắn thay, là một lập trình viên Python, bạn không phải lo lắng về bất kỳ điều gì trong số này. Một số dịch vụ nhận dạng giọng nói có sẵn để sử dụng trực tuyến thông qua API và nhiều dịch vụ trong số này cung cấp các SDK Python .

Chọn gói nhận dạng giọng nói Python

Có một số ít các gói để nhận dạng giọng nói trên PyPI. Một vài trong số chúng bao gồm:

  • apiai
  • assemblyai
  • google-cloud-speech
  • nhân sư bỏ túi
  • Nhận dạng giọng nói
  • watson-developer-cloud
  • mưu mẹo

Một số gói này — chẳng hạn như wit và apiai — cung cấp các tính năng tích hợp sẵn, như xử lý ngôn ngữ tự nhiên để xác định ý định của người nói, vượt ra ngoài nhận dạng giọng nói cơ bản. Những người khác, như google-cloud-speech, chỉ tập trung vào chuyển đổi giọng nói thành văn bản.

Có một gói nổi bật về tính dễ sử dụng: SpeechRecognition.

Nhận dạng giọng nói yêu cầu đầu vào âm thanh và SpeechRecognition giúp việc truy xuất đầu vào này thực sự dễ dàng. Thay vì phải xây dựng các tập lệnh để truy cập micrô và xử lý các tệp âm thanh từ đầu, SpeechRecognition sẽ giúp bạn thiết lập và chạy chỉ trong vài phút.

Thư viện SpeechRecognition hoạt động như một trình bao bọc cho một số API giọng nói phổ biến và do đó cực kỳ linh hoạt. Một trong số này — API Web Speech của Google — hỗ trợ khóa API mặc định được mã hóa cứng vào thư viện SpeechRecognition. Điều đó có nghĩa là bạn có thể xuống chân mà không cần phải đăng ký dịch vụ.

Tính linh hoạt và dễ sử dụng của gói SpeechRecognition khiến nó trở thành lựa chọn tuyệt vời cho bất kỳ dự án Python nào. Tuy nhiên, không đảm bảo hỗ trợ cho mọi tính năng của mỗi API mà nó kết thúc. Bạn sẽ cần dành một chút thời gian nghiên cứu các tùy chọn có sẵn để tìm hiểu xem liệu SpeechRecognition có hoạt động trong trường hợp cụ thể của bạn hay không.

Vì vậy, bây giờ bạn đã được thuyết phục rằng bạn nên thử SpeechRecognition, bước tiếp theo là cài đặt nó trong môi trường của bạn.

Cài đặt SpeechRecognition

SpeechRecognition tương thích với Python 2.6, 2.7 và 3.3+, nhưng yêu cầu một số bước cài đặt bổ sung cho Python 2 . Đối với hướng dẫn này, tôi sẽ giả sử bạn đang sử dụng Python 3.3+.

Bạn có thể cài đặt SpeechRecognition từ một thiết bị đầu cuối bằng pip:

$ pip install SpeechRecognition

Sau khi cài đặt, bạn nên xác minh cài đặt bằng cách mở phiên thông dịch và nhập:

>>>

>>> import speech_recognition as sr
>>> sr.__version__
'3.8.1'

Lưu ý: Số phiên bản bạn nhận được có thể khác nhau. Phiên bản 3.8.1 là phiên bản mới nhất tại thời điểm viết bài.

Hãy tiếp tục và giữ cho phiên này mở. Bạn sẽ bắt đầu làm việc với nó chỉ trong giây lát.

SpeechRecognition sẽ hoạt động hiệu quả nếu tất cả những gì bạn cần làm là hoạt động với các tệp âm thanh hiện có. Tuy nhiên, các trường hợp sử dụng cụ thể yêu cầu một số phụ thuộc. Đáng chú ý, gói PyAudio là cần thiết để thu đầu vào micrô.

Bạn sẽ thấy những phụ thuộc nào bạn cần khi đọc thêm. Bây giờ, hãy đi sâu vào và khám phá những điều cơ bản của gói.

các RecognizerLớp

Tất cả điều kỳ diệu trong SpeechRecognition xảy ra với Recognizerlớp học.

Tất nhiên, mục đích chính của một Recognizerphiên bản là nhận dạng giọng nói. Mỗi phiên bản đi kèm với nhiều cài đặt và chức năng khác nhau để nhận dạng giọng nói từ nguồn âm thanh.

Tạo một Recognizerphiên bản rất dễ dàng. Trong phiên thông dịch hiện tại của bạn, chỉ cần nhập:

>>>

>>> r = sr.Recognizer[]

Mỗi Recognizerphiên bản có bảy phương pháp để nhận dạng giọng nói từ nguồn âm thanh bằng cách sử dụng các API khác nhau. Đó là:

  • recognize_bing[]: Microsoft Bing Speech
  • recognize_google[]: API giọng nói trên web của Google
  • recognize_google_cloud[]: Google Cloud Speech - yêu cầu cài đặt gói google-cloud-speech
  • recognize_houndify[]: Houndify bởi SoundHound
  • recognize_ibm[]: IBM Speech to Text
  • recognize_sphinx[]: CMU Sphinx - yêu cầu cài đặt PocketSphinx
  • recognize_wit[]: Wit.ai

Trong số bảy, chỉ recognize_sphinx[]hoạt động ngoại tuyến với công cụ CMU Sphinx. Sáu cái còn lại đều yêu cầu kết nối internet.

Phần thảo luận đầy đủ về các tính năng và lợi ích của mỗi API nằm ngoài phạm vi của hướng dẫn này. Vì SpeechRecognition đi kèm với khóa API mặc định cho Google Web Speech API, bạn có thể bắt đầu với nó ngay lập tức. Vì lý do này, chúng tôi sẽ sử dụng API Web Speech trong hướng dẫn này. Sáu API khác đều yêu cầu xác thực bằng khóa API hoặc kết hợp tên người dùng / mật khẩu. Để biết thêm thông tin, hãy tham khảo tài liệu SpeechRecognition .

Thận trọng: Khóa mặc định do SpeechRecognition cung cấp chỉ dành cho mục đích thử nghiệm và Google có thể thu hồi khóa này bất kỳ lúc nào . Không phải là một ý kiến ​​hay khi sử dụng Google Web Speech API trong quá trình sản xuất. Ngay cả với một khóa API hợp lệ, bạn sẽ chỉ bị giới hạn ở 50 yêu cầu mỗi ngày và không có cách nào để tăng hạn ngạch này . May mắn thay, giao diện của SpeechRecognition gần như giống hệt nhau cho mỗi API, vì vậy những gì bạn học hôm nay sẽ dễ dàng chuyển sang một dự án trong thế giới thực.

Mỗi recognize_*[]phương thức sẽ đưa ra một speech_recognition.RequestErrorngoại lệ nếu không thể truy cập được API. Đối với recognize_sphinx[], điều này có thể xảy ra do cài đặt Sphinx bị thiếu, bị hỏng hoặc không tương thích. Đối với sáu phương pháp khác, RequestErrorcó thể bị ném nếu đáp ứng giới hạn hạn ngạch, máy chủ không khả dụng hoặc không có kết nối internet.

Ok, đủ trò chuyện. Hãy làm bẩn bàn tay của chúng ta. Hãy tiếp tục và cố gắng gọi recognize_google[]trong phiên thông dịch viên của bạn.

>>>

>>> r.recognize_google[]

Chuyện gì đã xảy ra?

Bạn có thể nhận được một cái gì đó giống như sau:

Traceback [most recent call last]:
  File "", line 1, in 
TypeError: recognize_google[] missing 1 required positional argument: 'audio_data'

Bạn có thể đoán điều này sẽ xảy ra. Làm thế nào có thể nhận ra thứ gì đó từ hư không

Tất cả bảy recognize_*[]phương thức của Recognizerlớp đều yêu cầu một audio_datađối số. Trong mỗi trường hợp, audio_dataphải là một phiên bản của AudioDatalớp SpeechRecognition .

Có hai cách để tạo AudioDataphiên bản: từ tệp âm thanh hoặc âm thanh được ghi bởi micrô. Các tệp âm thanh dễ bắt đầu hơn một chút, vì vậy trước tiên hãy xem xét nó.

Làm việc với tệp âm thanh

Trước khi tiếp tục, bạn cần tải xuống tệp âm thanh. Bạn có thể tìm thấy cái mà tôi đã sử dụng để bắt đầu, “harvard.wav” ở đây . Đảm bảo bạn lưu nó vào cùng một thư mục mà phiên thông dịch Python của bạn đang chạy.

SpeechRecognition giúp làm việc với các tệp âm thanh dễ dàng nhờ AudioFilelớp tiện dụng của nó . Lớp này có thể được khởi tạo bằng đường dẫn đến tệp âm thanh và cung cấp giao diện trình quản lý ngữ cảnh để đọc và làm việc với nội dung của tệp.

Các loại tệp được hỗ trợ

Hiện tại, SpeechRecognition hỗ trợ các định dạng tệp sau:

  • WAV: phải ở định dạng PCM / LPCM
  • AIFF
  • AIFF-C
  • FLAC: phải là định dạng FLAC gốc; OGG-FLAC không được hỗ trợ

Nếu bạn đang làm việc trên Linux, macOS hoặc Windows dựa trên x-86, bạn sẽ có thể làm việc với các tệp FLAC mà không gặp sự cố. Trên các nền tảng khác, bạn sẽ cần cài đặt bộ mã hóa FLAC và đảm bảo bạn có quyền truy cập vào flaccông cụ dòng lệnh. Bạn có thể tìm thêm thông tin ở đây nếu điều này áp dụng cho bạn.

Sử dụng record[]để chụp dữ liệu từ tệp

Nhập thông tin sau vào phiên thông dịch của bạn để xử lý nội dung của tệp “harvard.wav”:

>>>

>>> harvard = sr.AudioFile['harvard.wav']
>>> with harvard as source:
...    audio = r.record[source]
...

Trình quản lý ngữ cảnh mở tệp và đọc nội dung của nó, lưu trữ dữ liệu trong một AudioFilethể hiện được gọi là source.Sau đó, record[]phương thức ghi dữ liệu từ toàn bộ tệp vào một AudioDatathể hiện. Bạn có thể xác nhận điều này bằng cách kiểm tra loại audio:

>>>

>>> type[audio]

Bây giờ bạn có thể gọi recognize_google[]để cố gắng nhận dạng bất kỳ lời nói nào trong âm thanh. Tùy thuộc vào tốc độ kết nối internet của bạn, bạn có thể phải đợi vài giây trước khi xem kết quả.

>>>

>>> r.recognize_google[audio]
'the stale smell of old beer lingers it takes heat
to bring out the odor a cold dip restores health and
zest a salt pickle taste fine with ham tacos al
Pastore are my favorite a zestful food is the hot
cross bun'

Xin chúc mừng! Bạn vừa sao chép tệp âm thanh đầu tiên của mình!

Nếu bạn đang tự hỏi các cụm từ trong tệp “harvard.wav” đến từ đâu, chúng là ví dụ về Câu Harvard. Những cụm từ này đã được IEEE xuất bản vào năm 1965 để sử dụng trong kiểm tra độ rõ giọng nói của các đường dây điện thoại. Chúng vẫn được sử dụng trong VoIP và thử nghiệm di động ngày nay.

Harvard Sentences bao gồm 72 danh sách mười cụm từ. Bạn có thể tìm thấy các bản ghi âm có sẵn miễn phí của những cụm từ này trên trang web của Open Speech Repository . Bản ghi âm có sẵn bằng tiếng Anh, tiếng Quan Thoại, tiếng Pháp và tiếng Hindi. Họ cung cấp một nguồn tài liệu miễn phí tuyệt vời để kiểm tra mã của bạn.

Chụp phân đoạn với offsetduration

Điều gì sẽ xảy ra nếu bạn chỉ muốn ghi lại một phần của bài phát biểu trong một tệp tin? Các record[]phương pháp chấp nhận một durationlập luận từ khoá đó dừng ghi âm sau một số lần nhất định của giây.

Ví dụ: phần sau ghi lại bất kỳ bài phát biểu nào trong bốn giây đầu tiên của tệp:

>>>

>>> with harvard as source:
...     audio = r.record[source, duration=4]
...
>>> r.recognize_google[audio]
'the stale smell of old beer lingers'

Các record[]phương pháp, khi được sử dụng bên trong một withkhối, luôn luôn di chuyển về phía trước trong dòng tập tin. Điều này có nghĩa là nếu bạn ghi một lần trong bốn giây và sau đó ghi lại trong bốn giây, thì lần thứ hai trả về bốn giây âm thanh sau bốn giây đầu tiên.

>>>

>>> with harvard as source:
...     audio1 = r.record[source, duration=4]
...     audio2 = r.record[source, duration=4]
...
>>> r.recognize_google[audio1]
'the stale smell of old beer lingers'
>>> r.recognize_google[audio2]
'it takes heat to bring out the odor a cold dip'

Lưu ý rằng audio2có chứa một phần của cụm từ thứ ba trong tệp. Khi chỉ định thời lượng, bản ghi có thể dừng ở giữa cụm từ - hoặc thậm chí giữa từ - điều này có thể ảnh hưởng đến độ chính xác của bản phiên âm. Nhiều hơn về điều này trong một chút.

Ngoài việc chỉ định thời lượng ghi, record[]phương thức có thể được cung cấp một điểm bắt đầu cụ thể bằng cách sử dụng offsetđối số từ khóa. Giá trị này đại diện cho số giây từ đầu tệp cần bỏ qua trước khi bắt đầu ghi.

Để chỉ ghi lại cụm từ thứ hai trong tệp, bạn có thể bắt đầu với khoảng chênh lệch là bốn giây và ghi lại, chẳng hạn, ba giây.

>>>

>>> with harvard as source:
...     audio = r.record[source, offset=4, duration=3]
...
>>> r.recognize_google[audio]
'it takes heat to bring out the odor'

Các đối số offsetvà durationtừ khóa hữu ích cho việc phân đoạn tệp âm thanh nếu bạn có kiến ​​thức trước về cấu trúc của bài phát biểu trong tệp. Tuy nhiên, việc sử dụng chúng một cách vội vàng có thể dẫn đến việc phiên âm kém. Để xem hiệu ứng này, hãy thử các thao tác sau trong trình thông dịch của bạn:

>>>

>>> with harvard as source:
...     audio = r.record[source, offset=4.7, duration=2.8]
...
>>> r.recognize_google[audio]
'Mesquite to bring out the odor Aiko'

Khi bắt đầu ghi ở 4,7 giây, bạn bỏ lỡ phần “it t” ở đầu cụm từ “cần nhiệt để tạo ra mùi”, vì vậy API chỉ nhận được “akes heat”, nó khớp với “Mesquite. ”

Tương tự, ở cuối đoạn ghi âm, bạn bắt được “a co”, là phần mở đầu của cụm từ thứ ba “ngâm mình trong nước lạnh phục hồi sức khỏe và niềm say mê”. Điều này được đối sánh với “Aiko” bởi API.

Có một lý do khác khiến bạn có thể nhận được phiên âm không chính xác. Tiếng ồn! Các ví dụ trên hoạt động tốt vì tệp âm thanh khá sạch. Trong thế giới thực, trừ khi bạn có cơ hội xử lý các tệp âm thanh trước đó, bạn không thể mong đợi âm thanh không bị nhiễu.

Ảnh hưởng của tiếng ồn đối với nhận dạng giọng nói

Tiếng ồn là một thực tế của cuộc sống. Tất cả các bản ghi âm đều có tiếng ồn ở một mức độ nào đó và tiếng ồn không được xử lý có thể phá hỏng độ chính xác của các ứng dụng nhận dạng giọng nói.

Để biết tiếng ồn có thể ảnh hưởng đến nhận dạng giọng nói như thế nào, hãy tải xuống tệp “jackhammer.wav” tại đây . Như mọi khi, hãy đảm bảo rằng bạn lưu nó vào thư mục làm việc của phiên thông dịch viên của bạn.

Tệp này có cụm từ “mùi hôi của bia cũ còn sót lại” được nói với một chiếc búa khoan lớn ở phía sau.

Điều gì xảy ra khi bạn cố gắng phiên âm tệp này?

>>>

>>> jackhammer = sr.AudioFile['jackhammer.wav']
>>> with jackhammer as source:
...     audio = r.record[source]
...
>>> r.recognize_google[audio]
'the snail smell of old gear vendors'

Đường tắt!

Vì vậy, làm thế nào để bạn đối phó với điều này? Một điều bạn có thể thử là sử dụng adjust_for_ambient_noise[]phương thức của Recognizerlớp.

>>>

>>> with jackhammer as source:
...     r.adjust_for_ambient_noise[source]
...     audio = r.record[source]
...
>>> r.recognize_google[audio]
'still smell of old beer vendors'

Điều đó giúp bạn gần hơn một chút với cụm từ thực tế, nhưng nó vẫn chưa hoàn hảo. Ngoài ra, “the” bị thiếu ở đầu cụm từ. Tại sao vậy?

Các adjust_for_ambient_noise[]phương pháp đọc thứ hai đầu tiên của dòng tập tin và hiệu chỉnh bộ nhận dạng đến mức tiếng ồn của âm thanh. Do đó, phần đó của luồng được sử dụng trước khi bạn gọi record[]để thu thập dữ liệu.

Bạn có thể điều chỉnh khung thời gian adjust_for_ambient_noise[]sử dụng để phân tích với durationđối số từ khóa. Đối số này nhận một giá trị số tính bằng giây và được đặt thành 1 theo mặc định. Hãy thử giảm giá trị này xuống 0,5.

>>>

>>> with jackhammer as source:
...     r.adjust_for_ambient_noise[source, duration=0.5]
...     audio = r.record[source]
...
>>> r.recognize_google[audio]
'the snail smell like old Beer Mongers'

Chà, bạn có “the” ở đầu cụm từ, nhưng bây giờ bạn có một số vấn đề mới! Đôi khi không thể loại bỏ ảnh hưởng của nhiễu — tín hiệu quá ồn để được xử lý thành công. Đó là trường hợp của tệp này.

Nếu bạn thường xuyên gặp phải những vấn đề này, bạn có thể phải sử dụng đến một số xử lý trước âm thanh. Điều này có thể được thực hiện bằng phần mềm chỉnh sửa âm thanh hoặc gói Python [chẳng hạn như SciPy ] có thể áp dụng bộ lọc cho tệp. Phần thảo luận chi tiết về vấn đề này nằm ngoài phạm vi của hướng dẫn này — hãy xem cuốn sách Think DSP của Allen Downey nếu bạn quan tâm. Hiện tại, chỉ cần lưu ý rằng tiếng ồn xung quanh trong tệp âm thanh có thể gây ra sự cố và phải được giải quyết để tối đa hóa độ chính xác của nhận dạng giọng nói.

Khi làm việc với các tệp ồn ào, có thể hữu ích khi xem phản hồi API thực tế. Hầu hết các API trả về một chuỗi JSON chứa nhiều phiên âm có thể có. Các recognize_google[]phương pháp sẽ luôn trả lại rất có thể sao chép, trừ khi bạn buộc nó để cung cấp cho bạn những câu trả lời đầy đủ.

Bạn có thể làm điều này bằng cách đặt show_allđối số từ khóa của recognize_google[]phương pháp thànhTrue.

>>>

>>> r.recognize_google[audio, show_all=True]
{'alternative': [
  {'transcript': 'the snail smell like old Beer Mongers'}, 
  {'transcript': 'the still smell of old beer vendors'}, 
  {'transcript': 'the snail smell like old beer vendors'},
  {'transcript': 'the stale smell of old beer vendors'}, 
  {'transcript': 'the snail smell like old beermongers'}, 
  {'transcript': 'destihl smell of old beer vendors'}, 
  {'transcript': 'the still smell like old beer vendors'}, 
  {'transcript': 'bastille smell of old beer vendors'}, 
  {'transcript': 'the still smell like old beermongers'}, 
  {'transcript': 'the still smell of old beer venders'}, 
  {'transcript': 'the still smelling old beer vendors'}, 
  {'transcript': 'musty smell of old beer vendors'}, 
  {'transcript': 'the still smell of old beer vendor'}
], 'final': True}

Như bạn có thể thấy, recognize_google[]trả về một từ điển với khóa 'alternative'trỏ đến danh sách các bảng điểm có thể có. Cấu trúc của phản hồi này có thể khác nhau giữa các API và chủ yếu hữu ích cho việc gỡ lỗi.

Bây giờ, bạn đã có một ý tưởng khá tốt về những điều cơ bản của gói SpeechRecognition. Bạn đã thấy cách tạo một AudioFilephiên bản từ tệp âm thanh và sử dụng record[]phương pháp này để thu thập dữ liệu từ tệp. Bạn đã học cách ghi lại các phân đoạn của tệp bằng cách sử dụng các đối số offsetvà durationtừ khóa của record[], và bạn đã gặp phải ảnh hưởng bất lợi về độ chính xác của bản sao.

Bây giờ cho phần thú vị. Hãy chuyển từ phiên âm các tệp âm thanh tĩnh sang làm cho dự án của bạn trở nên tương tác bằng cách chấp nhận đầu vào từ micrô.

Làm việc với micrô

Để truy cập micrô của bạn bằng SpeechRecognizer, bạn sẽ phải cài đặt gói PyAudio . Hãy tiếp tục và đóng phiên thông dịch hiện tại của bạn, và hãy làm điều đó.

Cài đặt PyAudio

Quá trình cài đặt PyAudio sẽ khác nhau tùy thuộc vào hệ điều hành của bạn.

Debian Linux

Nếu bạn đang sử dụng Linux dựa trên Debian [như Ubuntu], bạn có thể cài đặt PyAudio với apt:

$ sudo apt-get install python-pyaudio python3-pyaudio

Sau khi cài đặt, bạn vẫn có thể cần chạy pip install pyaudio, đặc biệt nếu bạn đang làm việc trong môi trường ảo.

hệ điều hành Mac

Đối với macOS, trước tiên bạn cần cài đặt PortAudio với Homebrew, sau đó cài đặt PyAudio với pip:

$ brew install portaudio
$ pip install pyaudio

các cửa sổ

Trên Windows, bạn có thể cài đặt PyAudio với pip:

Kiểm tra cài đặt

Sau khi cài đặt xong PyAudio, bạn có thể kiểm tra cài đặt từ bảng điều khiển.

$ python -m speech_recognition

Đảm bảo rằng micrô mặc định của bạn được bật và tắt tiếng. Nếu quá trình cài đặt hoạt động, bạn sẽ thấy một cái gì đó như sau:

A moment of silence, please...
Set minimum energy threshold to 600.4452854381937
Say something!

 Hãy tiếp tục và thử nghiệm nó một chút bằng cách nói vào micrô của bạn và xem SpeechRecognition phiên âm bài phát biểu của bạn tốt như thế nào.

Lưu ý: Nếu bạn đang sử dụng Ubuntu và nhận được một số đầu ra thú vị như 'ALSA lib… PCM không xác định', hãy tham khảo trang này để biết các mẹo về cách chặn các thông báo này. Đầu ra này đến từ gói ALSA được cài đặt với Ubuntu — không phải SpeechRecognition hoặc PyAudio. Trên thực tế, những thông báo này có thể chỉ ra sự cố với cấu hình ALSA của bạn, nhưng theo kinh nghiệm của tôi, chúng không ảnh hưởng đến chức năng của mã của bạn. Chúng hầu hết là một mối phiền toái.

các MicrophoneLớp

Mở một phiên thông dịch khác và tạo một phiên bản của lớp trình nhận dạng.

>>>

>>> import speech_recognition as sr
>>> r = sr.Recognizer[]

Bây giờ, thay vì sử dụng tệp âm thanh làm nguồn, bạn sẽ sử dụng micrô hệ thống mặc định. Bạn có thể truy cập điều này bằng cách tạo một thể hiện của Microphonelớp.

>>>

>>> mic = sr.Microphone[]

Nếu hệ thống của bạn không có micrô mặc định [chẳng hạn như trên Raspberry Pi ] hoặc bạn muốn sử dụng micrô khác với micrô mặc định, bạn sẽ cần chỉ định micrô sẽ sử dụng bằng cách cung cấp chỉ mục thiết bị. Bạn có thể lấy danh sách tên micrô bằng cách gọi list_microphone_names[]phương thức tĩnh của Microphonelớp.

>>>

>>> sr.Microphone.list_microphone_names[]
['HDA Intel PCH: ALC272 Analog [hw:0,0]',
 'HDA Intel PCH: HDMI 0 [hw:0,3]',
 'sysdefault',
 'front',
 'surround40',
 'surround51',
 'surround71',
 'hdmi',
 'pulse',
 'dmix', 
 'default']

Lưu ý rằng đầu ra của bạn có thể khác với ví dụ trên.

Chỉ mục thiết bị của micrô là chỉ mục tên của micrô trong danh sách được trả về list_microphone_names[].Ví dụ: với đầu ra ở trên, nếu bạn muốn sử dụng micrô có tên “phía trước”, có chỉ số 3 trong danh sách, bạn sẽ tạo micrô ví dụ như thế này:

>>>

>>> # This is just an example; do not run
>>> mic = sr.Microphone[device_index=3]

Tuy nhiên, đối với hầu hết các dự án, có thể bạn sẽ muốn sử dụng micrô hệ thống mặc định.

Sử dụng listen[]để chụp đầu vào micrô

Bây giờ bạn đã có một Microphonephiên bản sẵn sàng để sử dụng, đã đến lúc nắm bắt một số thông tin đầu vào.

Cũng giống như AudioFilelớp học, Microphonelà một trình quản lý ngữ cảnh. Bạn có thể nắm bắt đầu vào từ micrô bằng cách sử dụng listen[]phương thức của Recognizerlớp bên trong withkhối. Phương thức này lấy một nguồn âm thanh làm đối số đầu tiên của nó và ghi lại đầu vào từ nguồn cho đến khi phát hiện ra sự im lặng.

>>>

>>> with mic as source:
...     audio = r.listen[source]
...

Sau khi bạn thực hiện withkhối, hãy thử nói “xin chào” vào micrô của bạn. Chờ một chút để lời nhắc thông dịch viên hiển thị lại. Khi lời nhắc “>>>” trả về, bạn đã sẵn sàng nhận dạng bài phát biểu.

>>>

>>> r.recognize_google[audio]
'hello'

Nếu lời nhắc không bao giờ quay trở lại, rất có thể micrô của bạn đang nhận quá nhiều tiếng ồn xung quanh. Bạn có thể làm gián đoạn quá trình bằng + ctrl + c ++ để lấy lại lời nhắc.

Để xử lý tiếng ồn xung quanh, bạn sẽ cần sử dụng adjust_for_ambient_noise[]phương pháp của Recognizerlớp, giống như bạn đã làm khi cố gắng tìm hiểu tệp âm thanh bị nhiễu. Vì đầu vào từ micrô khó dự đoán hơn nhiều so với đầu vào từ tệp âm thanh, nên thực hiện điều này bất cứ lúc nào bạn nghe đầu vào micrô.

>>>

>>> with mic as source:
...     r.adjust_for_ambient_noise[source]
...     audio = r.listen[source]
...

Sau khi chạy mã trên, hãy đợi một giây adjust_for_ambient_noise[]để thực hiện công việc của nó, sau đó thử nói “xin chào” vào micrô. Một lần nữa, bạn sẽ phải đợi một lúc để lời nhắc của thông dịch viên quay lại trước khi cố gắng nhận dạng bài phát biểu.

Nhớ lại rằng adjust_for_ambient_noise[]phân tích nguồn âm thanh trong một giây. Nếu điều này có vẻ quá dài đối với bạn, vui lòng điều chỉnh điều này bằng durationđối số từ khóa.

Tài liệu SpeechRecognition khuyến nghị sử dụng thời lượng không dưới 0,5 giây. Trong một số trường hợp, bạn có thể thấy rằng thời lượng dài hơn mặc định là một giây tạo ra kết quả tốt hơn. Giá trị tối thiểu bạn cần tùy thuộc vào môi trường xung quanh của micrô. Thật không may, thông tin này thường không được biết trong quá trình phát triển. Theo kinh nghiệm của tôi, thời lượng mặc định là một giây là đủ cho hầu hết các ứng dụng.

Xử lý giọng nói không thể nhận dạng

Hãy thử nhập ví dụ mã trước đó vào bộ ngắt âm thanh và tạo ra một số tiếng ồn khó hiểu vào micrô. Bạn sẽ nhận được một cái gì đó như thế này để phản hồi:

Traceback [most recent call last]:
  File "", line 1, in 
  File "/home/david/real_python/speech_recognition_primer/venv/lib/python3.5/site-packages/speech_recognition/__init__.py", line 858, in recognize_google
    if not isinstance[actual_result, dict] or len[actual_result.get["alternative", []]] == 0: raise UnknownValueError[]
speech_recognition.UnknownValueError

Âm thanh mà API không thể khớp với văn bản sẽ tạo ra một UnknownValueErrorngoại lệ. Bạn nên luôn gói các lệnh gọi tới API bằng tryvà exceptcác khối để xử lý ngoại lệ này .

Lưu ý : Bạn có thể phải cố gắng nhiều hơn mong đợi để có được ngoại lệ. API hoạt động rất chăm chỉ để phiên âm bất kỳ âm thanh nào. Ngay cả những tiếng càu nhàu ngắn cũng được phiên âm thành những từ như "làm thế nào" đối với tôi. Ho, tiếng vỗ tay và tiếng tặc lưỡi sẽ liên tục làm tăng ngoại lệ.

Kết hợp tất cả lại với nhau: Trò chơi “Đoán từ”

Bây giờ bạn đã thấy những kiến ​​thức cơ bản về nhận dạng giọng nói với gói SpeechRecognition, hãy sử dụng kiến ​​thức mới học của bạn và viết một trò chơi nhỏ chọn một từ ngẫu nhiên từ danh sách và cho người dùng ba lần thử đoán từ đó.

Đây là toàn bộ kịch bản:

import random
import time

import speech_recognition as sr


def recognize_speech_from_mic[recognizer, microphone]:
    """Transcribe speech from recorded from `microphone`.

    Returns a dictionary with three keys:
    "success": a boolean indicating whether or not the API request was
               successful
    "error":   `None` if no error occured, otherwise a string containing
               an error message if the API could not be reached or
               speech was unrecognizable
    "transcription": `None` if speech could not be transcribed,
               otherwise a string containing the transcribed text
    """
    # check that recognizer and microphone arguments are appropriate type
    if not isinstance[recognizer, sr.Recognizer]:
        raise TypeError["`recognizer` must be `Recognizer` instance"]

    if not isinstance[microphone, sr.Microphone]:
        raise TypeError["`microphone` must be `Microphone` instance"]

    # adjust the recognizer sensitivity to ambient noise and record audio
    # from the microphone
    with microphone as source:
        recognizer.adjust_for_ambient_noise[source]
        audio = recognizer.listen[source]

    # set up the response object
    response = {
        "success": True,
        "error": None,
        "transcription": None
    }

    # try recognizing the speech in the recording
    # if a RequestError or UnknownValueError exception is caught,
    #     update the response object accordingly
    try:
        response["transcription"] = recognizer.recognize_google[audio]
    except sr.RequestError:
        # API was unreachable or unresponsive
        response["success"] = False
        response["error"] = "API unavailable"
    except sr.UnknownValueError:
        # speech was unintelligible
        response["error"] = "Unable to recognize speech"

    return response


if __name__ == "__main__":
    # set the list of words, maxnumber of guesses, and prompt limit
    WORDS = ["apple", "banana", "grape", "orange", "mango", "lemon"]
    NUM_GUESSES = 3
    PROMPT_LIMIT = 5

    # create recognizer and mic instances
    recognizer = sr.Recognizer[]
    microphone = sr.Microphone[]

    # get a random word from the list
    word = random.choice[WORDS]

    # format the instructions string
    instructions = [
        "I'm thinking of one of these words:\n"
        "{words}\n"
        "You have {n} tries to guess which one.\n"
    ].format[words=', '.join[WORDS], n=NUM_GUESSES]

    # show instructions and wait 3 seconds before starting the game
    print[instructions]
    time.sleep[3]

    for i in range[NUM_GUESSES]:
        # get the guess from the user
        # if a transcription is returned, break out of the loop and
        #     continue
        # if no transcription returned and API request failed, break
        #     loop and continue
        # if API request succeeded but no transcription was returned,
        #     re-prompt the user to say their guess again. Do this up
        #     to PROMPT_LIMIT times
        for j in range[PROMPT_LIMIT]:
            print['Guess {}. Speak!'.format[i+1]]
            guess = recognize_speech_from_mic[recognizer, microphone]
            if guess["transcription"]:
                break
            if not guess["success"]:
                break
            print["I didn't catch that. What did you say?\n"]

        # if there was an error, stop the game
        if guess["error"]:
            print["ERROR: {}".format[guess["error"]]]
            break

        # show the user the transcription
        print["You said: {}".format[guess["transcription"]]]

        # determine if guess is correct and if any attempts remain
        guess_is_correct = guess["transcription"].lower[] == word.lower[]
        user_has_more_attempts = i >>

>>> import speech_recognition as sr
>>> from guessing_game import recognize_speech_from_mic
>>> r = sr.Recognizer[]
>>> m = sr.Microphone[]
>>> recognize_speech_from_mic[r, m]
{'success': True, 'error': None, 'transcription': 'hello'}
>>> # Your output will vary depending on what you say

Bản thân trò chơi khá đơn giản. Đầu tiên, một danh sách các từ, số lượng đoán được phép tối đa và giới hạn nhanh chóng được khai báo:

WORDS = ['apple', 'banana', 'grape', 'orange', 'mango', 'lemon']
NUM_GUESSES = 3
PROMPT_LIMIT = 5

Tiếp theo, một Recognizervà Microphonethể hiện được tạo và một từ ngẫu nhiên được chọn từ WORDS:

recognizer = sr.Recognizer[]
microphone = sr.Microphone[]
word = random.choice[WORDS]

Sau khi in một số hướng dẫn và đợi trong 3 ba giây, một forvòng lặp được sử dụng để quản lý mỗi nỗ lực đoán từ đã chọn của người dùng. Điều đầu tiên bên trong forvòng lặp là một forvòng lặp khác nhắc người dùng PROMPT_LIMITđoán nhiều lần nhất , cố gắng nhận dạng đầu vào mỗi lần bằng recognize_speech_from_mic[]hàm và lưu trữ từ điển trả về biến cục bộ guess.

Nếu "transcription"khóa của guesskhông phải None, thì bài phát biểu của người dùng đã được phiên âm và vòng lặp bên trong được kết thúc bằng break. Nếu bài phát biểu không được phiên âm và "success"khóa được đặt thành False, thì lỗi API đã xảy ra và vòng lặp lại bị kết thúc với break. Nếu không, yêu cầu API đã thành công nhưng không thể nhận dạng được giọng nói. Người dùng được cảnh báo và forvòng lặp lặp lại, cho người dùng một cơ hội khác ở lần thử hiện tại.

for j in range[PROMPT_LIMIT]:
    print['Guess {}. Speak!'.format[i+1]]
    guess = recognize_speech_from_mic[recognizer, microphone]
    if guess["transcription"]:
        break
    if not guess["success"]:
        break
    print["I didn't catch that. What did you say?\n"]

Khi forvòng lặp bên trong kết thúc, guesstừ điển sẽ được kiểm tra lỗi. Nếu có bất kỳ điều gì xảy ra, thông báo lỗi sẽ được hiển thị và forvòng lặp bên ngoài được kết thúc break, điều này sẽ kết thúc quá trình thực thi chương trình.

if guess['error']:
    print["ERROR: {}".format[guess["error"]]]
    break

Nếu không có bất kỳ lỗi nào, bản phiên âm sẽ được so sánh với từ được chọn ngẫu nhiên. Các lower[]phương pháp cho các đối tượng chuỗi được sử dụng để đảm bảo phù hợp hơn về đoán đến từ chọn. API có thể trả về lời nói khớp với từ “apple” là “Apple” hoặc “apple” và một trong hai câu trả lời sẽ được tính là một câu trả lời đúng.

Nếu đoán đúng, người dùng thắng và trò chơi kết thúc. Nếu người dùng không chính xác và vẫn còn bất kỳ lần thử nào, forvòng lặp bên ngoài sẽ lặp lại và một dự đoán mới được truy xuất. Nếu không, người dùng sẽ mất trò chơi.

guess_is_correct = guess["transcription"].lower[] == word.lower[]
user_has_more_attempts = i 

Chủ Đề