Biopython đã xuất bản
Biopython là một gói có sẵn miễn phí để làm việc với dữ liệu sinh học phân tử. Trong bài học này, chúng ta sẽ chỉ đề cập đến một số điều cơ bản khi làm việc với Biopython. Các nhà phát triển của gói này đã viết một hướng dẫn toàn diện và sách dạy nấu ăn Show
Hướng dẫn chúng tôi đang làm việc với ngày hôm nay được viết bởi Tiến sĩ. Iddo Friedberg và Tiến sĩ. Stuart Brown Biopython có thể làm gì?Cung cấp một danh sách nhiều công cụ khác nhau trong gói
Tải xuống tệp ví dụBài học này sẽ sử dụng các tệp ví dụ trong thư mục 0 của các tệp khóa học trong kho lưu trữ 1. Tải xuống các tệp này và đảm bảo rằng chúng nằm trong cùng thư mục mà bạn đang tạo sổ ghi chép Jupyter của mìnhCài đặt Biopython và tạo Notebook JupyterCách dễ nhất để cài đặt các công cụ Biopython là sử dụng 2. Từ thiết bị đầu cuối của bạn, bạn chỉ cần thực hiện như sau
Bây giờ hãy tạo một sổ ghi chép Jupyter mới cho bài học này Đối tượng my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC") print(my_seq.reverse_complement()) 8Lớp đối tượng 8 đơn giản và cơ bản cho rất nhiều công việc của Biopython. Một đối tượng Seq có thể chứa DNA, RNA hoặc protein. Nó chứa một chuỗi (dãy) và một bảng chữ cái được xác định cho chuỗi đó. Các bảng chữ cái thực sự là các đối tượng được xác định, chẳng hạn như 5 hoặc 6. Đối tượng Seq có bảng chữ cái DNA có một số phương thức khác với đối tượng có bảng chữ cái Axit AminĐầu tiên, nhập đối tượng 8 từ BiopythonBây giờ chúng ta có thể tạo một đối tượng 8
Điều thú vị về đối tượng chuỗi là nó có thể được xử lý giống như đối tượng chuỗi Python Các đối tượng 8 cũng có các phương thức chuỗi như 0Và bạn có thể sử dụng các hàm hoạt động trên các chuỗi như 1 8 đối tượng cũng có các phương thức đặc biệt. Ví dụ: bạn có thể lấy phần bù ngược của một dãy
Cũng giống như chuỗi trong Python, đối tượng 8 là bất biến, nghĩa là bạn không thể thay đổi nó. Nếu bạn cố gắng thay đổi một trong các trang web theo trình tự này, bạn sẽ gặp lỗi. Nếu bạn muốn một đối tượng trình tự có thể chỉnh sửa, bạn sẽ cần tạo một đối tượng 4
Bây giờ bạn có thể thử thay đổi nucleotide ở chỉ số 3 thành 5Đối tượng my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC") print(my_seq.reverse_complement()) 9 9 của Biopython là một đối tượng phức hợp chứa đối tượng 8 cũng như các trường khác cho các thuộc tính của chuỗi đó (i. e. , metadata). Các thuộc tính này còn được gọi là “trường chú thích”
Bạn có thể tạo một 9 bằng cách cung cấp cho hàm tạo một đối tượng 8
Và bạn có thể cung cấp các thuộc tính
Đọc chuỗi từ các tệp FASTA 9 cho phép đọc theo trình tự từ các tệp FASTA và lưu trữ dữ liệu trong một 9. Ngoài ra, 9 cung cấp các công cụ để ghi dữ liệu trình tự vào một tệpChúng tôi sẽ đọc trong tệp ví dụ 2 bằng cách sử dụng 9
Sử dụng 9 chúng ta có thể đọc theo một số trình tự từ một tệp và lưu trữ chúng trong danh sách các đối tượng 9 từ một tệp. Tệp 8 trông như thế này 0Với Biopython, chúng ta có thể sử dụng hàm 9 để lấy ba chuỗi trong tệp này 1 2Ở ví dụ trên ta mở file và gán cho biến 0 đóng vai trò là con trỏ tới nội dung fileTruy cập trực tiếp vào GenBankBioPython có các mô-đun có thể truy cập trực tiếp cơ sở dữ liệu qua Internet bằng mô-đun 1. Điều này sử dụng dịch vụ NCBI Efetch, hoạt động trên nhiều cơ sở dữ liệu NCBI bao gồm các trích dẫn tài liệu về protein và PubMed. Với một vài điều chỉnh, mã này có thể được sử dụng để tải xuống danh sách ID GenBank và lưu chúng dưới dạng tệp FASTA hoặc GenBankTrước khi sử dụng các tài nguyên NCBI trực tuyến, điều quan trọng là phải biết các yêu cầu của người dùng. Nếu bạn lạm dụng hệ thống của họ (dù cố ý hay vô tình), họ sẽ chặn quyền truy cập của bạn trong một thời gian. Bạn có thể tìm thấy các yêu cầu trong Trước tiên, bạn được yêu cầu cung cấp cho NCBI danh tính của mình để chúng tôi có thể liên hệ với bạn nếu có vấn đề. Điều này cũng hạn chế việc lạm dụng hệ thống này để máy chủ của họ không bị quá tải. Nếu bạn được xác định là người sử dụng quá nhiều Tiện ích điện tử, NCBI sẽ liên hệ với bạn trước khi bạn bị chặn Đoạn trích dẫn dưới đây cho bạn biết điều gì cấu thành việc sử dụng hợp lý các máy chủ Tiện ích điện tử
Nhập địa chỉ email của riêng bạn thay cho 2 3Bây giờ chúng ta có thể lấy một bản ghi Genbank 4 5vụ nổBioPython giúp dễ dàng làm việc với BLAST của NCBI. Để chạy blast qua internet, chúng ta có thể sử dụng 3. Đối với điều này, chúng ta phải nhập mô-đun 4 6Bạn có thể gọi hàm 5 trên 6 để kiểm tra cách thức hoạt động của hàm này. Điều này sẽ trả về tất cả các tham số của 7 để bạn có thể hiểu cách chỉ định chính xác truy vấn của mìnhTiếp theo, chúng ta có thể đọc theo trình tự được lưu trữ trong tệp FASTA có tên là 8 7Biến chúng ta đã tạo có tên là 9 là một chuỗi được lưu trữ trong một đối tượng 9Để chạy tìm kiếm BLAST trên chuỗi từ tệp FASTA của chúng tôi, chúng tôi chỉ cần chỉ định chương trình tìm kiếm ( 1) và cơ sở dữ liệu ( 2). Đối số cuối cùng là đối tượng 8 được lưu trữ trong 9 của chúng tôi 8Lưu ý rằng điều này có thể không hiệu quả với mọi người trong lớp. NCBI có thể điều tiết người dùng không tương tác Khi chúng tôi có kết quả của BLAST, chúng tôi có thể lưu trữ chúng trong tệp XML 9Khi chúng tôi đã lưu trữ kết quả, tốt nhất là đóng tất cả các xử lý tệp đang mở của chúng tôi 0Chúng tôi đã tạo một tệp XML chứa kết quả BLAST của chúng tôi. Giờ đây, việc phân tích cú pháp này trở nên dễ dàng bằng cách sử dụng công cụ 5 1Bây giờ chúng tôi đã đọc trong tệp, chúng tôi có thể in từng lần truy cập 2 3Chúng tôi cũng có thể xem sự sắp xếp cho từng lần truy cập BLAST 4 5Thường thì tìm kiếm BLAST sẽ trả về nhiều kết quả phù hợp cho một truy vấn, như trường hợp của ví dụ này. Đây là lý do tại sao tốt nhất nên lưu chúng trong tệp XML. Sử dụng 6 cho phép chúng tôi đánh giá từng bản ghi BLAST. Chúng tôi có thể chỉ định một ngưỡng để chúng tôi có thể dễ dàng kiểm tra các trận đấu gần nhất 6 7Tìm kiếm BLAST của chúng tôi khớp với trình tự của chúng tôi với Vitis vinifera. Hãy kiểm tra xem nó có đúng không
|