Căn chỉnh trình tự DNA Python

Căn chỉnh trình tự là một quá trình trong đó hai hoặc nhiều trình tự DNA, RNA hoặc Protein được sắp xếp theo thứ tự cụ thể để xác định vùng tương đồng giữa chúng. Việc xác định giống nhau cung cấp rất nhiều thông tin về những đặc điểm được bảo tồn giữa các loài, các loài khác nhau gần nhau đến mức nào về mặt di truyền, các loài tiến hóa như thế nào, v.v. Biopython có nhiều chức năng để căn chỉnh trình tự

Sắp xếp trình tự đọc. sinh học. AlignIo do Biopython cung cấp được sử dụng để đọc và viết các sắp xếp trình tự. Có rất nhiều định dạng có sẵn trong tin sinh học để chỉ định dữ liệu căn chỉnh trình tự tương tự như dữ liệu trình tự. sinh học. AlignIO có API tương tự như Bio. SeqIO, sự khác biệt duy nhất là Bio. SeqIO hoạt động trên dữ liệu trình tự trong khi Bio. AlignIO hoạt động dựa trên căn chỉnh dữ liệu chuỗi. Dưới đây là một số bước để tải xuống tệp căn chỉnh trình tự mẫu

  • Đầu tiên mở trình duyệt và truy cập http. //pfam. xfam. org/family/browse, nơi bạn có thể xem tất cả các họ Pfam theo thứ tự bảng chữ cái

  • Bây giờ hãy chọn bất kỳ họ nào có số lượng giá trị hạt giống ít hơn, vì nó chứa dữ liệu tối thiểu và dễ làm việc. Hãy di chuyển một cái với PF18225 [http. //pfam. xfam. org/gia đình/PF18225]

  • Nhấp vào phần căn chỉnh và tải xuống tệp căn chỉnh trình tự cần thiết ở định dạng Stockholm

Ví dụ

Python3




from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
5

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
6
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
7
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
8
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
9

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
0

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
1

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
2_______23
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
4____160
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
61
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
62
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
63
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
64
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
65

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
0

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
67

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
68____169

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
0

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
71

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
68
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
61
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
74
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
65

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
76
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
77
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
78
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
79

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
80
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
68
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
82

đầu ra

SingleLetterAlphabet[] căn chỉnh với 5 hàng và 65 cột
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIM…NRK B3PFT7_CELJU/62-126
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVA…NRT K4KEM7_SIMAS/61-125
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVA…EGP B7RZ31_9GAMM/59-123
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMA…KKP A0A143HL37_9GAMM/57-121
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMA…NKP A0A0X3UC67_9GAMM/57-121

Showing Alignment Sequence Record
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIMVLAPRLTAKHPYDKVQDRNRK
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVADLMRKLDLDRPFKKLERKNRT
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVATVANQLRGRKRRAFARHREGP
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMAPMLIALNYRNRESHAQVDKKP”. Lưu ý rằng việc lưu trữ nhiều căn chỉnh ở định dạng này là không rõ ràng. Ghi tệp FASTA với AlignIO không thành công trước khi phát hành 1. 48 [Lỗi 2557]. fasta-m101. 46KhôngĐiều này đề cập đến đầu ra căn chỉnh theo cặp từ các công cụ FASTA của Bill Pearson, cụ thể là phiên bản có thể đọc được bằng máy khi tùy chọn dòng lệnh -m 10 được sử dụng. Đầu ra văn bản định dạng miễn phí mặc định từ các công cụ FASTA không được hỗ trợ. ig1. 47KhôngĐề cập đến định dạng tệp IntelliGenetics thường được sử dụng cho các trình tự không được căn chỉnh thông thường. Công cụ MASE dường như cũng sử dụng cùng một định dạng tệp để căn chỉnh, do đó, nó được đưa vào bảng này. Xem định dạng MASE. maf1. 691. 69Multiple Alignment Format [MAF] do Multiz sản xuất. Được sử dụng để lưu trữ sự sắp xếp toàn bộ bộ gen, chẳng hạn như sự sắp xếp 30 chiều có sẵn từ trình duyệt bộ gen của UCSC. hoa cà1. 701. Định dạng tệp eXtended Multi-FastA [XMFA] của 70Mauvemsf1. Định dạng tệp 75NoGCG MSF. mối quan hệ1. 461. 48Còn được gọi là định dạng PAUP. sử dụng sinh học. Nexus nội bộ. Chỉ hỗ trợ một căn chỉnh cho mỗi tệp. phylip1. 461. 46Đây là cách giải thích nghiêm ngặt của định dạng PHYLIP xen kẽ vốn cắt bớt tên ở 10 ký tự. phylip-sequential1. 591. 59Đây là cách giải thích nghiêm ngặt về định dạng PHYLIP tuần tự cắt bớt tên ở 10 ký tự. phylip-thư giãn1. 581. 58Đây là cách diễn giải thoải mái về định dạng PHYLIP cho phép đặt tên dài. stockholm1. 461. 46Còn được gọi là định dạng PFAM, định dạng tệp này hỗ trợ chú thích phong phú

Ngoài ra, bạn có thể lưu trữ các chuỗi [có khoảng cách] từ một căn chỉnh ở nhiều định dạng tệp được Bio hỗ trợ. SeqIO. Ví dụ phổ biến nhất về điều này là lưu trữ các sắp xếp ở định dạng fasta đơn giản. Tuy nhiên, việc lưu trữ nhiều hơn một căn chỉnh trong một tệp như vậy là không rõ ràng - và điều này không được khuyến khích

Đầu vào căn chỉnh

Như trong Sinh học. SeqIO, có hai chức năng cho đầu vào căn chỉnh. Đây là

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
7 khi tệp chứa một và chỉ một căn chỉnh và
from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
8 tổng quát hơn khi tệp có thể chứa nhiều căn chỉnh riêng biệt

Cả hai chức năng này có hai đối số bắt buộc, xử lý tệp và định dạng tệp. Tương tự với Sinh học. SeqIO, Biopython khẳng định rằng bạn cung cấp rõ ràng định dạng tệp dự kiến, thay vì cố gắng đoán định dạng này dựa trên tên tệp hoặc nội dung. Định dạng tệp được chỉ định dưới dạng chuỗi chữ thường, xem bảng ở trên

Ví dụ: chúng ta sẽ xem xét căn chỉnh hạt giống PFAM cho chuỗi gamma Fibrinogen PF09395 Fib_gamma. Tại thời điểm viết bài này, chuỗi này chứa 14 trình tự với độ dài liên kết là 77 axit amin và được hiển thị bên dưới ở định dạng PFAM hoặc Stockholm

# STOCKHOLM 1.0
#=GS Q7ZVG7_BRARE/37-110  AC Q7ZVG7.1
#=GS Q6X871_SCAAQ/1-77    AC Q6X871.1
#=GS O02676_CROCR/1-77    AC O02676.1
#=GS Q6X869_TENEC/1-77    AC Q6X869.1
#=GS FIBG_HUMAN/40-116    AC P02679.3
#=GS O02689_TAPIN/1-77    AC O02689.1
#=GS O02688_PIG/1-77      AC O02688.1
#=GS O02672_9CETA/1-77    AC O02672.1
#=GS O02682_EQUPR/1-77    AC O02682.1
#=GS Q6X870_CYNVO/1-77    AC Q6X870.1
#=GS FIBG_RAT/40-116      AC P02680.3
#=GS Q6X866_DROAU/1-76    AC Q6X866.1
#=GS O93568_CHICK/40-116  AC O93568.1
#=GS FIBG_XENLA/38-114    AC P17634.1
Q7ZVG7_BRARE/37-110          GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML
Q6X871_SCAAQ/1-77            RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM
O02676_CROCR/1-77            RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM
Q6X869_TENEC/1-77            RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML
FIBG_HUMAN/40-116            RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML
#=GS FIBG_HUMAN/40-116    DR PDB; 1qvh L;14-45
#=GS FIBG_HUMAN/40-116    DR PDB; 1fza C;88-90
#=GS FIBG_HUMAN/40-116    DR PDB; 1fzb C;88-90
#=GS FIBG_HUMAN/40-116    DR PDB; 1fzb F;88-90
#=GS FIBG_HUMAN/40-116    DR PDB; 1qvh I;14-45
#=GS FIBG_HUMAN/40-116    DR PDB; 1fza F;88-90
#=GR FIBG_HUMAN/40-116    SS CCXCXBXXHHHHHHHHHHHHHHHHHHHHHHHXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX-CC
O02689_TAPIN/1-77            RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML
O02688_PIG/1-77              RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML
O02672_9CETA/1-77            RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM
O02682_EQUPR/1-77            RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM
Q6X870_CYNVO/1-77            RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV
FIBG_RAT/40-116              RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV
Q6X866_DROAU/1-76            RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI
O93568_CHICK/40-116          RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII
#=GS O93568_CHICK/40-116  DR PDB; 1m1j F;14-90
#=GS O93568_CHICK/40-116  DR PDB; 1m1j C;14-90
#=GR O93568_CHICK/40-116  SS CCEEEEE-CCCCCCCCCCCCCHHHCCCCCHHHHHHHHHHHHHHHCCCCCCHHHHS-SSTT--SS-HHHHHHHHHHHH
FIBG_XENLA/38-114            RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW
#=GC SS_cons                 CCECEEE-CCCCCCCCCCCCCHHHCCCCCHHHHHHHHHHHHHHHCCCCCCHHHHS-SSTT--SS-HHHHHHHHHHCC
#=GC seq_cons                RFGSYCPTTCGIADFLSsYQssVDcDLQsLEsILpplEN+ToEAc-LIKuIQlsYsP--ss+PstI-uATpcSKKMl
//

Bạn sẽ nhận thấy rằng có rất nhiều thông tin chú thích ở đây, bao gồm các số gia nhập cho mỗi trình tự và cả một số tham chiếu chéo cơ sở dữ liệu PDB và thông tin cấu trúc thứ cấp cho các protein fibrinogen của người và gà.

Tệp này chứa một căn chỉnh duy nhất, vì vậy chúng tôi có thể sử dụng hàm

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
7 để tải nó trong Biopython. Giả sử bạn đã tải xuống căn chỉnh này từ Sanger hoặc đã sao chép và dán văn bản ở trên và lưu tệp này dưới dạng tệp có tên
Alignment length 77
GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110
RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77
RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77
RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77
RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116
RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77
RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77
RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77
RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77
RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77
RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116
RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76
RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116
RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
0 trên máy tính của bạn. Sau đó, trong trăn

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]

Điều đó sẽ cho

Alignment length 77
GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110
RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77
RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77
RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77
RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116
RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77
RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77
RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77
RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77
RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77
RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116
RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76
RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116
RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114

Đầu ra căn chỉnh

Như trong Sinh học. SeqIO, có một hàm đầu ra duy nhất

Alignment length 77
GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110
RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77
RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77
RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77
RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116
RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77
RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77
RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77
RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77
RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77
RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116
RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76
RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116
RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
1. Điều này có ba đối số. một số sắp xếp, xử lý tệp để ghi vào và định dạng để sử dụng

Bạn có thể sử dụng hàm

Alignment length 77
GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110
RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77
RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77
RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77
RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116
RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77
RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77
RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77
RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77
RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77
RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116
RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76
RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116
RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
2 để biến căn chỉnh thành một chuỗi chứa căn chỉnh ở định dạng tệp được chỉ định, e. g

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
2

Hoặc sử dụng chuỗi f

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
3

Vui lòng tham khảo phần Sinh học. Chương AlignIO trong Hướng dẫn để biết thêm chi tiết

Chuyển đổi định dạng tệp

Giả sử bạn có một tệp chứa [các] căn chỉnh PHYLIP mà bạn muốn chuyển đổi sang định dạng PFAM/Stockholm

from Bio import AlignIO

alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
    print[record.seq + " " + record.id]
4

Bằng cách thay đổi chuỗi định dạng, mã đó có thể được sử dụng để chuyển đổi giữa mọi định dạng tệp được hỗ trợ

Căn chỉnh trình tự trong Python là gì?

Sắp xếp trình tự là quá trình sắp xếp hai hoặc nhiều trình tự [của trình tự DNA, RNA hoặc protein] theo một thứ tự cụ thể để xác định vùng tương đồng giữa chúng.

Thuật toán nào được sử dụng để căn chỉnh trình tự DNA?

Để sắp xếp các trình tự DNA chỉ khác nhau do lỗi trình tự hoặc các lỗi tương đương từ các nguồn khác, thuật toán tham lam có thể nhanh hơn nhiều so với .

Căn chỉnh trình tự DNA là gì?

Sắp xếp trình tự là một cách sắp xếp các trình tự protein [hoặc DNA] để xác định các vùng tương đồng có thể là hệ quả của mối quan hệ tiến hóa giữa các trình tự. From: Encyclopedia of Bioinformatics and Computational Biology, 2019.

3 phương pháp tính toán cơ bản để căn chỉnh trình tự là gì?

Ba phương pháp chính để tạo ra sự sắp xếp theo cặp là phương pháp ma trận điểm, lập trình động và phương pháp từ ; .

Chủ Đề