Căn chỉnh trình tự là một quá trình trong đó hai hoặc nhiều trình tự DNA, RNA hoặc Protein được sắp xếp theo thứ tự cụ thể để xác định vùng tương đồng giữa chúng. Việc xác định giống nhau cung cấp rất nhiều thông tin về những đặc điểm được bảo tồn giữa các loài, các loài khác nhau gần nhau đến mức nào về mặt di truyền, các loài tiến hóa như thế nào, v.v. Biopython có nhiều chức năng để căn chỉnh trình tự
Sắp xếp trình tự đọc. sinh học. AlignIo do Biopython cung cấp được sử dụng để đọc và viết các sắp xếp trình tự. Có rất nhiều định dạng có sẵn trong tin sinh học để chỉ định dữ liệu căn chỉnh trình tự tương tự như dữ liệu trình tự. sinh học. AlignIO có API tương tự như Bio. SeqIO, sự khác biệt duy nhất là Bio. SeqIO hoạt động trên dữ liệu trình tự trong khi Bio. AlignIO hoạt động dựa trên căn chỉnh dữ liệu chuỗi. Dưới đây là một số bước để tải xuống tệp căn chỉnh trình tự mẫu
- Đầu tiên mở trình duyệt và truy cập http. //pfam. xfam. org/family/browse, nơi bạn có thể xem tất cả các họ Pfam theo thứ tự bảng chữ cái
- Bây giờ hãy chọn bất kỳ họ nào có số lượng giá trị hạt giống ít hơn, vì nó chứa dữ liệu tối thiểu và dễ làm việc. Hãy di chuyển một cái với PF18225 [http. //pfam. xfam. org/gia đình/PF18225]
- Nhấp vào phần căn chỉnh và tải xuống tệp căn chỉnh trình tự cần thiết ở định dạng Stockholm
Ví dụ
Python3
from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
5from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
6 from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
7from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
8 from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
9from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
0from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
1from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
2_______23 from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
4____160from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
61from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
62from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
63from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
64from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
65from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
0from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
67from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
68____169from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
0from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
71from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
68from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
61from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
74from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
65from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
76 from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
77from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
78 from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
79from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
80from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
68from Bio import AlignIO
alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"]
print["Alignment length %i" % alignment.get_alignment_length[]]
for record in alignment:
print[record.seq + " " + record.id]
82đầu ra
SingleLetterAlphabet[] căn chỉnh với 5 hàng và 65 cột
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIM…NRK B3PFT7_CELJU/62-126
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVA…NRT K4KEM7_SIMAS/61-125
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVA…EGP B7RZ31_9GAMM/59-123
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMA…KKP A0A143HL37_9GAMM/57-121
TRRHGPESFRFWLERQPVEARDRIYAIDRSGAEILDRPIPRGMA…NKP A0A0X3UC67_9GAMM/57-121Showing Alignment Sequence Record
AINRNTQQLTQDLRAMPNWSLRFVYIVDRNNQDLLKRPLPPGIMVLAPRLTAKHPYDKVQDRNRK
AVNATEREFTERIRTLPHWARRNVFVLDSQGFEIFDRELPSPVADLMRKLDLDRPFKKLERKNRT
MQNTPAERLPAIIEKAKSKHDINVWLLDRQGRDLLEQRVPAKVATVANQLRGRKRRAFARHREGP
ARRHGQEYFQQWLERQPKKVKEQVFAVDQFGRELLGRPLPEDMAPMLIALNYRNRESHAQVDKKP”. Lưu ý rằng việc lưu trữ nhiều căn chỉnh ở định dạng này là không rõ ràng. Ghi tệp FASTA với AlignIO không thành công trước khi phát hành 1. 48 [Lỗi 2557]. fasta-m101. 46KhôngĐiều này đề cập đến đầu ra căn chỉnh theo cặp từ các công cụ FASTA của Bill Pearson, cụ thể là phiên bản có thể đọc được bằng máy khi tùy chọn dòng lệnh -m 10 được sử dụng. Đầu ra văn bản định dạng miễn phí mặc định từ các công cụ FASTA không được hỗ trợ. ig1. 47KhôngĐề cập đến định dạng tệp IntelliGenetics thường được sử dụng cho các trình tự không được căn chỉnh thông thường. Công cụ MASE dường như cũng sử dụng cùng một định dạng tệp để căn chỉnh, do đó, nó được đưa vào bảng này. Xem định dạng MASE. maf1. 691. 69Multiple Alignment Format [MAF] do Multiz sản xuất. Được sử dụng để lưu trữ sự sắp xếp toàn bộ bộ gen, chẳng hạn như sự sắp xếp 30 chiều có sẵn từ trình duyệt bộ gen của UCSC. hoa cà1. 701. Định dạng tệp eXtended Multi-FastA [XMFA] của 70Mauvemsf1. Định dạng tệp 75NoGCG MSF. mối quan hệ1. 461. 48Còn được gọi là định dạng PAUP. sử dụng sinh học. Nexus nội bộ. Chỉ hỗ trợ một căn chỉnh cho mỗi tệp. phylip1. 461. 46Đây là cách giải thích nghiêm ngặt của định dạng PHYLIP xen kẽ vốn cắt bớt tên ở 10 ký tự. phylip-sequential1. 591. 59Đây là cách giải thích nghiêm ngặt về định dạng PHYLIP tuần tự cắt bớt tên ở 10 ký tự. phylip-thư giãn1. 581. 58Đây là cách diễn giải thoải mái về định dạng PHYLIP cho phép đặt tên dài. stockholm1. 461. 46Còn được gọi là định dạng PFAM, định dạng tệp này hỗ trợ chú thích phong phúNgoài ra, bạn có thể lưu trữ các chuỗi [có khoảng cách] từ một căn chỉnh ở nhiều định dạng tệp được Bio hỗ trợ. SeqIO. Ví dụ phổ biến nhất về điều này là lưu trữ các sắp xếp ở định dạng fasta đơn giản. Tuy nhiên, việc lưu trữ nhiều hơn một căn chỉnh trong một tệp như vậy là không rõ ràng - và điều này không được khuyến khích
Đầu vào căn chỉnh
Như trong Sinh học. SeqIO, có hai chức năng cho đầu vào căn chỉnh. Đây là
7 khi tệp chứa một và chỉ một căn chỉnh vàfrom Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
8 tổng quát hơn khi tệp có thể chứa nhiều căn chỉnh riêng biệtfrom Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
Cả hai chức năng này có hai đối số bắt buộc, xử lý tệp và định dạng tệp. Tương tự với Sinh học. SeqIO, Biopython khẳng định rằng bạn cung cấp rõ ràng định dạng tệp dự kiến, thay vì cố gắng đoán định dạng này dựa trên tên tệp hoặc nội dung. Định dạng tệp được chỉ định dưới dạng chuỗi chữ thường, xem bảng ở trên
Ví dụ: chúng ta sẽ xem xét căn chỉnh hạt giống PFAM cho chuỗi gamma Fibrinogen PF09395 Fib_gamma. Tại thời điểm viết bài này, chuỗi này chứa 14 trình tự với độ dài liên kết là 77 axit amin và được hiển thị bên dưới ở định dạng PFAM hoặc Stockholm
# STOCKHOLM 1.0 #=GS Q7ZVG7_BRARE/37-110 AC Q7ZVG7.1 #=GS Q6X871_SCAAQ/1-77 AC Q6X871.1 #=GS O02676_CROCR/1-77 AC O02676.1 #=GS Q6X869_TENEC/1-77 AC Q6X869.1 #=GS FIBG_HUMAN/40-116 AC P02679.3 #=GS O02689_TAPIN/1-77 AC O02689.1 #=GS O02688_PIG/1-77 AC O02688.1 #=GS O02672_9CETA/1-77 AC O02672.1 #=GS O02682_EQUPR/1-77 AC O02682.1 #=GS Q6X870_CYNVO/1-77 AC Q6X870.1 #=GS FIBG_RAT/40-116 AC P02680.3 #=GS Q6X866_DROAU/1-76 AC Q6X866.1 #=GS O93568_CHICK/40-116 AC O93568.1 #=GS FIBG_XENLA/38-114 AC P17634.1 Q7ZVG7_BRARE/37-110 GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q6X871_SCAAQ/1-77 RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM O02676_CROCR/1-77 RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM Q6X869_TENEC/1-77 RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML FIBG_HUMAN/40-116 RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML #=GS FIBG_HUMAN/40-116 DR PDB; 1qvh L;14-45 #=GS FIBG_HUMAN/40-116 DR PDB; 1fza C;88-90 #=GS FIBG_HUMAN/40-116 DR PDB; 1fzb C;88-90 #=GS FIBG_HUMAN/40-116 DR PDB; 1fzb F;88-90 #=GS FIBG_HUMAN/40-116 DR PDB; 1qvh I;14-45 #=GS FIBG_HUMAN/40-116 DR PDB; 1fza F;88-90 #=GR FIBG_HUMAN/40-116 SS CCXCXBXXHHHHHHHHHHHHHHHHHHHHHHHXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX-CC O02689_TAPIN/1-77 RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02688_PIG/1-77 RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02672_9CETA/1-77 RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02682_EQUPR/1-77 RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM Q6X870_CYNVO/1-77 RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV FIBG_RAT/40-116 RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV Q6X866_DROAU/1-76 RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI O93568_CHICK/40-116 RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII #=GS O93568_CHICK/40-116 DR PDB; 1m1j F;14-90 #=GS O93568_CHICK/40-116 DR PDB; 1m1j C;14-90 #=GR O93568_CHICK/40-116 SS CCEEEEE-CCCCCCCCCCCCCHHHCCCCCHHHHHHHHHHHHHHHCCCCCCHHHHS-SSTT--SS-HHHHHHHHHHHH FIBG_XENLA/38-114 RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW #=GC SS_cons CCECEEE-CCCCCCCCCCCCCHHHCCCCCHHHHHHHHHHHHHHHCCCCCCHHHHS-SSTT--SS-HHHHHHHHHHCC #=GC seq_cons RFGSYCPTTCGIADFLSsYQssVDcDLQsLEsILpplEN+ToEAc-LIKuIQlsYsP--ss+PstI-uATpcSKKMl //
Bạn sẽ nhận thấy rằng có rất nhiều thông tin chú thích ở đây, bao gồm các số gia nhập cho mỗi trình tự và cả một số tham chiếu chéo cơ sở dữ liệu PDB và thông tin cấu trúc thứ cấp cho các protein fibrinogen của người và gà.
Tệp này chứa một căn chỉnh duy nhất, vì vậy chúng tôi có thể sử dụng hàm
7 để tải nó trong Biopython. Giả sử bạn đã tải xuống căn chỉnh này từ Sanger hoặc đã sao chép và dán văn bản ở trên và lưu tệp này dưới dạng tệp có tênfrom Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
0 trên máy tính của bạn. Sau đó, trong trănAlignment length 77 GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110 RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77 RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77 RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77 RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116 RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77 RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77 RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77 RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77 RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77 RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116 RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76 RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116 RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
from Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
Điều đó sẽ cho
Alignment length 77 GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110 RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77 RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77 RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77 RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116 RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77 RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77 RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77 RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77 RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77 RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116 RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76 RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116 RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
Đầu ra căn chỉnh
Như trong Sinh học. SeqIO, có một hàm đầu ra duy nhất
1. Điều này có ba đối số. một số sắp xếp, xử lý tệp để ghi vào và định dạng để sử dụngAlignment length 77 GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110 RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77 RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77 RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77 RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116 RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77 RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77 RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77 RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77 RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77 RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116 RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76 RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116 RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
Bạn có thể sử dụng hàm
2 để biến căn chỉnh thành một chuỗi chứa căn chỉnh ở định dạng tệp được chỉ định, e. gAlignment length 77 GFGTYCPTTCGVADYLQRYKPDMDKKLDDMEQDLEEIANLTRGAQDKVVYLK---DSEAQAQKQSPDTYIKKSSNML Q7ZVG7_BRARE/37-110 RFGSYCPTTCGIADFLSTYQATVDKDLQTLEDILSQAENKTMEAKELVKAIQVSYLPEDPARPNRVELATKDSKKMM Q6X871_SCAAQ/1-77 RFGSYCPTTCGIADFLSTYQTGVXNDLRTLEDLLSGIENKTSEAKELIKSIQVSYNPNEPPKPNTIVSATKDSKKMM O02676_CROCR/1-77 RFGSYCPTTCGIADFLSTYQGSIDKDLQTLEDILNQVENKTXEASELIKSIQVSYNPDEPPRPNMIEGATQKSKKML Q6X869_TENEC/1-77 RFGSYCPTTCGIADFLSTYQTKVDKDLQSLEDILHQVENKTSEVKQLIKAIQLTYNPDESSKPNMIDAATLKSRKML FIBG_HUMAN/40-116 RFGSYCPTTCGIADFLSTYQTXVDKDLQVLEDILNQAENKTSEAKELIKAIQVRYKPDEPTKPGGIDSATRESKKML O02689_TAPIN/1-77 RFGSYCPTMCGIAGFLSTYQNTVEKDLQNLEGILHQVENKTSEARELIKAIQISYNPEDLSKPDRIQSATKESKKML O02688_PIG/1-77 RFGSYCPTTCGVADFLSNYQTSVDKDLQNLEGILYQVENKTSEARELVKAIQISYNPDEPSKPNNIESATKNSKRMM O02672_9CETA/1-77 RFGSYCPTTCGIADFLSNYQTSVDKDLQDFEDILHRAENQTSEAEQLIQAIRTSYNPDEPPKTGRIDAATRESKKMM O02682_EQUPR/1-77 RFGSYCPTTCGIADFLSTYQTKVDEDLQNLEDILYRVENRTSEAKELIKAIQVDYNPGEPPKQSVTEGATQNAKKMV Q6X870_CYNVO/1-77 RFGSYCPTTCGISDFLNSYQTDVDTDLQTLENILQRAENRTTEAKELIKAIQVYYNPDQPPKPGMIEGATQKSKKMV FIBG_RAT/40-116 RFGSYCPTTCGIADFLNKYQTTIDQDLRHMEETLRDIDNKTAESTLLIQKIQIGQTPDPRPQ-NVIGDVTQKSRKMI Q6X866_DROAU/1-76 RFGSYCPTTCGIADFFNKYRLTTDGELLEIEGLLQQATNSTGSIEYLIQHIKTIYPSEKQTLPQSIEQLTQKSKKII O93568_CHICK/40-116 RFGEYCPTTCGISDFLNRYQENVDTDLQYLENLLTQISNSTSGTTIIVEHLIDSGKKPATSPQTAIDPMTQKSKTCW FIBG_XENLA/38-114
2from Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
Hoặc sử dụng chuỗi f
3from Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
Vui lòng tham khảo phần Sinh học. Chương AlignIO trong Hướng dẫn để biết thêm chi tiết
Chuyển đổi định dạng tệp
Giả sử bạn có một tệp chứa [các] căn chỉnh PHYLIP mà bạn muốn chuyển đổi sang định dạng PFAM/Stockholm
4from Bio import AlignIO alignment = AlignIO.read[open["PF09395_seed.sth"], "stockholm"] print["Alignment length %i" % alignment.get_alignment_length[]] for record in alignment: print[record.seq + " " + record.id]
Bằng cách thay đổi chuỗi định dạng, mã đó có thể được sử dụng để chuyển đổi giữa mọi định dạng tệp được hỗ trợ
Căn chỉnh trình tự trong Python là gì?
Sắp xếp trình tự là quá trình sắp xếp hai hoặc nhiều trình tự [của trình tự DNA, RNA hoặc protein] theo một thứ tự cụ thể để xác định vùng tương đồng giữa chúng.Thuật toán nào được sử dụng để căn chỉnh trình tự DNA?
Để sắp xếp các trình tự DNA chỉ khác nhau do lỗi trình tự hoặc các lỗi tương đương từ các nguồn khác, thuật toán tham lam có thể nhanh hơn nhiều so với .Căn chỉnh trình tự DNA là gì?
Sắp xếp trình tự là một cách sắp xếp các trình tự protein [hoặc DNA] để xác định các vùng tương đồng có thể là hệ quả của mối quan hệ tiến hóa giữa các trình tự. From: Encyclopedia of Bioinformatics and Computational Biology, 2019.3 phương pháp tính toán cơ bản để căn chỉnh trình tự là gì?
Ba phương pháp chính để tạo ra sự sắp xếp theo cặp là phương pháp ma trận điểm, lập trình động và phương pháp từ ; .