怎样使用Clustal进行多序列比对,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
多序列比对在保守区域鉴定,系统发育分析,motif识别等多个领域发挥重要作用,是生物信息数据分析必备的基础技能之一。Clustal是一款经典的多序列比对工具,支持DNA, RNA, 蛋白质的比对。
clustal 有两个版本可用,之前的版本同时提供了GUI和命令行两种工具,GUI版的叫做ClustalX, 命令行版叫做ClustalW; 最新版本叫做Omega, 只提供了命令行版。
最新本的omega比对准确度更高,而且速度更快,适合几千条规模的多序列比对,该软件目前只提供了命令行版本。在官网上,提供了源代码和编译好的二进制文件
通常情况下,直接下载对应的二进制可执行文件就行了。软件的基本用法如下:
clustalo -i seq.fasta > align.fa
-i
指定输入的序列文件,默认输出结果打印在屏幕上,可以重定向到指定文件中。该软件支持多种格式的输出
-
fasta
-
clustal
-
msf
-
phylip
-
selex
-
stockholm
-
vienna
默认输出格式为fasta
, 可以通过--outfmt
参数指定输出文件的格式。多序列比对不同于Blast的地方在于,Blast是局部比对,而多序列比对是全局比对。全局比对意味着需要将输入序列对齐到同一个水平来比对,一般是通过在输入序列中插入碱基的方式来使序列对齐,示意如下
>ENA|CAA23748|CAA23748.1 Homo sapiens (human) alpha globin ATGGTGCTGTCTCCTG----CCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGG CGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCAC CACCAAGACCTACTTCCCGCACTTC---GACCTGAGCCACGGCTCTGCCCAAGTTAAGGG CCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCC CAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAA CTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTT CACCCCTGCGGTGCACGCTTCCCTGGACAAGTT---CCTGGCTTCTGTGAGCACCGTGCT GACCTCCAAATACCGTTAA >ENA|CAA24095|CAA24095.1 Mus musculus (house mouse) alpha-globin ATGGTGCTCTCTGGGGAAGACAAAAG----CAACATCAAGGCTGCCTGGGGGAAGATTGG TGGCCATGGTGCTGAATATGGAGCTGAAGCCCTGGAAAGGATGTTTGCTAGCTTCCCCAC CACCAAGACCTACTTTCCTCACTTTGATGT---AAGCCACGGCTCTGCCCAGGTCAAGGG TCACGGCAAGAAGGTCGCCGATGCGCTGGCCAGTGCTGCAGGCCACCTCGATGACCTGCC CGGTGCCTTGTCTGCTCTGAGCGACCTGCATGCCCACAAGCTGCGTGTGGATCCCGTCAA CTTCAAGCTCCTGAGCCACTGCCTGCTGGTGACCTTGGCTAGCCACCACCCTGCCGATTT CACCCCCGCGGTACATGCCTCTCTGGACAAATT---CCTTGCCTCTGTGAGCACCGTGCT GACCTCCAAGTACCGTTAA >ENA|BAA20512|BAA20512.1 Cyprinus carpio (common carp) alpha-globin ATGAGTCTCTCTGATAAGGACAAGGCTG----CTGTGAAAGCCCTATGGGCTAAGATCAG CCCCAAAGCCGATGATATCGGCGCTGAAGCTCTCGGCAGAATGCTGACCGTCTACCCTCA GACCAAGACCTACTTCGCTCACTGGGATGACCTGAGCCCTGGGTCCGGTCCTGTGAAGAA GCATGGCAAGGTTATCATGGGTGCAGTGGCCGATGCCGTTTCAAAAATAGACGACCTTGT GGGAGGTCTGGCCTCCCTGAGCGAACTTCATGCTTCCAAGCTGCGTGTTGACCCGGCCAA CTTCAAGATCCTCGCACACAATGTCATCGTGGTCATCGGCATGCTCTTCCCTGGAGACTT CCCCCCAGAGGTTCACATGTCAGTTGACAAGTTTTTCCAGAAC---TTGGCTCTGGCTCT CTCTGAGAAGTACCGCTAA
通过在序列中插入-
来使得序列对齐。如果不习惯命令行的操作方式,也有在线服务可以使用。EBI提供的在线服务网址如下
https://www.ebi.ac.uk/Tools/msa/clustalo/
使用非常简单,输入序列,调整参数设置,然后提交即可。在输出结果中,还提供了颜色标记,进化树可视化等功能。
通过Mview
可视化多序列比对结果,示意如下
也支持导出到Jalview
软件中进行可视化。
通过Phylogenetic Tree
可以查看进化树的结果,默认采用NJ法建树,示意如下
也可以通过Send to Simple Phylogeny, 创建进化树,支持NJ和UPGMA两种建树方式。