中国水产科学  2022, Vol. 29 Issue (07): 1073-1090  DOI: 10.12264/JFSC2021-0475
0

引用本文 

袁晓倩, 茹斯坦木·迪丽娜, 张琪, 韩洁. GenBank中裂腹鱼类CO I基因序列的分子标记有效性[J]. 中国水产科学, 2022, 29(7): 1073-1090. DOI: 10.12264/JFSC2021-0475.
YUAN Xiaoqian, RUSTAM Delara, ZHANG Qi, HAN Jie. Validity of the CO I sequences from Schizothoracids in GenBank as a molecular marker[J]. Journal of Fishery Sciences of China, 2022, 29(7): 1073-1090. DOI: 10.12264/JFSC2021-0475.

基金项目

科技部国家科技基础资源调查专项(2019FY101700);生物多样性与生态工程教育部重点实验室自主课题.

作者简介

袁晓倩(1993‒),女,硕士研究生,从事水生动物分子演化研究. E-mail: yxq@stu.xju.edu.cn

通信作者

通信作者:韩洁,教授,从事水生动物分子与演化生态学研究. E-mail: jiehan@bnu.edu.cn

文章历史

收稿日期:2021-10-11
修改日期:2021-12-01
GenBank中裂腹鱼类CO I基因序列的分子标记有效性
袁晓倩1,茹斯坦木·迪丽娜1,张琪2,韩洁1,2,     
1. 新疆大学生命科学与技术学院,新疆 乌鲁木齐 830046
2. 北京师范大学生命科学学院,生物多样性与生态工程教育部重点实验室,北京 100875
摘要:裂腹鱼类(Schizothoracids)分布有复杂的水系格局,在形态学鉴定时有些鱼种容易混淆。线粒体细胞色素C氧化酶亚基I(CO I)基因是动物学研究中常用的物种分子条形码,分析GenBank数据库中裂腹鱼类CO I作为分子标记的有效性,可以加深理解和认识前人用这些数据所做的研究工作,也为今后更合理地使用这些数据提供参考依据。本研究对GenBank数据库中裂腹鱼类CO I基因的分子标记有效性进行分析评估,通过同源性比对、参考序列间遗传分歧的估算和系统发育关系重建等方法,判断GenBank数据库中裂腹鱼类CO I基因序列的同源性、序列所属鱼种鉴定的准确性,以及序列信息对系统发育关系的解析力。通过对下载的1431条序列进行多重比对发现,有3条序列与其他序列存在显著差异,同源性存疑,数据信息经BLAST相似性搜索和核查确认为,以CO I基因的互补链形式提交的序列,比对前应先进行互补链转换。全部序列的比对结果显示,GenBank数据库中裂腹鱼类的CO I基因片段序列均为该基因近5ʹ端至中部的序列。权衡序列的数量和长度后,舍弃较短的35条序列,保留长度为527 bp的1396条序列进行分析,结果共定义了228个单倍型,在有多条序列的鱼种中,普遍存在种内共享单倍型,还有41个单倍型为种间共享。裂腹鱼类CO I单倍型的平均p-距离为9.5%,与鱼类的属级水平相当,原始、特化和高度特化类群各自的平均p-距离值更低,体现近期辐射演化的特征,可能与它们随着青藏高原演化成种的历史较短有关。GenBank中一些裂腹鱼类CO I基因序列的鱼种鉴定存在错误,在使用时应先与参考序列对比,或从系统发育分析的角度做出判断。总体来看,CO I基因序列能够有力解析裂腹鱼类各演化等级裂腹鱼类之间的亲缘关系,可用于分类和演化的初步分析。结合形态学、生态学、线粒体和核基因的多样性及系统发育关系等进行综合分析,将有助于更准确地界定裂腹鱼种类,同时也为深入探讨杂交和成种过程等问题奠定基础。
关键词裂腹鱼类    CO I    分子标记有效性    GenBank    
Validity of the CO I sequences from Schizothoracids in GenBank as a molecular marker
YUAN Xiaoqian1,RUSTAM Delara1,ZHANG Qi2,HAN Jie,1,2    
1. College of life Science and Technology, Xinjiang University, Urumqi 830046, China
2. Ministry of Education Key Laboratory for Biodiversity Science and Ecological Engineering, College of life sciences, Beijing Normal University, Beijing 100875, China
Abstract:The validity of the mitochondrial cytochrome C oxidase subunit I (CO I) sequences from Schizothoracids in GenBank as a molecular marker was determined in this study. Multiple sequence alignment, divergence from reference sequence assessment, and phylogenetic reconstruction were employed to evaluate the sequence homology, species diagnosis, and phylogenetic resolution of CO I sequences from Schizothoracids in GenBank. The primary alignment result for 1431 downloaded sequences revealed three sequences with significantly large indels; however, their homologous status was questionable. BLAST search and sequence information in GenBank confirmed that these sequences were Schizothoracid CO I sequences that were submitted as complements. Accordingly, prior to alignment, complement transition of these sequences should be carried out. Complete multiple sequence alignment revealed that all Schizothoracid CO I fragments in the GenBank nucleotide database were from near the 5ʹ end to the middle of this coding gene. To retain more variation information, 35 short sequences were eliminated from the dataset. As a result, 1,396 sequences with 527 bp were analyzed, and 228 CO I haplotypes were defined. Intra-specific sharing haplotypes were common in species with multiple available sequences. However, 41 inter-specific sharing haplotypes were shared by more than one species. The average pairwise p-distance within the Schizothoracid CO I haplotypes was 9.5%, which is comparable with the cogeneric species level in fish. The average pairwise p-distances within the primitive, specialized, and highly specialized Schizothoracids were even shorter, a character of recent radiation that may reflect a short speciation history mainly driven by the elevation of the Qinghai-Tibet Plateau. Specimen misidentification was found in some Schizothoracid CO I sequences in GenBank, suggesting confirmation steps before use, such as comparison with reference sequences or inference from the phylogenetic reconstruction. Generally, the CO I sequence is a good molecular marker for Schizothoracids identification and primary evolutionary analysis, and the phylogenetic relationships among the three evolutionary grades of Schizothoracids are well resolved using this marker. Integrative analyses, including morphology, ecology, mitochondrial and nuclear DNA diversity, and phylogeny, would aid in taxonomic resolution and further investigation of hybridization and speciation in Schizothoracids.
Key wordsSchizothoracids    CO I    molecular marker validity    GenBank    

裂腹鱼类(Schizothoracids)隶属于鲤形目(Cypriniformes)、鲤科(Cyprinidae),目前记录有12属90种和亚种,因其在臀鳍基部和肛门两侧具有特化的臀鳞,并在两列臀鳞之间的腹中线上形成一条裂缝而得名[1]。它们是亚洲中部高原地区特有的鱼类,以青藏高原为中心辐射分布,常被用于研究青藏及周边高原地区的生物演化和适应[1-3]。根据裂腹鱼类对高原的适应程度,将其划分为原始、特化和高度特化3个演化等级[3]。裂腹鱼类分布有复杂的水系格局,可能存在相同鱼种在不同水域间迁移和同一水域内种间杂交的现象,导致在形态上有些鱼种之间相似而种内差异却较大,增加了从形态学角度开展研究的难度[4-5]

对用传统方法鉴别有困难的生物种类,采用DNA分子标记的鉴定方法具有明显的优势[6-9]。Bartlett等[10]率先采用线粒体DNA序列进行了鱼类的物种鉴别,用细胞色素b的编码基因序列成功区分了4种金枪鱼(Thunnus spp.)。Avise[11]在研究中发现,动物线粒体基因序列的种内差异很少超过2%,大多数小于1%。Hebert等[7]于2003年提出,以线粒体细胞色素C氧化酶亚基I (CO I)基因多样性为基础,建立动物DNA条形码系统,因为CO I基因近5ʹ端的核苷酸序列多样性信息能够将动物种类明确地归入恰当的门和目等较高的分类阶元。紧接着Hebert等[8]又报道了对大量动物种类的CO I基因序列的研究结果,发现同属物种之间也存在着非常显著的差异,98%以上的物种之间的CO I序列差异都超过2%以上,足以将它们区分开来;由于CO I基因编码线粒体呼吸链上的部分终止酶,所以在相同种内趋于保守,变异较低。之后,CO I基因序列被广泛地应用于动物种类的分子鉴定和演化生物学的研究[12]。因此促成了生命条形码数据系统(the Barcode of Life Data System, BOLD)的建立[13], GenBank核苷酸序列数据库中的CO I基因序列数据也随之迅猛增加[14]。以建立全球鱼类条型码数据库为目标的国际合作研究项目——The Fish Barcode of Life Campaign (FIsh-BOL)于2005年启动,加速了全球鱼类CO I基因参考序列的收集和利用[12,15]

GenBank核苷酸序列数据库由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立,目前已有全世界的科学工作者提交的近26万种生物的核苷酸序列,供用户免费使用[16]。但由于数据为自由提交,生物多样性又十分复杂,所以很难确保所有的数据信息均客观准确,在使用前有必要进行慎重的检查和甄别[8,17-20]。笔者在利用GenBank数据库中的线粒体基因序列数据对裂腹鱼类进行研究时发现,多重比对结果中存在个别同源性存疑的序列,还有一些不同鱼种共享单倍型的现象。由于DNA分子标记在近缘种之间存在差异性过低的可能,因此对其用于生物学条形码来区分近缘物种的有效性提出怀疑[21]。该问题在对裂腹鱼类进行研究时也值得进一步探究。

本研究对GenBank数据库中裂腹鱼类的CO I基因序列进行全面分析,查找同源性存疑的序列与其他序列不同的原因,探讨这些数据作为分子标记在鱼种鉴定和分子演化分析中的有效性。加深理解和认识前人以这些数据为基础所做的研究工作,为今后科学合理地使用这些数据提供参考。

1 材料与方法 1.1 数据来源与整理

依据《中国动物志》[22]和相关研究[23-26],裂腹鱼类共12属90种和亚种,在GenBank数据库中分别输入它们的拉丁学名进行检索,下载所有的CO I基因片段序列,对其中具有线粒体基因组序列数据的鱼种,下载线粒体基因组中的CO I基因作为参考序列。下载截至日期为2021年7月20日。

利用CLUSTAL X 1.8[27]对上述下载的序列进行Aligment多重比对,将比对结果中差异显著的同源性存疑序列,在GenBank中进行BLAST相似性检索,并核查数据的提交信息,若有不准确的序列则进行剔除,若为互补链序列则进行互补转换。再次对数据进行Aligment比对,为尽可能保留数据中的变异信息,在数据数量和长度间权衡,舍弃长度较短的序列,建立数据集。

1.2 单倍型和遗传差异分析

利用DnaSP 6.1[28]对CO I基因序列数据集进行单倍型分析,并利用所定义的单倍型建立单倍型数据集。

利用MEGA 7.0[29]计算所有单倍型两两之间的p-距离(p=nd/nt,其中nd为两条序列之间不同的碱基的数目,nt为所比较序列的长度),计算全部单倍型之间的平均p-距离,以及各演化等级内单倍型之间的平均p-距离。

1.3 系统发育分析

以波比氏鲃(Barbus pobeguini, GenBank登录号:NC 033914.1)和赫尔氏鲃(Barbus hulstaerti, GenBank登录号:NC 031530.1)为外类群,用三种方法重建单倍型系统发育树。第一种是邻接法(Neighbor-Joining, NJ),在MEGA 7.0中进行,分子演化模型采用Kimura双参数模型(Kimura 2- parameters)。第二种是最大似然法(maximum likelihood, ML),在IQ-TREE 2[30]中进行,分子演化模型采用在ModelFinder模块用贪婪算法估计的最优核苷酸替代模型TN93+G+I+G4。以上两种方法均进行1000次自举检验(bootstrap=1000)。第三种采用贝叶斯推断法(Baysian inference, BI)建树,在MrBayes v.3.2.6[31]中进行,核苷酸替代模型选用GTR+G+I+G4,以随机树为起始树,进行100000代马尔可夫链蒙特卡罗模拟(Markov Chain Monte Crlo, MCMC),每100代取样一次,采用4条马尔可夫链同时运行,其中3条热链1条冷链(ngen=4)。一致性树在250代后(Burnin=250)整合,分支节点的可信度以后验概率(posterior probability, PP)为参考[32]。所有的系统发育树用FigTree v.1.4.2[33]查看并导出。

2 结果与分析 2.1 序列比对及结果整理

经检索,截至2021年7月20日,GenBank中发表的裂腹鱼类CO I基因片段序列有1431条,涵盖11属66种和亚种,其中58种鱼具有线粒体基因组序列。下载以上全部CO I基因片段序列,同时下载58种线粒体基因组中的CO I基因序列作为参考序列(表1)。Aligment多重比对结果显示,有1条尼泊尔裂腹鱼(Schizothorax nepalensis)的序列(GenBank登录号:MN178262.1)和2条横口裂腹鱼(Schizothorax plagiostomus)的序列(GenBank登录号:MN178265.1和KJ183111.1)与其他大多数序列相比,存在大片段的插入缺失,差异十分显著,不像裂腹鱼类的CO I同源基因。但以BLAST相似性搜索来判断,这3条序列都是裂腹鱼类的CO I基因序列,进一步核查序列提交信息发现,它们以CO I基因的互补链序列形式提交至GenBank。将以上3条序列进行互补链转换后,再次对数据进行Aligment比对,结果显示,所有序列均为CO I基因同源序列,且片段序列均为CO I基因的近5ʹ端至中部序列,大多数序列的比对长度为527 bp,截取该长度序列,并舍弃35条较短的序列,即来自23条理氏裂腹鱼(Schizothorax richardsonii, GenBank登录号:JX485929.1-50.1, MK785037.1)、6条前裂腹鱼(Schizothorax progastus, GenBank登录号:MK784997.1-99.1, JQ692870.1, JQ692872.1, JQ692873.1)、4条拉萨裂腹鱼(Schizothorax waltoni, GenBank登录号:MN991975.1- 78.1)的序列,以及来自横口裂腹鱼(GenBank登录号:KJ183111.1)和短须裂腹鱼(Schizothorax wangchiachii, GenBank登录号:HQ235943.1)的序列各1条,由此建立的数据集共包含1396条CO I基因序列,涵盖11属66种和亚种,每种鱼的序列数目在1~312条之间不等(表2)。

表1  裂腹鱼类线粒体基因组参考序列及其CO I基因在本研究中定义的单倍型 Tab. 1  Reference sequences of Schizothoracids mitochondrial genomes from GenBank and their CO I haplotypes defined in this study
2.2 单倍型组成与遗传差异

DnaSP对裂腹鱼类的CO I基因序列共定义了228个单倍型,在具有多条序列的鱼种中,普遍存在种内共享单倍型的现象(表2)。其中还有41个单倍型为种间共享,涉及795条序列,47个种和亚种。在41个种间共享单倍型中,有9个同时包含着2种鱼的参考序列,还有2个同时包含着3种鱼的参考序列,约占所有参考序列的41% (表1, 表2)。种间共享单倍型中,2种鱼共享的最多,有26个,约占63%;其次为3种鱼共享的单倍型,有9个,约占22%; 4种和5种鱼共享的单倍型分别有1个(Hap34)和4个(Hap4、Hap106、Hap113和Hap116),还有1个单倍型(Hap75)竟有6种鱼共享。值得注意的是,Hap4由属于特化等级的裸腹叶须鱼(Ptychobarbus kaznakovi, GenBank登录号:MH464921.1)与高度特化等级的骨唇黄河鱼(Chuanchia labiosa)、黄河裸裂尻鱼(Schizopygopsis pylzovi)、柴达木裸裂尻鱼(Schizopygopsis kessleri)和花斑裸鲤共享,Hap4同时也是骨唇黄河鱼和黄河裸裂尻鱼的参考序列;Hap78由属于高度特化等级的软刺裸裂尻鱼(Schizopygopsis malacanthus, GenBank登录号:MH464951.1)与49条原始等级的短须裂腹鱼共享。单倍型数量最多的是横口裂腹鱼,达28个;其次是理氏裂腹鱼和软刺裸裂尻鱼,都是16个;数量较多的还有花斑裸鲤(Gymnocypris eckloni)、裸腹叶须鱼、拉萨裸裂尻鱼(Schizopygopsis younghusbandi)、前裂腹鱼和怒江裂腹鱼(Schizothorax nukiangensis),都有10个(表2)。

在228个单倍型构成的25878个单倍型数据对中,平均p-距离为(9.5±5.0)%,原始、特化和高度特化等级各自的平均p-距离分别为(4.1±2.0)%、(6.8±5.0)%和(3.7±2.0)%。属于高度特化等级软刺裸鲤(Gymnocypris dobula)的Hap14和属于原始等级光唇裂腹鱼(Schizothorax lissolabiatus)的Hap127之间的p-距离最大,达19.8%,也就是说裂腹鱼种之间的CO I序列差异范围在0.0% (种间共享)~19.8%。值得一提的是,除了8种没有参考序列的鱼种外,在228个单倍型中,与各自鱼种的参考序列的差异大于2.0%的单倍型有66个,涉及17种鱼328条序列;与各自鱼种的参考序列的差异大于1.0%并小于等于2.0%的单倍型有19个,涉及9种鱼89条序列(表2);横口裂腹鱼以CO I片段序列定义的27个单倍型均与其参考序列的差异大于1.5%,其中有22个大于2.1%;软刺裸裂尻鱼以CO I片段序列定义的15个单倍型中,有6个与参考序列差异大于1.5%,本研究中与参考序列差异最大的单倍型就出现在该鱼种中,即Hap78与其参考序列Hap71的差异达13.7% (表2)。

表2  GenBank中裂腹鱼类CO I基因序列的单倍型及其与参考序列间的p-距离 Tab. 2  Haplotypes of Schizothoracids CO I from GenBank and the p-distances between them and references
2.3 系统发育分析

以邻接法、最大似然法和贝叶斯推断法构建的CO I基因的单倍型系统发育树的拓扑结构几乎完全一致,显示裂腹鱼类为两个并系群,原始等级的裂腹鱼类聚为一支,特化和高度特化等级的裂腹鱼形成另一演化支,部分特化等级的裂腹鱼位于后一支的基部,而其他特化等级的裂腹鱼与高度特化等级的裂腹鱼具有最近共同祖先(图1)。原始等级和特化等级裂腹鱼的属级聚类明确,而高度特化类群的聚类出现了不同属种交错聚类的复杂的情形。单倍型Hap4属于高度特化类群,Hap78则归入原始类群。在系统树上,种内具有多个单倍型的鱼种,在参考序列与分歧较大的倍型之间,往往夹杂着其他近缘鱼种的单倍型(图1)。

3 讨论 3.1 GenBank中裂腹鱼类的CO I基因序列的同源性

在使用DNA序列进行分析时,若数据中掺有非同源序列,将造成分析结果错误,所以在使用数据库中的DNA序列时,为了保证分析结果的可靠性,首先应当通过序列比对来判断数据的同源性[34]。本研究对GenBank中的裂腹鱼类CO I基因序列的比对结果显示,有3条序列出现大片段的插入缺失,它们与其他裂腹鱼类CO I基因明显不同,通过BLAST相似性检索和核查序列提交信息发现,这3条是以CO I基因的互补链形式提交的序列,将它们进行互补链转换之后,再与其他CO I序列进行比对,结果显示,所有序列均为裂腹鱼类的CO I基因序列。建议今后在对数据库中的DNA序列进行同源性分析时,若发现比对差异显著的同源性存疑序列,不要简单剔除,而是进一步分析核查造成差异的原因,以便最大限度地有效利用数据。从比对结果来看,GenBank数据库中的裂腹鱼类CO I基因片段均为该基因近5ʹ端至中部的序列,这大概与将这段序列做为动物分子条形码的主张有关[8-9]。此外,Folmer等[35]设计的适用性非常广的CO I近5ʹ端至中部的PCR扩增通用引物,也更容易获得动物种类的这段DNA序列。本研究为了使序列数据含有更多的变异信息位点,舍弃了35条长度较短序列,保留了比对长度为527 bp的序列用于后续分析。

图1  裂腹鱼线粒体CO I基因单倍型的ML树 Fig. 1  ML tree of Schizothoracids reconstructed using CO I haplotypes
3.2 GenBank中裂腹鱼类的CO I基因单倍型与遗传分歧

本研究利用裂腹鱼类11属66种和亚种的1396条5ʹ端CO I基因序列变异信息,共定义出了228个单倍型(表2)。与其他动物种类相似,在具有多条序列的鱼种中,普遍存在种内共享单倍型的现象,说明CO I基因序列在裂腹鱼类的种内也是趋于保守的[8]。与此同时,研究结果中还出现了41个种间共享单倍型,涉及795条序列,47个种和亚种。这些种间共享单倍型中,有9个同时包含着2种鱼的参考序列,还有2个包含了3种鱼的参考序列,占参考序列数目的41% (表1, 表2)。种间杂交和渐渗(hybridization and introgression)、物种的近期辐射演化(recent radiation),以及物种识别错误均会导致种间共享单倍型[8-9]。纵观自然界,硬骨鱼类由于杂交而导致CO I基因共享单倍型的情况比较少见[36-38],而且种间杂交和渐渗基本不影响CO I基因作为鱼类分子条形码的使用[9]。裂腹鱼类分布有复杂的水系格局,可能存在同一水域内种间杂交的现象[4],由于CO I是母系遗传的线粒体基因,从杂交个体所测得的序列是其母系亲本的序列,若杂交个体被鉴定为其父本鱼种,就造成两个鱼种共享单倍型的假象。对于杂交个体,可通过亲本物种特异的核基因来辨别[8-9]。从目前的研究结果来看,同一水系内裂腹鱼类种间共享线粒体基因单倍型的现象比较普遍,近期辐射演化和鱼种鉴定错误可能是主要的原因[39-42]。本研究中,CO I基因参考序列为同一单倍型的鱼种的亲缘关系都很近[2],支持是近期辐射演化的结果,可能因为这些鱼种在相似环境中的分化历史较短,尚未在本研究所分析的CO I序列片段上留下变异位点信号,以致无法以这段序列做为分子标记来区分它们[6,8,21]。在228个单倍型构成的25878个单倍型数据对中,平均p-距离为9.5%,与鱼类属的水平相当[9],原始、特化和高度特化等级各自的单倍型数据对平均p-距离均明显小于全部数据对的平均值,表明各等级裂腹鱼类演化成种的历史较短,差异较低。早在分子条形码概念刚提出时[7-8], Mallet等[21]曾对用CO I基因序列作为区分近缘物种的分子条形码提出过质疑,认为DNA分子序列在近缘种之间可能会太过相似而难以区分。在这种情况下,尤其是当前生物技术快速进步和序列测定成本大幅降低的条件下,借助于基因组数据区分物种和解析物种的系统发育关系是更为有效的途径[2,43]

Hebert等[8]通过对大量动物种类的CO I基因序列研究发现,98%以上的物种之间的序列差异都在2%以上。本研究定义的228个单倍型中,与各自鱼种的参考序列的差异大于2.0%的单倍型有66个,涉及17种鱼328条序列。对于成种时间相对较短的裂腹鱼类,种内差异如此之大,极有可能是分类错误造成的。特别是拥有Hap4的特化等级的裸腹叶须鱼(GenBank登录号:MH464921.1)和拥有Hap78的高度特化等级的软刺裸裂尻鱼(GenBank登录号:MH464951.1)与其参考序列Hap55和Hap71的差异分别达8.8%和13.7% (表2),远远超出特化等级和高度特化等级裂腹鱼类各自的平均p-距离,进一步说明这两条鱼的鉴种有误。许多研究报道过GenBank中核苷酸序列所属物种存在鉴定错误[8,17-18],因此在使用这些数据时,应该先与参考序列比对,或从系统发育分析的角度对其物种鉴定的准确性做出判断。从此研究结果也可以看出,在实际工作中裂腹鱼类的鱼种鉴定难度较大[4,5,42]。随着生命条形码数据库(BOLD)和鱼类条形码数据库(FISH- BOL)的不断充实和完善,鱼类的分子鉴定将具备更多更可靠的参考依据[13]

一般来看,自然界动物种内的线粒体基因差异极少超过2%,大多数都低于1%[8-9,11]。本研究的228个单倍型中,与各自鱼种参考序列的差异值大于1.0%并小于等于2.0%的单倍型有19个,涉及9种鱼89条序列(表2)。地理隔离和定种的不确定可能会引起较高的种内差异[8,44],裂腹鱼类有些鱼种分布的水域较广,如本研究中定义单倍型最多的横口裂腹鱼,不仅分布在我国西藏地区,在阿富汗等地也有分布[22];还有些鱼种的分类也存在较多的争议,还在不断修正[45]。Hebert等[46]提议,若样本显示超出种内CO I平均遗传距离的10倍,可暂定为新种。所以在使用这一部分数据时,还应客观分析其与参考序列之间差异较大的原因。

3.3 CO I基因的系统发育

本研究用228个裂腹鱼类的CO I基因单倍型数据构建的邻接树、最大似然树和贝叶斯推断树的拓扑结构几乎完全一致,种内具有多个单倍型的鱼种,在其单倍型之间往往夹杂着其他近缘鱼种的单倍型(图1)。理论上,CO I基因做为动物物种的分子条形码,在其系统发育树上,相同物种的单倍型应聚为一簇,但不完全谱系分选、杂交和鉴种错误均会导致同一物种与其他物种交错分布[8-9,11,44]。裂腹鱼类具有显著的近期辐射演化的特征[2,39-42],近缘种之间甚至会共享CO I单倍型,也完全可能因为不完全谱系分选造成近缘种在系统树上交错分布。例如同域分布在新疆塔里木河水系的塔里木裂腹鱼(Schizothorax biddulphi)和扁吻鱼(Aspiorhynchus laticeps),它们的亲缘关系很近,综合CO I基因序列和形态学特征的研究认为,这2种鱼未达到属级的差别,扁吻鱼可能为裂腹鱼属内部特化物种[2, 23, 47]。所以同为塔里木裂腹鱼和扁吻鱼参考序列的Hap1与扁吻鱼的第二个单倍型Hap2在系统树上的聚类关系(图1),极有可能是不完全谱系分选的结果。由于同域分布的近缘裂腹鱼类也可能存在种间杂交[4],要进一步解析这些近缘种之间的演化关系,还需要增大种群水平的样本量,从形态学和基因组学等角度做更深入的分析[2,42]。值得注意的是,在系统树上,塔里木裂腹鱼的另外5个CO I单倍型(Hap94~97, Hap207),与其参考序列位于完全不同的演化支上。研究表明,不同地理种群的单倍型之间可能会存在遗传分歧,从而造成它们在系统发育树上分布于不同的演化支,但硬骨鱼类不同地理种群的CO I序列分歧至多达到0.5%,较高的遗传分歧则预示着鉴种错误[8-9,42]。塔里木裂腹鱼CO I的Hap94~97和Hap207与其参考单倍型间的p-距离达到5.7%~5.9%,提示这些序列的鱼种鉴定错误。事实上,本研究中与参考序列差异大于2%的CO I单倍型,在系统发育树上普遍与参考序列单倍型位于不同的演化支上,如定义为Hap3的花斑裸鲤CO I序列,与其参考单倍型Hap17的p-距离达4.6%,在系统发育树上的位置也相隔很远(图1)。鉴种错误造成同一鱼种的单倍型分布于系统发育树不同演化支上的假象,严重干扰了对物种系统发育关系的解读。

总体来看,裂腹鱼类CO I基因的单倍型系统发育树可以清晰解析其3个演化等级,原始等级的裂腹鱼聚为一大演化支,特化和高度特化等级的裂腹鱼聚为另一支,二者形成并系群;部分特化等级的裂腹鱼与高度特化等级的裂腹鱼具有最近共同祖先;原始等级和特化等级裂腹鱼的属级聚类明确,而高度特化类群的聚类出现了不同属种交错聚类的复杂的情形。这与采用线粒体基因组数据分析得到的裂腹鱼类系统发育关系也一致[2]。在系统发育树上,裂腹鱼在演化等级上的错误划分很容易识别,如Hap4明确属于高度特化类群,而Hap78则归入原始类群(图1),也进一步证明将GenBank登录号为MH464921.1和MH464951.1的两尾鱼鉴定为裸腹叶须鱼和软刺裸裂尻鱼是错误的。

迪丽娜等[2]在采用线粒体基因组数据的研究中,对各演化等级中裂腹鱼的演化地位及成种过程做了较为深入的讨论,在本研究的系统发育树中,若忽略与参考序列分歧较高的单倍型的影响,其鱼种之间的亲缘关系与用线粒体基因组数据分析所得的结果基本一致。所以CO I基因序列能够有力解析裂腹鱼类各演化等级之间的亲缘关系,可用于分类和演化的初步分析,但在使用GenBank中的数据时,应与参考序列对比,或从系统发育分析的角度做出判断,以排除鉴种错误序列的干扰。结合形态学、生态学、线粒体和核基因多样性分析和系统发育关系等进行综合研究,将有助于更准确地界定裂腹鱼种类,同时也为深入探讨杂交和成种过程等问题奠定基础[9,15]

4 结论

GenBank数据库中,裂腹鱼类CO I基因序列均为近5ʹ端至中部的序列,有个别序列是以互补链形式提交,比对前应进行互补链转换。在序列数量和长度之间权衡后,GenBank数据库中的CO I基因序列可作为分子标记用于演化生物学的初步分析。裂腹鱼类CO I基因的平均差异程度仅相当于鱼类的属级水平,体现出近期辐射演化的特征。一些裂腹鱼类CO I基因序列的鱼种鉴定存在错误,在使用时应先与参考序列对比,或从系统发育分析的角度做出判断。CO I基因能够有力解析各演化等级裂腹鱼类之间的亲缘关系。结合形态学、生态学、线粒体和核基因的多样性及系统发育关系等进行综合分析,将有助于更准确地界定裂腹鱼种类,同时也为深入探讨杂交和成种过程等问题奠定基础。

参考文献
[1]
Dai Y G, Xiao H. Review of studies on the germplasm resources of the Schizothoracinae fishes[J]. Chinese Agricultural Science Bulletin, 2011, 27(32): 38-46. [代应贵,肖海. 裂腹鱼类种质多样性研究综述[J]. 中国农学通报,2011, 27(32): 38-46.].》Google Scholar
[2]
Rustam D, Yuan X Q, Zhang Q, et al. Study on the phylogeny of Schizothoracids based on complete mitochondrial genome[J]. Journal of Fishery Sciences of China, 2022, 29(6): 781-791. [迪丽娜·茹斯坦木,袁晓倩,张琪,等. 基于线粒体基因组数据的裂腹鱼类系统发育研究[J]. 中国水产科学,2022, 29(6): 781-791].》Google Scholar
[3]
Deng T, Wang X M, Wang S Q, et al. Evolution of the Chinese Neogene mammalian faunas and its relationship to uplift of the Tibetan Plateau[J]. Advances in Earth Science, 2015, 30(4): 407-415. [邓涛,王晓鸣,王世骐,等. 中国新近纪哺乳动物群的演化与青藏高原隆升的关系[J]. 地球科学进展,2015, 30(4): 407-415.].》Google Scholar
[4]
Zhou J S, Zhang C, Liu H P, et al. Studies on identification of Schizothoracinae population in Tibet water system by DNA barcode[J]. Freshwater Fisheries, 2019, 49(1): 33-41. [周建设,张驰,刘海平,等. DNA条形码在西藏水系裂腹鱼亚科鱼类鉴定中的研究[J]. 淡水渔业,2019, 49(1): 33- 41.].》Google Scholar
[5]
Chan J L, Jiang H P, Liu Y M, et al. Application of COⅠ and 16S rRNA gene for identification of Tibetan Plateau Schizothorax species[J]. Journal of Hydroecology, 2015, 36(4): 98-104. [产久林,姜华鹏,刘一萌,等. COⅠ和16S rRNA基因在高原裂腹鱼物种鉴定中的应用[J]. 水生态学杂志,2015, 36(4): 98-104.].》Google Scholar
[6]
Tautz D, Arctander P, Minelli A, et al. A plea for DNA taxonomy[J]. Trends in Ecology & Evolution, 2003, 18(2): 70-74..》Google Scholar
[7]
Hebert P D N, Cywinska A, Ball S L, et al. Biological identifications through DNA barcodes[J]. Proceedings Biological Sciences, 2003, 270(1512): 313-321..》Google Scholar
[8]
Hebert P D N, Ratnasingham S, DeWaard J R. Barcoding animal life: Cytochrome c oxidase subunit 1 divergences among closely related species[J]. Proceedings Biological Sciences, 2003, 270(Suppl 1): S96-S99..》Google Scholar
[9]
Ward R D, Hanner R, Hebert P D N. The campaign to DNA barcode all fishes, FISH-BOL[J]. Journal of Fish Biology, 2009, 74(2): 329-356..》Google Scholar
[10]
Bartlett S E, Davidson W S. FINS (forensically informative nucleotide sequencing): A procedure for identifying the animal origin of biological specimens[J]. BioTechniques, 1992, 13(4): 518..》Google Scholar
[11]
Avise J C. Phylogeography. The history and formation of species[M]. Cambridge, MA: Harvard University Press, 2000..》Google Scholar
[12]
Waugh J. DNA barcoding in animal species: Progress, potential and pitfalls[J]. BioEssays, 2007, 29(2): 188-197..》Google Scholar
[13]
Ratnasingham S, Hebert P D N. Bold: the barcode of life data system (http://www.barcodinglife.org)[J]. Molecular Ecology Notes, 2007, 7(3), 355-364..》Google Scholar
[14]
Coissac E, Hollingsworth P M, Lavergne S, et al. From barcodes to genomes: Extending the concept of DNA barcoding[J]. Molecular Ecology, 2016, 25(7): 1423-1428..》Google Scholar
[15]
Hanner R, Desalle R, Ward R D, et al. The Fish Barcode of Life (FISH-BOL) special issue[J]. Mitochondrial DNA, 2011, 22(sup1): 1-2..》Google Scholar
[16]
Sayers E W, Bolton E E, Brister J R, et al. Database resources of the national center for biotechnology information[J]. Nucleic Acids Research, 2021, 50(D1): D20-D26..》Google Scholar
[17]
Harris D J. Can you bank on GenBank?[J]. Trends in Ecology & Evolution, 2003, 18(7): 317-319..》Google Scholar
[18]
Mitchell A. DNA barcoding demystified[J]. Australian Journal of Entomology, 2008, 47(3): 169-173..》Google Scholar
[19]
Pleijel F, Jondelius U, Norlinder E, et al. Phylogenies without roots? A plea for the use of vouchers in molecular phylogenetic studies[J]. Molecular Phylogenetics and Evolution, 2008, 48(1): 369-371..》Google Scholar
[20]
Ruedas L A, Salazar-Bravo J, Dragoo J W, et al. The importance of being earnest: What, if anything, constitutes a “specimen examined?”[J]. Molecular Phylogenetics and Evolution, 2000, 17(1): 129-132..》Google Scholar
[21]
Mallet J, Willmott K. Taxonomy: renaissance or tower of babel?[J]. Trends in Ecology & Evolution, 2003, 18(2): 57- 59..》Google Scholar
[22]
Le P Q, Cheng Y F, Cao W X, et al. Fauna Sinica, Osteichthyes, Cypriniformes (III)[M]. Beijing: Science Press, 2000. [乐佩琦,陈毅峰,曹文宣,等. 中国动物志 硬骨鱼纲 鲤形目(下卷)[M]. 北京:科学出版社,2000.].》Google Scholar
[23]
Ayelhan H, Guo Y, Meng W, et al. Phylogeny and divergence time estimation of Schizothoracinae fishes in Xinjiang[J]. Hereditas (Beijing), 2014, 36(10): 1013-1020. [海萨·艾也力汗,郭焱,孟玮,等. 新疆裂腹鱼类的系统发生关系及物种分化时间[J]. 遗传,2014, 36(10): 1013-1020.].》Google Scholar
[24]
Tong C, Fei T, Zhang C F, et al. Comprehensive transcriptomic analysis of Tibetan Schizothoracinae fish Gymnocypris przewalskii reveals how it adapts to a high altitude aquatic life[J]. BMC Evolutionary Biology, 2017, 17(1): 74..》Google Scholar
[25]
Wang T, Qi D S, Sun S H, et al. DNA barcodes and their characteristic diagnostic sites analysis of Schizothoracinae fishes in Qinghai Province[J]. Mitochondrial DNA Part A, 2019, 30(4): 592-601..》Google Scholar
[26]
He D K, Chen Y F. Molecular phylogeny and biogeography of highly-specialized of Schizothoracine fishes[J]. Chinese Science Bulletin, 2007, 52(3): 303-312. [何德奎,陈毅峰. 高度特化等级裂腹鱼类分子系统发育与生物地理学[J]. 科学通报,2007, 52(3): 303-312.].》Google Scholar
[27]
Thompson J D, Gibson T J, Plewniak F, et al. The CLUSTAL_X windows interface: Flexible strategies for multiple sequence alignment aided by quality analysis tools[J]. Nucleic Acids Research, 1997, 25(24): 4876-4882..》Google Scholar
[28]
Rozas J, Ferrer-Mata A, Sánchez-DelBarrio J C, et al. DnaSP 6: DNA sequence polymorphism analysis of large data sets[J]. Molecular Biology and Evolution, 2017, 34(12): 3299-3302..》Google Scholar
[29]
Kumar S, Stecher G, Tamura K. MEGA7: molecular evolutionary genetics analysis version 7.0 for bigger datasets[J]. Molecular Biology and Evolution, 2016, 33(7): 1870-1874..》Google Scholar
[30]
Minh B Q, Schmidt H A, Chernomor O, et al. IQ-TREE 2: New models and efficient methods for phylogenetic inference in the genomic era[J]. Molecular Biology and Evolution, 2020, 37(5): 1530-1534..》Google Scholar
[31]
Ronquist F, Huelsenbeck J P. MrBayes 3: Bayesian phylogenetic inference under mixed models[J]. Bioinformatics, 2003, 19(12): 1572-1574..》Google Scholar
[32]
Bromham L, Duchêne S, Hua X, et al. Bayesian molecular dating: Opening up the black box[J]. Biological Reviews of the Cambridge Philosophical Society, 2018, 93(2): 1165-1191..》Google Scholar
[33]
Rambaut A. FigTree v1.4.4, a graphical viewer of phylogenetic trees[CP/OL]. 2018. http://tree.bio.ed.ac.uk/ software/figtree..》Google Scholar
[34]
Mount D W. Bioinformatics: sequence and genome analysis[M]. New Yorker: Cold Spring Harbor Laboratory Press, 2001..》Google Scholar
[35]
Folmer O, Black M, Hoeh W, et al. DNA primers for amplification of mitochondrial cytochrome c oxidase subunit I from diverse metazoan invertebrates[J]. Molecular Marine Biology and Biotechnology, 1994, 3(5): 294-299..》Google Scholar
[36]
Ward R D, Zemlak T S, Innes B H, et al. DNA barcoding Australia's fish species[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2005, 360(1462): 1847-1857..》Google Scholar
[37]
Yaakub S M, Bellwood D R, van Herwerden L, et al. Hybridization in coral reef fishes: Introgression and bi-directional gene exchange in Thalassoma (Family Labridae)[J]. Molecular Phylogenetics and Evolution, 2006, 40(1): 84- 100..》Google Scholar
[38]
Hubert N, Hanner R, Holm E, et al. Identifying Canadian freshwater fishes through DNA barcodes[J]. PLoS ONE, 2008, 3(6): e2490..》Google Scholar
[39]
He D K, Chen Y F. Biogeography and molecular phylogeny of the genus Schizothorax (Teleostei: Cyprinidae) in China inferred from cytochrome b sequences[J]. Journal of Biogeography, 2006, 33(8): 1448-1460..》Google Scholar
[40]
Yang J, Yang J X, Chen X Y. A re-examination of the molecular phylogeny and biogeography of the genus Schizothorax (Teleostei: Cyprinidae) through enhanced sampling, with emphasis on the species in the Yunnan-Guizhou Plateau, China[J]. Journal of Zoological Systematics and Evolutionary Research, 2012, 50(3): 184-191..》Google Scholar
[41]
Dimmick W W, Edds D R. Evolutionary genetics of the endemic Schizorathicine (Cypriniformes: Cyprinidae) fishes of lake Rara, Nepal[J]. Biochemical Systematics and Ecology, 2002, 30(10): 919-929..》Google Scholar
[42]
Chen W T, Ma X H, Shen Y J, et al. The fish diversity in the upper reaches of the Salween River, Nujiang River, revealed by DNA barcoding[J]. Scientific Reports, 2015, 5: 17437..》Google Scholar
[43]
Boore J L. The use of genome-level characters for phylogenetic reconstruction[J]. Trends in Ecology & Evolution, 2006, 21(8): 439-446..》Google Scholar
[44]
Avise J C, Walker D. Species realities and numbers in sexual vertebrates: Perspectives from an asexually transmitted genome[J]. Proceedings of the National Academy of Sciences of the United States of America, 1999, 96(3): 992-995..》Google Scholar
[45]
Chen X Y. Checklist of fishes of Yunnan[J]. Zoological Research, 2013, 34(4): 281-337. [陈小勇. 云南鱼类名录[J]. 动物学研究,2013, 34(4): 281-337.].》Google Scholar
[46]
Hebert P D N, Stoeckle M Y, Zemlak T S, et al. Identification of birds through DNA barcodes[J]. PLoS Biology, 2004, 2(10): e312..》Google Scholar
[47]
Yang T Y, Zhang R M, Guo Y, et al. Comparative study on partial mitochondrial CO Igene of Aspiorhynchus laticeps and Schizothorax biddulphi[J]. Journal of Hydroecology, 2011, 32(1): 45-50. [杨天燕,张人铭,郭焱,等. 扁吻鱼和塔里木裂腹鱼线粒体CO I基因片段的比较研究[J]. 水生态学杂志,2011, 32(1): 45-50.].》Google Scholar