2. 南京农业大学无锡渔业学院,江苏 无锡 214081
3. 中国水产科学研究院生物技术研究中心,北京 100141
2. Wuxi Fisheries College, Nanjing Agricultural University, Wuxi 214081, China
3. Research Centre for Aquatic Biotechnology, Chinese Academy of Fishery Sciences, Beijing 100141, China
全基因组关联分析(genome-wide association study, GWAS)是在全基因组范围内,以数以万计的单核苷酸多态性(single nucleotide polymorphism, SNP)作为分子标记,探究基因变异与性状之间关联的研究。GWAS已成为当今基因定位的主流方法,广泛应用于人类疾病、动植物疾病、动植物性状改良、动植物遗传育种等方面。由于GWAS的样本来源于不同的种群,每个种群独特的遗传历史、交配习惯、繁殖扩张以及随机变异都会使个体之间等位基因频率产生差异[1-2],存在群体分层,会导致关联分析过程中检验统计量膨胀,从而降低对数量性状核苷酸(quantitative trait nucleotide, QTN)的检测效力。主成分分析法(principal component analysis, PCA)是当下应对该问题的主要策略[3-4]。
间断性状,即类似于性别、是否患病等表型,可用二进制或者是不连续数字表示的性状。在进行基因定位时,间断性状和连续性状一样,也需考虑除检验标记外的群体分层、家系结构和隐藏亲缘等混杂因素[5-6]。然而与呈现正态分布的连续性状用剩余误差作为校正后的表型不同,间断性状的表型形式较为特殊,无法像连续性状一样估计表型的剩余误差,这就需要引入广义线性模型(generalized linear model, GLM)中的logit回归,对间断性状进行GWAS。即使校正了一些固定效应协变量,logit回归仍会受到群体分层的影响导致检验统计量膨胀。与线性模型(linear model, LM)相比较,广义线性模型求解要消耗更多时间和计算机内存。当协变量比较多的时候,GLM还会产生由近似引起的严重偏差问题[7-8]。
半滑舌鳎(Cynoglossus semilaevis)在动物分类上属于鲽形目(pleuronectiformes)、舌鳎科(cynoglossidae)、舌鳎属,属于近海大型底栖暖温性动物,分布于中国、朝鲜、日本,在中国主要分布在黄海、渤海近海区域[9],是目前中国重要的海水养殖鱼类品种之一[10]。不同性别的半滑舌鳎成体体重差异较大,雌性舌鳎生长速度较快,体重较大,相比之下,雄性舌鳎的体重较轻,生长缓慢。在人工养殖过程中,生理性别是雌性的舌鳎仅占20%~35%[11]; 此外,半滑舌鳎是性逆转生物,即在发育过程中,生理性别可能发生改变,即由遗传雌性逆转为生理雄性,该现象在昆虫[12]、爬行动物[13]、两栖动物[13]和鱼类[14]中时有发生。已有研究认为半滑舌鳎在Z染色体上可能存在导致性逆转的基因[15]。出于经济利益的考虑,在半滑舌鳎养殖过程中控制性逆转的产生,提高雌鱼的比例尤为重要。
半滑舌鳎性逆转性状在数量遗传学中被认为是间断性状,对该类性状QTN的筛选通常采用广义线性回归分析,对于存在群体分层的群体,则可采用考虑主成分(principal component, PC)的广义线性回归模型进行基因定位。为了更好地校正存在于半滑舌鳎性逆转性状中的复杂群体分层,以及提高QTN检测效力,本研究将提出一种间断性状GWAS方法,该方法可以将简单回归模型结果中显著位点的效应值和遗传力的尺度,转化为可解释的广义线性回归模型结果,降低了广义线性回归模型的求解难度和异常解出现的概率。本研究通过使用上述策略对半滑舌鳎性逆转性状进行GWAS,并与直接考虑PC的广义线性回归模型GWAS结果作比较,检验本研究提出的方法对群体分层的校正效果以及QTN检测效力,同时对检测出的影响半滑舌鳎性逆转性状的多态性核苷酸位点进行分析阐述,为以后半滑舌鳎性逆转性状的研究提供理论依据。
1 材料与方法 1.1 实验群体基因型与表型的获取本研究所用半滑舌鳎实验群体育成于河北黄骅。2013年3月,随机选取6尾亲本雌鱼和11尾表型雄鱼作为亲本,混合养殖,亲本间随机交配繁殖,产生后代。半滑舌鳎性逆转通常发生在孵化后的前90 d,为避免低温性逆转现象发生,对子代幼鱼进行持续90 d、恒温22 ℃的养殖。90 d之后,随机选取268尾半滑舌鳎进行DNA提取、亲代分析、遗传和表型性别检测,去除缺失数据,115尾雌性遗传基因被用于GWAS。采集这115只雌性半滑舌鳎的鱼鳍和性腺,并用鱼鳍提取DNA,提取鱼鳍组织DNA的具体操作步骤在Jiang等[16]的文章中有详细的描述。采用Chen等[17]提出的方法确定遗传性别,利用遗传雌性的生殖腺组织切片进行表型性别鉴定,得到表型数据。基因型数据由上海欧易生物技术有限公司测序分析得到,使用Illumina HiSeq2500平台对115尾遗传型雌性的半滑舌鳎的鱼鳍DNA进行单端测序,采用2b-RAD方法对测序结果进行基因分型,质量控制后,最终获得共17618个SNP标记。
1.2 方法 1.2.1 广义线性回归关联检验考虑群体分层时,通常以亲缘关系矩阵的主成分去校正由群体分层导致的分层效应,根据广义线性模型理论,连接函数建立起了间断性状表型向量
$\ln \left( {\frac{\mu }{{1 - \mu }}} \right) = Xb + z{\beta _{\rm{l}}}$ | (1) |
式中,μ是
通常,为了简化计算,事先估计出$X\hat b$并将它作为已知的回归项,此时只需要用${y^*} - X\hat b$代替
${\hat \beta _{\rm{l}}} = {({z^T}wz)^ - }^1{z^T}w({y^*} - X\hat b)$ | (2) |
式中,w=μ(1
采用卡方统计量,推断SNP与间断性状关联:
${\chi ^2} = \frac{{\hat \beta _{\rm{l}}^{\rm{2}}}}{{{{({z^T}wz)}^{ - 1}}}}$ | (3) |
这个统计量服从自由度为1的卡方分布。
1.2.2 简单回归关联检验考虑群体分层时,通常以亲缘关系矩阵的特征向量作为基因组简单线性回归模型的协变量去校正由群体分层导致的分层效应,简单回归模型变为:
$y = Xb + z{\beta _{\rm{c}}} + e$ | (4) |
式中,
${\chi ^2} = \frac{{{{\hat \beta }_{\rm{c}}}^2}}{{{{({z^T}z)}^{ - 1}}\hat \sigma _e^{\rm{2}}}}$ | (5) |
这个统计量服从自由度为1的卡方分布。
1.2.3 关联检验尺度转换当广义线性模型的回归系数多,群体小或标记等位基因频率较低时,广义线性模型很难收敛,理论和实践证明,GLM与LM具有相同的统计效力[18],所以本研究先采用(4)中的简单回归模型对每个标记进行检验,并以Bonferroni矫正阈值为标准,筛选候选QTN。假设检测到了q个候选QTN,将这q个标记指示变量
在GWAS中,Q-Q图是算法统计性质的直接体现;曼哈顿图常用于显著QTN的定位和筛选,分布于水平线即5% Bonferroni校正阈值线(2.838× 10–6)之上的点即为显著QTN; 基因组控制(genomic control, GC)值可以直接显示是否存在群体分层,GC值接近1说明基因组控制效果较好。
2.1 基因组广义线性回归模型的GWAS结果图1 所示是半滑舌鳎性逆转性状考虑复杂群体分层的广义线性回归模型的GWAS结果。观察Q-Q图可以得知,1个PC和3个PC的Q-Q图前半段均未贴合理论线,5个PC的Q-Q图的前半段能够很好地贴合理论线,后半部分上扬;而且1个PC时的GC值为2.37, 3个PC时的GC值为1.64, 5个PC时的GC值为1.01, GC值和Q-Q图结果都显示,1个PC和3个PC时的群体结构未得到很好的校正,存在假阳性。考虑5个PC的广义线性回归模型的GC值接近1,基因组控制效果较好,观察曼哈顿图可见,这时在Z染色体有2个QTN超过阈值线。
2.2 基因组简单回归模型尺度转换后的GWAS结果半滑舌鳎性逆转性状使用基因组简单线性回归模型尺度转换后的GWAS结果如图2所示,此方法把简单回归结果中显著位点的效应值和遗传力的尺度转化为可解释的广义线性回归结果。可以看出,1、5、30个PC的Q-Q图前面部分都能较好地贴合理论线,尾部上扬,说明3种情况都能对群体结构较好校正。计算GC值能直接了解基因组控制效果,1个PC的GC值为1.1, 5个PC的GC值为1.1, 30个PC的GC值为1.01,可以看出考虑30个PC的简单回归尺度转换方法对于群体分层的校正效果最好。由曼哈顿图可看出,检测到6个QTN, 5个在Z染色体上,1个在W染色体上;同时还检测到13号染色体的1个接近阈值的位点,以及Z染色体上3个接近阈值的位点。
半滑舌鳎性逆转性状考虑30个PC,使用简单回归模型进行尺度转换,然后进行GWAS,检出的QTN位点的详细信息如表1所示。表中QTN遗传力说明各个位点能解释性逆转性状遗传变异的百分比,6个P值超出阈值的SNP位点即为检测到的与半滑舌鳎性逆转性状相关的QTN,其余4个接近阈值的位点,可作为候选QTN。
![]() |
图1 半滑舌鳎性逆转性状广义线性回归模型GWAS曼哈顿和Q-Q图A. 1个PC, B. 3个PC, C. 5个PC Fig. 1 Manhattan and QQ plots of generalized linear regression model GWAS on sex reversal traits in Half-smooth ongue soleA. 1 PC, B. 3 PCs, C. 5 PCs |
![]() |
图2 半滑舌鳎性逆转性状简单回归模型尺度转换GWAS曼哈顿和Q-Q图A. 1个PC, B. 5个PC, C. 30个PC. Fig. 2 Manhattan and QQ plots for scale transformation of simple regression model GWAS on sex reversal traits in alf-smooth Tongue soleA. 1 PC, B. 5 PCs, C. 30 PCs. |
![]() |
表1 检测到的与半滑舌鳎性逆转性状相关联的QTN信息 Tab. 1 QTN information associated with sex reversal trait detected in Cynoglossus semilaevis |
本研究结果表明,简单回归尺度转换方法和广义线性回归模型都可以很好地校正关联分析中的群体分层,无论是评价指标中的Q-Q图还是基因组控制值,都显示只要考虑作为协变量的主成分数目恰当,就可以很好地控制全基因组关联分析中的假阳性。比较两种方法检出QTN的个数可知,基于简单回归尺度转换的简单回归模型比直接考虑PC的广义线性回归模型的QTN的检出效力更高,且使用简单回归尺度转换方法检测到的QTN高于已发表的方法,不但检测到了Z染色体上的QTN,还检测到了W染色体的一个QTN。
Z染色体上位置为9793913的SNP位于si:deky-193c22.1基因上,未有研究者对该基因的功能进行探究。Z染色体上位置为8643646的SNP在DAPK1 (death-associated protein kinase 1)基因上,DAPK1与细胞的死亡有关,Raval等[19]研究发现,DAPK1的表达缺失或降低是人类慢性B淋巴细胞白血病发病的原因;Siqueira等[20]在不同性别牛胚胎对群落刺激因子2反应的研究中证实,DAPK1的表达有受性别影响的趋势。Z染色体上位置为5833328的SNP在ADGRD2 (adhesion G protein-coupled receptor D2)的基因上。Z染色体上位置为6676874的SNP在FBXL17 (F-box and leucine-rich repeat protein 17)的基因上,Jiang等[16]有关半滑舌鳎性逆转性状的研究发现,FBXL17基因上位置为6676874的SNP与半滑舌鳎性逆转性状有关,本研究所应用的方法也检测到了这一位点。Z染色体上位置为7256721的SNP,在DMXL1 (Dmx like 1)基因上,人类DMXL1基因编码一个11 kb的RNA,开放阅读框3027个氨基酸,主要具有调节功能[21]。W染色体上位置为1218194的SNP,是唯一检测到的W染色体上的QTN,在LOC103396896基因上,还没有研究者对该基因功能进行深入的研究,但是这个基因位于W染色体上,有可能参与到性逆转性状的调控中。
除了检出的5个在Z染色体上的QTN和1个在W染色体上的QTN之外,还检测到Z染色体上的另外3个QTN,但未超过阈值,13号染色体上也检测出了一个接近阈值的QTN,这几个位点如下:Z染色体上位置为1633247的SNP,在LOC103397473基因上;Z染色体上位置为9232660的SNP,未在基因编码区内;Z染色体上位置为781540的SNP,在malt1 (MALT paracaspase 1)基因上,MALT1是在抗原受体介导的淋巴细胞活化中起关键作用的信号蛋白[22]; 13号染色体上检出的位点位置是2140529,在CD27基因上,CD27是T细胞的共刺激分子,可支持naïve T细胞的抗原特异性扩增,若删除或改变编码CD27的基因,免疫应答会发生延迟,特异性T细胞数量减少[23]。这些位点虽未超过阈值,但可作为候选QTN,为后续有关半滑舌鳎性逆转性状以及其他性状的全基因组关联分析研究奠定基础。
运用基于尺度转换的简单回归模型所检测出的与半滑舌鳎性逆转性状相关的位点,除了Z染色体上位置为6676874的SNP与半滑舌鳎性逆转性状有关之外[16],其余位点到目前为止没有报告或有明显的证据表明与性别决定的各种途径直接相关,但它们仍值得被关注,因为这些位点基本都在Z染色体或者W染色体上。众所周知,Z染色体和W染色体是半滑舌鳎的性染色体,雌性为ZW,雄性为ZZ,这两条染色体上的基因以及他们的连锁基因对于性别决定都可能具有潜在的影响,任一位置的突变都有可能对决定性别的基因产生影响。另外4个接近阈值的位点可作为候选QTN,为研究者们研究半滑舌鳎性逆转性状提供了候选研究位点。
[1] |
Zhao J L, Li S L, Gao J, et al. Bare-bones regression scan for genome-wide mixed model association study[J]. Journal of Northeast Agricultural University, 2018, 49(7): 58-66. [赵敬丽,李淑玲,高进,等. 全基因组混合模型关联分析的极速回归扫描法研究[J]. 东北农业大学学报,2018, 49(7): 58-66.].》Google Scholar
|
[2] |
Slatkin M. Inbreeding coefficients and coalescence times[J]. Genetical Research, 1991, 58(2): 167-175..》Google Scholar
|
[3] |
Zhu X F, Zhang S L, Zhao H Y, et al. Association mapping, using a mixture model for complex traits[J]. Genetic Epidemiology, 2002, 23(2): 181-196..》Google Scholar
|
[4] |
Price A L, Patterson N J, Plenge R M, et al. Principal components analysis corrects for stratification in genome-wide association studies[J]. Nature Genetics, 2006, 38(8): 904- 909..》Google Scholar
|
[5] |
Bulmer M G. The effect of selection on genetic variability[J]. The American Naturalist, 1971, 105(943): 201-211..》Google Scholar
|
[6] |
Falconer D S, Mackay T, Longman P. Introduction to quantitative genetics[J]. American Journal of Human Genetics, 1990, 46(6): 1231..》Google Scholar
|
[7] |
Schall R. Estimation in generalized linear models with random effects[J]. Biometrika, 1991, 78(4): 719-727..》Google Scholar
|
[8] |
Gilmour A R, Anderson R D, Rae A L. The analysis of binomial data by a generalized linear mixed model[J]. Biometrika, 1985, 72(3): 593-599..》Google Scholar
|
[9] |
Song C, Jiang L, Wang J W, et al. Studies on genetic features of sex reversal in Cynoglossus semilaevis[J]. Biotechnology Bulletin, 2015, 31(3): 207-212. [宋超,蒋丽,王景伟,等. 半滑舌鳎性逆转的遗传特性研究[J]. 生物技术通报,2015, 31(3): 207-212.].》Google Scholar
|
[10] |
Wan R J, Jiang Y W, Zhuang Z M. Morphological and developmental characters at the early stages of the tonguefish Cynoglossus semilaevis[J]. Acta Zoologica Sinica, 2004, 50(1): 91-102. [万瑞景,姜言伟,庄志猛. 半滑舌鳎早期形态及发育特征[J]. 动物学报,2004, 50(1): 91-102.].》Google Scholar
|
[11] |
Liang Z, Chen S L, Zhang J, et al. Gonadal development process observation of half-smooth tongue sole in rearing population[J]. Journal of Southern Agriculture, 2012, 43(12): 2074-2078. [梁卓,陈松林,张静,等. 半滑舌鳎养殖群体性腺发育观察[J]. 南方农业学报,2012, 43(12): 2074-2078.].》Google Scholar
|
[12] |
Narita S, Kageyama D, Nomura M, et al. Unexpected mechanism of symbiont-induced reversal of insect sex: Feminizing Wolbachia continuously acts on the butterfly Eurema hecabe during larval development[J]. Applied and Environmental Microbiology, 2007, 73(13): 4332-4341..》Google Scholar
|
[13] |
Quinn A E, Georges A, Sarre S D, et al. Temperature sex reversal implies sex gene dosage in a reptile[J]. Science, 2007, 316(5823): 411..》Google Scholar
|
[14] |
Nagahama Y. Molecular mechanisms of sex determination and gonadal sex differentiation in fish[J]. Fish Physiology and Biochemistry, 2005, 31(2-3): 105-109..》Google Scholar
|
[15] |
Shao C W, Li Q Y, Chen S L, et al. Epigenetic modification and inheritance in sexual reversal of fish[J]. Genome Research, 2014, 24(4): 604-615..》Google Scholar
|
[16] |
Jiang L, Li H D. Single locus maintains large variation of sex reversal in half-smooth tongue sole (Cynoglossus semilaevis)[J]. G3 Genes|Genomes|Genetics, 2017, 7(2): 583- 589..》Google Scholar
|
[17] |
Chen S L, Tian Y S, Yang J F, et al. Artificial gynogenesis and sex determination in half-smooth tongue sole (Cynoglossus semilaevis)[J]. Marine Biotechnology, 2009, 11(2): 243-251..》Google Scholar
|
[18] |
Yang J, Zaitlen N A, Goddard M E, et al. Advantages and pitfalls in the application of mixed-model association methods[J]. Nature Genetics, 2014, 46(2): 100-106..》Google Scholar
|
[19] |
Raval A, Tanner S M, Byrd J C, et al. Downregulation of death-associated protein kinase 1 (DAPK1) in chronic lymphocytic leukemia[J]. Cell, 2007, 129(5): 879-890..》Google Scholar
|
[20] |
Siqueira L G B, Hansen P J. Sex differences in response of the bovine embryo to colony-stimulating factor 2[J]. Reproduction, 2016, 152(6): 645-654..》Google Scholar
|
[21] |
Kraemer C, Enklaar T, Zabel B, et al. Mapping and structure of DMXL1, a human homologue of the DmX gene from Drosophila melanogaster coding for a WD repeat protein[J]. Genomics, 2000, 64(1): 97-101..》Google Scholar
|
[22] |
Thome M. CARMA1, BCL-10 and MALT1 in lymphocyte development and activation[J]. Nature Reviews Immunology, 2004, 4(5): 348-359..》Google Scholar
|
[23] |
Hendriks J, Gravestein L A, Tesselaar K, et al. CD27 is required for generation and long-term maintenance of T cell immunity[J]. Nature Immunology, 2000, 1(5): 433-440..》Google Scholar
|