【豆科基因组】绿豆Mungbean, Vigna radiata基因组2014NC
阅读原文时间:2023年07月08日阅读:3

目录

来源

Kang, Y., Kim, S., Kim, M. et al. Genome sequence of mungbean and insights into evolution within Vigna species. Nat Commun 5, 5443 (2014). https://doi.org/10.1038/ncomms6443

单位:韩国Seoul National University

一、简介

绿豆(Vigna radiata (L.) R. Wilczek)是属于豆科蝶形亚科的一种快速生长的暖季豆科植物,二倍体染色体数为2 n =2 x =22。绿豆主要在南亚、东亚和东南亚由小农户种植,用于种植可食用的种子和豆芽。绿豆种子是膳食蛋白质的良好来源,其叶酸和铁含量高于大多数其他豆类1。此外,绿豆作为豆类作物,通过根系根瘤菌共生固定大气中的氮,从而改善土壤肥力和质地2。在水稻-水稻和水稻-小麦系统中间作绿豆可提高后续谷类作物的产量并减少病虫害发生率34。遗传多样性数据和考古证据表明,绿豆在印度被驯化5。印度也是世界上最大的绿豆生产国,占全球年产量的 50% 以上(约 600 万吨),其次是中国和缅甸。

除了绿豆,豇豆(Vigna)属的角豆亚属还包含几种主要的农业重要豆科植物,包括克里奥尔豆 ( V. reflexo - pilosa var. glabra )、黑豆 ( V. mungo )、米豆 ( V. umbellata )、蛾豆 ( V. aconitifolia ) 和小豆 ( V. angularis )。豇豆物种的基因组大小是高度可变的,范围从416到1394 MB(1213)。大多数豇豆物种是二倍体,而V. reflexo-pilosa是四倍体 (2_n_ = 4_x_=44;  14 )。基因组扩展和多倍体化被认为是植物物种形成的主要机制,但多倍体对物种进化的影响仍不清楚15。随着现代基因组学工具的可用性,异源多倍体化的痕迹可以被追踪,这将进一步提供对适应和物种形成的见解16

本研究在染色体尺度上构建了栽培绿豆(V. radiata var. radiata VC1973A)的基因组草图。为了详细了解豇豆属的驯化、多倍化和物种形成,同时破译了野生近缘绿豆(V. radiata var. sublobata)和绿豆四倍体近缘种(V. reflexo-pilosa var. glabra)的全基因组序列,并产生了 18 个物种的 22 个豇豆种质的转录组序列。由于生命周期短和基因组小,豇豆物种可用作遗传研究中的模式豆科植物,以阐明作物驯化和物种分化。

二、结果

基因组组装

三个物种:

  • V. radiata var. (VC1973A 中绿,2n=2x=22)
  • 多倍体: V. reflexo-pilosa var. glabra (2n=4x=44)
  • 野生近缘种:V. radiata var. sublobata (TC1966,2n=2x=22)

流式细胞仪估计 VC1973A基因组大小 579 Mb,Kmer评估用25mer估计大小543Mb。五种文库覆盖基因组深度 320X。 ALLPATHS-LG组装2,748 个 N50=1.52 Mb 的scaffold,总长度为 431 Mb(80%)。

VC1973A和韩国地方品种V2984 ( V. radiata var. radiata )杂交产生的 190 个RIL的 F6群体构建了一张绿豆遗传图谱。

GBS测序分析1,321 个SNP(涵盖 11 个连锁群)用于构建遗传图谱,总共有 239 个scaffold可以通过这些 SNP 锚定到遗传图谱上。得到的代表 11 个连锁群的假染色体的 N50 长度为 35.4 Mb,覆盖了 314 Mb,相当于总组装序列的 73%。

野生近缘种组装结果:8,161 个scaffold,N50 = 214 kb,覆盖 423 Mb,约占估计基因组大小 501 Mb的84%。

四倍体的组装结果: 29,166 个scaffold,N50 = 63 kb,覆盖 792 Mb。约占估计基因组大小 968 Mb的82%。

重复序列和转座子

重复序列占绿豆基因组的约 50.1%。

长末端重复序列(LTR)反转录转座子是主要的类的绿豆基因组转座元件,与其他豆科植物一致: 25.2% 的绿豆基因组由 LTR/Gypsy 组成,11.3% 由 LTR/Copia 类型元素组成。II 类 DNA 转座子,包括 CACTA、Mutator、PIF-Harbinger、hAT、Helitron、MULE-MuDR 和 Tc1-Mariner,占绿豆基因组的约 2.5%。

基因组特征和基因注释

基因组序列完整性评估: 97% 的绿豆蛋白能够比对248 eukaryotic core proteins。genes, exons, coding DNA sequences (CDS) and introns 的长度和拟南芥、大豆高度一致。

总共有22,427个高可信度基因,18,378个基因位于假染色体上。

用OrthoMCL 24软件将绿豆的22,427 个蛋白和拟南芥蒺藜水稻大豆的蛋白质序列比较,所有五个物种共有 6,799 个基因簇,其中 160 个基因簇绿豆特有。

预测了 2,310 个非编码基因。

通过 Pfam 注释,总共在绿豆基因组中鉴定了 1,850 个编码转录因子(TF)的基因,并将相对 TF 丰度与其他植物基因组的丰度进行了比较。每个基因组中TF基因的总体分布在植物基因组中高度一致。最具代表性的 TF 家族是 MYB,其次是 AP2/EREBP 和 bHLH。

与非豆科植物基因组、拟南芥、玉米、水稻和二穗短柄草相比,bZIP2 家族占豆科植物基因组总 TF 的 <1% ,其中 bZIP2 代表 >3%。因此,在这些豆科植物基因组的共同祖先中,这个特定的 TF 家族很可能减少了。

a:驯化和野生绿豆circos,在 Vr05 上,在最外层鉴定了两个 QTL 位置,它们与基于同线关系的大豆QTL一致;b:5个物种的OrthoMCL聚类分析,每个值都显示了直系同源/旁系同源簇的数量;c:绿豆、四倍体绿豆和大豆的Ks频率分布

绿豆的驯化

VC1973A与其野生近缘种TC1966基因组之间的关系可以作为理解绿豆驯化的模型。

将野生种TC1966、地方驯化品种V2984 reads比对到栽培种VC1973A,比对区域分别为

401 和 422 Mb,覆盖基因组93%和98%。

在驯化和野生绿豆之间发现了至少 5 个读数支持的 2,922,833 个 SNP,对应于每 1 kb 6.78 个的 SNP 频率。在驯化的绿豆中,鉴定出 775,831 个高置信 SNP,频率为每 1 kb 1.8 个 SNP,包括 98,590 个 INDEL。

在所有三种基因型中,总共有 235,641,385 个碱基是保守的。驯化绿豆之间有2,425,069个碱基保守,仅在VC1973A和TC1966之间存在多态性。在 CDS 中的 51,351 个野生基因型特异性绿豆 SNP 中,24,599 个是非同义的,它们分布在 9,344 个基因上(图 1a)。驯化和野生绿豆之间表型差异背后的任何蛋白质变化都应该属于这些非同义 SNP。

这些scaffold的全基因组比对揭示了驯化绿豆与其野生近缘种之间整体基因组的相当大的一致性。然而,野生绿豆和驯化绿豆之间存在一定程度(80-95%)的比对块差异。有 18,981 个基因在野生绿豆和驯化绿豆之间具有共线关系,最近的同线性块的 Ks 频率峰值为 0.01(模态年龄为 100 万年前)。

VC1973A和V2984与VC1973A和TC1966之间的模态年龄相似,表明栽培和野生绿豆之间的等位基因差异与栽培绿豆之间的差异相似。

重复元素是植物进化背后的主要驱动力26。在驯化(50.1%)中发现的重复元素比例高于野生(46.9%)。虽然其他 TE 在两个物种中平均分布,但 Gypsy 元素更广泛地分布在驯化的绿豆种质中。

豆科基因组复制历史

凤蝶亚科包含大部分豆科作物,这个家族的成员分享了一个古老的全基因组复制事件WGD (~58 MYA),之后这个家族分裂成几个主要群体,其中最大的两个是暖季的小米和冷季的Hologalegina (~54 MYA)。大豆基因组经历了另一轮WGD(~5-13 MYA),这导致其染色体数量高(2 n = 4 x = 40)并增加了其基因组大小。对应于绿豆基因组内重复共线块中的 2,917 对旁系同源基因的比较显示,绿豆仅经历过一次古老的 WGD。同线性块的 Ks 频率有一个单一的主峰,其模态值为 0.61(模态年龄为 59 MYA),它靠近凤蝶科的起源。相比之下,最近在 Ks 值 0.07 (6.8 MYA) 处的峰值是从没有支持基因共线性的同源物的成对比较中检测到的,可能是因为最近的小规模重复,包括串联和异位重复。绿豆异源多倍体基因组供体物种的分歧时间估计为 6.8 MYA。

a:绿豆、大豆、木豆分化时间估计;b:绿豆、大豆、木豆染色体重排(大豆A基因组红线,B基因组蓝线);c:绿豆和大豆的共线性关系(每个点代表共线性区块的位置及其 Ks 中位值);d:绿豆和木豆的共线性缺失

绿豆与拟南芥、鹰嘴豆、木豆、栽培大豆、百脉根和蒺藜苜蓿显示高度保守macrosynteny块的存在。

基于转录组分析的豇豆属形成

来自豇豆属 22 个物种的叶组织的 RNA-seq从头组装,以及 1 个非洲Vigna物种和 1 个欧亚Vigna物种,使用 OrthoMCL 鉴定了 1,121 个共享直系同源基因座。进行了两个系统发育分析:贝叶斯多物种合并分析 (BEAST 33 ) 使用来自 20 个二倍体豇豆物种的9 个直系同源基因座和多倍体V. reflexo-pilosa的两个同源基因组作为基于基因组内的单独操作分类单元 (OTU) V. radiata var. 的同线性关系和基因组间同线性关系。时间校准分析还使用了大豆的两个重建的同源基因组作为外群,并基于豇豆属和大豆叶绿体基因分化时间 ca.19MYA进行校准。(2) 最大似然 (ML) 34分析使用来自 20 个二倍体豇豆种质的375 个串联直系同源基因座。

BEAST 和 ML 分析都确定了两个具有良好支持的进化枝(图 3补充图 11),与先前公布的叶绿体系统发育一致。

通过贝叶斯 MCMC 方法估计节点的平均分化时期。水平条表示由测试基因估计的每个节点的 95% 最高后验密度 (HPD) 间隔。每个节点上正方形的颜色表示根据从黑色 (0) 到蓝色 (0.5) 到红色 (1) 的颜色等级的后验概率。V. radiata var.之间的根分化时间设置为 19 MYA (根据 Lavin等人的估计)。

绿豆育种基因组资源

种子大小/萌发和抗线虫 QTL 区域的同线块与包含与种子重量和线虫抗性相关的简单序列重复 (SSR) 标记的大豆同线块匹配。

使用 MISA 软件37开发了 SSR 标记,从而从 1,544 个支架中识别了 200,808 个 SSR(补充表 13)。有效用于基因分型的三重复单元 SSR 的数量为 17,898。

大多数抗性基因编码具有两个核心域的蛋白质:核苷酸结合位点 (NBS) 和富含亮氨酸的重复序列 (LRR) 38。在 Pfam 域搜索之后,为每个域建立了一个隐马尔可夫模型 (HMM)。在绿豆中,我们发现了 73 个具有 NB-ARC 结构域的 LRR 基因,其中所有 NBS-LRR 基因都与 UniProt 数据库中已知的抗病基因表现出同源性39。此外,没有 NB-ARC 结构域的 464 个 LRR 基因中有 19 个被鉴定为抗病和损伤修复基因。

三、讨论

豇豆属多倍体历史。异源多倍体事件发生在 0.09 MYA 的最大日期,一个二倍体基因组和叶绿体基因组由V. trinervia的近亲贡献,第二个二倍体基因组来自一个进化枝的未采样成员,包括几个物种,其中V. minima认为是相关的。

有人认为绿豆的驯化和栽培始于 4,000-6,000 年前的印度西北部和远南地区5。驯化的绿豆被认为主要通过不同的路线从印度传播到东南亚和东亚42。驯化的绿豆可能是通过丝绸之路从印度进口到中国,随后传播到东南亚。VC1973A 和V2984 发生 ~1 MYA,分化时间远早于绿豆驯化。

四、方法

材料

本研究使用了 18 个豇豆属的 22 个物种,包括亚洲驯化的黑豆、绿豆、小豆、米豆、克里奥尔豆和蛾豆,以及非洲驯化的物种。除了那些驯化的物种,还结合了黑豆、绿豆、米豆和克里奥尔豆的野生祖先。与野生红豆 ( V. angularis var. nipponensis) 不同,V. nepalensis作为V. angularis var.的变种被纳入本研究。日本45 , 46 . 除V. subterranea外,所有物种都属于 Ceratotropis 亚属(亚洲豇豆)和V. vexillata分别属于Vigna (African Vigna ) 和Plectotropis (Eurasian Vigna )亚属。这些种质收集自多个国家和国际基因库,包括泰国 Chai Nat 田间作物研究中心、韩国国家农业生物多样性中心、日本国家农业生物科学研究所、比利时比利时国家植物园、澳大利亚植物保藏中心澳大利亚的遗传资源、哥伦比亚的国际热带农业中心、肯尼亚的国际畜牧研究所和尼日利亚的国际热带农业研究所。这些收集到的豇豆种质由 2 n =2 x =22的二倍体染色体组成,而V. reflexo-pilosa是唯一的异源四倍体豇豆物种 (2 n =4 x =44)。

组装

两个NGS 平台 Illumina Hiseq2000 和 GS FLX+ 对绿豆基因组进行了测序,其中包含 5 种文库: 180-bp 小片段、5、10、40-kb 大片段和一个单线文库。用于V. radiata var. 的基因组组装。Illumina 和 GS FLX+ 产生的读数分别使用 ALLPATHS-LG 18和 newbler 的软件包进行组装。Newbler contigs 被用来验证 ALLPATHS-LG 的组装,使用 megablast 和E- 1e−100 阈值。不匹配和重叠的重叠群被切成伪 5-kb 配对读数,然后使用 ALLPATHS-LG 再次组装。

SSR 是基于 ALLPATHS-LG 组装支架通过软件 MISA ( http://pgrc.ipk-gatersleben.de/misa/misa.html ) 与默认参数37预测的。

SNP/INDEL 分析和全基因组比对

V. radiata var. radiata (V2984), Kyung-Ki Jaerae #5, 和 V. radiata var. sublobata (TC1966野生绿豆)产生的短reads用于变异检测分析。全部reads的比对使用NextGenMap,变异检测过滤标准:(1) minimum depth=5; (2) maximum depth=100; (3) all mapped reads support a homozygous genotype; (4) minimum mapping quality over 10。

SNP/INDELs 分为基因区和基因间区。对于那些位于 CDS 区域的 SNP,在构建反映 SNP 位置的共有序列后确定了同义和非同义变化。此外,从头组装的野生绿豆序列通过 Mummer 3 软件包49中的 nucmer 与栽培绿豆的 11 条假染色体进行比对。通过 mummerplot 计算和可视化两个基因组之间的相似性。

遗传图谱构建

为了构建绿豆的遗传图谱,通过 Illumina Hiseq2000 通过 GBS 50对 190 RIL的 F 6种群进行了测序。提取每个单独的基因组 DNA,然后通过 ApeKI 限制酶进行片段化。在 GBS 接头连接和 PCR 后,片段由安捷伦科技生物分析仪 2100 验证。所得序列库在 Hiseq2000 测序仪中实施。通过软件 Bowtie2(参考文献51)将输出的测序读数与支架对齐。使用 samtools 软件包检索群体中 190 个 RIL 的基因型48. 基于深度大于 5 和 质量大于30 (允许 10 个缺失的基因型)在 190 个种群中收集了多态位点。它们被分组到 10-kb 的窗口中,那些显示异常重组的窗口被丢弃。选择种群中缺失基因型数量最少的多态位点作为每个窗口的代表。对代表性多态性位点的190个基因型进行解析,然后进行Joinmap 4。因此,在构建绿豆遗传图谱后,共有239个支架被锚定到11个假分子。

转座子(TE)检测和重复序列屏蔽

使用默认参数的软件包 LTR-harverst 21和 TransposonPSI ( http://transposonpsi.sourceforge.net/ )检测转座因子。假定的 LTR-逆转录转座子由 LTR-digest 20使用一组 hmm 签名进行注释:PF03078.8、PF00385.17、PF01393.12、PF04094.7、PF07253.4、PF00552.14、PF70300600 PF08284.4, PF00078.20, PF07727.7, PF06815.6, PF06817.7, PF03732.10, PF00075.17, PF01021.12, PF04195.5, PF02090, PF2090, .6090.2090 此外,AP_ty1copia 和 AP_ty3gypsy 元素的 hmm 是使用来自 GyDB 52的对齐信息构建的。

基因预测和注释

使用 MAKER 流程22实施绿豆基因组基因预测。来自叶、花、根和豆荚四种不同组织的绿豆转录组由 Illumina Hiseq2000 测序,并由软件 Trinity 53组装。我们汇集了从头转录组组装,并通过软件 CD-HIT 54去除了冗余序列。

蛋白序列来自Uniprot种大豆和拟南芥。一旦 MAKER 做出初始预测,其输出结果将用于训练软件 AUGUSTUS 55用于基因预测准确性的模型参数。使用经过训练的绿豆模型参数,再次针对重复屏蔽的绿豆支架重新运行预测流程。

一组由此产生的高置信度基因由软件 Interproscan5 注释(参考文献56)。此外,我们使用每个物种的叶转录组以及拟南芥大豆的蛋白质序列成功预测V. radiata var. sublobata和 V. reflexo-pilosa var. glabra.中的基因。

转录因子(TF)鉴定

根据 Lang等人描述的 TF 分类规则对绿豆基因组的 TF 家族进行了分类57。连同V. radiata var. radiata 蛋白序列,8 个植物基因组的蛋白序列,包括 5 个双子叶植物(A. thaliana、G. max、M. truncatula、C **. cajanC. arietinum)和 3 个单子叶植物(B. distachyon、Z. maysO. sativa ) 被分为 101 个 TF 家族以进行进一步的比较分析。如果数据库中没有植物基因组的 Pfam 注释,我们使用 Interproscan5 注释 Pfam ID。

非编码RNA鉴定

使用Infernal基于Rfam数据库。参考植物A. thaliana、O. sativa、G. max和豇豆物种中制作了一个 Rfam 成员子集。将 Rfam 子成员的序列与转录组和基因组序列进行对比,阈值设置如下:比对数 = 5,E值 = 1 和序列相似性 = 90%。Infernal 在匹配区域上实施,包括侧翼 50 bp 和转录组组装,以发现具有0.001的E值截止值的 RNA 二级结构的重要性。

转录组组装和豇豆物种形成分析

Trinity组装。使用 Orthomcl 软件对 22 个豇豆物种的非冗余组装进行聚类,发现 1,121 个共享直向同源基因座。对于三个豇豆品种,V. radiata var. radiata , V. radiata var. sublobata和V. reflexo-pilosa var. 通过从头基因组组装构建成大型支架的glabra,我们试图通过与G. max和C. cajan 的同线性关系来确定可信的直系同源物。对于异源多倍体基因组,G. max和V. reflexo-pilosa var. glabra,我们使用最近的基因组内同线性比较的 Ks 峰值和与辐射弧菌的同线性关系将旁系同源基因对拆分为 A 和 B 基因组;使用每个同线性块的中值 Ks 值,将更接近辐射紫杉的同线性块设置为 A 基因组,另一个设置为 B 基因组。因此,每个异源多倍体物种的两个 OTU 用于检索直向同源物。G. max和V. reflexo-pilosa到V. radiata var.的 A 基因组的直向同源物。radiata , C. cajan和V. radiata var. 亚叶基于同线性关系发现 173 个位点收集。最后,在基于转录组的 Orthomcl 直向同源物(1121 个基因座)和基于同线性的直向同源物(173 个基因座)之间检索到常见的 9 个基因座。

对于物种树的估计,通过软件包 BEAST 1.8 版(33)的 BEAST 选项使用九个基因座实现了贝叶斯马尔可夫链蒙特卡罗 (MCMC) 分析。使用软件 Prank 60对齐了九个基因座的直向同源物。

对于 ML 树,我们使用了 20 个二倍体Vigna转录组组件。在来自 Orthomcl 结果的直系同源关系中,我们检索了 375 个直系同源基因座,每个序列都有一个蛋白质,用于连接可信直系同源基因座。使用 Prank 软件60独立比对每个基因座。对齐的串联被提供给 Phyml 软件,用于 500 个引导程序34 的ML 树构建。

抗病基因鉴定

使用绿豆基因模型的 Pfam 注释,我们检索了两个核心域,它们被称为NBS 和 LRR。我们将 Pfam ID PF00931 用于 NBS 域,PF00560、PF07723、PF07725、PF12799、PF13306、PF13516、PF13504 和 PF13855 用于 LRR 域。对于每个 Pfam ID,检索匹配的蛋白质区域并再次对齐。通过软件HMMER 3.0(http://hmmer.org)的hmmbuild将比对结果转换为每个域的HMM 。使用我们新建的HMM,通过HMMER 3.0软件的hmmsearch,使用绿豆肽序列搜索NBS-LRR基因。NBS 和 LRR 域内匹配肽的功能通过针对 Uniprot 数据库39BLASTP 分析进行预测。

全基因组复制分析

V. radiataV. reflexo-pilosaG. max的全基因组复制和异源多倍体化使用每个基因组内的共线性进行估计。每个基因组的蛋白质序列最初是自爆的,以确定与1e -10的E值阈值的同源关系。基于基因组中肽位置的共线性由软件 MCScanX 计算,默认参数为62. 使用 MCScanX 包中包含的 perl 脚本 add_ka_and_ks_to_collinearity.pl,我们计算了共线性块内同源物的 Ks 值。Ks 值的中值被认为是共线性块的代表。使用每个同义站点每 10 亿年 5.17 和 6.1 同义替换的两种不同比率估算分化时间10 , 63

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器

你可能感兴趣的文章