导图社区 植物基因组构成
这是一个关于植物基因组构成的思维导图,植物基因组构成,主要构成因子,非编码基因,重复序列,假基因,蛋白质编码基因知识点总结。
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
植物基因组构成
主要构成因子
蛋白质编码基因
流程
重复序列屏蔽
基因预测-基因注释
从头预测方法
最长ORF法:将DNA序列按6个读码框全部翻译出来,找出所有可能的可读框。 ORF扫描的关键是终止密码子在DNA序列中出现的频率
CpG岛:描述的是基因组上的一部分DNA序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,每10个核苷酸约出现一次双核苷酸序列CG。
工具:均基于隐马尔可夫模型HMM如FGENESH、AUGUSTUS、GENSCAN、SNAP等。
同源比对方法
工具:BLAST,genewise
表达序列标签(EST)
注释整合
基因注释整合工具:EVidenceModeler(EVM)和GLEAN等
高质量基因预测结果的确定
经过以上步骤注释出来的结果通常还存在一定数量低质量的基因预测结果(假基因、ORF太短等),需要再进行人工筛选。一般会过滤掉编码蛋白长度小于50个氨基酸、编码不完整、基因长度过长、基因中间存在大量未知碱基(N)等情况的基因。
非编码基因
管家非编码RNA (housekeeping ncRNA)
转运RNA(tRNA)
核糖体RNA(rRNA)参与氨基酸合成过程
调节性非编码RNA (regulatory ncRNA)
长非编码RNA(lncRNA)≥200nt
反义lncRNA;内含子lncRNA;lincRNA;双向lncRNA;增强子lncRNA
小非编码RNA(小RNA)<200nt
微小RNA(microRNA,miRNA)参与转录后基因表达调控。
小核仁RNA(snoRNA)主要介导rRNA修饰(甲基化、假尿苷化)
小干扰RNA(siRNA) 干扰互补核苷酸序列的表达。
小核RNA(snRNA)主要参与了mRNA 和 rRNA 前体的加工过程
piRNA(Piwi-interacting RNA,与PIWI蛋白互作的RNA
重复序列
串联重复序列(Tandem Repeat)
微卫星DNA
在植物微卫星DNA中,AG/CT是最为常见的,而在动物中,A和AC重复是最常见的。
小卫星DNA
以7-100bp(多数为15bp左右)为重复单元。长度多在0.5-30kb
卫星DNA
以150-400bp为重复单元。形成长度可达100Mb。
散在重复序列( 转座子/转座元件)
转座机制
反转录转座子
先转录成RNA,然后以RNA为模板反转录成新的转座子拷贝,再整合到基因组完成转座,即所谓“复制-粘贴”机制
长末端重复元件(LTR)
反转座子
非LTR反转座子
长散在元件(lLINE)和短散在元件( SINE )
DNA转座子
通过切离和重整等一系列过程,基因组DNA从一个区域跳跃至另一个区域(“剪接-粘贴”机制)
能否自主移动
自主型是,TEs只要自身就能在基因组上跳跃,
非自主型TE需要另外一个TE带着它才能跳跃。因为缺少转座酶(II类)或逆转录酶(I类)
植物基因组中,反转录转座子>DNA转座子,反转录转座子中LTR类最多。
鉴定
基于文库的同源搜索(序列比对)
将基因组与已知重复序列的数据库进行同源搜索,识别基因组中的重复序列。
软件
RepeatMasker ; RepeatProteinMask ; GREEDIER
优点:准确而快速 缺点:依赖于数据库本身,只能识别出数据库已有的已知特定类型的重复序列,不能用于所有的重复序列识别,尤其是新物种中未知的重复序列的识别。
从头预测
直接从现有的全基因组序列中,根据重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。
RepeatScout ; RECON ; LTR_finder ; TRF(Tandem repeats finder) RepeatModerler(核心组件是RECON和RepeatScout) ; Piler ; ReAS
优点:能够根据重复序列或转座子元件自身的结构特征进行预测,不依赖于已有的数据库,可以有效识别出新的重复序列结构类型 缺点:比较费时,且也容易产生错误识别。
假基因
两种假说: 一种是基因发生了复制,随后其中的一个基因发生了突变,成为假基因 —重复假基因 另一种是基因转录的mRNA经过反转录为cDNA,再插入基因组,由于插入位点不合适或序列发生变化而导致失去功能,成为假基因——逆转录假基因
拥有调控基因表达的功能。
p