导图社区 分子生物学:基因组学
其余关于分子生物学详见主页,基因组学是对生物体所有基因进行集体表征、定量研究及不同基因组比较研究的一门交叉生物学学科。
编辑于2022-04-19 11:32:49基因组学
基因
是有功能的DNA片段
含有合成有功能的蛋白质多肽链或RNA所必需的全部核苷酸序列,是遗传的结构和功能单位
分类
按基因的功能
结构基因:编码RNA,蛋白质的基因
参与代谢活动,维持组织结构
调节基因:调控其他基因的表达
按表达及表达调控的特点
管家基因
奢侈基因
原核生物的基因
以操纵子形式呈现
包含
结构基因
启动子
Sextama框(-35序列,也称为-35区):包含一个6nt的共有序列,是RNA聚合酶依靠σ因子识别并初始结合的位点,也称为RNA聚合酶识别位点。
Pribnow框(-10序列,也称为-10区):富含A-T(6nt)碱基对,容易解链,有利于RNA聚合酶结合并启动转录,RNA聚合酶牢固结合位点。
弱启动子,强启动子:
-35区和-10区的碱基序列与共有序列的差异及距离
两区相隔17nt时启动效率最高
终止子
操纵序列
真核生物的基因
常常是断裂基因
包含
非编码序列:除了编码序列之外的所有序列
编码序列:是转录区内编码成熟RNA碱基序列的DNA碱基序列
启动子:位于基因 (或操纵子)转录区的上游一段DNA序列,被RNA聚合酶识别、结合并启动转录,具有方向性,属于调控序列
TATA框:Hogness框,一般位于-25至-30区,共有序列是TATAAAA,是转录因子TBP的结合位点。
CCAAT框:一般位于-70至-90区,共有序列是CCAAT ,是转录因子CTF1和NF1的结合位点。
CpG岛:长度为300-3000bp、富含CpG的序列
GC框: CpG岛内的一种保守序列,长度20-50bp,包含两个互为反向重复的序列:GGGCGG和CCGCCC,是转录因子Sp1的结合位点。
下游启动子元件:共有序列是A/GGA/TTCGTG
转录起始位点:被转录的第一个碱基
外显子:是真核生物基因转录区的初级转录产物经过转录后加工之后保留于成熟RNA中的序列和转录区内的对应序列,属于编码序列
转录区:编码初级转录产物碱基序列的DNA序列,即RNA聚合酶转录的全部DNA序列,与调控序列组成转录单位
内含子:是真核生物基因转录区内位于相邻外显子之间的序列及初级转录产物中的对应序列,属于非编码序列,可能参与基因表达调控,序列变化较大
终止子:一段DNA序列,是转录的终止信号
增强子:远离结构基因的上游或下游,也可位于内含子的能增强基因转录活性的DNA序列。
一般能增强基因转录10-200倍,但不能启动一个基因的转录。
增强子通常有组织特异性,决定基因表达的时空特异性。
沉默子:与增强子作用相反的一类负性转录调控元件。
同一元件有时可能表现出增强子活性,有时又表现出沉默子活性,取决于结合该元件的蛋白质的种类及特性。
基因组
一个细胞(或病毒)所载的全部遗传信息
RNA病毒的基因组是RNA,其余均是DNA
二倍体真核生物的基因组则是指维持配子或配子体正常功能的最基本的一套染色体及其所携带的全部基因
结构
指不同的DNA功能区在DNA分子中的分布和排列情况。
C值(基因组的大小)
一种物种的单倍体基因组的DNA总量
不同物种的C值差异极大。
在真核生物中,生物进化程度越大,C值越大;但并不完全成比例增加
高等生物C值>低等生物C值
原核生物基因组
原核生物基因组特征
1||| 基因组相对较小,只有一个复制起点
2||| 基因组的功能单位是操纵子结构
3||| 基因组所含基因数量较多,并且形成操纵子结构
4||| 基因组中含有可移动序列
5||| 多拷贝基因很少,除了编码rRNA的基因,编码蛋白质的基因大多数只有一个拷贝
6||| 非编码序列主要是一些调控序列
7||| 编码序列几乎都是连续的,转录之后不需要剪接
质粒
独立于染色体之外的能自主复制的核酸分子
遗传特性
一般为双链闭合环状DNA/RNA
垂直传递
不影响宿主细胞代谢,可能赋予宿主细胞新的表型
半保留复制
复制决定因素
复制子
一个复制单位,包括复制起点及其相关的调控元件
调节因子
RNA/蛋白质因子
复制蛋白及DNA复制酶类
类型
严紧型质粒
与宿主细胞DNA复制相偶联,依赖于蛋白质的合成,复制要求DNA聚合酶Ⅲ的存在;
松弛型质粒
与宿主细胞DNA复制不同步,与蛋白质的合成功能无关;用DNA聚合酶Ⅰ复制,能在没有蛋白质合成的情况下继续复制;
低拷贝质粒与高拷贝质粒
特性
质粒的不相容性
指细菌质粒不能在相同细胞中同时存在的现象。
质粒的转移性
在自然条件下,许多质粒都可通过细菌结合的作用,将质粒复制子转移到新的宿主细菌内。
质粒的选择标记
质粒的存在对宿主细胞的生存一般是非必需的,但能使宿主具有一些额外的性状,在某些特殊情况下有利于细胞的生长。
转座因子Tn
在基因组中从一个位点移到另一个位点的DNA序列
结果:导致宿主细胞基因组DNA的插入突变或基因重排
被认为是基因组进化的重要推动力量,作为遗传学研究及基因工程的工具
遗传特点
不依赖 Donor site 与 Target site 间序列的同源性 (非同源重组过程 ,不依赖 recA 酶)
转座插入的靶位点并非完全随机(插入专一型)
某些转座因子(Tn3)对同类转座因子的插入具有排它性(免疫性)
分类
插入序列IS
细菌基因组,质粒,噬菌体中都存在,长1-2kb
类IS序列:序列的结构功能与IS相似,但不独立存在,而是作为复合型Tn的组件
转座子Tn
结构与IS相似,较大,20kb 具有IR(反向重复序列),转座酶基因,调节基因,抗生素抗性基因
复合型Tn:由中心区的编码序列及两侧的IS或类IS序列组成的混合Tn
可转移性噬菌体
具有转座功能的溶源性噬菌体
具有温和噬菌体,转座因子的双特性,两端不含有IR序列
作为细菌遗传学研究的工具
遗传学效应
1||| 引起插入突变
2||| 产生新的基因
3||| 产生染色体畸变
4||| 引起生物进化
真核生物基因组
包括细胞核基因组(大多数)和细胞器基因组
真核生物:动物,植物,真菌,原生动物
基本特征
DNA是线性分子,以染色体或染色质,末端存在端粒结构
是二倍体,有多个复制起点,一般是单顺反子
基因散在分布,分别表达
编码序列不到10% (人类不到2%),不同生物重要区别,生物进化的标尺
大量顺式作用元件,包括增强子和沉默子
基因组包含大量重复序列(高度和中等重复序列);蛋白质编码序列大都属于单一序列; 转录产物是单顺反子mRNA
含大量可移动序列
多为断裂基因,有大量重复序列存在
断裂基因:真核生物基因的编码序列是不连续的,由外显子和内含子交替构成
重复序列
单一序列
即非重复序列,指在基因组中只有1个或少数几个拷贝的序列,大多数真核生物为单一序列
高度重复序列
一些简单的反复的序列,拷贝数在1万以上,越高等的真核生物重复序列越多
卫星DNA
由2-10b组成,串联重复序列,每个重复序列中含有一个短的保守的重复单位,称为核心序列
功能:染色体定位,染色体折叠压缩,染色体配对分离
反向重复序列
某一段序列,方向相反,序列相同
功能:可能与复制,转录的调控有关
中度重复序列
拷贝数在10-几千的序列,序列平均长度在300bp
大多不编码蛋白质,可能与基因的调控有关,占人基因组的12%
ALU家族
启动DNA合成,合成DNA引物
KpnI家族
散在分布于基因组中,可能KpnⅠ的转录产物再进行逆转录形成cDNA片段,然后插入到基因组中所引起的。
逆转座子
转录成RNA,再逆转录生成cDNA,然后再插入到基因组的新位点上 。
轻度重复序列
在基因组2-10个拷贝的序列
人基因组中60%-70%是重复序列
多基因家族
一些有编码功能的重复序列,它们起源相同,序列相似、功能相关,分为编码RNA的(如snRNA、tRNA、rRNA等)和编码蛋白质的
分类
基因簇
串联排列的基因;位置相对集中
分散分布的基因家族
在整个染色体上散在分布,甚至位于不同染色体上。
假基因
因突变失活,不能表达出有活性的产物
常规假基因:终止密码子导致截断蛋白
加工假基因:成熟RNA逆转录,缺少内含子
线粒体基因组
几乎所有的真核生物都有线粒体基因组,携带遗传物质,能自行复制和表达
人类线粒体基因组大小16.6kb,结构紧密,基因间只有少量间隔
编码线粒体自身蛋白质合成体系及呼吸链中的一些成分。
自主能力有限,编码的基因总体数目非常少,而且 线粒体中蛋白质合成须由细胞核和线粒体基因组共同参与
主要特点
母系遗传
线粒体DNA损伤后不易修复,主要是缺乏损伤修复系统,与衰老及某些疾病有关
遗传密码与通用密码有差别
人类基因组
即人类一个细胞所含的DNA结构一整套基因,携带决定生物特性的全部遗传信息 --即记录基因组全部DNA序列
基因组的多态性
同一人种或不同人种基因组均存在或多或少的差异,这种差异即人类基因组多态性
DNA某一特定位点编译频率<1%--基因突变 >1%--DNA分子多态
DNA多态性
指DNA同源序列的个体间差异
意义:揭示人类个体的表型差异
产生DNA多态性的根源--DNA损伤
SNP(单核苷酸多态性)
基因组水平由单个核苷酸变异(错配,插入,缺失)产生的DNA多态性
最小,最常见,最广泛
主要存在于非编码序列
优点:稳定,数量多,检测方便,已易于自动化,规模化
ALU家族(序列)
内部有一个限制性内切酶ALuI的切点
ALU序列插入基因组后能发生随机突变和特异的碱基突变
微卫星DNA
重复序列长度仅为1-6bp,散在分布于基因的非编码区和染色体末端,呈串联重复排列
广泛存在于原核和真核生物基因组中
排列方式有三种:完全重复(最多见的方式)、不完全重复和混合重复
核心区重复序列拷贝数的差异:是减数分裂过程中姐妹染色单体的不均等交换或DNA复制过程中复制滑移所造成
病毒基因组
是严格细胞内寄生并能自我复制的非细胞生物,由一种核酸(DNA/RNA组成)
噬菌体
以细菌为主要宿主的病毒
其结构包括外壳蛋白、尾部蛋白和基因组。
基因组可以是单链DNA、单链RNA或双链DNA。
噬菌体单独可以生存,但只能在宿主细胞中复制。
结构特征
只有一种核酸,大部分是一条单链或双链分子;
核酸大小差别大,通常DNA病毒的核酸分子较大,而RNA病毒则较小;
大部分序列为编码序列,非编码序列及基因间隔区很少。
具有启动子和操纵子结构;
噬菌体基因组中没有内含子,感染真核细胞的病毒基因组中有内含子;
碱基组成相差很大;存在稀有碱基及重叠基因等
特殊结构
帽子和poly(A)尾结构:多数+RNA病毒基因组以及双链RNA病毒的+RNA链
黏性末端:双链DNA病毒基因组双链末端
末端反向重复序列:锅柄样结构
末端正向重复序列:含有表达调控序列,也能成环
重叠基因:增加了携带遗传信息的容量
分段基因组:多见于RNA病毒,感染效率低,易变异
基因表达与表观遗传
在不同时期和不同条件下,基因表达的开启或关闭以及基因活性的增加或减弱等是受到严格调节控制的,这种控制即基因表达调控
见基因表达调控
常见的分子标志物
分子标志物:患者体内发生的具体的基因改变或正常人体中的个体特异基因、基因多态性等
DNA分子标志物
突变基因:最重要,是众多单基因遗传病的致病原因。
多态性基因:基因的多态性存在SNP、RFLP、STR等多种形式。 SNP并不直接致病,而是对疾病的易感性产生影响,有多种检测方法。
等位基因:一个位点突变,可能产生癌基因,相关基因的改变往往是肿瘤发生的分子基础:检测多态性位点或突变位点
病原生物基因组:直接探查病原体基因存在的状态。
线粒体DNA:母系遗传病的重要分子诊断标志物。
循环DNA:游离循环DNA和游离循环RNA
RNA分子标志物
异常剪接RNA:选择性剪接或受到内源其他RNA的调节产生异常转录本。
RNA病毒基因组:RNA病毒感染患者
循环RNA:与循环DNA类似
microRNA促进目标mRNA的降解或者抑制靶基因蛋白质的翻译。
Inc RNA有望成为新型肿瘤诊断标志物和治疗靶点
蛋白标志物从单一蛋白质发展成基于多蛋白的 “指纹图谱”,增加了检测蛋白生物标志物的敏感性和准确性。
随着各种新技术的建立,小分子代谢物、多糖链和脂质分子也逐渐成为新的分子生物标志物。