导图社区 生物大数据
“大数据”一词最初起源于互联网和IT行业,然而随着“人类基因组计划”的完成,带动了生物行业的一次革命,高通量测序技术得到快速发展,使得生命科学研究获得了强大的数据产出能力,包括基因组学、转录组学、蛋白质组学、代谢组学等生物学数据,这些数据具有数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)等特点。
编辑于2021-04-08 13:20:35生物大数据
绪论
大数据的特征与价值
引入概念
《大数据时代》
BBC纪录片“地平线”专题
概念
新的结构
新的技术
新的算法
新的分析方法
特征
volume数据量
邮件
推特信息
脸书
Youtube视频
variety多样性
医疗影像
基因测序
地震探察
媒体和娱乐
卫星图像
产品开发
velocity速度
fast
在线数据分析
1秒定律
late decisions
miss opportunities
value价值
在线销售
用户档案
应用
国家层面
国家战略
商业应用
亚马逊
股票预测
科学应用
气象预测
医疗应用
早产儿夭折避免
挑战
大数据处理
已经应用11%
缺乏资金25%
缺乏分析技能28%
缺乏软件/技术30%
双刃剑
预知
生病
拖欠还款
犯罪
数据外露
生物学大数据基本概念
必然性
生物的复杂性决定
来源
高通量测序(最多)
人类基因组计划
黑人
黄种人
个人基因组时代
水稻
日本晴
水稻9311
3000株水稻基因组项目
药物开发
临床前研究
寻找药物研究线索
药物筛选
效果早期模拟评估
临床试验
临床试验
副作用
病人档案
临床医疗
众多数据源
EMR
HIS
PACS
LIMS
医学影像
CT
核磁
病理影响
健康管理
移动医疗
web 2.0 社交化健康应用
好医生在线
IT面临的挑战
大数据管理
versioning
query
sharing
大数据整合
integration
annotation
mashup
大数据分析
modeling
statistics
mining
应用
生物医学大数据
基因体检
无创DNA产前检测
个体基因组大数据
精确医疗
癌症治疗
健康管理
个性化
药物设计
流行病预测
Google 流感预测
百度疾病预测
农业
挖掘功能基因
精确育种
核酸数据库
DNA数据库
国际核酸数据库联盟
GenBank(NCBI,USA)
EMBL(Europe)
DDBJ(Japan)
Codon Usage Db(密码子偏好数据库)
基因组数据库
HGMP
NCGR
GOLD
DNA 3D数据库
NDB
BNASDB
NCBI数据库检索策略
Genbank overview
locus基因座
三个英文字母+基因编号
不唯一
defination
对这个基因的简单说明
accession number
基因的唯一的身份证号
可用于基因检索
version/GI
信息升级
source
来源
reference
authors
title
journal
features
特性描述
对蛋白质很重要
origin
FASTA格式
第一行起始必须是>
下一行以单字母的形式输入序列
数据库检索工具
EMBL-EBI
LION Bioscience Website
NCBI
选择数据库
输入关键词
go
detail screen
解释所输入的关键词
preview/index screen
limits
限定
field qualifier
history screen
蛋白质数据库
蛋白质序列数据库
PIR
不权威
来源于genbank、EMBL、DDBJ
预测
未验证
不准确
SWISS-PROT
看懂一条完整的记录
功能
翻译后修饰
组织专一性
亚细胞定位
行头搜索
蛋白质模式和域的数据库
PROSITE
ScanProsite
MotifScan
Pfam
蛋白质结构数据库
PDB
文本结构格式
蛋白质结构分类数据库
SCOP
class
全α
全β
α/β
α+β
其他
folds
蛋白功能、结构、进化的单位
共有中心结构
superfamily
family
CATH
基因组测序技术
基因组测序技术
一代测序技术
化学裂解测序法
双脱氧链终止法(Sanger法)
利用DNA聚合酶不能识别dNTP和ddNTP的特性,使ddNTP参入到寡核苷酸链的3'末端。因为ddNTP3'不是-OH,不能与下一个核苷酸聚合延伸,从而终止DNA链的增长
聚丙酰胺凝胶电泳可以区分长度只差1个核苷酸的DNA分子
荧光标记链终止法
4种荧光染料标记链终止核苷酸
优缺点
优点
人类可以测得基因组序列
准确率高
缺点
低通量
耗时
凝胶平行难做
高成本
样品准备、处理复杂
试剂消耗量大
很难小型化
二代测序技术(NGS)
焦磷酸测序(Roche 454)
合成测序(Illumina Solexa)
连接法测序(ABI SOLiD)
流程
样品片段化
建库
克隆扩增
测序反应
数据分析
关键技术
循环芯片测序法
荧光序列读取反应
优缺点
优点
成本降低
通量高
操作更简单
局限性
读长
通量不够高
高成本
三代测序技术
单分子实时测序技术(SMRT,Pac Bio公司)
荧光标记的脱氧核苷酸被掺入DNA链时,荧光同时能在DNA链上探测到
去除背景杂乱的信号
单分子测序技术(Helicos)
纳米孔单分子测序技术(Oxford Nanopore公司)
还未应用在市场
通过电信号差异检测出通过的碱基类别
应用
DNA测序
RNA序列的直接测序
甲基化DNA序列的直接测序
优缺点
优点
优点提高了样品的检测速度
减少了样品准备时间
避免了PCR过程的错误
信号捕捉的实时性
局限性
读长超长
准确低
费用高
基因组测序方式及质量控制
测序方式
Single read
基因组DNA
片段化200-500bp
末端加引物和接头
DNA片段连接到flow cell 上形成DNA簇
测序
Paried-end read
基因组DNA
片段化200-500bp
两端加引物和接头
DNA片段连接到flow cell 上形成DNA簇
测序
Mate-pair read
基因组DNA
片段化2-5kb
5'末端加生物素,形成环状
除去未形成环状的DNA片段
环装的DNA片段在生物素处切开,筛选片段大小400-600bp
测序
应用
问题
重复序列长度超过read长度,拼接将产生分支,无法延续,从而形成断点
解决方式
选择长read的测序仪器
构建大片段Mate Pair样品库进行测序
总结
不同测序方式获得的样品库不同
SR只检测代测片段的一端序列信息,PE或MP检测待测片段的两端的序列信息
信息具有互补性
测序读段文件格式
fasta格式
读段通常用fasta格式存储
正向pairs与反向pairs文件分开存放
描述行与上个读段的序列行之间空一行
每个读段有两行
第一行>开头,读段名称或描述
第二行为序列行,核酸
fastq格式
大多数读段以这种方式存储
每个读段有四行
第一行,@开头,序列名称特点描述
第二行,序列行
第三行,+开头,描述
第四行,序列的测序质量信息
读段质量控制
Q-score
衡量识别base-calling的可靠性(碱基读取的可信度)
Q-score=-10*log10P(P为碱基识别出错的概率)
碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小
Q30,99.9%,测错率1/1000
检验Q-score工具
fastqc
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
质量控制
去掉PCR引物
先使用BWA软件进行mapping统计
再使用samtools rmdup进行去重复
去掉低Q-score的读段
基因组测序的组装技术
组装
组装方式
de novo(从头拼接)
reference assembly(参考拼接)
测序平台
ABI SOLiD
Velet
Usage
./velveth directory hash_length {[-file_format][-read_type] filename1[filename2 ...]} {...} [options]./ velvetg directory [options]
特点
拼接准确度高
数据通量低
同时可以处理多种格式的数据
速度偏慢,耗内存
5M可得到全长scaffold(含gap)
20M可以得到不含gap的全场序列
数据通量越高,拼接效果越好
Illumina Solexa
Velet
SOAPdenovo
Usage
Soapdenovo all -s config_file - o output_prefix
特点
在小数据量时效果较好
5M数据即可得到无gap的全长
拼接速度快,占内存小,准确度没Valet高
能处理多种格式的数据,尤其适合Solexa测序的数据
ABySS
Usage
ABYSS [OPTION]... FILE...
特点
输出结果只有1个文件,包含所有拼接的contig
数据量越大越好,数据量越大,k-mer适用范围越大
操作简单,结果简洁,适合批量操作
CLC Genomics Workbench
454/Ion Torrent
Newbler
gap 及gap 填补
gap产生
重复序列
随机错误(过高的覆盖,数据量太多)
过低的覆盖(数据量不足)
软件算法局限
填补(filling)
重测序
不同的测序方式测序互补
利用Paired-end/Mate-pair寻找关联
利用参照序列确定关系
不重测序
通量够大,倍数够大的测序数据中总能找到
基因组组装评价
N50
给出的一系列Contigs中,每个contig都有它的长度,几个contigs的和达到基因组长度的50%时的最短contig的长度即为N50
覆盖率
基因组被测序数据覆盖的次数
单碱基错误率
与参考序列比较后发现的小尺度碱基不同所占的比例
错误组装的contigs
测序数据组装中出现的错误
contigs长度一般大于500bp
N75和N90
转录组测序与分析
基因组时代的困惑
基因组天书
大量物种基因组已经测序
基因组测序进入个体测序时代
C值悖论
进化程度低的生物C值反而更高
亲缘关系相近的物种间C值差异很大
C值远远超过了遗传信息量的需要
人类基因组中的暗物质
人类基因组95%可以转录成RNA
只有2%的区域是编码蛋白
非编码RNA有什么功能
RNA种类与功能简介
种类
mRNA
基因组DNA
RNA前体
可变剪切
RNA编辑
成熟mRNA
tRNA
rRNA
参与mRNA翻译成蛋白质的过程
非编码RNA(ncRNA)
snRNA
参与mRNA内含子剪切过程
si/tasiRNA
lncRNA
基因表达具有时空特异性:组织特异性/环境/时序
RNA-seq原理与应用
定义
RNA-seq即RNA测序,又称转录组测序
作用
转录本结构
可变剪切
RNA编辑
miRNA与目标基因
优点
具有荧光定量PCR的表达量检测灵敏性
芯片的高通量
还可以转录本测序,且价格便宜
流程
RNA提取
cDNA
建库-加接头
测序
分析
mapping/转录本/表达量样本间比较
实验方案设计
材料选择
时间序列
不同发育阶段
不同器官、不同时间点
环境条件
对照与处理
宿主与病原
正常与病变
正常组织VS病变组织
正常或良性细胞VS癌细胞
取样关键点
随机性
避免系统误差
减少误差来源
普遍性
降低个体大小、健康状况、遗传背景等因素造成的误差
一致性
样品培养、生长环境、取样即提取方法和建库方法等一致
遗传背景相同
遗传背景最好相同或者相似,以避免遗传背景差异对差异表达的影响
3-5次重复
研究目标与文库选择
普通转录组文库
适用真核生物转录组和表达谱
应用广泛、技术成熟
链特异性文库
使用真和生物转录组和表达谱
区分方向信息,信息分析优势
DSN均一化文库
适用表达低丰度检测
适用于lncRNA、全转录本建库
全转录本文库
适用转录组、表达谱、lncRNA
保留除rRNA外全部RNA信息
分析工具
Bowtie/TopHat
Cufflinks
比对算法
Spliced Alignment
读序不连续比对,确定内含子
可变剪切分析
可由跨内含子读序确定
RNA-seq展望
单细胞测序技术
第三代RNA测序技术
鉴定更多类型RNA,新功能
基因结构,调控网络,ren人类健康与疾病
宏基因组测序与分析
菌群多样性分析
流程
提取DNA
扩增建库
测序(1-2周)
比对聚类
构建OTU
分析菌落构成(2天)
寻找和差异有关的标志
目的
有什么菌
了解菌群构成比例
不同分组之间存在什么差异
宏基因组测序
目的
寻找新物种和新基因
希望测序所有物种序列
关键
DNA提取
PCR扩增
测序深度
取样数目
对照分组的选择
数据的挖掘
建议的策略
大样本的16s rRNA测序筛查
筛选菌群和基因
使用特异性引物定量PCR初步验证
选择代表性样本进行宏基因组或宏转录组测序
应用:来自华大的案例
motif
酶的催化位点
配体结合位点
与金属离子结合位点
二硫键半胱氨酸与其他蛋白质小分子结合位点