导图社区 疾病发生发展中关键分子的筛选
这是一篇关于疾病发生发展中关键分子的筛选的思维导图,总论系统地介绍了肿瘤的病因、病理、发生发展过程、流行概况和各种诊断方法、治疗方法与原则等;各论精选临床常见10个肿瘤病种,详细地介绍了该病的流行病学、病因及预防、临床表现、临床诊断及治疗方法。
编辑于2021-08-13 20:54:55疾病发生发展中 关键分子的筛选
1. GEO数据库介绍
区别
GEO Datasets:不仅包含原始数据,而且还对数据进行了处理和分析,如差异表达的基因和聚类热图。
GEO Profiles:提供单个基因在整个dataset中所有样本的表达情况。
ID
●GSMXXX: Sample ID,包含sample的具体信息,包括样品来源、处理方式、数据分析流程等
●GSEXXX: 包含一组样本,提供整套研究数据的信息,包括实验设计、背景及分析等
●GDSXXX: GEO Dataset ID, may include one or more GSE,还包含该套数据的分析结果
●GPLXXX: Array/Sequencing platform ID
格式
●DataSet full SOFT file (recommended):包含数据集信息、实验样本信息、表达值、全面的最新的基因注释(tab分 割的text格式)
●DataSet SOFT file:包含数据集信息、实验样本信息、表达值和基因Symbol (tab分 割的text格式)
●Series family SOFT file:包含完整的、原始的、提交者提供的关于该数据集的记录(tab分割的text格式)
●Series family MINiML file:包含完整的、原始的、提交者提供的关于该数据集的记录( XML格式)
●Annotation SOFT file:包含全面的最新的基因注释(tab分 割的text格式)
2. GEO数据库在线分析工具介绍
Find gene
用于直接查找该数据集中该基因的表达谱数据
步骤:输入目标基因,Go,找到一个目标基因的一个表达谱数据集,点击右侧的图进入详细页面,该页面具有该基因在各个样本中的表达信息,并且样本的分组信息也有。
Find genes that are up/down for this condition(s)可以根据选择的实验筛选条件来找到一序列随该筛选条件有较明显表达差异的基因表达谱。
Compare 2 sets of samples
点击Step2,会弹出一个窗口,让我们自己进行分组,A组和B组的GSM号是一样的,需要分在哪一组就在哪一组点击一下就行,背景变为深灰色就表示被选中。
点击OK后,Step2下面会出现分组的样本编号,点击Query Group A vs. B就会获得表达差异的基因。
Cluster heatmaps
点击Display,获取一个聚类的热图,鼠标放在热图上有一个红色的虚线框,可以通过上下拖动边框调整选择的区域大小,可以点击DOWNLOAD 下载数据,点击Stack up 可以将所选择的区域放大,能够看见基因名称,点击Plot value可以看见探针在样本中的曲线图。
点击Partitional (K-means/K-medians),然后通过设置高低表达的颜色,设置聚类个数(cluster,2-15),这里选择4,点击Display。
By location on chromosome,是将基因定位于染色体上进行分析。
Experiment design and value distribution
一些箱线图
每个样本中所有基因表达值的一个汇总
3.从GEO数据集中筛选差异分子
GEO2R
读取GEO提供的matrix文件, 利用R包limma分析差异表达的基因。
设置各组别的样本
分析结果(Top250)/Analyze
设置显示的列
点击倒三角符号查看该基因在各样本的表达信息
利用Profile graph查看特定基因在个样本的表达信息
本地利用excel筛选差异表达基因
差异上调: adjusted FDR<0.05, log(FC)>1
差异下调: adjusted FDR<0.05,log(FC)<-1
利用Gene Ontology ( http://www.geneontology.org/) 进行差异表达基因的富集分析
复制到excel进行作图
利用STRING ( https://string-db.org/) 进行蛋白蛋白相互作用网络分析
4. SangerBox软件简单介绍
https://shengxin.ren/softs/Sanger_ V1 .0.8.zip
绘制火山图
选择文件(差异分子txt)
设置参数
5. Enrichr数据库介绍及操作
http://amp.pharm.mssm.edu/Enrichr/
基因/蛋白列表贴进去,点submit
五种富集分析的结果,包括Bar Graph、Table、Grid、Network和Clustergram
6. FunRich工具介绍及操作
http://funrich.org/index.html
先导入数据(编码基因列表),再选择做图、调参数
7.枢纽基因的筛选
STRING
制作网络图,下载tsv
tsv用excel打开,保存node1和2的数据到新的tst
Cytoscape
打开tst,运用cytoHubba插件,设置top20
8. Oncomine数据库介绍及操作
无法注册。。。
限定条件
从primary filter-analysis type- cancer vs normal、cancer vs cancer、normal vs normal三者中选一,在cancer type中选择研究的肿瘤类型
从sample filter- -sample type中选择clinical specimen ,还可进一步细分为组织标本、血液标本等,在Dataset filter-datatype中选择mRNA
在search中键入你想要搜索的基因
比较
从groupe by中选择临床信息,如选择cancer Vsnormal ,统计图下方1代表癌组织、2代表正常组织
若要比较多个结果,请展开箭头,并将可信的结果打钩
Compare后数据库会 自动mata分析并列出结果,红色代表高表达,蓝色则代表低表达。
16.文献复原
GEO数据库
输入关键字,检索到目标数据集
选择GEO DataSets
选择仅显示系列结果
对数据集进行差异分析
进入GEO2R
找准目标基因并分组
分析结果用Excel打开, 筛选PValue<0.05以及|logFC|≥ 1
STRING数据库
首先在左侧菜单栏中选择【protein by name】,右侧输入目标基因,Organism选择Homo sapiens,点击SEARCH按钮,
点击【Settings】按钮,可以进行一些具体的设置,如Meaning of network edges选择【evidence】,Active interaction sources选择【Experiments】,Minimum required interaction score选择【low confidence(0.150)】,Max number of interactors选择【no more than 50 interactors】
15. OncomiR数据库介绍
http://www.oncomir.org/
1. Search by miRNA: 根据 miRNA 进行搜索;
输入miRNA ID,单击 Retrieve cancer types
2. Search by Cancer Type:根据肿瘤类型进行搜索;
3. Search for miRNA-target correlation: 搜索 miRNA 和靶基因的相关性;
4. Survival Signature Analysis:生存分析;
5. Clustering Analysis:聚类分析。
14. miRCancer数据库介绍
http://mircancer.ecu.edu/index.jsp
一个肿瘤相关的miRNA数据库,通过收集和整理文献,给出肿瘤相关的miRNA以及对应的表达趋势
可以根据miRNA的名字或者肿瘤的名字进行检索
13.在线韦恩图制作网站
http://bioinformatics.psb.ugent.be/webtools/Venn/
上传或者直接粘贴数据均可
把差异基因集的SEQUENCE分别复制到ist中
对交集中的序列进一步分析
拷贝到新的shee中,把相应的探针D、p值以及logFC值拷贝过来
如没有给出LncRNA的名字,用BLAST工具网页
12. miRNA靶标预测网站介绍
TargetScan
http://www.targetscan.org/
结果文件解读
Species ID:物种 ID
Mirbase ID:miRbase 中 miRNA 的 ID
Site Type:配对类型(8mer、7 mer-m8、7 mer-1a)
UTR end:UTR 终止位置(起始和终止的长度大概是 6nt)
3' pairing contribution : 3' 端配对的贡献值
local AU contribution : AU rich 区域的贡献值
position contribution : 结合位点的贡献值
context score :考虑其他因素对靶基因预测的影响后计算得到的得分(累积加权后的得分)
context score percentile:排序后的得分
UTR region :UTR 区域的序列
UTR-miRNA pairing :miRNA 与 UTR 互补配对的区域
mature miRNA sequence :成熟的 miRNA 序列
11. miRNA背景知识介绍(miRBase)
一个系统命名包含三部分内容,即物种,microRNA类别,序号。三者间用短线连接。物种一般用三个小字母表示,如hsa,mmu和rno分别代表人,小鼠和大鼠。MicroRNA类别是指所命名的microRNA是pre-miRNA还是mature miRNA。pre-miRNA用mir表示,mature miRNA用miR表示。序号为一阿拉伯数字,代表microRNA发现的先后。一般而言,数字越小,发现越早。
miRBase
http://mirbase.org/index.shtml
Search为搜索页面,可以搜索不同物种的miRNA,该页面最下方可以根据miRNA的序列进行搜索
结果主要包括三部分:茎环结构,成熟序列(包括miRNA*)和参考文献
10. GEPIA数据库介绍及操作
对选定癌种的差异基因分析汇总,并具体在每条染色体表示
对选定基因的表达量(基于TPM值)分析
选定癌种和阈值(log2FC和q-value) 以及差异分析方法(ANOVA、LIMMA) 以及纳入的样本(单纯肿瘤组织、还是肿瘤与配对正常组织,还是包含了除TCGA数据库外的GTEx数据汇总),就可以得到相应的各个癌种的表达图。
对特定基因的特定癌种的正常组织对比肿瘤组织的表达分析
选定癌种,选定阈值以及纳入组织类型,就可以得到即用的表达箱图,有红色星星的表示有差异。
对特定基因在特定癌种中的不同病理分期中的表达差分析
同样,选定癌种,选定大范围粗略的Stage分析(Stagel, lI, Il, IV) 还是精细的Stage分析(包含la-IVb) 。所得结果图也是即用型
9. UALCAN数据库介绍及操作
http://ualcan.path.uab.edu/index.html
在主项上选择一个数据库,点击进入,输入单个或多个基因,选择癌症类型,点击Explore.
选择所需的数据链接
左侧区域链接的是基因在癌症中的分析结果(表达水平、生存曲线、DNA启动子区甲基化水平)
右侧区域链接到外网数据库,可以查看基因的修饰,位点信息,miRNA预测等