|
|
发表于 2023-1-13 18:43:39
|
显示全部楼层
----医学大数据及其综合分析(四)
Hua+医学大数据 出品(转载请注明出处链接,翻版必究)
(HuaPlusMD通过整合多种人类和动物数据库,建立了可靠的大数据库,为您提供疾病动物模型和临床大数据综合分析。链接:https://www.huaplusmd.com)
前言:“大数据”概念早已出现,目前我们对(医学)大数据了解有多少呢?本平台将对医学大数据进行系统的介绍,并对大数据综合分析进行分享(每周更新)。分享的内容将主要涵盖大数据库(基因、蛋白数据库等)/生物银行介绍(UK Biobank, Finnish Biobanks, China Kadoorie Biobank, BioBank Japan, TCGA, GWAS catalog等),疾病动物模型数据库(如GeneNetwork, BXD),大数据库的综合使用(如Mendelian randomization),组学数据分析等。同时也会定期对一些医学大数据的使用进行实例分析。(分享的其他系列内容请见:https://www.huaplusmd.com/knowledge)
上期对GTEx的数据下载进行了简介。本期通过简单的应用举例,希望大家对GTEx的应用有基本的了解。在科学研究的时,我们大多数发现都是基于动物或细胞等非灵长类动物模型。为了进一步转化我们的研究成果,或者希望将研究成果发表在高水平的国际期刊上,往往希望能在人类相关模型上进行验证。凡是涉及到人类实验的花费和审批,都极其严苛。如今,为了能够最大限度利用人类的数据,有部分的涉及人体的优质数据被建立起来了,例如TCGA,GTEx等。
例如,如果我们在动物模型上发现肝脏的一种蛋白对另一种蛋白的表达有显著性影响,我们希望在人类的肝脏进行验证。本期我们将分享:如何对人类肝脏中的多种基因表达做相关性分析。本期有些简单的R代码,请大家稍微补点R的基本知识。
· 下载肝脏RNAseq数据
具体数据下载方法,请见上一期 (GTEx数据库简介:数据的获取(3))

· 肝脏数据的读取(相关的数据包请自己加载)
肝脏数据的读取(相关的数据包请自己加载):
GTEx_liv_T=read.table('gene_tpm_2017-06-05_v8_liver.gct.gz',
header = T,sep = '\t',skip = 2)
得到该数据框:

可以看到,这里有大约229个人类肝脏样本,大约检测了56 200个基因:
Ensembl ID: ENSG00000223972.5等
Gene Symbol: DDX11L1 等
病人编号:GTEX.11DXY.0526.SM.5EGGQ;如果需要深度利用这些数据,需要理解这些病人编号的意义。
· 将数据进行转置
因为在分析时,我们希望基因的表达为列,病人编号变为行
GTEx_liv_T<- t(GTEx_liv_T)
得到:

在进行转置时,所有数据框里数据被转化为字符模式(class: charater),需要注意一下,我们下面会对其进行处理。
· 将基因名作为行名,去除多余的信息
基因名作为行名:
colnames(GTEx_liv_T)=GTEx_liv_T[3,]
得到:

去除非TPM的行或列
GTEx_liv_T=GTEx_liv_T[,c(-1,-2,-3)]
得到:

· 在数据框中提取自己研究的基因(如:&#34;ACLY&#34;, &#34;SREBF1&#34;, &#34;PEG3&#34;, &#34;ACAA1&#34;, &#34;ACAT2&#34;)
GTEx_liv_T=as.data.frame(GTEx_liv_T)
colnam=c(&#34;ACLY&#34;, &#34;SREBF1&#34;, &#34;PEG3&#34;, &#34;ACAA1&#34;, &#34;ACAT2&#34;)
GTEx_liv_T1=GTEx_liv_T[,colnam]

· 并将数据框的数据转化为数值型
GTEx_liv_rownam=rownames(GTEx_liv_T1)
GTEx_liv_T1=as.data.frame(lapply(GTEx_liv_T1,as.numeric))
rownames(GTEx_liv_T1)=GTEx_liv_rownam

这里建议把数据保存一下:
write.csv(GTEx_liv_T1, &#39;GTEx_liv_T1_HP.csv&#39;)
· 相关性研究 及结果可视化
取TPM的log,容易得到集中的数据
data=GTEx_liv_T1
data1=log(data)

相关性分析:
a=data1$ACLY
b=data1$PEG3
cor.test(a,b)

P-value还可以,但是r值较低,说明相关性不是特别好。
结果可视化
ggplot(data1,aes(x=data1$ACLY,y=data1$PEG3))+ geom_point(size=1,shape=15)+geom_smooth(method=lm)

至此,我们就完成了在人类肝脏某些基因的相关性研究。
--------end---------
—如果喜欢,快分享给你的朋友们吧—
关注公众号,更多精彩内容等着你!
链接:http://www.huaplusmd.com
Hua+医学大数据 出品 (医学大数据综合分析,HuaPlusMD坚持专业和认真)。如果您有医学大数据综合分析方面需求欢迎联系我们:https://www.huaplusmd.com/
往期回顾:
医学大数据及其综合分析(总纲)
医学大数据及其综合分析(一)—— GEO数据库介绍 (1)
医学大数据及其综合分析(一)—— GEO数据库介绍 (2)
医学大数据及其综合分析(二)—— BXD小鼠数据库介绍 (1)
医学大数据及其综合分析(二)—— BXD小鼠数据库/GeneNetwork介绍 (2)
医学大数据及其综合分析(二)—— BXD小鼠数据库/GeneNetwork介绍 (3)
医学大数据及其综合分析(二)—— BXD小鼠数据库/GeneNetwork介绍 (4)
医学大数据及其综合分析(三)—— eQTLGen Consortium数据库简介(1)
医学大数据及其综合分析(三)—— eQTLGen Consortium数据库简介(2)
医学大数据及其综合分析(四)—— GTEx数据库简介(1)
医学大数据及其综合分析(四)—— GTEx数据库简介(2)
医学大数据及其综合分析(四)—— GTEx数据库简介:数据的获取(3)
医学大数据及其综合分析(五)---- 国际原子能机构“双标水”数据库 (IAEA DLW)
医学大数据及其综合分析(X)—— 实例分析1:中年发福:人体代谢率 不背此锅
新冠肺炎(COVID-19)的致死率
参考文献:
[1] https://gtexportal.org/home/ |
|