GEO数据库使用和基因表达数据下载

1

主题

4

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2022-11-30 16:10:18 | 显示全部楼层
本文介绍GEO数据库基本情况,以一篇文献的数据下载为例介绍如何使用该数据库。
样例数据来自文献:Myeloid cell interferon responses correlate with clearance of SARS-CoV-2 development
GEO数据库介绍

GEO(Gene Expression Omnibus)是NCBI的一个子数据库,主要存放基因芯片和二代测序产生的基因表达谱数据。大家可以将自己的数据上传到GEO数据库也可以直接查看或下载GEO上别人已公开的数据。
数据库位置:https://ncbi.nlm.nih.gov/guide/genes-expression/
在数据库网页我们可以看到GEO对应有3个不同的数据库模块:



GEO 三个子模块

一般我们选择点击第一个链接即可进入GEO数据库主页面,另外两个模块可以看作GEO数据库的另外两种组织方式(详情可以参考[1])。其中dataset中是由工作人员挑选处理过后的高质量数据集,帮助科研工作者选择更符合要求的高质量数据。
在这个页面我们可以通过关键词、ID等信息检索我们需要的相关数据即可,数据库提供了额外的检索功能供用户使用。

样例下载

在这里我们从文献中找到相应的数据id:


将该id:GSE190659输入上节介绍的GEO数据库中即可下载相应的参考文献中的原始数据资源。
搜索的结果如下:


重要的模块由红框标出,GSE190659_RAW.tar文件是原始数据文件,下载之后需要解压缩。Series Matrix File中可以下载基因表达量矩阵信息。sample框中可以针对性的下载单个样本的数据。
另外如果需要批量下载可以通过R的包来实现,详细可以参考[2] 。

此文章作为学习过程的一些笔记总结,后续会继续丰富相关内容。
参考


  • ^GEO数据库介绍 https://mp.weixin.qq.com/s/oCdPPgYx8GGrmP3yRT-iAw
  • ^GEO数据下载 https://mp.weixin.qq.com/s/_7lvB5GXVCdIaObeOpeCkg
回复

举报 使用道具

您需要登录后才可以回帖 登录 | 立即注册
快速回复 返回顶部 返回列表