下载公共测序数据

大多数生物信息学文章会公开自己的测序数据,测序数据一般在GEOSRA数据库中保存。可以通过文章中的GEO编号或PRJNA号检索,或按需求自行搜索。

1 sratoolkit软件的安装

1.1 下载安装包: wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz

1.2 解压安装包: tar zxvf sratoolkit.3.0.0-centos_linux64.tar.gz

1.3 设置环境变量

在家目录打开bashrc文件:vim ~/.bashrc

在其中输入export PATH=$PATH:/path/to/sratoolkit.3.0.0-centos_linux64/bin保存

退出后输入source ~/.bashrc

2 搜索数据

以这篇文章为例

pic1 pic2

在SRA搜索框中输入编号,结果如下 pic3

SRR编号就是我们下载数据所需要的编号,后面几列是数据的描述。

3 数据下载

使用刚才安装的sratoolkit软件下载数据

prefetch SRR12494494

下载的数据是sra格式,需要把它们转为fastq格式

fasterq-dump -e 10 -3 -o W82_RNA-seq_rep1 SRR12494494.sra

双端测序数据会被拆分成两个fastq文件

results matching ""

    No results matching ""