下载公共测序数据
大多数生物信息学文章会公开自己的测序数据,测序数据一般在GEO或SRA数据库中保存。可以通过文章中的GEO编号或PRJNA号检索,或按需求自行搜索。
1 sratoolkit软件的安装
1.1 下载安装包:
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz
1.2 解压安装包:
tar zxvf sratoolkit.3.0.0-centos_linux64.tar.gz
1.3 设置环境变量
在家目录打开bashrc文件:vim ~/.bashrc
在其中输入export PATH=$PATH:/path/to/sratoolkit.3.0.0-centos_linux64/bin
保存
退出后输入source ~/.bashrc
2 搜索数据
以这篇文章为例
在SRA搜索框中输入编号,结果如下
SRR编号就是我们下载数据所需要的编号,后面几列是数据的描述。
3 数据下载
使用刚才安装的sratoolkit软件下载数据
prefetch SRR12494494
下载的数据是sra格式,需要把它们转为fastq格式
fasterq-dump -e 10 -3 -o W82_RNA-seq_rep1 SRR12494494.sra
双端测序数据会被拆分成两个fastq文件