Skip to content

Latest commit

 

History

History
225 lines (148 loc) · 11.3 KB

生信软件踩坑记.md

File metadata and controls

225 lines (148 loc) · 11.3 KB

目录

生信软件踩坑记

生信软件踩坑记

Fastq-dump 目录

NCBI的fastq-dump软件一直被大家归为目前网上文档做的最差的软件之一

我们一般使用fastq-dump的方式为:

$ fastq-dump /path/to/xxx.sra 

但是这个默认使用方法得到结果往往很糟,比如说他默认会把双端测序结果保存到一个文件里,但是如果你加上--split-3之后,他会把原来双端拆分成两个文件,但是原来单端并不会保存成两个文件。 还有你用--gzip就能输出gz格式,能够节省空间的同时也不会给后续比对软件造成压力,比对软件都支持,就是时间要多一点。

这些东西在官方文档并没有特别说明,你只有通过不断的踩坑才能学到这些小知识。

  • reads拆分

    默认情况下fastq-dump不对reads进行拆分,对于很早之前的单端测序没有出现问题。但是对于双端测序而言,就会把原本的两条reads合并成一个,后续分析必然会出错。

    常见的参数有三类:

    • --split-spot: 将双端测序分为两份,但是都放在同一个文件中
    • --split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
    • --split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里
  • read ID

默认双端测序数据拆分后得到两个文件中同一个reads的名字是一样的,但是加上-I | --readids之后同一个reads的ID就会加上.1.2进行区分。举个例子

是否有-I参数 ID 1 ID 2
@SRR5829230.1 1 length=36 @SRR5829230.1 1 length=36
@SRR5829230.1.1 1 length=36 @SRR5829230.1.2 1 length=36

问题来了,明明已经可以通过ID后面的"1"和"2"来区分ID,加这个参数干嘛。加完之后还会让后续的BWA报错。所以,没事千万别加

  • 原始格式

    默认情况下输出的文件的ID都是SRR开头,但其实原始数据名字不是这样子,比如说@ST-E00600:143:H3LJWALXX:1:1101:5746:1016 2:N:0:CCTCCTGA,@HWI-ST620:248:HB11HADXX:2:1101:1241:2082#0/1这种。如果你想看到那种格式,而不是SRR,你需要怎么做呢?

    • F|--origfmt: 仅保留数据名字
    • --defline-seq <fmt>: 定义readsID的显示方式
    • --defline-qual <fmt>: 定义质量的显示方式

pfastq-dump:多核版fastq-dump 目录

平常一个SRA格式的转录组数据往往在3G左右,使用hisat2 mapping甚至不用转换成fastq格式,直接就支持SRA,而如果使用BWA做mapping,则必须转换成fastq格式,一旦SRA文件过大,转换过程也要花费很多时间,一个500G的小麦重测序数据则需要40个小时不止,时间就是金钱,在这浪费时间就是浪费金钱呢!

$ git clone https://github.com/inutano/pfastq-dump

$ cd pfastq-dump

$ chmod a+x bin/pfastq-dump

当然要想正常使用,前提是要保证NCBI的那个fastq-dump也能正常运行

使用:

$ pfastq-dump -t <number of threads> [options] <path to .sra file> [<path> ...]

单端

$ pfastq-dump--threads 8 --outdir /path/to/outdir /path/to/SRR000001.sra

双端

$ pfastq-dump--threads 10 --outdir ././SRR5873710.sra --split-3 --gzip

samtools和picard的排序问题 目录

samtools和picard都有对SAM/BAM文件进行排序的功能,一般都是基于坐标排序,先是对chromosome/contig进行排序,再在chromosome/contig内部基于start site从小到大排序,对start site排序很好理解,可是对chromosome/contig排序的时候是基于什么标准呢?

基于你提供的ref.fa文件中的chromosome/contig的顺序。当你使用比对工具将fastq文件中的reads比对上参考基因组后会生成SAM文件,SAM文件包含头信息,其中有以@SQ开头的头信息记录,reference中有多少条chromosome/contig就会有多少条这样的记录,而且它们的顺序与ref.fa是一致的。

当使用samtools或picard对SAM/BAM文件进行排序时,这些工具就会读取头信息,按照头信息指定的顺序来排chromosome/contig。所以进行排序时需要提供包含头信息的SAM/BAM文件。

conda 目录

本人一直用的都是Miniconda,所以以下给出的解决方案可能不完全适用于Anaconda的用户

寻找软件所在的镜像 目录

用conda安装软件的标准语法格式为:

$ conda install -c <channel> <software>

其中-c这个参数很重要,通过它来指定软件下载的镜像位置

对于我们这些生物信息学的从业人员来说,最常用的channel(这里可以理解成镜像)就是bioconda了,如果想要安装生物信息学,一般都会先到 bioconda官网 上找一找自己想要的软件在不在bioconda的官方镜像的列表中

这里以搜索BWA为例

如果软件正好在bioconda官方镜像里,万事大吉,直接用下面的命令安装就可以了

$ conda install -c bioconda bwa

如果你已经将bioconda这个channel加到自己的默认channel列表中,则不指定-c参数也可以

但是如果你要的软件不在bioconda中怎么办?

这时你可以通过执行 anaconda search -t <software>来列出保存目标软件的所有官方镜像

比如,如果你要安装CNVnator(这是一个安装过程神级坑的软件),它就不在bioconda中,执行

$ anaconda search -t cnvnator

得到的检索结果如下:

Using binstar api site https://api.anaconda.org
Run 'anaconda show <USER/PACKAGE>' to get more details:
Packages:
     Name                      |  Version | Package Types   | Platforms
     ------------------------- |   ------ | --------------- | ---------------
     pwwang/cnvnator           |    0.3.3 | conda           | linux-64
                                          : a tool for CNV discovery and genotyping from depth-of-coverage by mapped reads
Found 1 packages

通过上面的检索结果我们就知道目前只有唯一一个保存CNVnator的conda镜像,为pwwang,这是就可以通过指定刚才找到的镜像完成软件的安装了:

$ conda install -c pwwang cnvnator

conda中的Python与系统自带的Python打架 目录

在你安装完conda(不论是Anaconda还是Miniconda),它会自带安装对应的Python版本,而你的系统原先也安装了Python,这时两个来源两个版本的Python会发生冲突,使得你新安装的conda运行报错,比如简单地运行 conda list,会出现以下一长串的报错信息:

Error processing line 1 of /usr/local/lib/python2.7/site-packages/matplotlib-2.1.2-py2.7-nspkg.pth:

Fatal Python error: initsite: Failed to import the site module
Traceback (most recent call last):
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 168, in addpackage
    exec(line)
  File "<string>", line 1, in <module>
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/importlib/util.py", line 14, in <module>
    from contextlib import contextmanager
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/contextlib.py", line 5, in <module>
    from collections import deque
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/collections/__init__.py", line 27, in <module>
    from reprlib import recursive_repr as _recursive_repr
  File "/usr/local/lib/python2.7/site-packages/reprlib/__init__.py", line 7, in <module>
    raise ImportError('This package should not be accessible on Python 3. '
ImportError: This package should not be accessible on Python 3. Either you are trying to run from the python-future src folder or your installation of python-future is corrupted.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/lib/python2.7/site-packages/site.py", line 73, in <module>
    __boot()
  File "/usr/local/lib/python2.7/site-packages/site.py", line 47, in __boot
    addsitedir(item)
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 207, in addsitedir
    addpackage(sitedir, name, known_paths)
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/site.py", line 178, in addpackage
    import traceback
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/traceback.py", line 3, in <module>
    import collections
  File "/disk2/yut/SOFTWARE/miniconda3/lib/python3.7/collections/__init__.py", line 27, in <module>
    from reprlib import recursive_repr as _recursive_repr
  File "/usr/local/lib/python2.7/site-packages/reprlib/__init__.py", line 7, in <module>
    raise ImportError('This package should not be accessible on Python 3. '
ImportError: This package should not be accessible on Python 3. Either you are trying to run from the python-future src folder or your installation of python-future is corrupted.

仔细阅读上面的报错信息,你会发现这就是系统的Python和conda里的Python冲突了(我喜欢称这种现象为掐架、打架),这也是conda这个软件安装神器在给你带来方便的同时带来的副产品:它会污染你的环境变量

遇到两个Python环境冲突的情况,我一般的解决情况就是,关闭系统的Python,即将系统的Python路径从我的环境变量中删除

$ export PYTHONPATH=''

再执行conda list就不会再报错了

软件太大老是下载中断 目录

在用conda安装软件的过程中还会经常遇到的一个问题,就是:

我要下载一个软件,conda会告诉我这个软件底层依赖好几个其他的软件,需要将它们一起下载安装,这个时候这一大堆软件中可能有几个体量很大,上百MB,很容易下着下着网络连接就中断了,而conda有没有断点下载功能,一旦下载中断,conda就会终止安装进程退出运行

这个时候你可以尝试通过 wget 把那几个很大的软件的安装包下到本地,然后把它们移到conda的默认安装包下载路径下,这样再执行conda install时,就会跳过这几个软件的下载过程

conda的默认安装包下载保存路径为:miniconda3/pkgs


参考资料:

(1) 简书:Fastq-dump: 一个神奇的软件

(2) 科学网博客:SRA快速转fastq---即多核版fastq-dump

(3) GitHub:pfastq-dump README