broadinstitute · xuefzhao · Jun 10, 2021 · Jun 10, 2021 · Jun 10, 2021 · Jun 18, 2021
diff --git a/README.md b/README.md
diff --git a/dockerfiles/expansion-hunter-denovo/Dockerfile b/dockerfiles/expansion-hunter-denovo/Dockerfile
@@ -1,10 +1,17 @@
-FROM alpine:latest
-RUN apk --no-cache add curl && \
+FROM python:3.7-slim
+RUN apt-get update && apt-get install -y \
+    wget \
+    && apt-get clean \
+    && rm -rf /var/lib/apt/lists/* && \
+
     wget https://github.com/Illumina/ExpansionHunterDenovo/releases/download/v0.9.0/ExpansionHunterDenovo-v0.9.0-linux_x86_64.tar.gz && \
     mkdir ehdn_extract && \
     tar -xf *.tar.gz --strip-components=1 -C ehdn_extract && \
     rm -rf *.tar.gz && \
     mkdir ehdn && \
     mv ehdn_extract/bin/* ehdn/ && \
-    rm -rf ehdn_extract
+    mv ehdn_extract/scripts ehdn/ && \
+    rm -rf ehdn_extract && \
+    pip install -r /ehdn/scripts/requirements.txt
 ENV PATH="/ehdn/:$PATH"
+ENV SCRIPTS_DIR /ehdn/scripts
diff --git a/dockerfiles/igv/MakeRDtest.py b/dockerfiles/igv/MakeRDtest.py
diff --git a/dockerfiles/igv/igv.py b/dockerfiles/igv/igv.py
@@ -1,13 +1,12 @@
 import sys
-import sys
-[_,varfile]=sys.argv
-plotdir="plots"
-igvfile="igv.txt"
-igvsh="igv.sh"
-with open(varfile,'r') as f:
+[_, varfile] = sys.argv
+plotdir = "plots"
+igvfile = "igv.txt"
+igvsh = "igv.sh"
+with open(varfile, 'r') as f:
     for line in f:
-        dat=line.split('\t')
-        chr=dat[0]
-        start=dat[1]
-        end=dat[2]
-        data=dat[3].split(',')
+        dat = line.split('\t')
+        chr = dat[0]
+        start = dat[1]
+        end = dat[2]
+        data = dat[3].split(',')
diff --git a/dockerfiles/igv/makeigv_cram.py b/dockerfiles/igv/makeigv_cram.py
@@ -1,70 +1,81 @@
-import sys,os,argparse
-#[_,varfile,buff,fasta]=sys.argv #assume the varfile has *.bed in the end
-# Example 
+import os
+import argparse
+# [_,varfile,buff,fasta]=sys.argv #assume the varfile has *.bed in the end
+# Example
 # python makeigv.py /data/talkowski/xuefang/local/src/IGV_2.4.14/IL_DUP/IL.DUP.HG00514.V2.bed /data/talkowski/Samples/1000Genomes/HGSV_Illumina_Alignment_GRCh38 400
 # bash IL.DUP.HG00514.V2.sh
 # bash igv.sh -b IL.DUP.HG00514.V2.txt
 
 
 parser = argparse.ArgumentParser("makeigvsplit_cram.py")
-parser.add_argument('varfile', type=str, help='name of variant file in bed format, with cram and SVID in last two columns')
-parser.add_argument('buff', type=str, help='length of buffer to add around variants')
+parser.add_argument('varfile', type=str,
+                    help='name of variant file in bed format, with cram and SVID in last two columns')
+parser.add_argument(
+    'buff', type=str, help='length of buffer to add around variants')
 parser.add_argument('fasta', type=str, help='reference sequences')
 
 parser.add_argument('sample', type=str, help='name of sample to make igv on')
-parser.add_argument('chromosome', type=str, help='name of chromosome to plot igv on')
+parser.add_argument('chromosome', type=str,
+                    help='name of chromosome to plot igv on')
 args = parser.parse_args()
 
 
 buff = int(args.buff)
 fasta = args.fasta
 varfile = args.varfile
 
-outstring=os.path.basename(varfile)[0:-4]
-bamdir="bam"
-outdir="screenshot"
-igvfile="igv.txt"
-bamfiscript="igv.sh"
+outstring = os.path.basename(varfile)[0:-4]
+bamdir = "bam"
+outdir = "screenshot"
+igvfile = "igv.txt"
+bamfiscript = "igv.sh"
 ###################################
-with open(bamfiscript,'w') as h:
+with open(bamfiscript, 'w') as h:
     h.write("#!/bin/bash\n")
     h.write("set -e\n")
     h.write("mkdir -p {}\n".format(bamdir))
     h.write("mkdir -p {}\n".format(outdir))
-    with open(igvfile,'w') as g:
+    with open(igvfile, 'w') as g:
         g.write('new\n')
         g.write('genome {}\n'.format(fasta))
-        with open(varfile,'r') as f:
+        with open(varfile, 'r') as f:
             for line in f:
-                dat=line.rstrip().split("\t")
-                Chr=dat[0]
-                if not Chr == args.chromosome: continue
-                Start=str(int(dat[1])-buff)
-                End=str(int(dat[2])+buff)
-                Dat=dat[3].split(',')
-                ID=dat[4]
+                dat = line.rstrip().split("\t")
+                Chr = dat[0]
+                if not Chr == args.chromosome:
+                    continue
+                Start = str(int(dat[1]) - buff)
+                End = str(int(dat[2]) + buff)
+                Dat = dat[3].split(',')
+                ID = dat[4]
                 for cram in Dat:
-                    #sample=cram.split("/")[-1].split('.')[0]
-                    g.write('load '+bamdir+'/'+args.sample+'_'+args.chromosome+'.bam\n')
-                if int(End)-int(Start)<10000:
-                    g.write('goto '+Chr+":"+Start+'-'+End+'\n')
+                    # sample=cram.split("/")[-1].split('.')[0]
+                    g.write('load ' + bamdir + '/' + args.sample +
+                            '_' + args.chromosome + '.bam\n')
+                if int(End) - int(Start) < 10000:
+                    g.write('goto ' + Chr + ":" + Start + '-' + End + '\n')
                     g.write('sort base\n')
                     g.write('viewaspairs\n')
                     g.write('collapse\n')
-                    g.write('snapshotDirectory '+outdir+'\n')
-                    g.write('snapshot '+args.sample+'_'+ID+'.png\n' )
+                    g.write('snapshotDirectory ' + outdir + '\n')
+                    g.write('snapshot ' + args.sample + '_' + ID + '.png\n')
                 else:
-                    g.write('goto '+Chr+":"+Start+'-'+str(int(Start)+1000)+'\n') # Extra 1kb buffer if variant large
+                    # Extra 1kb buffer if variant large
+                    g.write('goto ' + Chr + ":" + Start +
+                            '-' + str(int(Start) + 1000) + '\n')
                     g.write('sort base\n')
                     g.write('viewaspairs\n')
                     g.write('collapse\n')
-                    g.write('snapshotDirectory '+outdir+'\n')
-                    g.write('snapshot '+args.sample+'_'+ID+'.left.png\n' )
-                    g.write('goto '+Chr+":"+str(int(End)-1000)+'-'+End+'\n')
+                    g.write('snapshotDirectory ' + outdir + '\n')
+                    g.write('snapshot ' + args.sample +
+                            '_' + ID + '.left.png\n')
+                    g.write('goto ' + Chr + ":" +
+                            str(int(End) - 1000) + '-' + End + '\n')
                     g.write('sort base\n')
                     g.write('collapse\n')
-                    g.write('snapshotDirectory '+outdir+'\n')
-                    g.write('snapshot '+args.sample+'_'+ID+'.right.png\n' )
+                    g.write('snapshotDirectory ' + outdir + '\n')
+                    g.write('snapshot ' + args.sample +
+                            '_' + ID + '.right.png\n')
                 # g.write('goto '+Chr+":"+Start+'-'+End+'\n')
                 # g.write('sort base\n')
                 # g.write('viewaspairs\n')
@@ -73,4 +84,4 @@
                 # g.write('snapshot '+ID+'.png\n' )
                 g.write('new\n')
         g.write('exit\n')
-# with open(bamfiscript,'w') as g:
+# with open(bamfiscript,'w') as g:
diff --git a/dockerfiles/igv/makeigvpesr_cram.py b/dockerfiles/igv/makeigvpesr_cram.py
@@ -1,21 +1,26 @@
-import sys,os,argparse
-#[_,varfile,buff,fasta]=sys.argv #assume the varfile has *.bed in the end
-# Usage 
+import os
+import argparse
+# [_,varfile,buff,fasta]=sys.argv #assume the varfile has *.bed in the end
+# Usage
 # python makeigvpesr_cram.py varfile fasta sample ped cram_list buffer chromosome
 # bash IL.DUP.HG00514.V2.sh
 # bash igv.sh -b IL.DUP.HG00514.V2.txt
 
 
 parser = argparse.ArgumentParser("makeigvsplit_cram.py")
-parser.add_argument('varfile', type=str, help='name of variant file in bed format, with cram and SVID in last two columns')
+parser.add_argument('varfile', type=str,
+                    help='name of variant file in bed format, with cram and SVID in last two columns')
 parser.add_argument('fasta', type=str, help='reference sequences')
-#parser.add_argument('bam', type=str, help='name of bam to make igv on')
+# parser.add_argument('bam', type=str, help='name of bam to make igv on')
 parser.add_argument('sample', type=str, help='name of sample to make igv on')
 parser.add_argument('ped', type=str, help='name of ped file')
-parser.add_argument('cram_list', type=str, help='a file including sample and cram path')
-parser.add_argument('outdir', type=str, help = 'output folder')
-parser.add_argument('-b','--buff', type=str, help='length of buffer to add around variants', default=500)
-parser.add_argument('-c','--chromosome', type=str, help='name of chromosome to make igv on', default='all')
+parser.add_argument('cram_list', type=str,
+                    help='a file including sample and cram path')
+parser.add_argument('outdir', type=str, help='output folder')
+parser.add_argument('-b', '--buff', type=str,
+                    help='length of buffer to add around variants', default=500)
+parser.add_argument('-c', '--chromosome', type=str,
+                    help='name of chromosome to make igv on', default='all')
 
 args = parser.parse_args()
 
@@ -24,84 +29,91 @@
 fasta = args.fasta
 varfile = args.varfile
 
-outstring=os.path.basename(varfile)[0:-4]
-bamdir="pe_bam"
-outdir=args.outdir
-igvfile="pe.txt"
-bamfiscript="pe.sh"
+outstring = os.path.basename(varfile)[0:-4]
+bamdir = "pe_bam"
+outdir = args.outdir
+igvfile = "pe.txt"
+bamfiscript = "pe.sh"
 ###################################
 sample = args.sample
 chromosome = args.chromosome
 
+
 def ped_info_readin(ped_file):
-    out={}
-    fin=open(ped_file)
+    out = {}
+    fin = open(ped_file)
     for line in fin:
-        pin=line.strip().split()
+        pin = line.strip().split()
         if not pin[1] in out.keys():
-            out[pin[1]]=[pin[1]]
-        if not(pin[2])==0:
+            out[pin[1]] = [pin[1]]
+        if not(pin[2]) == 0:
             out[pin[1]].append(pin[2])
-        if not(pin[3])==0:
+        if not(pin[3]) == 0:
             out[pin[1]].append(pin[3])
     fin.close()
     return out
 
+
 def cram_info_readin(cram_file):
-    out={}
-    fin=open(cram_file)
+    out = {}
+    fin = open(cram_file)
     for line in fin:
-        pin=line.strip().split()
+        pin = line.strip().split()
         if not pin[0] in out.keys():
-            out[pin[0]]=pin[1:]
+            out[pin[0]] = pin[1:]
     fin.close()
     return(out)
 
+
 ped_info = ped_info_readin(args.ped)
 cram_info = cram_info_readin(args.cram_list)
-cram_list=[]
+cram_list = []
 for member in ped_info[sample]:
     if member in cram_info.keys():
         cram_list.append(cram_info[member][0])
 
-with open(bamfiscript,'w') as h:
+with open(bamfiscript, 'w') as h:
     h.write("#!/bin/bash\n")
     h.write("set -e\n")
     h.write("mkdir -p {}\n".format(bamdir))
     h.write("mkdir -p {}\n".format(outdir))
-    with open(igvfile,'w') as g:
+    with open(igvfile, 'w') as g:
         g.write('new\n')
         g.write('genome {}\n'.format(fasta))
-        with open(varfile,'r') as f:
+        with open(varfile, 'r') as f:
             for line in f:
-                dat=line.rstrip().split("\t")
-                Chr=dat[0]
-                if not chromosome=='all':
-                    if not Chr == chromosome: continue
-                Start=str(int(dat[1])-buff)
-                End=str(int(dat[2])+buff)
-                ID=dat[4]
+                dat = line.rstrip().split("\t")
+                Chr = dat[0]
+                if not chromosome == 'all':
+                    if not Chr == chromosome:
+                        continue
+                Start = str(int(dat[1]) - buff)
+                End = str(int(dat[2]) + buff)
+                ID = dat[4]
                 for cram in cram_list:
-                        g.write('load '+cram+'\n')
-                if int(End)-int(Start)<10000:
-                    g.write('goto '+Chr+":"+Start+'-'+End+'\n')
+                    g.write('load ' + cram + '\n')
+                if int(End) - int(Start) < 10000:
+                    g.write('goto ' + Chr + ":" + Start + '-' + End + '\n')
                     g.write('sort base\n')
                     g.write('viewaspairs\n')
                     g.write('squish\n')
-                    g.write('snapshotDirectory '+outdir+'\n')
-                    g.write('snapshot '+sample+'_'+ID+'.png\n' )
+                    g.write('snapshotDirectory ' + outdir + '\n')
+                    g.write('snapshot ' + sample + '_' + ID + '.png\n')
                 else:
-                    g.write('goto '+Chr+":"+Start+'-'+str(int(Start)+1000)+'\n') # Extra 1kb buffer if variant large
+                    # Extra 1kb buffer if variant large
+                    g.write('goto ' + Chr + ":" + Start +
+                            '-' + str(int(Start) + 1000) + '\n')
                     g.write('sort base\n')
                     g.write('viewaspairs\n')
                     g.write('squish\n')
-                    g.write('snapshotDirectory '+outdir+'\n')
-                    g.write('snapshot '+sample+'_'+ID+'.left.png\n' )
-                    g.write('goto '+Chr+":"+str(int(End)-1000)+'-'+End+'\n')
+                    g.write('snapshotDirectory ' + outdir + '\n')
+                    g.write('snapshot ' + sample + '_' + ID + '.left.png\n')
+                    g.write('goto ' + Chr + ":" +
+                            str(int(End) - 1000) + '-' + End + '\n')
                     g.write('sort base\n')
                     g.write('squish\n')
-                    g.write('snapshotDirectory '+outdir+'\n')
-                    g.write('snapshot '+sample+'_'+ID+'.right.png\n' )
+                    g.write('snapshotDirectory ' + outdir + '\n')
+                    g.write('snapshot ' + sample + '_' + ID + '.right.png\n')
                 # g.write('goto '+Chr+":"+Start+'-'+End+'\n')
                 # g.write('sort base\n')
                 # g.write('viewaspairs\n')
@@ -110,4 +122,4 @@ def cram_info_readin(cram_file):
                 # g.write('snapshot '+ID+'.png\n' )
                 g.write('new\n')
         g.write('exit\n')
-# with open(bamfiscript,'w') as g:
+# with open(bamfiscript,'w') as g: