New modules: ultra/index and ultra/align (#1830)

* Add ultra/index and ultra/align modules * Correct tag and prefix * Fix typos * Remove SAMTOOLS SORT from test * Update: Convert sam to bam * Add tag to docker image * Fix typo * Add args2 for samtools
2024-12-22 02:58:17 +00:00 · 2022-07-04 07:46:49 +01:00 · 2022-07-04 07:46:49 +01:00 · 60c65fb386
commit 60c65fb386
parent 0e9fd9370a
11 changed files with 329 additions and 0 deletions
--- a/modules/ultra/align/main.nf
+++ b/modules/ultra/align/main.nf
@ -0,0 +1,53 @@
 process ULTRA_ALIGN {
    tag "$meta.id"
    label 'process_high'
    conda (params.enable_conda ? "bioconda::ultra_bioinformatics=0.0.4 bioconda::samtools=1.15.1" : null)
    container "${ workflow.containerEngine == 'singularity' && !task.ext.singularity_pull_docker_container ?
        'https://depot.galaxyproject.org/singularity/mulled-v2-4b749ef583d6de806ddbf51c2d235ac8c14763c6:f63170074b42f54276c1f9b334e732a0f3bf28bd-0':
        'quay.io/biocontainers/mulled-v2-4b749ef583d6de806ddbf51c2d235ac8c14763c6:f63170074b42f54276c1f9b334e732a0f3bf28bd-0' }"
    input:
    tuple val(meta), path(reads)
    path genome
    tuple path(pickle), path(db)
    output:
    tuple val(meta), path("*.bam"), emit: bam
    path "versions.yml"           , emit: versions
    when:
    task.ext.when == null || task.ext.when
    script:
    def args = task.ext.args ?: ''
    def args2 = task.ext.args2 ?: ''
    def prefix = task.ext.prefix ?: "${meta.id}"
    """
    uLTRA \\
        align \\
        --t $task.cpus \\
        --prefix $prefix \\
        --index ./ \\
        $args \\
        $genome \\
        $reads \\
        ./
    samtools \\
        sort \\
        --threads $task.cpus \\
        -o ${prefix}.bam \\
        -O BAM \\
        $args2 \\
        ${prefix}.sam
    rm ${prefix}.sam
    cat <<-END_VERSIONS > versions.yml
    "${task.process}":
        ultra: \$( uLTRA --version|sed 's/uLTRA //g' )
        samtools: \$(echo \$(samtools --version 2>&1) | sed 's/^.*samtools //; s/Using.*\$//')
    END_VERSIONS
    """
 }
--- a/modules/ultra/align/meta.yml
+++ b/modules/ultra/align/meta.yml
@ -0,0 +1,58 @@
 name: "ultra_align"
 description: uLTRA aligner - A wrapper around minimap2 to improve small exon detection - Map reads on genome
 keywords:
  - uLTRA
  - align
  - minimap2
  - long_read
  - isoseq
  - ont
 tools:
  - "ultra":
      description: "Splice aligner of long transcriptomic reads to genome."
      homepage: "https://github.com/ksahlin/uLTRA"
      documentation: "https://github.com/ksahlin/uLTRA"
      tool_dev_url: "https://github.com/ksahlin/uLTRA"
      doi: "10.1093/bioinformatics/btab540"
      licence: "['GNU GPLV3']"
 input:
  - meta:
      type: map
      description: |
        Groovy Map containing sample information
        e.g. [ id:'test', single_end:false ]
  - reads:
      type: file
      description: A fasta or fastq file of reads to align
      pattern: "*.{fa,fasta,fastq}"
  - genome:
      type: file
      description: A fasta file of reference genome
      pattern: "*.{fa,fasta}"
  - pickle:
      type: file
      description: Pickle files generated by uLTRA index
      pattern: "*.pickle"
  - db:
      type: file
      description: Database generated by uLTRA index
      pattern: "*.db"
 output:
  - meta:
      type: map
      description: |
        Groovy Map containing sample information
        e.g. [ id:'test', single_end:false ]
  - versions:
      type: file
      description: File containing software versions
      pattern: "versions.yml"
  - bam:
      type: file
      description: The aligned reads in bam format
      pattern: "*.bam"
 authors:
  - "@sguizard"
--- a/modules/ultra/index/main.nf
+++ b/modules/ultra/index/main.nf
@ -0,0 +1,37 @@
 process ULTRA_INDEX {
    tag "$gtf"
    label 'process_low'
    conda (params.enable_conda ? "bioconda::ultra_bioinformatics=0.0.4" : null)
    container "${ workflow.containerEngine == 'singularity' && !task.ext.singularity_pull_docker_container ?
        'https://depot.galaxyproject.org/singularity/ultra_bioinformatics:0.0.4.1--pyh5e36f6f_0':
        'quay.io/biocontainers/ultra_bioinformatics:0.0.4.1--pyh5e36f6f_0' }"
    input:
    path fasta
    path gtf
    output:
    tuple path("*.pickle"), path("*.db"), emit: index
    path "versions.yml"                 , emit: versions
    when:
    task.ext.when == null || task.ext.when
    script:
    def args = task.ext.args ?: ''
    def prefix = task.ext.prefix ?: "${gtf.baseName}"
    """
    uLTRA \\
        index \\
        $args \\
        $fasta \\
        $gtf \\
        ./
    cat <<-END_VERSIONS > versions.yml
    "${task.process}":
        ultra: \$( uLTRA --version|sed 's/uLTRA //g' )
    END_VERSIONS
    """
 }
--- a/modules/ultra/index/meta.yml
+++ b/modules/ultra/index/meta.yml
@ -0,0 +1,44 @@
 name: "ultra_index"
 description: uLTRA aligner - A wrapper around minimap2 to improve small exon detection - Index gtf file for reads alignment
 keywords:
  - uLTRA
  - index
  - minimap2
  - long_read
  - isoseq
  - ont
 tools:
  - "ultra":
      description: "Splice aligner of long transcriptomic reads to genome."
      homepage: "https://github.com/ksahlin/uLTRA"
      documentation: "https://github.com/ksahlin/uLTRA"
      tool_dev_url: "https://github.com/ksahlin/uLTRA"
      doi: "10.1093/bioinformatics/btab540"
      licence: "['GNU GPLV3']"
 input:
  - fasta:
      type: file
      description: A fasta file of the genome to use as reference for mapping
      pattern: "*.{fasta, fa}"
  - gtf:
      type: file
      description: An annotation file of the reference genome in GTF format
      pattern: "*.gtf"
 output:
  - versions:
      type: file
      description: File containing software versions
      pattern: "versions.yml"
  - pickle:
      type: file
      description: Index files generated by uLTRA index
      pattern: "*.pickle"
  - pickle:
      type: file
      description: database file generated by uLTRA index
      pattern: "*.db"
 authors:
  - "@sguizard"
--- a/tests/config/pytest_modules.yml
+++ b/tests/config/pytest_modules.yml
@ -2159,6 +2159,14 @@ ucsc/wigtobigwig:
  - modules/ucsc/wigtobigwig/**
  - tests/modules/ucsc/wigtobigwig/**
 ultra/align:
  - modules/ultra/align/**
  - tests/modules/ultra/align/**
 ultra/index:
  - modules/ultra/index/**
  - tests/modules/ultra/index/**
 ultra/pipeline:
  - modules/ultra/pipeline/**
  - tests/modules/ultra/pipeline/**
--- a/tests/modules/ultra/align/main.nf
+++ b/tests/modules/ultra/align/main.nf
@ -0,0 +1,24 @@
 #!/usr/bin/env nextflow
 nextflow.enable.dsl = 2
 include { GUNZIP        } from '../../../../modules/gunzip/main.nf'
 include { GFFREAD       } from '../../../../modules/gffread/main.nf'
 include { ULTRA_INDEX   } from '../../../../modules/ultra/index/main.nf'
 include { ULTRA_ALIGN   } from '../../../../modules/ultra/align/main.nf'
 workflow test_ultra_align {
    input = [
        [ id:'test', single_end:false ],
        file(params.test_data['homo_sapiens']['pacbio']['hifi'], checkIfExists: true)
    ]
    genome = file(params.test_data['homo_sapiens']['genome']['genome_fasta'], checkIfExists: true)
    gtf    = file(params.test_data['homo_sapiens']['genome']['genome_gtf']  , checkIfExists: true)
    GUNZIP ( input )
    GFFREAD ( gtf )
    ULTRA_INDEX ( genome, GFFREAD.out.gtf )
    ULTRA_ALIGN ( GUNZIP.out.gunzip, genome, ULTRA_INDEX.out.index )
 }
--- a/tests/modules/ultra/align/nextflow.config
+++ b/tests/modules/ultra/align/nextflow.config
@ -0,0 +1,14 @@
 process {
    publishDir = { "${params.outdir}/${task.process.tokenize(':')[-1].tokenize('_')[0].toLowerCase()}" }
    withName: GFFREAD {
        ext.args = '--sort-alpha --keep-genes -T'
        ext.prefix = { "${gff.baseName}_sorted" }
    }
    withName: ULTRA_INDEX {
        ext.args = '--disable_infer'
    }
 }
--- a/tests/modules/ultra/align/test.yml
+++ b/tests/modules/ultra/align/test.yml
@ -0,0 +1,33 @@
 - name: ultra align test_ultra_align
  command: nextflow run ./tests/modules/ultra/align -entry test_ultra_align -c ./tests/config/nextflow.config  -c ./tests/modules/ultra/align/nextflow.config
  tags:
    - ultra/align
    - ultra
  files:
    - path: output/gffread/genome_sorted.gtf
      md5sum: c0b034860c679a354cd093109ed90437
    - path: output/gunzip/test_hifi.fastq
      md5sum: 20e41c569d5828c1e87337e13a5185d3
    - path: output/ultra/all_splice_pairs_annotations.pickle
    - path: output/ultra/all_splice_sites_annotations.pickle
    - path: output/ultra/chr_to_id.pickle
    - path: output/ultra/database.db
    - path: output/ultra/exon_choordinates_to_id.pickle
    - path: output/ultra/flank_choordinates.pickle
    - path: output/ultra/gene_to_small_segments.pickle
    - path: output/ultra/id_to_chr.pickle
    - path: output/ultra/max_intron_chr.pickle
    - path: output/ultra/parts_to_segments.pickle
    - path: output/ultra/ref_exon_sequences.pickle
    - path: output/ultra/ref_flank_sequences.pickle
    - path: output/ultra/ref_part_sequences.pickle
    - path: output/ultra/ref_segment_sequences.pickle
    - path: output/ultra/refs_id_lengths.pickle
    - path: output/ultra/refs_lengths.pickle
    - path: output/ultra/segment_id_to_choordinates.pickle
    - path: output/ultra/segment_to_gene.pickle
    - path: output/ultra/segment_to_ref.pickle
    - path: output/ultra/splices_to_transcripts.pickle
    - path: output/ultra/test.bam
      md5sum: b34c3631a899ba800602ff07b8183f87
    - path: output/ultra/transcripts_to_splices.pickle
--- a/tests/modules/ultra/index/main.nf
+++ b/tests/modules/ultra/index/main.nf
@ -0,0 +1,15 @@
 #!/usr/bin/env nextflow
 nextflow.enable.dsl = 2
 include { ULTRA_INDEX } from '../../../../modules/ultra/index/main.nf'
 include { GFFREAD     } from '../../../../modules/gffread/main.nf'
 workflow test_ultra_index {
    genome = file(params.test_data['homo_sapiens']['genome']['genome_fasta'], checkIfExists: true)
    gtf    = file(params.test_data['homo_sapiens']['genome']['genome_gtf']  , checkIfExists: true)
    GFFREAD ( gtf )
    ULTRA_INDEX ( genome, GFFREAD.out.gtf )
 }
--- a/tests/modules/ultra/index/nextflow.config
+++ b/tests/modules/ultra/index/nextflow.config
@ -0,0 +1,14 @@
 process {
    publishDir = { "${params.outdir}/${task.process.tokenize(':')[-1].tokenize('_')[0].toLowerCase()}" }
    withName: GFFREAD {
        ext.args = '--sort-alpha --keep-genes -T'
        ext.prefix = { "${gff.baseName}_sorted" }
    }
    withName: ULTRA_INDEX {
        ext.args = '--disable_infer'
    }
 }
--- a/tests/modules/ultra/index/test.yml
+++ b/tests/modules/ultra/index/test.yml
@ -0,0 +1,29 @@
 - name: ultra index test_ultra_index
  command: nextflow run ./tests/modules/ultra/index -entry test_ultra_index -c ./tests/config/nextflow.config  -c ./tests/modules/ultra/index/nextflow.config
  tags:
    - ultra
    - ultra/index
  files:
    - path: output/gffread/genome_sorted.gtf
      md5sum: c0b034860c679a354cd093109ed90437
    - path: output/ultra/all_splice_pairs_annotations.pickle
    - path: output/ultra/all_splice_sites_annotations.pickle
    - path: output/ultra/chr_to_id.pickle
    - path: output/ultra/database.db
    - path: output/ultra/exon_choordinates_to_id.pickle
    - path: output/ultra/flank_choordinates.pickle
    - path: output/ultra/gene_to_small_segments.pickle
    - path: output/ultra/id_to_chr.pickle
    - path: output/ultra/max_intron_chr.pickle
    - path: output/ultra/parts_to_segments.pickle
    - path: output/ultra/ref_exon_sequences.pickle
    - path: output/ultra/ref_flank_sequences.pickle
    - path: output/ultra/ref_part_sequences.pickle
    - path: output/ultra/ref_segment_sequences.pickle
    - path: output/ultra/refs_id_lengths.pickle
    - path: output/ultra/refs_lengths.pickle
    - path: output/ultra/segment_id_to_choordinates.pickle
    - path: output/ultra/segment_to_gene.pickle
    - path: output/ultra/segment_to_ref.pickle
    - path: output/ultra/splices_to_transcripts.pickle
    - path: output/ultra/transcripts_to_splices.pickle