Sooviksin saada kokkuvõtlikku statistikat ühe inimese vcf-faili kohta, millel on üle miljoni variandikõne. Selle käsuga olen proovinud teha indelli suuruste histogrammi.
vcftools --vcf sample.vcf --out sample --hist-indel-len
kuid see tagastab tühja faili. Näen vcf-s tuhandeid kustutusi, kuigi kummalisel kombel pole ühtegi lisamist. Minu tüüpiline rida minu vcf-failis näeb välja
NC_025968.3 168363 191 N <DEL>. . SVTYPE = DEL; STRANDS = + -: 19; SVLEN = -1026; LÕPP = 169389; CIPOS = -9,330; CIEND = -152,9; CIPOS95 = -3,61; CIEND95 = -32,3; TÄPSUS; SU = 19; PE = 19; SR = 0 GT: SU: PE: SR ./.:19:19:0
Värskendus: joondasin loetud viited BWA MEM-iga, seejärel kasutasin samblaster ebakõlaliste paaride ja jagatud lugemiste eraldamiseks. Sorteerisin ja indekseerisin kolm bam-faili, seejärel kasutasin vcf loomiseks lumpyexpressi.
samblaster -i sample.sam --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 | samtools view -S -b - > sample.bamsamtools view -h sample.bam | samblaster -a -e -d sample.disc.sam -s sample.split.sam -o / dev / nulllumpyexpress -B ../sample.sorted.bam -S ../sample.split.sorted.bam -D. ./sample.disc.sorted.bam -o sample.vcf
Sooviksin näha kustutuste suuruse jaotust ja võimaluse korral selgitada välja, miks sisestusi pole.