Küsimus:
vcftools: käsk indel size histogram tagastab tühja faili
Joanne
2018-10-16 04:59:33 UTC
view on stackexchange narkive permalink

Sooviksin saada kokkuvõtlikku statistikat ühe inimese vcf-faili kohta, millel on üle miljoni variandikõne. Selle käsuga olen proovinud teha indelli suuruste histogrammi.

  vcftools --vcf sample.vcf --out sample --hist-indel-len  

kuid see tagastab tühja faili. Näen vcf-s tuhandeid kustutusi, kuigi kummalisel kombel pole ühtegi lisamist. Minu tüüpiline rida minu vcf-failis näeb välja

  NC_025968.3 168363 191 N <DEL>. . SVTYPE = DEL; STRANDS = + -: 19; SVLEN = -1026; LÕPP = 169389; CIPOS = -9,330; CIEND = -152,9; CIPOS95 = -3,61; CIEND95 = -32,3; TÄPSUS; SU = 19; PE = 19; SR = 0 GT: SU: PE: SR ./.:19:19:0  

Värskendus: joondasin loetud viited BWA MEM-iga, seejärel kasutasin samblaster ebakõlaliste paaride ja jagatud lugemiste eraldamiseks. Sorteerisin ja indekseerisin kolm bam-faili, seejärel kasutasin vcf loomiseks lumpyexpressi.

  samblaster -i sample.sam --excludeDups --addMateTags --maxSplitCount 2 --minNonOverlap 20 | samtools view -S -b - > sample.bamsamtools view -h sample.bam | samblaster -a -e -d sample.disc.sam -s sample.split.sam -o / dev / nulllumpyexpress -B ../sample.sorted.bam -S ../sample.split.sorted.bam -D. ./sample.disc.sorted.bam -o sample.vcf 

Sooviksin näha kustutuste suuruse jaotust ja võimaluse korral selgitada välja, miks sisestusi pole.

Täname küsimuse eest, Joanne, ja tere tulemast Bioinformatics SE-sse. Kas saate oma VCF-failist mõne rea postitada, et saaksime toimuvast paremini aimu? Otseselt andmeid vaatamata on seda raske öelda.
Aitäh teretulemast! Siin on tüüpiline rida: "NC_025968.3 168363 191 N . . SVTYPE = DEL; STRANDS = + -: 19; SVLEN = -1026; LÕPP = 169389; CIPOS = -9,330; CIEND = -152,9; CIPOS95 = -3,61; CIEND95 = -32,3; TÄPSUS; SU = 19; PE = 19; SR = 0 GT: SU: PE: SR ./ .: 19: 19: 0 "
Tere, @Joanne lihtsalt märkus. Saate oma küsimust [redigeerida], et lisada üksikasju (nt rida, mille ma teile juba lisasin) või muud küsimuse osas tekkivat edu või ideed. Tavaliselt annate rohkem üksikasju, suuremad võimalused, et leidub keegi, kes teab vastust.
Lihtsalt uudishimulik, kuidas te seda VCF-faili nimetate? Kui kasutate GATK-i, arvan, et on olemas mõned võimalused ainult SNPS-i või SNP-de + indelite või lihtsalt indelite väljastamiseks. Samuti, kas saate täpsustada, mida te kokkuvõtva statistika all mõtlete? Praegu on raske öelda, mis teie küsimus täpselt on: st kas soovite seal olevate kustutuste suuruse jaotust või soovite ka välja mõelda, miks sisestused teie VCF-ist puuduvad? Kui soovite viimast, vajame teavet käskude kohta, mida kasutasite VCF-faili loomiseks.
Täname foorumiprotokolli näpunäiteid - ma muutsin oma küsimust lisateabe saamiseks.
üks vastus:
conchoecia
2018-10-23 13:43:06 UTC
view on stackexchange narkive permalink

Näib, et tükiline otsib teie viites katkestuspunkte. Eeldatavalt kohtades, kus haplotüübi lüliti on käepärast olevate andmetega tuvastatav? otsib sisestusi. Ma soovitaksin käivitada sama BAM-fail läbi GATKi parimate tavade torujuhtme (lihtsam öelda kui teha) ja vcftools torujuhtme kaudu. Kui need tekitavad sisestusi, kuid tükiline seda ei tee, peab see olema tingitud sellest, kuidas tükiline kõnesid tekitab. Õnne!



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 4.0-litsentsi eest, mille all seda levitatakse.
Loading...