Kuidas CNV-sid sisaldavaid VCF-faile ühendada?
Kasutan funktsiooni vcf-merge, funktsiooni VCFtools ning pärast bgzip ja tabix SAMtools , indekseerida ja tabeldada eraldi variante, kuid ma ei tea, kas see on õige viis.
Kuidas CNV-sid sisaldavaid VCF-faile ühendada?
Kasutan funktsiooni vcf-merge, funktsiooni VCFtools ning pärast bgzip ja tabix SAMtools , indekseerida ja tabeldada eraldi variante, kuid ma ei tea, kas see on õige viis.
vcf-merge
(või parem: bcftools merge
) ühendab VCF-failid veerupõhiselt, võttes põhimõtteliselt igale variandile täiendava genotüübiveeru. Kuigi selline toimib, ei võta see arvesse kogu teavet variatsioonide kohta. Ühes VCF-failis võib piirkonnas olla madal katvus, mis viitab kustutamisele, kuid kustutamine on täheldatav ainult siis, kui arvestada teiste samas piirkonnas kõrge katvusega proovidega. Samuti on võimalik, et INDEL-sid saab erinevates proovides erinevalt määratleda, nõudes vasakpoolsele normaliseerimisele enne liitmist täiendavat bcftools norm
-etappi.
Selle veerupõhise ühendamise eeldamine on mida soovite (ja kui ei, siis on bcftools concat
teie sõber reapõhise ühendamise jaoks), siis on parem uuendatud ühendatud VCF-fail otse mitme veeru failina taastada. Üks viis selleks on kõigi BAM-failide söötmine samtools mpileup
-i genotüübi tõenäosuste genereerimiseks, seejärel selle tulemuse sisestamine bcftools call
-i. Midagi järgmist:
samtools mpileup -uf ref.fa in1.bam in2.bam in3.bam | \ bcftools call -mv -O z -o variant_ref_1-3.vcf.gz