Küsimus:
rahvuse kontroll kas bam- või vcf-failidest
719016
2018-01-09 15:41:36 UTC
view on stackexchange narkive permalink

Millise tööriista abil saaksin kontrollida inimese bami- või vcf-faili rahvust? Sooviksin tulemusi kasutada kvaliteedikontrolli kontrollimiseks, et teada saada, kas antud valim või proovikomplekt vastab metaandmetes märgitud rahvuse teabele või mitte.

Siiani nähtud:

Näited toimivad, kuid alustades failist GRCh38 .vcf (GATK UG-st), saan vea:

  Loe mytest.vcf: 1 üksikisiku (te) erand lõimes "main" java.lang.NumberFormatException: Sisestusstringi jaoks: "" aadressil java.lang.NumberFormatException.forInputString (NumberFormatException.java:65) aadressil java.lang.Integer.parseInt (Integer.java:592) aadressil java.lang.Integer.valueOf (Integer.java:766) aadressil Individual.get_Individual (Individual.java:73) aadressil sarnasus.main (sarnasus.java:80) )  

See ei tööta kohe GATK UG .vcf-failidega, see vajab .bam-failide ümbertöötamine ANGSD torujuhtme abil:

See tööriist teeb ei anna rahvuskontrolli vaid ainult genotüübi kontroll. All-vs-all vcfs vs bams käivitamine võib luua sarnasuste poolmaatriksi.

üks vastus:
Christopher Chang
2018-01-14 00:25:30 UTC
view on stackexchange narkive permalink

Peamine raskus on siin GRCh38 kasutamine. Kahjuks pole vaatamata sellele, et see on enam kui neli aastat vana, peamised rahvusmärgisega avalikud andmekogumid (1000 genoomi, gnomAD, kui alleeli sagedustest piisab) siiski selle viite jaoks saadaval. On vaja teha ülestõstetav toiming või lihtsalt kasutada kattuvaid rsID-sid ja loota parimat.

Oletame, et lähete kattuvate rsID-dega ja nende rsID-de loend, üks rea kohta on 'rsids'. txt '. (Võrdlusjärkude vaheliste ahelate ümberpööramise tõttu võiksite seda loendit piirata nii, et kõik alleelikoodid ühtiksid, samuti on mõistlik A / T ja C / G SNP-d välja visata.) Siis toimiks järgmine protsess:

  1. Laadige alla ADMIXTURE ( https://www.genetics.ucla.edu/software/admixture/download.html), plink ( https: / /www.cog-genomics.org/plink/1.9/) ja / või chr1-chr22 1000 genoomi 3. faasist ( ftp://ftp.1000genomes.ebi.ac.uk/vol1/ ftp / release / 20130502 /), kui teil neid veel pole.

  2. Kasutage plinki, et eraldada kattuvad kõrgemad MAF-i rsID-d igast 1000 genoomi 3. faasist VCF ("plink --vcf ... --extract rsids.txt --maf 0.05 --make-bed --out ...") ja seejärel ühendage saadud kromosoomipõhised failikomplektid ("plink --merge- list ... --out merged_phase3_subset ").

  3. ADMIXTURE eelistab umbes 100k teisendiga andmestikku. Kui teil pole väikest kattuvate rsID-de loendit (sel juhul peaksite paremini kasutama mõnda muud meetodit), peaks teil olema rohkem kui see. plinki LD-pügamisfunktsioon on hea viis ADMIXTURE'i kasutamiseks alamhulga valimiseks: "plink --file merged_phase3_subset --indep-pairwise 500kb 1 0.2; plink --bfile merged_phase3_subset --extract plink.prune.in --make-bed --out admixture_data "

Vajadusel korrigeerige 0,2 künnist, et säilitada õige variantide arv.

  1. Käivitage ADMIXTURE järelevalveta režiimis ("admixture admixture_data.bed 5 -j8"; reguleerige parameetrit -j sõltuvalt protsessori südamike arvust). See genereerib populatsiooni alleeli sagedustega faili admixture_data.5.P ja populatsiooni valimi määrangutega faili admixture_data.5.Q. Veenduge, et .Q-fail vastab 1000 genoomi 3. faasi „superpopulatsioonile”.

  2. Vajadusel teisendage oma andmed plink-vormingusse, hoides ainult kattuvad rsID-d ja „vanemaks muutmine”. GRCh37 koordinaatidele. Veenduge, et teie variandid on sorteeritud GRCh37-koordinaatide järjekorras ja alleelijärjestus sobib ka teie viiteandmekogumis olevaga ("--a2-alleeli admixture_data.bim 6 2" teie viimase --make-bed operatsiooni ajal teeb trikki) ; muidu ADMIXTURE ei tee õiget asja. Seejärel käivitage ADMIXTURE projektsioonirežiimis ("cp admixture_data.5.P my_data.5.P.in; lisandid -P my_data.bed 5"). my_data.5.Q saab siis otsitava rahvuse hinnangud.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...