Kuidas genereerida kaua loetud järjestuse andmete (nt MinION) lugemispikkuse vs lugemiskvaliteedi graafik?

Küsimus:

Mark Ebbert

2017-06-24 23:16:50 UTC

view on stackexchange narkive permalink

Kuidas genereerida Oxford Nanopore Technologies (ONT) MinIONi kaua loetud järjestuse andmete lugemispikkuse vs lugemiskvaliteedi graafik (soojuskaart, mille servas on histogrammid)? ONTi tarkvara MinKNOW pakub baaskõne ajal sellist maatükki.

Sellest oleks palju abi ka PacBio andmete puhul.

Kaks vastused:

Wouter De Coster

2017-06-26 14:51:54 UTC

view on stackexchange narkive permalink

Kirjutasin ka paketi, et luua erinevaid jooniseid Oxford Nanopore'i järjestuse andmetest ja joondustest: NanoPlot. Seda saab installida pipi kaudu (vt ka README Githubis). Lisaks mitmele joonisele luuakse ka piiratud NanoStatsi väljund (vt ka NanoStat). Andmeid saab esitada järgmiselt:

fastq-fail (valikuliselt tihendatud)
bam-fail
albacore'i loodud sequencing_summary.txt-fail

Valikuliste lippude abil saate teha järgmist.

Logi muudab lugemispikkused
Kasutage järjestatud lugemiste asemel joondatud lugusid
Loetelude vähendamine
Maksimaalse lugemispikkuse määramine

Lisasin allpool näite logi teisendatud lugemispikkuse ja keskmise lugemiskvaliteedi joonistamise kohta (kasutades tuuma tiheduse hinnangut) ). Rohkem näiteid leiate minu blogi galeriist.

Tervitan kogu tagasisidet ja ettepanekuid!

Mark Ebbert

2017-06-24 23:16:50 UTC

view on stackexchange narkive permalink

Oluline on alati arvestada lugemispikkust ja kvaliteeti koos suure vigadega lugemisandmetega ning praegustel kaua loetud tehnoloogiatel (nt MinION ja PacBio) on kõrge veamäär. Lugemispikkuse ja kvaliteedi ühine arvestamine aitab teil kindlaks teha, kui edukas oli jooks, mitu lugemist oli "kõrge kvaliteediga", kas pikemad lugemised on "päris" (või lihtsalt poorimüra) jne.

Olen hiljuti sarnaste süžeede vastu huvi tundnud ja kohtasin projekti nimega pauvre (prantsuse keeles "vaesed", mängivad "pooridel" ') Oxford Nanopore Technologies (ONT) kogukonna kaudu, mis on minu arvates isegi parem kui MinKNOWi baaskõne plaan. Lisaks saate need graafikud kiirelt failist genereerida, kui soovite, erinevalt MinKNOW-st.

[Märkus: ma ei ole algne autor, kuid panustan nüüd, sest see meeldis (ja vajas).]

Pauvre teatab ka kasulikust statistikast:

  fastq statistika fastq_runid_bb8b8ddedb22bdd6802b2bfa2b4e424c92c30d28_0.fastqnumReads: 2164829numBasepairs: 4970615 : 1495.0minLen: 5maxLen: 392031N50: 3450L50: 402786 Aluspinnad > = prügikast keskmise PHRED ja pikkuse järgi minLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 4970615217 4970611559 4835461771 3810997 681104153154153104153104103154103104154003104154004 270324 160128 50729 50729 0 0 0 0100000 6260554 6260554 0 0 0 0 0 0 0 0 0150000 3504240 3504240 0 0 0 0 0 0 0 0200000 2501101 2501101 0 0 0 0 0 0 0 0
250000 1609592 1609592 0 0 0 0 0 0 0 0300000 1033423 1033423 0 0 0 0 0 0 0 0350000 392031 392031 0 0 0 0 0 0 0 0 Lugemiste arv > = bin keskmine Phred + LenminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 2164829 2164605 2083436 1626706 1183812 435687 77341 1 0 0 50000 109 109 5 3 1 1 0 0 0 0100000 36 36 0 0 0 0 0 0 0 0150000 15 15 0 0 0 0 0 0 0 0200000 9 9 0 0 0 0 0 0 0 0250000 5 5 0 0 0 0 0 0 0 0 0300000 3 3 0 0 0 0 0 0 0 0350000 1 1 0 0 0 0 0 0 0 0

Need graafikud ja statistika oleksid PacBio puhul võrdselt kasulikud, kuid see pole super lihtne (kuigi see on võimalik) Sequel sequenceri praeguse tooraine väljundiga: Millist kvaliteediskooride kodeeringut PacBio kasutab?

Pauvre kasutab praegu Biopython parsida tegeliku joonise jaoks fastq ja matplotlib ning lasta valida väljundkujutise vorming (nt .png, .pdf jne). Samuti saate valida, kas taust on läbipaistev või valge (.png-väljundi jaoks).

Parser on praegu üliaeglane, kuna see kasutab SeqIO.parse , kuid selle kiirendamiseks vahetame parsereid. Lisame ka mõned lisafunktsioonid (nt valige, kas lisada Y-teljed veeriste histogrammidesse, printida osa statistikat dokumenteerimiseks otse joonisele)

Lilla on praegu ainus värvivalik (mida ma isiklikult armastan), kuid muutmisvalikute lisamine on ülilihtne.

ⓘ

See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.

about - legalese