Kuidas kanda gff-i märkusi genoomis laialdaste dubleerimistega?

scalefreegan

2017-05-31 16:01:10 UTC

view on stackexchange narkive permalink

Mikroobide genoomid võivad sisaldada ulatuslikke dubleerimisi. Sageli sooviksime märkused teisaldada märgitud liigilt uuele järjestusele.

Olemasolevad tööriistad (nt RATT, LiftOver, Kraken) kas spetsiifiliselt eeldavad, kui tihedalt liigid omavahel seotud on, või ei suuda neid üle kanda, kui uues genoomis leitakse mitu vastet, eriti kui järjestused on väga sarnased.

Täpsemalt on mul sünteetilise bioloogia rakendus, kus geenid saavad ulatuslikult dubleerida. Need on järjestuses identsed, kuid paljunevad korduvalt ja paigutatakse ümber (st mitte ainult üksteise kõrvale). Ükski ülalnimetatud tööriistadest ei saa märkuste koordinaate genoomidesse üle kanda, kui funktsioonidel on mitu eksemplari.

Kas selles stsenaariumis on märkmeid edastavaid olemasolevaid tööriistu või tarkvara? Kas teil on ideid, kuidas seda jõuliselt teha?

Kas oskate täpsemat teavet anda? Mis on teie sisend (nt töötlemata lugemised, kokkupanekud, avatud lugemisraamid)? missugune järjestamine? mis on täpne väljund, mida soovite? "Ma pole kindel, et mõistan teie oletust. Samuti on LiftOver ja Kraken täiesti erinevad tööriistad, millel on erinevad kasutusalad

Kas see oleks teoreetiliselt üldse võimalik? Kuidas võite eeldada, et märkused on ülekantavad, kui neid on palju? Tõenäoliselt on parem otsida selle asemel homolooge.

@terdon - kas mõtlete ortolooge? homoloogid = ortoloogid (dubleerimata) + paraloogid (dubleeritud)

@Chris_Rands Ei, ma mõtlesin homolooge. Just seetõttu, et me ei saa teada, kas nad on orto- või para- (mul on kena postitus nende kahe erinevusest [siin] (https://biology.stackexchange.com/a/4964/1306) viis), nii et kõik, mida saate teha, on kõigepealt leida homoloogid ja seejärel proovida välja selgitada, kas need on märkuste ülekandmiseks piisavalt sarnased.

@terdon Ma näen, et ortoloogide / paraloogide lahendamine pole muidugi lihtne, kuid seda saab teha, sõltuvalt täpsetest andmetest (ma ei tea, kuidas OP andmed välja näevad), näiteks mõned mu kolleegid peavad ortodbi http: / /www.orthodb.org/

Oh, muidugi saab hakkama! Minu mõte oli see, et homoloogiliste piirkondade (ükskõik mis tüüpi) otsimine näib olevat parem viis annotatsioonide edastamiseks kui katse tõlkida genoomseid koordinaate eri liikide genoomide vahel.

@Chris_Rands: Sisendiks oleksid sõlmed, nt. de novo gDNA järjestusest. Väljundiks oleks annotatsioonide (nt gff-vormingu) ülekandmine iseloomustatud liikidelt äsja kokku pandud genoomi (koordinaatide ülekanne). Nii LiftOver kui ka Kraken (see, lihtsalt selleks, et olla samal lehel: https://github.com/nedaz/kraken) teevad seda. LiftOver on sobivam koordinaatide ülekandmiseks tihedalt seotud järjestuste vahel, nt. erinevad kooslused; Kraken kasutab genoomi joondamist (MUMer, Satsuma) nii paremaks divergentsemate järjestuste jaoks.

@terdon: homoloogia tüübi / päritolu eristamine läheks kaugemale sellest, mida ma tahaksin saavutada, kuid erinevus on oluline, nagu te märkite. Samuti on õige öelda, et väiksemate homoloogsete piirkondade ülekandmine oleks parem, eriti lahknevate liikide puhul. fyi rakenduse kohta: mul on sünkrooniline rakendus, kus geenid saavad ulatuslikult dubleerida. need on järjestuses identsed, kuid paljunevad korduvalt ja on ümber paigutatud (st mitte külgnevad). Ükski ülalnimetatud tööriistadest ei suutnud annotatsioonide koordinaate genoomidesse üle kanda, kui annotatsiooni oli mitu koopiat.

Jah, ega ma ootaks ka, et nad seda teeksid. Seda ma ütlesingi. Tõstetööriistad lihtsalt kaardistavad koordinaadid, nad ei saa sellise asjaga hakkama. Kardan, et peate seda tegema käsitsi, hankides huvipakkuvate geenide / valkude loendi, leides nende homoloogid ja kandes märkused üle (koos ilmsete hoiatustega selle kohta, kas märkused on ülekantavad või mitte). Paraku pole see eriti lõbus.

vabandused, mis ma arvasin, et mõtlesite krakenit: http://ccb.jhu.edu/software/kraken/, kes neid tööriistu nimetab? igatahes on see korralikult tegemiseks üsna tühine. peate tegema genoomi kokkupaneku, geeniennustused ja ortoloogi / paraloogi määramise; torujuhtmeid on erinevaid (mõned on siin üle vaadatud: https://www.ncbi.nlm.nih.gov/pubmed/27043882), kuid need võtavad aega. alternatiivina, „kiirema ja määrdunuma” jaoks tunduvad @terdon ettepanekud mõistlikud