Küsimus:
Kuidas kanda gff-i märkusi genoomis laialdaste dubleerimistega?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Mikroobide genoomid võivad sisaldada ulatuslikke dubleerimisi. Sageli sooviksime märkused teisaldada märgitud liigilt uuele järjestusele.

Olemasolevad tööriistad (nt RATT, LiftOver, Kraken) kas spetsiifiliselt eeldavad, kui tihedalt liigid omavahel seotud on, või ei suuda neid üle kanda, kui uues genoomis leitakse mitu vastet, eriti kui järjestused on väga sarnased.

Täpsemalt on mul sünteetilise bioloogia rakendus, kus geenid saavad ulatuslikult dubleerida. Need on järjestuses identsed, kuid paljunevad korduvalt ja paigutatakse ümber (st mitte ainult üksteise kõrvale). Ükski ülalnimetatud tööriistadest ei saa märkuste koordinaate genoomidesse üle kanda, kui funktsioonidel on mitu eksemplari.

Kas selles stsenaariumis on märkmeid edastavaid olemasolevaid tööriistu või tarkvara? Kas teil on ideid, kuidas seda jõuliselt teha?

Kas oskate täpsemat teavet anda? Mis on teie sisend (nt töötlemata lugemised, kokkupanekud, avatud lugemisraamid)? missugune järjestamine? mis on täpne väljund, mida soovite? "Ma pole kindel, et mõistan teie oletust. Samuti on LiftOver ja Kraken täiesti erinevad tööriistad, millel on erinevad kasutusalad
Kas see oleks teoreetiliselt üldse võimalik? Kuidas võite eeldada, et märkused on ülekantavad, kui neid on palju? Tõenäoliselt on parem otsida selle asemel homolooge.
@terdon - kas mõtlete ortolooge? homoloogid = ortoloogid (dubleerimata) + paraloogid (dubleeritud)
@Chris_Rands Ei, ma mõtlesin homolooge. Just seetõttu, et me ei saa teada, kas nad on orto- või para- (mul on kena postitus nende kahe erinevusest [siin] (https://biology.stackexchange.com/a/4964/1306) viis), nii et kõik, mida saate teha, on kõigepealt leida homoloogid ja seejärel proovida välja selgitada, kas need on märkuste ülekandmiseks piisavalt sarnased.
@terdon Ma näen, et ortoloogide / paraloogide lahendamine pole muidugi lihtne, kuid seda saab teha, sõltuvalt täpsetest andmetest (ma ei tea, kuidas OP andmed välja näevad), näiteks mõned mu kolleegid peavad ortodbi http: / /www.orthodb.org/
Oh, muidugi saab hakkama! Minu mõte oli see, et homoloogiliste piirkondade (ükskõik mis tüüpi) otsimine näib olevat parem viis annotatsioonide edastamiseks kui katse tõlkida genoomseid koordinaate eri liikide genoomide vahel.
@Chris_Rands: Sisendiks oleksid sõlmed, nt. de novo gDNA järjestusest. Väljundiks oleks annotatsioonide (nt gff-vormingu) ülekandmine iseloomustatud liikidelt äsja kokku pandud genoomi (koordinaatide ülekanne). Nii LiftOver kui ka Kraken (see, lihtsalt selleks, et olla samal lehel: https://github.com/nedaz/kraken) teevad seda. LiftOver on sobivam koordinaatide ülekandmiseks tihedalt seotud järjestuste vahel, nt. erinevad kooslused; Kraken kasutab genoomi joondamist (MUMer, Satsuma) nii paremaks divergentsemate järjestuste jaoks.
@terdon: homoloogia tüübi / päritolu eristamine läheks kaugemale sellest, mida ma tahaksin saavutada, kuid erinevus on oluline, nagu te märkite. Samuti on õige öelda, et väiksemate homoloogsete piirkondade ülekandmine oleks parem, eriti lahknevate liikide puhul. fyi rakenduse kohta: mul on sünkrooniline rakendus, kus geenid saavad ulatuslikult dubleerida. need on järjestuses identsed, kuid paljunevad korduvalt ja on ümber paigutatud (st mitte külgnevad). Ükski ülalnimetatud tööriistadest ei suutnud annotatsioonide koordinaate genoomidesse üle kanda, kui annotatsiooni oli mitu koopiat.
Jah, ega ma ootaks ka, et nad seda teeksid. Seda ma ütlesingi. Tõstetööriistad lihtsalt kaardistavad koordinaadid, nad ei saa sellise asjaga hakkama. Kardan, et peate seda tegema käsitsi, hankides huvipakkuvate geenide / valkude loendi, leides nende homoloogid ja kandes märkused üle (koos ilmsete hoiatustega selle kohta, kas märkused on ülekantavad või mitte). Paraku pole see eriti lõbus.
vabandused, mis ma arvasin, et mõtlesite krakenit: http://ccb.jhu.edu/software/kraken/, kes neid tööriistu nimetab? igatahes on see korralikult tegemiseks üsna tühine. peate tegema genoomi kokkupaneku, geeniennustused ja ortoloogi / paraloogi määramise; torujuhtmeid on erinevaid (mõned on siin üle vaadatud: https://www.ncbi.nlm.nih.gov/pubmed/27043882), kuid need võtavad aega. alternatiivina, „kiirema ja määrdunuma” jaoks tunduvad @terdon ettepanekud mõistlikud
Kaks vastused:
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

On üks väga lihtsustatud viis, kuidas võib teie jaoks toimida, see on sarnane terdoni pakutuga.

Võtke mikroorganismide de novo-de genoomianotatsioon tööriist (mul on oma, kuid võite kasutada / muuta prokka). Sellised tööriistad ennustavad sageli kõigepealt geenipiire (teiste tööriistadega, näiteks tuhlakas või sära) ja proovivad seejärel leitud geenidele funktsiooni määrata. Selle funktsiooni määramine toimub sageli BLASTi ja muude tööriistade abil ... ja seal saate minna ja muuta, et teha seda, mida vajate.

Ma kasutan geenide "teadmiste" valgu andmebaasi, mida tahan on märkuste esimese reana väga rangelt märkinud (nt teie puhul: märkustega genoomid). Selleks tutvun väga rangete identiteedi / sarnasuse parameetritega, mis lõdvestuvad järk-järgult.

Näiteks: Loop 0: edastage märkmeid ainult 100% -lise DNA identiteediga, sama pikkusega. 1. silmus: edastage märkmeid ainult 100% sarnasusega , sama pikkus. 2. silmus: märkmete ülekandmine toimub ainult 99% sarnasuse, pikkuse +/- 1% juures. Silmus n: märkmete ülekandmine ainult 100- (n-1)% sarnasuse, pikkuse +/- (n-1 )%.

Mõlemas tsüklis märkige ilmselgelt ainult see, mida eelmistes tsüklites pole märgitud.

Pärast seda kasutage ülejäänud märkimiseks märkmeid tööriista "tavaline" märkimiste gaasijoon.

Kas see ei nõua sihtgenoomi geenide leidmist kõigepealt? Või saab teie tööriist teha ka de-novo geeniennustust? (kõlab muide väga kasuliku tööriistana, au!)
Prokarüootsete geenide leidmine / ennustamine on enam-vähem lahendatud probleem, olemasolevad tööriistad toimivad suhteliselt hästi. Vaadake veebisaite http://prodigal.ornl.gov/ ja http://prodigal.ornl.gov/ (lihtsalt kui nimetada kahte).
Jah, ma tean, ma olin lihtsalt üllatunud, et te seda oma vastuses ei maininud. Kui ma õigesti aru saan, oleks esimene samm, kui OP leiaks väidetavate geenide loendi oma äsja sekveneeritud genoomist, eks?
Õige. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) kasutab kogu genoomi de novo märkimiseks märkmeid kolmandate osapoolte tööriistadest (sealhulgas tuhlaritest). Alustasin prokka muutmisega enne, kui omaenda kirjutasin , mis kasutab mõningaid ideid prokka torustikust.
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Ma arvan, et peate kõigepealt tuvastama oma GFF-is määratletud piirkondadega homoloogsed piirkonnad ja seejärel märkused üle kandma. Muidugi on seal eeldus, et ka homoloogil on sama märkimine, mis sageli ei vasta tõele. Kuid ma ei näe, kuidas saaksite seda muul viisil teha, kuna te ei saa kasutada genoomseid koordinaate (ja ikkagi teeksite sama eelduse, isegi kui saaksite, niikuinii), kui genoomid on nii erinevad.

Väga lihtsustatud lähenemisviisi jaoks (mis võib olla piisav, kui teie järjestused on peaaegu identsed), võite teha järgmist:

  1. Koguge huvipakkuvad järjestused juba märgitud liikide hulgast.

  2. Kasutage sellist tööriista nagu genewise või exonerate nende kaardistamiseks sihtgenoomi. Mõlemad tööriistad tagastavad gff-vormingus väljundi ja mõlemad leiavad sihtgenoomist mitu tabamust. Soovitaksin soovitada kasutada järjestuse sarnasuse ja päringu katvuse väga kõrget künnist (kus leitud sihtjärjestus hõlmab kõiki või enamikku kasutatavatest päringute järjestustest).

    Kuna tegemist on mikroobide genoomidega ja seetõttu splaissimine pole probleem, võite teha sama ka lihtsa BLASTn või tBLASTn abil, kui alustate valgujärjestustest.

  3. Siinkohal peaks teil olema loend homoloogidest (millest mõned on ortoloogid ja teised paraloogid) ja saate päringujärjestuse märkused sihtmärgile üle kanda.

Jällegi rõhutan, et see teeb tohutult suure eelduse: homoloogilistel järjestustel on sama funktsioon ja neid saab automaatselt märkida nagu mis teil päringu genoomis oli. See peab paika paljude juhtumite puhul, kuid ka teiste puhul. Eriti kui vaatate paralooge (geene, mille dubleerimine toimus pärast spetsiifilist sündmust ja seetõttu on nende funktsioon tõenäoliselt erinev).

Kuid nagu ma juba varem ütlesin, oleks see probleem täpselt sama, isegi kui teil õnnestuks märkmeid üle kanda, tuvastades ainult genoomide sünteetilised piirkonnad 1 , nii et seal pole palju erinevusi.


1 Nagu ma kommentaarides ütlesin, ei näe ma, kuidas see võimalik oleks. Definitsiooni järgi on ulatuslike dubleerimiste korral genoomsed koordinaadid täiesti erinevad ja ühest genoomist teise on võimatu kaardistada.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...