Ma arvan, et peate kõigepealt tuvastama oma GFF-is määratletud piirkondadega homoloogsed piirkonnad ja seejärel märkused üle kandma. Muidugi on seal eeldus, et ka homoloogil on sama märkimine, mis sageli ei vasta tõele. Kuid ma ei näe, kuidas saaksite seda muul viisil teha, kuna te ei saa kasutada genoomseid koordinaate (ja ikkagi teeksite sama eelduse, isegi kui saaksite, niikuinii), kui genoomid on nii erinevad.
Väga lihtsustatud lähenemisviisi jaoks (mis võib olla piisav, kui teie järjestused on peaaegu identsed), võite teha järgmist:
-
Koguge huvipakkuvad järjestused juba märgitud liikide hulgast.
-
Kasutage sellist tööriista nagu genewise
või exonerate
nende kaardistamiseks sihtgenoomi. Mõlemad tööriistad tagastavad gff-vormingus väljundi ja mõlemad leiavad sihtgenoomist mitu tabamust. Soovitaksin soovitada kasutada järjestuse sarnasuse ja päringu katvuse väga kõrget künnist (kus leitud sihtjärjestus hõlmab kõiki või enamikku kasutatavatest päringute järjestustest).
Kuna tegemist on mikroobide genoomidega ja seetõttu splaissimine pole probleem, võite teha sama ka lihtsa BLASTn või tBLASTn abil, kui alustate valgujärjestustest.
-
Siinkohal peaks teil olema loend homoloogidest (millest mõned on ortoloogid ja teised paraloogid) ja saate päringujärjestuse märkused sihtmärgile üle kanda.
Jällegi rõhutan, et see teeb tohutult suure eelduse: homoloogilistel järjestustel on sama funktsioon ja neid saab automaatselt märkida nagu mis teil päringu genoomis oli. See peab paika paljude juhtumite puhul, kuid ka teiste puhul. Eriti kui vaatate paralooge (geene, mille dubleerimine toimus pärast spetsiifilist sündmust ja seetõttu on nende funktsioon tõenäoliselt erinev).
Kuid nagu ma juba varem ütlesin, oleks see probleem täpselt sama, isegi kui teil õnnestuks märkmeid üle kanda, tuvastades ainult genoomide sünteetilised piirkonnad 1 , nii et seal pole palju erinevusi.
1 Nagu ma kommentaarides ütlesin, ei näe ma, kuidas see võimalik oleks. Definitsiooni järgi on ulatuslike dubleerimiste korral genoomsed koordinaadid täiesti erinevad ja ühest genoomist teise on võimatu kaardistada.