Els científics utilitzen la metodologia de seqüenciació de lʼRNA per veure com sʼexpressen els gens al llarg de tot el genoma. Però, com poden analitzar aquesta informació? És prou bo i precís el programari que fan servir per aconseguir-ho? En lʼestudi, el consorci RNA-seq Genome Annotation Assessment (RGASP), una iniciativa associada al projecte ENCODE (Enciclopèdia dels Elements del DNA), ha avaluat el rendiment dʼun ampli ventall de programes informàtics capaços de processar dades de la seqüenciació de lʼRNA. Els experts van ser capaços dʼespecificar quins mètodes funcionen bé per a algunes funcions i quines àrees caldria millorar.
Millorant la predicció computacional de gens
Tal com explica el professor Josep F. Abril, membre de
lʼInstitut de Biomedicina de la Universitat de Barcelona (IBUB), adscrit al campus dʼexcel·lència internacional
BKC, «lʼarticle és el resultat dʼun projecte per avaluar la fiabilitat dels programes més moderns de predicció de gens, en el context de les evidències provinents de dades de la seqüenciació de lʼRNA (ultraseqüenciació de transcriptomes), i de com aquestes dades poden millorar lʼanotació dels gens i els models computacionals que els defineixen».
«Comparant de manera sistemàtica les eines computacionals existents per detectar gens sobre els genomes, intentem determinar si les noves dades de seqüenciació de lʼRNA milloren o no la fiabilitat de les estructures gèniques predites», apunta el professor Abril, investigador principal del
Laboratori de Genòmica Computacional de la UB. «A banda dʼobtenir noves eines per a la predicció —continua lʼexpert—, també hem pogut identificar les qüestions que caldrà
corregir en el futur i conèixer en quins punts hem de seguir investigant per millorar aquestes eines».
Tal com remarca Roderic Guigó, coordinador del programa Bioinformàtica i Genòmica del CRG, els investigadors han estat treballant per trobar alternatives noves i més sofisticades als mètodes actuals que permetin gestionar correctament les dades de seqüenciació. «Les conclusions que presentem en aquests treballs —explica Guigó— contribuiran a obtenir millors mètodes i a facilitar que es puguin aplicar en diversos camps com, per exemple, la medicina i la biotecnologia».
LʼRGASP: un consorci per a la recerca en genòmica
Paul Bertone, expert de lʼInstitut Europeu de Bioinformàtica
(EMBL-EBI) i coordinador de lʼestudi, assegura que sʼha trobat «un grau sorprenent de variabilitat en la manera com aquests programes gestionen els diferents aspectes de les dades de la seqüenciació de lʼRNA». Hi ha mètodes que funcionen bé en general mentre que dʼaltres tenen característiques de disseny intel·ligent que els permeten solucionar problemes específics amb més èxit. Els experts també han estat capaços de destacar les àrees de millora de molts dʼaquests mètodes computacionals. «Aquest tipus de treball —subratlla Bertone— és un recurs molt important per a la comunitat científica que treballa en genòmica i el model de consorci col·laboratiu era lʼúnica plataforma que permetia dur a terme un experiment com aquest a gran escala i de manera sistemàtica».
En aquests estudis, hi van participar desenvolupadors de programari de primera línia, que van avaluar els mètodes computacionals per processar i interpretar les dades de seqüenciació de lʼRNA. En el marc del Projecte dʼAvaluació dʼAnotació del Genoma (EGASP) —basat en lʼENCODE— tots els grups i investigadors van aportar els seus resultats per a lʼavaluació. Cadascun dels mètodes comparats en lʼestudi permet lʼalineació de seqüències i la reconstrucció de trànscripts, elements essencials per analitzar els experiments de seqüenciació de lʼRNA.
Noves fronteres en la ultraseqüenciació de transcriptomes
Lʼaproximació sistemàtica i meticulosa del consorci per dur a terme aquesta valoració ha portat a uns descobriments que es podran fer servir per millorar i ampliar lʼabast de les eines dʼanàlisi de la seqüenciació de lʼRNA disponibles actualment. Alhora, també es podran utilitzar per posar al dia desenvolupaments que cobreixin les necessitats de les tecnologies emergents de seqüenciació.
«Un punt important dʼaquest estudi ―remarca Josep. F. Abril― ha estat el gran volum de dades amb què sʼha treballat». «Sʼhan avaluat les anotacions i les prediccions de gens sobre els genomes complets dels humans, la mosca del vinagre (Drosophila melanogaster) i el cuc intestinal (Caenorhabditis elegans), alhora que sʼintegraven dades de seqüenciació de lʼRNA generades pel projecte ENCODE», detalla lʼexpert. Un altre aspecte que cal destacar ha estat poder veure com els diferents programes també podien quantificar el nivell dʼexpressió sobre les estructures predites a partir de les mateixes dades de seqüenciació de lʼRNA.