MYLCGENOME


Este proyecto planteó durante sus dos años de ejecución la implementación de un sistema de medicina de precisión o medicina personalizada. El primer año el sistema estaba basado en un dispositivo móvil para el análisis del genoma de un individuo, a partir de cuya información es posible obtener información relacionada con el diagnóstico, el pronóstico y la predisposición a diversas enfermedades e incluso la respuesta individualizada a distintos fármacos. En la segunda anualidad se extendió esta idea para incorporar nuevos experimentos para la caracterización genómica de un paciente y la incorporación de técnicas de big data e inteligencia artificial para mejorar las capacidades de la plataforma bioinformática de medicina de precisión que se desea desarrollar.

Las tareas relacionadas con la puesta a punto del sistema de bajo coste de análisis genómico se han desarrollado gracias a la estrecha colaboración entre la Plataforma de Bioinformática del CIMA e Ibermática. El sistema de procesado de datos del genoma, implementado en el CIMA, se ha unido a las tareas de desarrollo para la implementación del software para la anotación y la visualización de mutaciones en un teléfono móvil por parte de Ibermática. El sistema de análisis personal se ha hecho compatible también con un nuevo modelo de negocio en el cuál el estudio del genoma lo realiza una empresa que ofrece como resultado el fichero de mutaciones obtenidas y que son enviadas directamente a la aplicación móvil. Este modelo permite incorporar sistemas de cómputo más potentes para el análisis de cientos de muestras de forma simultánea y abaratar costes.

Dado el desarrollo actual de las tecnologías de alto rendimiento en biología y la gran cantidad de datos públicos disponibles, ha sido posible comenzar el desarrollo de un sistema que tenga en cuenta todos estos datos para ofrecer una información más completa al paciente en base a su información genética y clínica. A pesar de la enorme complejidad de esta información y de los algoritmos necesarios para su procesado, los resultados obtenidos en este proyecto han sido muy prometedores, y nos permiten afirmar que estamos ante una herramienta de gran interés clínico, especialmente en el estudio y el tratamiento del cáncer.

Se ha finalizado la generación de una base de datos de experimentos de alto rendimiento de pacientes con cáncer del proyecto TCGA (DNA-Seq y RNA-Seq) y de tejidos sanos obtenidos del proyecto GTEx (RNA-Seq) que incluye datos de más de 14000 pacientes con 35 tipos tumorales distintos. Esta información se ha complementado con los datos clínicos asociados a cada uno de estos pacientes: tumor, grado del tumor, supervivencia, tratamiento, etc. También se ha incorporado información de los perfiles de expresión (RNA-Seq) de genes en tejidos sanos del proyecto GTEx, donde se dispone de más de 7000 muestras correspondientes a 53 tejidos distintos. Con el fin de obtener una representación adecuada de todos estos datos disponibles se han aplicado diversos algoritmos de deep learning para verificar nuestra capacidad para codificarlos sin pérdida de información. Los resultados obtenidos aplicando uno de los algoritmos más sofisticados, las RBMs (Restricted Boltzman Machines) resultaron ser la alternativa más eficiente. Aplicamos este sistema sobre los datos de los pacientes separando el estudio de genes codificantes y genes no codificantes. La fase de entrenamiento se realizó con el 70 % de las muestras, mientras que el 30 % restante se empleó como conjunto de verificación. Finalmente se obtuvo un codificador para muestras tumorales y otro para tejidos sanos con 8 capas y 400 RBMs apiladas que permiten pasar de una dimensión inicial de 19810 valores a un código de únicamente 1020 valores. Para validar este resultado se ha evaluado la AUC de los clasificadores basados en esta codificación, con resultados cercanos a una precisión del 100 %.

Adicionalmente, se realizó una validación del sistema empleando los datos del proyecto CoMMpass (RNA-Seq de pacientes con mieloma múltiple) y de datos obtenidos del proyecto ICGC de cáncer hepático (LIHC) con excelentes resultados. La evaluación se ha realizado empleando la RBM obtenida mediante el entrenamiento con los datos de la TCGA para genes codificantes empleando un sistema de visualización de los códigos resultantes basado en t-SNE. Se observa que los nuevos datos aparecen junto con los tumores correspondientes dadas sus características clínicas. Finalmente se incorporó al proyecto la secuenciación del ADN (exomas) y el ARN (RNA-Seq) de muestras de nuevas cohortes de pacientes, para evaluar el sistema de medicina de precisión, obtenidas de diversas colaboraciones de la unidad con la Clínica Universidad de Navarra (CUN). En concreto, se secuenciaron 17 muestras de tumores del sistema nervioso (meningioma y neurinomas) y una serie de muestras de tumores hepáticos. Estas cohortes permitirán incrementar el número de casos y tipos tumorales disponibles, mejorar el diseño, la implementación y la evaluación del sistema de medicina personalizada.

En el estudio del RNA-Seq de las muestras de tumores nerviosos se ha obtenido una lista de unos 400 genes y lncRNAs de gran interés involucrados en categorías funcionales relacionadas con actividad tumoral como “cell differentiation”, “cell adhesion”, or “embryonic morphogenesis”. Además, dada la naturaleza nerviosa de estos tumores encontramos “nervous system process” y “behavior”, y en concreto, dado que la mayoría de los tumores afectan al nervio vestibular (nervio auditivo) aparecen categorías como “ear morphogenesis” e “inner ear development”. Algunos de los genes alterados involucrados en estas rutas y de posible interés clínico y biológico son ITGA8, NAGLU, SOBP, TBX18, OTX1, ZEB1 MYO6 y BMP2.


  • Año: 2017
  • Sector estratégico: Medicina personalizada
  • Líder del proyecto: Fundación para la Investigación Médica Aplicada
  • Socios del proyecto: Ibermática
X