¿Qué hay en el genoma?

Todavía no comprendemos la complejidad que existe detrás de todas y cada una de las letras que componen nuestro genoma
— El 'alfabeto de la vida' ve la luz: publicada la secuencia más completa del genoma de un ser humano

Nos estamos acostumbrando a hablar sobre el ácido desoxirribonucleico (ADN), per, no sé si realmente entendemos este concepto como se debería. El ADN son dos cadenas compuestas por letras (nucleótidos) que constituyen el genoma. En un momento concreto del ciclo de la célula el ADN se agrupa en cromosomas, un total de 23 pares en humanos. Pero, no por ello, el ADN deja de ser una molécula continua. Pero ¿cómo funciona? Existe un esquema general para obtener un producto (proteínas) a partir del ADN utilizando un intermediario llamado ácido ribonucleico mensajero (ARNm). En términos correctos se dice que el ARNm se transcribe a partir del ADN y que las proteínas se traducen a partir de ARNm. Este esquema es más sencillo de lo que en realidad sabemos, pero nos sirve como punto de partida.

Proyecto genoma humano

Todavía no comprendemos la complejidad que existe detrás de todas y cada una de las letras que componen nuestro genoma. Pero, su efecto biológico va más allá de la composición de nucleótidos. Desde 1990 existen proyectos en los que se ha hecho el mayor de los esfuerzos económicos y colaborativos posibles para este fin. El más importante de estos proyectos se denomina Proyecto Genoma Humano (PGH; en inglés, Human Genome Project). A modo de resumen, se obtuvieron 3.272.116.950 pares de bases, es decir, corresponden a 6.544.233.900 nucleótidos. El dato más curioso fue que solamente se encontraron 20.000 genes. Este hallazgo fue un punto de inflexión ya que, se pensaba que los elementos que más influían en el fenotipo serían los genes. Sin embargo, estos proyectos han demostrado que lo realmente importante es la regulación de estos genes.

La idea principal es que existen tantos genomas como individuos con distintas variaciones que los identifica como únicos, es decir, no existen dos genomas iguales en el planeta a excepción de los gemelos monocoriales (desarrollados a partir del mismo óvulo). Este proyecto nos ha permitido saber que estas variaciones solamente corresponden al 0.01% de la secuencia de nucleótidos, es decir, que somo un 99.9% idénticas e idénticos. De hecho, con esta información se ha podido constituir un genoma de referencia. Este genoma ha supuesto una guía tanto de consulta como de nuevas ideas para todos los grupos de investigación del mundo, y es impensable hoy en día no poder acceder a esta información con un solo click. Precisamente, otro de los grandes hitos de este proyecto fue el desarrollo de la tecnología necesaria para obtener información del genoma de manera ágil y sencilla: secuenciación. He querido definirla de esa manera porque no me gustaría que nos quedáramos con la idea de que secuenciar solamente es útil para saber la lista de nucleótidos, ya que también somos capaces de secuenciar ARN o proteínas. En consecuencia, la cantidad de datos generados requiere nuevos abordajes computacionales para poder descifrar el mensaje oculto tan complejo.

Proyecto ENCODE: era de los ARNs no-codificantes

En paralelo y con objetivos distintos también tenemos que mencionar el proyecto International Hapmap Project (que fue como mi segunda piel durante la tesis) que pretendía saber qué variaciones se heredaban conjuntamente (porque el ADN se hereda en bloques) y un paso más allá, el proyecto Encyclopedia of DNA Elements (ENCODE). Este proyecto pretende hacer un catálogo de todos los elementos que surgen del genoma. Precisamente, este proyecto confirmó que la complejidad no está detrás de los genes sino que, el 98% del genoma está constituido por lo que llamó ADN basura que comprende las partes del ADN que no son codificantes y que consisten, principalmente, en regiones repetitivas. A partir de estas regiones del genoma se transcriben los ARNs no codificantes (en inglés, 'non coding RNAs' o ncRNAs).

Los ncRNAs son elementos que se transcriben pero no se traducen a proteína. Lo que estudiabamos durante la carrera eran los ARNs tales como mensajeros, de interferencia y ribosómicos, pero existen muchas más clases que juegan un papel fundamental en la regulación del genoma. En general, los ncRNAs se pueden dividir dependiendo del tamaño y tal y como hemos comentado previamente sobre la importancia de la regulación de los genes un ncRNA puede controlar muchos genes. Además, distintos tipos de ncRNAs pueden interactuar entre sí formando complejas redes de interacción. Esta es la principal propiedad que resulta atractiva en este tipo de moléculas. Precisamente por eso, muchísimos grupos de investigación se han centrado en el estudio de los ncRNAs en distintas patologías. En el caso particular del cáncer, su relevancia reside en la capacidad de actuar como oncogenes y como genes supresores de tumores.

Proyecto T2T-CHM13v1.1: genoma completo

Las secuencias repetitivas mencionadas previamente suponían un reto para las técnicas de secuenciación, puesto que las repeticiones generan errores. Estos errores se producen porque hasta ahora, el genoma se secuenciaba generando pequeñas copias para cada lugar del genoma y se solapaban como piezas de puzle completando el puzle. El reducido tamaño de estas secuencias (100-500 nucleótidos de media) no permitía establecer el verdadero orden de las secuencias repetitivas, porque no se sabían dónde colocarlas adecuadamente. Por eso, estas secuencias suponían lagunas en el genoma de referencia que teníamos hasta ahora.

Por fin, y después de mas de 20 años, se ha podido conocer la secuencia del genoma completo. Esto significa que no hay lagunas en las secuencias complicadas que hemos mencionado previamente. La clave para conseguirlo, entre otras cuestiones técnicas, ha sido la utilización de copias de fragmentos del genoma más largas (10.000-25.000 nucleótidos de media) que permiten resolver la complejidad estructural de la versión anterior de genoma, es decir la GRCh38, incluyendo zonas centroméricas y teloméricas (zonas constituidas por secuencias repetitivas), brazos cortos de cromosomas acrocéntricos (cromosomas 13, 14, 15, 21, 22), cromosoma Y y el cromosoma X completos.

Esta nueva versión del genoma se denomina T2T-CHM13v1.1 y contiene 3,054,815,472 pares de bases de ADN nuclear, y 16,569 pares de bases de ADN mitocondrial con una predicción de19,969 genes. Este genoma no proviene de ningún individuo sino de una mola hidatiforme completa. Este tipo de embrión se origina de la fecundación de un espermatozoide y un óvulo sin núcleo y sin ADN materno. Por lo tanto, sólo tendríamos los 23 cromosomas paternos. El siguiente paso tras la fecundación son divisiones mitóticas (división celular) en la que un fallo en la disyunción (separación de cromosomas) provoca que los cromosomas paternos puedan duplicarse. De esta manera, el óvulo fecundado comienza a multiplicarse.

Por ello, el genoma de este “embrión” no representa el genoma de las personas de nuestra especie siendo éste uno de los límites de este proyecto. En el futuro reciente se planea aplicar la tecnología empleada en este proyecto, es decir, la secuenciación de fragmentos ultralargos para analizar individuos de distintas poblaciones, tal y como que se ha realizado en proyectos anteriores. Paralelamente, se analizarán individuos con distintas patologías para recoger la variabilidad subyacente que pudiera estar relacionada con su origen.

Por último, es importante subrayar que para la ejecución de estos proyectos se estableció una red de cooperación entre distintos países para aunar esfuerzos en el proyecto para evitar derroche de recursos. En otras palabras, la unión hace la fuerza y este abordaje, donde se fomenta la comunicación, es la única manera de lograr este tipo de hitos en ciencia.

Bibliografía

https://www.science.org/doi/10.1126/science.abl5403?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed#
https://www.genome.gov/Funded-Programs-Projects/ENCODE-Project-ENCyclopedia-Of-DNA-Elements
https://montoliu.naukas.com/2020/11/23/el-tamano-de-nuestro-genoma/
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7856203/pdf/nihms-1654549.pdf
https://pubmed.ncbi.nlm.nih.gov/29170536/
https://www.science.org/doi/10.1126/science.abj6987
http://www.patologia.es/volumen35/vol35-num2/35-2n07.htm

Sobre este blog

Todavía no comprendemos la complejidad que existe detrás de todas y cada una de las letras que componen nuestro genoma

— El 'alfabeto de la vida' ve la luz: publicada la secuencia más completa del genoma de un ser humano

Proyecto genoma humano

Proyecto T2T-CHM13v1.1: genoma completo