MW: ENCODE: La enciclopedia humana

Artículo publicado por Brendan Maher el 5 de septiembre de 2012 en Nature News

Primero lo secuenciaron. Ahora han estudiado sus entresijos. Pero nadie sabe cuánta información contiene el genoma humano, o cuándo dejar de buscarla.

A Ewan Birney le gustaría imprimir todos los datos genómicos que él y sus colaboradores han recopilado a lo largo de los últimos cinco años como parte de ENCODE, la enciclopedia de elementos de ADN. Sin embargo, encontrar un lugar donde colocarlo sería un desafío. Incluso si contuviese 1000 pares de bases por centímetro cuadrado, la impresión se extendería a lo largo de 16 metros de alto y al menos 30 kilómetros de largo.

Genoma © by Rosa y Dani

ENCODE se diseñó para continuar donde lo dejó el Proyecto Genoma Humano. Aunque ese gran trabajo reveló el boceto de la biología humana, rápidamente quedó claro que el manual de instrucciones para leer el boceto era poco preciso, en el mejor caso. Los investigadores pudieron identificar en sus 3000 millones de letras muchas de las regiones que codifican las proteínas, pero eso forma poco más del 1% del genoma, contenido en alrededor de 20 000 genes – unos pocos objetos conocidos en un paisaje austero e irreconocible. Muchos biólogos sospecharon que la información responsable de asombrosa complejidad de los humanos se encuentra en algún lugar de los ‘desiertos’ entre los genes. ENCODE, que se inició en 2003, es un proyecto de recopilación masiva de datos diseñado para poblar este terreno. El objetivo es catalogar las secuencias de ADN ‘funcional’ que merodean por ahí, aprender cuándo y en qué células se activan y rastrear sus efectos sobre cómo se empaqueta, regula y lee el genoma.

Tras una fase piloto inicial, los científicos de ENCODE empezaron a aplicar sus métodos a todo el genoma en 2007. Ahora esta fase ha concluido, marcando su final con la publicación de 30 artículos, en Nature, Genome Research y Genome Biology. El consorcio ha asignado algún tipo de funcionalidad a aproximadamente el 80% del genoma, incluyendo más de 70 000 regiones ‘promotoras’ – las zonas, justo por encima de los genes, donde las proteínas se unen para controlar la expresión génica — y casi 400 000 regiones ‘mejoradoras’ que regulan la expresión de genes distantes (ver página 57)¹. Pero el trabajo está lejos de finalizar, dice Birney,biológo computacional en el Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular en Hinxton, Reino unido, quien coordinó el análisis de datos de ENCODE. Dice que parte del trabajo de cartografiado está a mitad de camino de su finalización, y que esta caracterización más profunda de todo el genoma probablemente esté finalizada en un 10%. Una tercera fase, ahora en proceso, completará nuestro manual de instrucciones humano y proporcionará muchos más detalles.

Muchos de los que han analizado el vasto flujo de datos están emocionados por la idea. ENCODE ya ha iluminado algunos de los rincones más oscuros del genoma, creando oportunidades para comprender cómo afectan las variaciones genéticas s los rasgos y enfermedades humanas. Explorar la miríada de elementos regulatorios revelados por el proyecto y comparar sus secuencias con los de otros mamíferos promete cambiar la forma en que los científicos comprenden la evolución humana.

Aunque algunos investigadores se preguntan en qué punto será suficiente de una vez por todas. “No veo que este tren desbocado vaya a parar en breve”, dice Chris Ponting, a biólogo computacional de la Universidad de Oxford en el Reino unido. Aunque Ponting apoya los objetivos del proyecto, se cuestiona si algunos aspectos de ENCODE proporcionarán algún retorno de la inversión, que se estima que es superior a 185 millones de dólares. Pero Job Dekker, jefe de proyecto de ENCODE en la Facultad de Medicina de la Universidad de Massachusetts en Worcester, dice que para darnos cuenta del potencial de ENCODE tendrá que pasar algún tiempo. “A veces necesitas un largo periodo para saber cuánto puedes aprender de un conjunto de datos dado”, comenta.

Incluso antes de que se terminase el secuenciado del genoma², el Instituto Nacional de Investigación del Genoma Humano (NHGRI), el principal patrocinador estadounidense en ciencia genómica, defendía un enfoque sistemático para identificar partes fundamentales del ADN. En 2003, invitó a biólogos para proponer proyectos piloto que recopilarían dicha información de apenas un 1% del genoma, y ayudarían a determinar qué técnicas experimentales tienen un mejor potencial de trabajo.

Los proyectos piloto transformaron la visión de los biólogos sobre el genoma. Incluso aunque solo una pequeña cantidad de ADN fabrica el ARN mensajero que codifica las proteínas, por ejemplo, los investigadores encontraron que gran parte del genoma se ‘transcribe’ en moléculas de ARN no codificantes, parte de las cuales se sabe que son importantes reguladores de la expresión génica. Y aunque muchos genetistas pensaban que los elementos funcionales serían los más conservados en todas las especies, realmente hallaron que muchas secuencias reguladoras importantes han evolucionado rápidamente. El consorcio publicó sus resultados³ en 2007, poco después de que el NHGRI hubiese establecido una segunda ronda de peticiones, esta vez pidiendo a los potenciales participantes que extendieran su trabajo a todo el genoma. Esta fase de ‘escalado’ empezó con la nueva generación de máquinas de secuenciado, haciendo más barata y rápida la adquisición de datos. “Produjimos, creo, cinco veces más datos de los que dijimos que íbamos a generar sin ningún cambio en el presupuesto”, dice John Stamatoyannopoulos, líder del grupo ENCODE en la Universidad de Washington en Seattle.

Los 32 grupos, incluyendo a más de 440 científicos, se centraron en 24 tipos estándar de experimentos. Aislaron y secuenciaron el ARN transcrito a partir del genoma, e identificaron los lugares de unión del ADN para unos 120 factores de transcripción. Cartografiaron las regiones del genoma que estaban revestidas por grupos químicos metilo, que generalmente indican áreas en las que los genes están silenciados. Examinaron los patrones de las modificaciones químicas realizadas con proteínas histonas, que ayudan a empaquetar el ADN en cromosomas y pueden señalar regiones donde la expresión génica está aumentada o suprimida. E incluso aunque el genoma es el mismo en la mayor parte de células humanas, no es igual su uso. Por lo que los equipos realizaron estos experimentos en múltiples tipos de células — al menos 147 — dando como resultado 1648 experimentos de los que informa ENCODE esta semana^1,4-8.

Stamatoyannopoulos y sus colaboradores⁴, por ejemplo, cartografiaron las regiones regulatorias en 125 tipos celulares usando una enzima llamada DNaseI. La enzima tiene poco efecto en el ADN abarcado por las histonas, pero trocea el ADN que está ligado a otras proteínas regulatorias, tales como factores de transcripción. El secuenciado del ADN troceado sugiere dónde se unen estas proteínas a distintos tipos celulares. El equipo descubrió alrededor de 2,9 millones de estas zonas en total. Aproximadamente un tercio se hallaron en solo un tipo celular y apenas 3700 se mostraron en todos los tipos, lo que sugiere grandes diferencias en cómo se regula el genoma entre distintas células.

La verdadera diversión empieza cuando se unen distintos conjuntos de datos. Los experimentos que observan las modificaciones de las histonas, por ejemplo, revelan patrones que se corresponden con los límites de las zonas sensibles a la DNaseI. Luego los investigadores pueden añadir datos que muestren exactamente qué factores de transcripción se unen, dónde y cuándo. Las vastas regiones desérticas ahora están pobladas con cientos de miles de características que contribuyen a la regulación génica. Y cada tipo de célula usa distintas combinaciones y permutaciones de estas características para generar su única biología. Esta riqueza ayuda a explicar cómo los relativamente escasos genes codificadores de proteínas pueden proporcionar la complejidad biológica necesaria para hacer crecer y funcionar a un ser humano. ENCODE “es mucho más que la suma de las partes”, dice Manolis Kellis, genomicista computacional en el Instituto Tecnológico de Massachusetts en Cambridge, que dirigió algunos de los trabajos de análisis de datos.

Los datos, que se han publicado a través del proyecto, ya están ayudando a los investigadores a dar sentido a las enfermedades genéticas. Desde 2005, los estudios de asociación de todo el genoma (GWAS) han generado miles de puntos en el genoma donde una variación de solo una letra, o variante, parece estar asociada a un riesgo de enfermedad. Pero casi el 90% de estas variantes caen fuera de los genes que codifican proteínas, por lo que los investigadores tienen pocas pistas de cómo podrían provocar o incluir en la enfermedad.

El mapa creado por ENCODE revela que muchas de las regiones vinculadas a enfermedades incluyen mejoradores y otras secuencias funcionales. Y el tipo de célula también es importante. El grupo de Kellis observó algunas de las variantes que están fuertemente asociadas con el lupus eritematoso sistémico, una enfermedad en la que el sistema inmune ataca a los propios tejidos corporales. El equipo observó que las variantes identificadas en GWAS tendían a estar en regiones de regulación del genoma que estaban activas en una línea inmunocelular, pero no necesariamente en otros tipos de células, y el postdoctorado de Kellis, Lucas Ward, ha creado un portal web llamado HaploReg, que permite a los investigadores filtrar las variantes identificadas en GWAS respecto a los datos de ENCODE de forma sistemática. “Ahora somos, gracias a ENCODE, capaces de atacar a enfermedades mucho más complejas”, dice Kellis.

¿Hemos terminado ya?

Los investigadores podrían pasar años trabajando solo con los datos actuales de ENCODE — pero aún queda mucho por llegar. En su sitio web, la Universidad de California en Santa Cruz, tiene una reveladora representación visual del progreso de ENCODE: una rejilla muestra cuál de los 24 tipos de experimento ha concluido y cuál de los casi 180 tipos de células ha examinado ENCODE hasta ahora. Apenas está poblado. Un puñado de líneas celulares, incluyendo las que se usan habitualmente en los laboratorios como HeLa y GM12878, están rellenas casi por completo. Muchas, sin embargo, apenas han visto un experimento.

Los científicos rellenarán muchas de los espacios en blanco como parte de la tercera fase, a la que Birney se refiere como la ‘construcción’. Pero también planean añadir más experimentos y tipos celulares. Una forma de hacer esto es expandir el uso de una técnica conocida como inmunoprecipitación de cromatina (ChIP), que busca todas las secuencias ligadas a una proteína específica, incluyendo factores de transcripción e histonas modificadas. A través de un laborioso proceso, los investigadores desarrollan uno a uno anticuerpos para estas proteínas de unión al ADN, usando esos anticuerpo para extraer la proteína y cualquier ADN unido a partir de extractos celulares, y luego secuenciar el ADN.

Pero al menos este es un problema limitado, dice Birney, ya que se cree que hay apenas 2000 de dichas proteínas por explorar. (ENCODE ya ha muestreado aproximadamente una décima parte de las mismas). Más difícil resulta calcular cuántas líneas celulares estudiar. La mayor parte de los experimentos se han realizado por el momento sobre líneas que crecen fácilmente en cultivos pero que tienen propiedades que no son naturales. La línea celular GM12878, por ejemplo, se creó a partir de células sanguíneas usando un virus que lleva a la reproducción celular, y las histonas y otros factores pueden unirse de forma anormal a este genoma amplificado. HeLa se obtuvo a partir de una biopsia de cáncer cervical hace más de 50 años y está repleta de reordenaciones genómicas. Birney ofreció hace poco una charla en la que la calificaba como una nueva especie.

Los investigadores de ENCODE quieren observar las células tomadas directamente de una persona. Debido a que muchas de estas células no se dividen en cultivos, los experimentos tienen que realizarse sobre solo una pequeña cantidad de ADN, y algunos tejidos, tales como los cerebrales, son difíciles de muestrear. Los colaboradores de ENCODE también están empezando a hablar sobre indagar más en cómo afectan las variaciones entre la población a la actividad de los elementos regulatorios del genoma. “En algunas zonas habrá una variación en la secuencia que implica que un factor de transcripción no va a unirse aquí de la misma forma que allí”, dice Mark Gerstein, biólogo computacional en la Universidad de Yale en New Haven, Connecticut, que ayudó en el diseño de la arquitectura de datos para ENCODE. Finalmente, los investigadores podrían terminar observando muestras de docenas a cientos de personas.

El rango de experimentos también se expande. Un área de estudio en rápido desarrollo implica observar las interacciones entre las distintas partes del genoma en un espacio tridimensional. Si el ADN implicado se sale del camino, los elementos mejoradores pueden regular genes a cientos de miles de pares de distancia, por lo que las proteínas ligadas a los mejoradores pueden terminar interactuando con aquellos unidos cerca del gen. Dekker y sus colaboradores han estado desarrollando una técnica para cartografiar estas interacciones. Primero usaron compuestos químicos que unen entre sí las proteínas que ligan el ADN. Luego cortaron los bucles implicados y secuenciaron el ADN ligado, revelando las relaciones distantes entre elementos regulatorios. Ahora están escalando estos esfuerzos para explorar las interacciones a través de todo el genoma. “Esto está más allá de la simple anotación del genoma. Es la siguiente fase”, comenta Dekker.

La cuestión es, ¿dónde parar? Kellis dice que algunos enfoques experimentales podrían dar con puntos de saturación: si la tasa de descubrimientos cae por debajo de cierto umbral, el retorno de cada experimento podría ser demasiado bajo para seguir con él. Y, según Kellis, los científicos podrían finalmente acumular suficientes datos como para predecir la función de secuencias no exploradas. Este proceso, llamado imputación, ha sido desde hace mucho un objetivo en la anotación del genoma. “Creo que vamos a pasar por una fase de transición donde la imputación a veces será más potente y precisa que realizar realmente los experimentos”, dice Kellis.

Aunque tenemos miles de tipos celulares por poner a prueba y un conjunto de herramientas cada vez mayor, el proyecto podría continuar indefinidamente. “Estamos lejos de terminar”, dice el genetista Rick Myers del Instituto HudsonAlpha para Biotecnología en Huntsville, Alabama. “Se podría decir que esto quizá siga para siempre”. Y esto preocupa a ciertas personas. El proyecto piloto ENCODE tiene un coste aproximado de 55 millones de dólares; se aumentó unos 130 millones; y el NHGRI podría otorgar 123 millones más en la siguiente fase.

Algunos investigadores defienden que aún tienen que ver un sólido retorno de la inversión. Por una parte, ha sido difícil recopilar información detallada sobre cómo se están usando los datos de ENCODE. Mike Pazin, director de programa en el NHGRI, ha investigado la literatura científica buscando artículos en los que los datos de ENCODE desempeñaron un papel significativo. Ha hecho un recuento de unos 300, 110 de los cuales procedían de laboratorios sin patrocinio de ENCODE. El ejercicio fue complejo, sin embargo, debido a que la palabra ‘encode’ (codificar, en inglés) aparece en artículos de genética y genómica a cada momento. “Nota para mí”, dice Pazin con sorna, “crear un nombre de proyecto que sea único para la próxima vez”.

Unos pocos científicos con los que contactamos para este artículo se quejan de que no hay mucho que mostrar de la última década de trabajo, y que la elección de las líneas celulares y factores de transcripción han sido algo arbitrarios. Algunos piensan que el dinero consumido por el proyecto estaría mejor invertido en proyectos dirigidos por hipótesis iniciados por investigadores — una queja que también surgió durante el Proyecto Genoma Humano. Pero al contrario que el Proyecto Genoma, que tenía un punto de fin claramente definido, los críticos dicen que ENCODE podría continuar expandiéndose y es básicamente inacabable. (Ninguno de los científicos lo comentaría oficialmente, sin embargo, por miedo a que afectase a su patrocinio o a sus postdoctorados y estudiantes graduados).

Birney simpatiza con la preocupación de que la investigación dirigida por las hipótesis necesita más patrocinio, pero dice que “es el enfoque incorrecto presentar estas cosas como una competición directa”. El NHGRI dedica una gran cantidad de su dinero de investigación a proyectos liderados por consorcios, como ENCODE, pero esto es apenas un 2% del presupuesto del Instituto Nacional de Salud de los Estados Unidos, lo que deja mucho para el trabajo dirigido por hipótesis. Y Birney defiende que el enfoque sistemático del proyecto ofrecerá dividendos. “Aunque estos esfuerzos de catalogación sean mundanos, tienes que poner todas las piezas en la mesa antes de empezar a encajarlas”, señala.

Después de todo, dice Gerstein, se necesitó más de medio siglo para llegar a darnos cuenta de que el ADN es el material hereditario de la vida en la secuencia del genoma humano. “Casi podrías imaginar que el programa científico del próximo siglo realmente es comprender dicha secuencia”.

Nature 489, 46–48 (06 September 2012) doi:10.1038/489046

Referencias:

1.- The ENCODE Project Consortium Nature 489, 57–74 (2012).
2.- International Human Genome Sequencing Consortium Nature 431, 931–945 (2004).
3.- The ENCODE Project Consortium Nature 447, 799–816 (2007).
4.- Thurman, R. E. et al. Nature 489, 75–82 (2012).
5.- Neph, S. et al. Nature 489, 83–90 (2012).
6.- Gerstein, M. B. et al. Nature 489, 91–100 (2012).
7.- Djebali, S. et al. Nature 489, 101–108 (2012).
8.- Sanyal, A., Lajoie, B. R., Jain, G. & Dekker, J. Nature 489, 109–113 (2012).