Información

Confirmación de la mezcla de exón en un gen


Estoy tratando de confirmar que la secuencia de un gen nuevo se deriva de la mezcla de exones entre varios genes diferentes. Tengo la secuencia del promotor, la secuencia del gen y el ARNm (con límites definidos de exón / introducción). Intenté realizar varias búsquedas en la base de datos con las secuencias, pero cada búsqueda produce un conjunto de resultados diferentes no relacionados. ¿Cómo se utilizaría esta información para confirmar la hipótesis de mezcla de exones? Se agradece cualquier consejo. ¡Gracias!


No está claro qué son "varias búsquedas en bases de datos con las secuencias". La solución más obvia es explotar su secuencia para que pueda ver qué parte no se puede alinear y luego explotar el resto. Puede elegir diferentes implementaciones (megablast of blastn) y jugar con los parámetros del algoritmo porque puede que no funcione para usted tal como está. Pero funcionará como está si destruye los exones por separado. De esta forma puede identificar los genes de origen.


Estudios recientes sobre los genomas de protistas, plantas, hongos y animales confirman que el aumento del tamaño del genoma y el número de genes en diferentes linajes eucariotas va acompañado de una disminución general de la compacidad del genoma y un aumento del número y tamaño de los intrones. Por lo tanto, se puede predecir que la mezcla de exones se ha vuelto cada vez más significativa con la evolución de genomas más grandes y menos compactos. Para probar la validez de esta predicción, hemos analizado la distribución evolutiva de proteínas modulares que claramente han evolucionado por recombinación intrónica. Los resultados de este análisis indican que las proteínas modulares multidominio producidas por la mezcla de exones están restringidas en su distribución evolutiva. Aunque tales proteínas están presentes en todos los grupos principales de metazoos, desde esponjas hasta cordados, prácticamente no hay evidencia de la presencia de proteínas modulares relacionadas en otros grupos de eucariotas. La importancia biológica de esta diferencia en la composición de los proteomas de animales, hongos, plantas y protistas se aprecia mejor cuando estas proteínas modulares se clasifican con respecto a su función biológica. La mayoría de estas proteínas se pueden asignar a categorías funcionales que están indisolublemente ligadas a la multicelularidad de los animales y son de absoluta importancia para permitir que los animales funcionen de manera integrada: constituyentes de la matriz extracelular, proteasas involucradas en los procesos de remodelación tisular, diversas proteínas. de fluidos corporales, proteínas asociadas a la membrana que median las interacciones célula-célula y célula-matriz, proteínas receptoras asociadas a la membrana que regulan las comunicaciones célula-célula, etc. Aunque algunos tipos básicos de proteínas modulares parecen ser compartidos por todos los grupos principales de metazoos, existen también grupos de proteínas modulares que parecen estar restringidas a ciertos linajes evolutivos.

En resumen, los resultados sugieren que la mezcla de exones adquirió una gran importancia en el momento de la radiación de los metazoos. Es interesante notar que el aumento de la mezcla de exones coincide con un espectacular estallido de creatividad evolutiva: el Big Bang de la radiación de los metazoos. Parece probable que la evolución de proteínas modulares mediante la mezcla de exones haya contribuido significativamente a esta evolución acelerada de los metazoos, ya que facilitó la construcción rápida de proteínas de superficie celular y extracelulares multidominio que son indispensables para la multicelularidad.


Resumen estructurado

INTRODUCCIÓN

Aún no se comprende bien cómo evolucionan las nuevas arquitecturas de proteínas. El reordenamiento de dominios con funciones preexistentes en nuevas arquitecturas compuestas a través de la mezcla de exones es una vía poderosa para formar genes que codifican proteínas con nuevas funcionalidades. Aunque se cree que la mezcla de exones explica la evolución de muchas estructuras proteicas, la fuente de nuevos exones y sitios de empalme, así como los mecanismos por los cuales se asimilan, apenas se han caracterizado. En este trabajo, investigamos la contribución de los transposones de ADN a la formación de nuevos genes que codifican proteínas mediante la mezcla de exones durante la evolución de los vertebrados.

RAZÓN FUNDAMENTAL

Los transposones de ADN son elementos móviles generalizados que codifican proteínas transposasas que promueven su replicación egoísta en los genomas del huésped. Las transposasas contienen típicamente dominios de nucleasa catalítica y de unión a ADN, que pueden reutilizarse para funciones celulares. Al insertar dominios funcionales en nuevos contextos genómicos, las secuencias de transposasa pueden generar genes de fusión de transposasa (HTF) del hospedador a través del corte y empalme alternativo. Varios genes con funciones críticas para el desarrollo, como el Paz Se cree que los factores de transcripción nacieron a través de este proceso. Sin embargo, el mecanismo por el cual se capturan los dominios de transposasa para generar HTF, qué tan común es este proceso y las funciones de la mayoría de los genes HTF conocidos siguen sin estar claros.

RESULTADOS

Utilizamos genómica comparativa para examinar todos los genomas de tetrápodos con modelos de genes disponibles (596) para los HTF putativos. Identificamos 106 HTF distintos derivados de 94 eventos de fusión independientes en el transcurso de

300 millones de años de evolución. Descubrimos que la mayoría de los HTF evolucionaron mediante el empalme alternativo de los dominios del huésped a las proteínas transposasa utilizando los sitios de empalme proporcionados por el transposón. Los dominios de transposasa de todos los HTF analizados (81) están evolucionando bajo selección purificadora, lo que sugiere que se han mantenido para la función del organismo. La composición del dominio de las proteínas HTF indica que la mayoría de ellas consisten en dominios de unión al ADN de la transposasa fusionados con los dominios del hospedador que se prevé que funcionen en la regulación transcripcional y / o de la cromatina, especialmente el dominio represivo de la caja asociada a Krüppel (KRAB) (involucrado en

30% de todos los HTF), lo que sugiere que muchos HTF funcionan como reguladores de la transcripción. Apoyando esta hipótesis, mostramos que cuatro proteínas de fusión KRAB-transposasa evolucionadas de forma independiente reprimen la expresión génica de una manera específica de secuencia en ensayos informadores. Además, los experimentos de pérdida de función, rescate y genómica reguladora en células de murciélago revelaron que la proteína de fusión KRABINER específica de murciélago se une a cientos de transposones afines en todo el genoma y controla una gran red de genes y elementos reguladores cis.

CONCLUSIÓN

Nuestros hallazgos confirman que la mezcla de exones es una fuerza evolutiva importante que genera novedad genética. Proporcionamos evidencia de que los transposones de ADN promueven la mezcla de exones insertando dominios de transposasa en nuevos contextos genómicos. Este proceso proporciona un camino plausible para la aparición de varios factores de transcripción antiguos con importantes funciones de desarrollo. Al ilustrar cómo un factor de transcripción y sus sitios de unión dispersos pueden emerger simultáneamente de una sola familia de transposones, nuestros resultados refuerzan la opinión de que los transposones son actores clave en la evolución de las redes reguladoras de genes.

(A) Modelo de cómo se produce la captura de transposasas. (B) Abundancia y características de los HTF identificados. (C) Resumen del papel de KRABINER como factor de transcripción (TF) en células de murciélago. TE, elemento transponible tpasa, transposasa DBD, dominios de unión a ADN KO, knockout ChIP-seq, secuenciación de inmunoprecipitación de cromatina PRO-seq, secuenciación de precisión TRE, elemento regulador transcrito.


Referencias

Kapitonov, V.V. & amp Jurka, J. Transposones de círculo rodante en eucariotas. Proc. Natl. Acad. Sci. Estados Unidos 98, 8714–8719 (2001).

Poulter, R.T., Goodwin, T.J. y Butler, M.I. Helentrones vertebrados y otra novela Helitrones . Gene 313, 201–212 (2003).

Lal, S.K., Giroux, M.J., Brendel, V., Vallejos, C.E. y Hannah, L.C. El genoma del maíz contiene un helitrón inserción. Célula vegetal 15, 381–391 (2003).

Fu, H. y Dooner, H.K. Violación intraespecífica de la colinealidad genética y sus implicaciones en el maíz. Proc. Natl. Acad. Sci. Estados Unidos 99, 9573–9578 (2002).

Song, R. & amp Messing, J. Expresión genética de una familia de genes en maíz basada en haplotipos no colineales. Proc. Natl. Acad. Sci. Estados Unidos 100, 9055–9060 (2003).

Brunner, S., Fengler, K., Morgante, M., Tingey, S. & amp Rafalski, A. Evolución de las no homologías de la secuencia de ADN entre las líneas endogámicas de maíz. Célula vegetal 17, 343–360 (2005).

Meyers, B.C., Scalabrin, S. & amp Morgante, M. Mapeo y secuenciación de genomas complejos: ¡pongámonos físicos! Nat. Rev. Genet. 5, 578–588 (2004).

Gardiner, J. y col. Anclar 9.371 maíz expresó la secuencia etiquetada unigenes al mapa de contig del cromosoma artificial bacteriano mediante hibridación bidimensional overgo. Plant Physiol. 134, 1317–1326 (2004).

Bennetzen, J.L., Coleman, C., Liu, R., Ma, J. & amp Ramakrishna, W. Sobrestimación constante del número de genes en genomas vegetales complejos. Curr. Opin. Plant Biol. 7, 732–736 (2004).

Palmer, L.E. et al. Secuenciación del genoma del maíz mediante filtración por metilación. Ciencias 302, 2115–2117 (2003).

Messing, J. et al. Composición de la secuencia y organización del genoma del maíz. Proc. Natl Acad. Sci. Estados Unidos 101, 14349–14354 (2004).

Ramakrishna, W., Emberton, J., Ogden, M., SanMiguel, P. & amp Bennetzen, J.L. El análisis estructural del complejo rp1 de maíz revela numerosos sitios y mecanismos inesperados de reordenamiento local. Célula vegetal 14, 3213–3223 (2002).

Craig, N.L., Craigie, R., Gellert, M. y Lambowitz, A.M. ADN móvil II (Prensa de la Sociedad Estadounidense de Microbiología, Washington, DC, 2002).

Gupta, S., Gallavotti, A., Stryker, G.A., Schmidt, R.J. & amp Lal, S.K. Una clase novedosa de HelitronLos elementos transponibles relacionados en el maíz contienen porciones de múltiples pseudogenes. Plant Mol. Biol. 57, 115–127 (2005).

Feschotte, C. y Wessler, S.R. Tesoros en el ático: transposones circulares descubiertos en genomas eucariotas. Proc. Natl. Acad. Sci. Estados Unidos 98, 8923–8924 (2001).

Kynast, R.G. et al. Un conjunto completo de adiciones de cromosomas individuales de maíz al genoma de la avena. Plant Physiol. 125, 1216–1227 (2001).

Okagaki, R.J. et al. Mapeo de secuencias de maíz a cromosomas usando materiales de adición de cromosomas de avena-maíz. Plant Physiol. 125, 1228–1235 (2001).

Song, R., Llaca, V. & amp Messing, J. Organización en mosaico de secuencias ortólogas en genomas de gramíneas. Genome Res. 12, 1549–1555 (2002).

Lai, J. y col. Pérdida y movimiento de genes en el genoma del maíz. Genome Res. 14, 1924–1931 (2004).

Swigonova, Z., Bennetzen, J.L. & amp Messing, J. Estructura y evolución de las regiones cromosómicas r / b en arroz, maíz y sorgo. Genética 169, 891–906 (2005).

Ilic, K., SanMiguel, P.J. & amp Bennetzen, J.L. Una historia compleja de reordenamiento en una región ortóloga de los genomas de maíz, sorgo y arroz. Proc. Natl. Acad. Sci. Estados Unidos 100, 12265–12270 (2003).

Hamilton, A.J. & amp Baulcombe, D.C. Una especie de ARN antisentido pequeño en el silenciamiento génico postranscripcional en plantas. Ciencias 286, 950–952 (1999).

van der Krol, A.R., Mur, L.A., Beld, M., Mol, J.N. & amp Stuitje, A.R. Genes flavonoides en petunia: la adición de un número limitado de copias de genes puede conducir a una supresión de la expresión génica. Célula vegetal 2, 291–299 (1990).

Duvick, D.N. Biotecnología en la década de 1930: el desarrollo del maíz híbrido. Nat. Rev. Genet. 2, 69–74 (2001).

Birchler, J.A., Auger, D.L. & amp Riddle, N.C. En busca de la base molecular de la heterosis. Célula vegetal 15, 2236–2239 (2003).

Jiang, N., Bao, Z., Zhang, X., Eddy, S.R. y Wessler, S.R. Los elementos transponibles Pack-MULE median la evolución genética en las plantas. Naturaleza 431, 569–573 (2004).

Yu, Z., Wright, S.I. & amp Bureau, T.E. Elementos similares a mutantes en Arabidopsis thaliana. Estructura, diversidad y evolución. Genética 156, 2019–2031 (2000).

Le, Q.H., Wright, S., Yu, Z. & amp Bureau, T. Diversidad de transposones en Arabidopsis thaliana . Proc. Natl. Acad. Sci. Estados Unidos 97, 7376–7381 (2000).

Lai, J., Li, Y., Messing, J. y Dooner, H.K. Movimiento de genes por Helitron los transposones contribuyen a la variabilidad del haplotipo del maíz. Proc. Natl. Acad. Sci. Estados Unidos 102, 9068–9073 (2005).

Meyers, B.C., Tingey, S.V. & amp Morgante, M. Abundancia, distribución y actividad transcripcional de elementos repetitivos en el genoma del maíz. Genome Res. 11, 1660–1676 (2001).


La evolución de los genes Olig y su papel en la mielinización.

Uno de los atributos especiales de los vertebrados es su sistema nervioso mielinizado. Al aumentar la velocidad de conducción de los axones, la mielina permite un mayor tamaño corporal, movimientos rápidos y un cerebro grande y complejo. En el sistema nervioso central (SNC), los oligodendrocitos (OL) son las células formadoras de mielina. Los factores de transcripción OLIG1 y OLIG2, reguladores maestros del desarrollo de OL, presumiblemente también desempeñaron un papel fundamental durante la evolución del programa genético que conduce a la mielinización en el SNC. A partir de los datos ontogenéticos y filogenéticos disponibles, intentamos reconstruir los eventos evolutivos que llevaron al surgimiento de la familia de genes Olig y especulamos sobre los vínculos entre los genes Olig, sus elementos reguladores cis específicos y la evolución de la mielina. Además, divulgamos un antepasado putativo de la proteína básica de mielina (MBP) en la lanceleta Branchiostoma floridae, que carece de mielina compacta. El gen de lanceleta "Mbp" carece de los sitios de unión OLIG1 / 2- y SOX10 que caracterizan a los homólogos de Mbp de vertebrados, lo que plantea la posibilidad de que la inserción de elementos reguladores cis podría haber estado involucrada en la evolución del programa de mielinización.


Resultados

Eventos de inserción de exón en el montium Estacionario PAG-Neógeno

En un estudio anterior clonamos y secuenciamos total o parcialmente 12 de 18 montiumPAG-neogenes. En siete especies (D. bicornuta, D. davidi, D. jambulina, D. nikananu, D. seguyi, D. serrata, D. tsacasi), el tamaño del PAG-neogénico es consistente con el tamaño esperado de un PAG-neogénico similar al descrito en D. tsacasi ( Figura 1B) (Nouaud et al. 1999). En las otras cinco especies (D. bakoue, D. bocqueti, D. burlai, D. malagassya, D. vulcana), el tamaño del PAG-neogenes es mayor de lo esperado, lo que sugiere la presencia de inserciones de ADN. los PAG-neogenes de D. bocqueti (P-boc) y D. vulkana (P-vul) se han secuenciado completamente (números de acceso AF169142 y AY116625).

Inserción de un nuevo exón de codificación aguas abajo del exón 0 del P-Neogene de Drosophila bocqueti

Una comparación de las estructuras del D. tsacasi y D. bocquetiPAG-neogenes (fig.1B y C) muestra que un borrado interno e inmovilizado PAG-Elemento se inserta dentro del intrón (0, 1) que separa el exón 0 y el exón 1 en el D. bocquetiPAG-neógeno. Esta PAGLa inserción de la secuencia tiene una longitud de 556 pb (número de acceso AF169142 de los nucleótidos 1049 a 1604). Está flanqueado por una duplicación directa de 8 pb correspondiente a la duplicación del sitio objetivo, con un desajuste. Los 31 pb de la repetición invertida del terminal 3 ′ (TIR) ​​son 87% idénticos a la secuencia del D. melanogasterPAG-Elemento móvil TIR. Faltan los primeros 13 pb del 5 ′ TIR. Esta inserción interna retiene un marco de lectura abierto intacto (ORF) correspondiente al exón 0 del canónico PAG-elemento. En adelante, esta inserción se denominará InsPboc y su exón, exón 0 ′. La identidad entre el exón 0 ′ y el primer exón codificante (exón 0) del PAG-boc neógeno es 54,4% y 43,3% a los niveles de nucleótidos y aminoácidos, respectivamente. El análisis de transferencia Northern se realizó en poli (A) + ARN adulto con una ribosonda obtenida de la región subclonada de los exones 1 y 2 del P-tsa neógeno. La sonda se sintetizó utilizando ARN polimerasa T7 y se marcó con [32 P] UTP. Como se muestra en la figura 1C, se detectaron una transcripción de 2,5 kb y una transcripción de 2,1 kb. La diferencia entre los tamaños de las dos transcripciones corresponde a la esperada si se produce un empalme alternativo, uniendo el exón 0 al exón 0 ′ y el exón 0 ′ al exón 1, o el exón 0 al exón 1. El procesamiento completo del ARN da como resultado dos ARNm: uno incluye los exones -1, 0, 0 ′, 1 y 2 (2,5 kb) y el segundo incluye los exones -1, 0, 1 y 2 (2,1 kb) (fig. 1C). Como la sonda utilizada para la transferencia Northern cubre la misma parte de las dos transcripciones, la diferencia de intensidad entre ellas probablemente se deba a diferencias cuantitativas en los adultos. Este empalme alternativo fue confirmado por RT-PCR. Las transcripciones se extrajeron de adultos y el ADNc se sintetizó como se describe en Materiales y métodos. Los cebadores diseñados para la amplificación del cDNA se muestran en la figura 1.C. Las secuencias de los productos amplificados confirman que el empalme alternativo utiliza los sitios de empalme donante y aceptor correspondientes a los de la canónica PAG-Elemento transponible (Laski et al. 1986).

La secuencia del transcrito de 2,1 kb tiene la capacidad de codificación de una proteína de 574 aminoácidos de longitud. En lo sucesivo, esta proteína se denominará tipo represor 1 (RL1). El transcrito de 2,5 kb también podría traducirse desde el inicio convencional de la traducción presente en el exón 0 o en el exón 0 '. La traducción iniciada a partir del exón 0 cesa al comienzo del exón 0 'debido a la presencia de un codón de terminación (el empalme entre el exón 0 y el exón 0' no conserva la fase en el exón 0 '). Por el contrario, la traducción iniciada a partir del AUG convencional del exón 0 'conduce a una proteína de 570 AA, que en lo sucesivo se denominará proteína 2 de tipo represor (RL2).

Una estructura similar se encuentra en D. burlai. (número de acceso AY116626), una especie hermana de la bocqueti complejo de especies (Lemeunier et al. 1986). En esta especie, el PAG-neogénico contiene una inserción de 501 pb, insertada en el mismo sitio que en D. bocqueti, lo que indica que el evento de inserción primaria tuvo lugar en un ancestro común de las dos especies. Esta inserción, en adelante denominada InsPbur, presentan TIR que tienen las mismas características que InsPboc, excepto por una inserción de 7 pb dentro del 3 ′ TIR. Por tanto, no puede ser trans-movilizado. InsPbur presenta un ORF con 93 aminoácidos mostrando 92,5% de identidad con el exón 0 ′ de InsPboc Las identidades entre el exón 0 ′ para InsPbur y exón 0 del PAG-rebaba neógenos son 51,5% y 42,2% a los niveles de nucleótidos y aminoácidos, respectivamente. Además, el análisis de secuencia muestra la conservación de los mismos sitios de empalme determinados experimentalmente en P-boc neógeno. En consecuencia, el P-fresa neogene proporcionaría dos proteínas con 96,5% y 95,3% de identidad con las correspondientes proteínas RL1 y RL2, respectivamente, de la P-boc neógeno.

Otro ejemplo de mezcla de exones: inserción de un nuevo exón aguas arriba del exón 0 del D. vulcana P-Neogene

Una comparación de la estructura del D. tsacasiPAG-neogénico con el de D. vulkana ( Figura 1B y D) muestra que un interno eliminado PAG-el elemento se inserta dentro del exón -1 del D. vulcanaPAG-neógeno. Esta inserción, en adelante denominada InsPvul, tiene 350 pb de longitud y ha conservado un ORF intacto correspondiente al exón 0 'descrito anteriormente. Un esquelético PAG-el elemento 5 'TIR todavía se puede identificar en la secuencia cadena arriba de este ORF, pero no se detecta una identidad significativa con un 3' TIR en la región cadena abajo. La comparación de nucleótidos entre los InsPvul secuencia codificante y exón 0 del P-vul neogene muestra una identidad del 51,1%. La similitud estructural entre InsPboc y InsPvul y su alta identidad de secuencia de nucleótidos (83,9%) permiten deducir las supuestas transcripciones de la P-vul neógeno de los sitios de empalme identificados experimentalmente para el P-boc neógeno (ver Discusión).

los PAG-neogenes de D. bakoue y D. malagassya se han secuenciado parcialmente aguas arriba del exón 0, presentan la misma inserción que el P-vul neogene, ubicado en el mismo sitio objetivo (datos no mostrados). Estas dos especies pertenecen al mismo complejo de especies que D. vulkana (los bakoue complejo de especies, Lemeunier et al. 1986). Esto indica que este evento de inserción ocurrió en su ancestro común. Las adiciones de exones en el PAGLos neógenos descritos anteriormente no van acompañados de ninguna otra modificación estructural. Es notable que, como se muestra en la figura 2, la secuencia aguas arriba del exón -1 está altamente conservada en comparación con la región promotora en el PAGneógeno de D. tsacasi (Nouaud et al. 1999).

Identificación de la copia maestra del exón 0 ′

Las divergencias de nucleótidos entre las inserciones. InsPboc o InsPvul y los numerosos PAG-Las secuencias registradas en los bancos de datos son todas superiores al 35%, lo que implica que no pertenecen a un PAGsubfamilia de elementos (Clark y Kidwell 1997 Pinsker et al. 2001). Además, cada uno de ellos podría resultar de la inserción de un PAG-elemento, seguido de grandes deleciones, dejando insertada la región (incluida la región codificadora completa del primer exón). Por su identidad (83,9%), estas inserciones deben derivar de un mismo PAG-elemento subfamilia. Estos resultados apoyan la hipótesis de que el genoma de la especie D. bocqueti y D. vulcana y sus especies relacionadas albergan una activa PAG-familia de elementos que está en el origen de los exones 0 ′ identificados en varios montiumPAG-neogenes.

Los experimentos de Southern blot se realizaron con ADN genómico de seis especies pertenecientes a la montium subgrupoD. bocqueti, D. burlaï, D. kikkawai, D. nikananu, D. tsacasi, y D. vulkana). Las muestras de ADN se digirieron con Pst I endonucleasa, y después de la electroforesis, los fragmentos de restricción se bi-transfirieron a una membrana de nitrocelulosa. Un filtro se hibridó con el fragmento específico del exón 0 'amplificado con los cebadores 1359 y 1632 del clon que contenía el P-boc neógeno como plantilla (ver Materiales y métodos). Varias señales de hibridación están presentes en D. bocqueti, así como en otras especies (fig.3A), mostrando que las inserciones InsPboc y InsPvul pertenecen a un repetido disperso PAG-elemento de la familia. En un intento de aislar PAG-elementos en el origen del exón 0 ′, se realizó una amplificación por PCR de largo alcance en D. bocqueti ADN como plantilla con un cebador (5′CATAATGGAATAACTATAAGGTGG3 ′) correspondiente a los primeros 24 pb de la secuencia 3 ′ TIR de Insboc. Completo y eliminado PAG-Se han clonado elementos mediante el método de clonación TA (Invitrogen) a partir de productos de PCR. Algunos han sido secuenciados. La secuencia de un completo PAG-elemento (número de acceso AY116624), descrito en la figura 4, tiene la capacidad de codificación de un autónomo PAG-elemento. Este elemento se llama K-bok-P-elemento (Kenia-bocquetiPAG-elemento, para el D. bocqueti cepa originada en Kenia). Otros seis K-boc las secuencias están parcialmente secuenciadas. La divergencia entre ellos es inferior al 5%. Están disponibles a pedido. los K-boc-P-El elemento tiene 3300 pb de longitud y sus extremos están formados por repeticiones invertidas de 31 pb. La diferencia de longitud entre K-boc-P y el canonico PAG-elemento (fig.1A) resulta de dos características: (1) el intrón entre el exón 0 y el exón 1 es inusualmente largo en K-boc-P (264 pb en comparación con solo 50 pb en el otro PAG-elementos) y (2) el exón 3 es interrumpido por un intrón adicional de 172 pb. sin embargo, el K-boc-P-elemento comparte una serie de características estructurales con el autónomo PAG-elemento de otras especies de Drosophila (D. melanogaster, D. bifasciata, S. pallida). Las repeticiones subterminales invertidas (SIR) de 10 pb (posiciones 33-42 y 3259-3268) y 11 pb con un desajuste (posiciones 127-137 y 3161-3171) se encuentran en las regiones no codificantes 5 ′ y 3 ′. Estas ubicaciones corresponden a las de los SIR en el PAG-elementos de las otras especies, lo que implica una equivalencia funcional. Además, el exón 1, como el D. melanogaster y Scaptomyza pallidaPAG-elementos (Simonelig y Anxolabéhère 1991), presenta repeticiones invertidas de 17 pb separadas por 29 pb (posiciones 942-958 y 988-1004). Los sitios de empalme 5 'y 3' de consenso de los exones se conservan y el intrón adicional dentro del exón retiene la capacidad de codificación de los exones. K-boc-P-elemento. La supuesta proteína tiene una longitud de 721 aminoácidos y un peso molecular de 83 kDa (fig. 4). Es notable que Cys, His, Arg, Lys y Trp estén sobrerrepresentados en los primeros 70 aminoácidos de la sección N-terminal (35,7% en comparación con 17,5% en el resto de la proteína). Además, el sitio de unión de metales putativo CCHC presente en el canónico PAG-elemento (Miller et al. 1995 Lee, Mul, y Rio 1996 Miller et al. 1999) puede ser reconocido en la misma posición en el K-bok-P proteína. Estos resultados sugieren que las características de los dominios de unión al ADN están presentes en las secciones N-terminales de la supuesta transposasa de la K-boc-P-elemento. Además, en comparación con el D. melanogasterPAG-elemento, también se conservan otras secciones funcionalmente importantes: los tres motivos de cremallera de leucina se encuentran en las mismas ubicaciones que el motivo hélice-giro-hélice, que muestra sólo cuatro desajustes de 19 residuos (fig. 4).

El segundo filtro de las muestras de ADN bi-transferidas descritas anteriormente se hibridó con un producto de PCR sintetizado a partir del exón 3 específico de la transposasa del clonado. K-boc-P-elemento. Como se muestra en la figura 3B, se detectan varias señales de hibridación en D. bocqueti, D. burlai, D. nikananu, D. tsacasi, y D. vulkana (pero no en D. kikkawai), lo que indica la presencia de numerosos PAG-elementos que contienen el exón 3 específico de la secuencia codificante de la transposasa.

Para definir la relación entre el K-boc-P-elemento y el mayor PAGsubfamilias de elementos como se han caracterizado previamente en D. ambigua (Tipo T), D. bifasciata (Tipo M y tipo O), D. helvetica (Tipo M), D. melanogaster (Tipo M) y Scaptomyza pallida (Tipo M) (para revisión, ver Hagemann, Miller y Pinsker 1996), las alineaciones de nucleótidos y aminoácidos de estos elementos junto con K-boc-P-Elemento se realizó utilizando el programa Pileup del paquete GCG (Madison, Wis.) y se mejoraron manualmente. Las distancias por pares se muestran en la tabla 2. La K-boc-P-el elemento está muy distante de todos los demás PAG-elementos (& gt0.45): este nuevo de larga duración PAG-el elemento pertenece a un hasta ahora no identificado PAG-subfamilia. Definimos esta subfamilia como el tipo K.

Un análisis de vecino-unión realizado en las proteínas putativas de estos PAG-secuencias y dos adicionales PAG-secuencias de especies más distantes, Lucilia cupina (Calliphoridae) (Perkins y Howells 1992) y Musca domestica (Muscidae) (Lee, Clark y Kidwell 1999), produce un dendrograma en el que el K-boc-P-grupos de elementos con los elementos del Drosophilidae (figura 5). Clark y Kidwell (1997) han realizado un extenso análisis filogenético de PAG-secuencia con 40 especies en el Drosophilidae usando un parcial PAG-secuencia (449 pb del exón 2). Este análisis proporcionó un cladograma en el que 16 clados están bien respaldados. Para definir la posición del K-boc elemento relativo a estos PAGsubfamilias de elementos, se realizó un análisis de unión de vecinos utilizando esta secuencia interna parcial. Sólo uno o dos PAG-secuencias representativas de cada clado definido por el trabajo de Clark y Kidwell se incluyeron en el análisis. En el nuevo cladograma (fig.6) el K-boc-P-el elemento no se agrupa dentro de ningún clado previamente identificado, lo que confirma que el K-boc-P-El elemento no pertenece a ninguna de las subfamilias ya descritas.

La posición y la capacidad de codificación de los exones 0 ′ sugieren que el reordenamiento PAG-neogenes se encuentran bajo la selección de nivel de hospedador. La prueba directa la proporciona una prueba de selección a nivel de secuencia. Las comparaciones por pares de las tasas de sustitución entre el exón 0 del K-boc longitud total PAG-elemento y el exón 0 ′ del PAG-neogenes en D. bocqueti, D. burlai, y D. vulkana, se presentan en la tabla 3 (no había suficientes datos de secuencia disponibles para los neógenos de D. malagassia y D. bakoue). Todos los resultados significativos (PAG & lt 0.05) se deben a Dnorte/DS & lt 1 es decir, mostraron evidencia de selección conservadora. Estos resultados concuerdan con los de Witherspoon (1999), obtenidos utilizando secuencias parciales de PAG-neogenes de D. davidi, D. tsacasi, y D. kikkawai. Como ocurren muy pocos cambios entre el exón 0 ′ de RL2bur y el exón 0 ′ de RL2boc, la prueba tiene menos poder que en las otras comparaciones que dan una estadística no significativa.


Kapitonov, V. V. & amp Jurka, J. Helitrons on a roll: transposones eucariotas de círculo rodante. Trends Genet. 23, 521–529 (2007).

Thomas, J. & amp Pritham, E. J. Helitrons, los elementos transponibles eucariotas del círculo rodante. Microbiol. Spectr. 3, 893–926 (2015).

Dyda, F. y col. Estructura cristalina del dominio catalítico de la integrasa del VIH-1: similitud con otras polinucleotidil transferasas. Ciencias 266, 1981–1986 (1994).

Kapitonov, V. V. & amp Jurka, J. Transposones de círculo rodante en eucariotas. Proc. Natl Acad. Sci. Estados Unidos 98, 8714–8719 (2001).

Ilyina, T. V. & amp Koonin, E. V. Motivos de secuencia conservados en las proteínas iniciadoras para la replicación del ADN en círculo rodante codificado por diversos replicones de eubacterias, eucariotas y arqueobacterias. Ácidos nucleicos Res. 20, 3279–3285 (1992).

Koonin, E. V. & amp Ilyina, T. V. Disección asistida por computadora de la replicación del ADN en círculo rodante. Biosistemas 30, 241–268 (1993).

van Mansfeld, A. D., van Teeffelen, H. A., Baas, P. D. & amp Jansz, H. S. Dos grupos tirosil-OH yuxtapuestos participan en la escisión y ligación del ADN catalizada por la proteína del gen A phi X174. Ácidos nucleicos Res. 14, 4229–4238 (1986).

Chandler, M. y col. Romper y unir ADN monocatenario: la superfamilia de endonucleasas HUH. Nat. Rev. Microbiol.y 11, 525–538 (2013).

del Pilar Garcillan-Barcia, M., Bernales, I., Mendiola, M. V. & amp de la Cruz, F. Intermedios de ADN monocatenario en transposición de círculo rodante IS91. Mol. Microbiol. 39, 494–501 (2001).

Garcillan-Barcia, M. P. & amp de la Cruz, F. Distribución de secuencias de inserción de la familia IS91 en genomas bacterianos: implicaciones evolutivas. FEMS Microbiol. Ecol. 42, 303–313 (2002).

Mendiola, M. V., Bernales, I. & amp de la Cruz, F. Papeles diferenciales de los terminales del transposón en la transposición IS91. Proc. Natl Acad. Sci. Estados Unidos 91, 1922–1926 (1994).

Mendiola, M. V. & amp de la Cruz, F. La transposasa IS91 está relacionada con las proteínas de replicación de tipo círculo rodante de la familia de plásmidos pUB110. Ácidos nucleicos Res. 20, 3521 (1992).

Pritham, E. J. & amp Feschotte, C. Amplificación masiva de transposones de círculo rodante en el linaje del murciélago Myotis lucifugus. Proc. Natl Acad. Sci. Estados Unidos 104, 1895–1900 (2007).

Thomas, J., Phillips, C. D., Baker, R. J. y Pritham, E. J. Los transposones de círculo rodante catalizan la innovación genómica en un linaje de mamíferos. Genome Biol. Evol. 6, 2595–2610 (2014).

Thomas, J., Sorourian, M., Ray, D., Baker, R. J. & amp Pritham, E. J. La distribución limitada de Helitrones a los murciélagos vísperas apoya la transferencia horizontal. Gene 474, 52–58 (2011).

Coates, B. S., Hellmich, R. L., Grant, D. M. & amp Abel, C. A. Movilización del genoma de los lepidópteros a través de nuevas ganancias de secuencia y creación de extremos por helitrones Lep1 no autónomos. DNA Res. 19, 11–21 (2012).

Du, C., Fefelova, N., Caronna, J., He, L. & amp Dooner, H. K. El paisaje policromático del helitrón del genoma del maíz. Proc. Natl Acad. Sci. Estados Unidos 106, 19916–19921 (2009).

Lal, S. K., Giroux, M. J., Brendel, V., Vallejos, C. E. y Hannah, L. C. El genoma del maíz contiene una inserción de helitrón. Célula vegetal 15, 381–391 (2003).

Xiong, W., He, L., Lai, J., Dooner, H. K. & amp Du, C. HelitronScanner descubre una gran reserva de transposones de Helitron que se pasa por alto en muchos genomas de plantas. Proc. Natl Acad. Sci. Estados Unidos 111, 10263–10268 (2014).

Morgante, M. y col. La duplicación de genes y la mezcla de exones mediante transposones tipo helitrón generan diversidad intraespecífica en el maíz. Nat. Gineta. 37, 997–1002 (2005).

Dong, Y. et al. Caracterización estructural de helitrones y su captura escalonada de fragmentos de genes en el genoma del maíz. BMC Genomics 12, 609 (2011).

Toleman, M. A., Bennett, P. M. & amp Walsh, T. R. Elementos de ISCR: ¿nuevos sistemas de captura de genes del siglo XXI? Microbiol. Mol. Biol. Rvdo. 70, 296–316 (2006).

Yassine, H. y col. Evidencia experimental de la transposición mediada por IS1294b del gen de cefalosporinasa blaCMY-2 en Enterobacteriaceae. J. Antimicrob. Chemother. 70, 697–700 (2015).

Brunner, S., Pea, G. & amp Rafalski, A. Orígenes, organización genética y transcripción de una familia de elementos helitrones no autónomos en maíz. Planta J. 43, 799–810 (2005).

Feschotte, C. & amp Wessler, S. R. Tesoros en el ático: transposones de círculo rodante descubiertos en genomas eucariotas. Proc. Natl Acad. Sci. Estados Unidos 98, 8923–8924 (2001).

Tempel, S., Nicolas, J., El Amrani, A. & amp Couee, I. La identificación de helitrones basada en modelos da como resultado una nueva clasificación de sus familias en Arabidopsis thaliana. Gene 403, 18–28 (2007).

Mates, L. et al. La evolución molecular de una nueva transposasa hiperactiva de la Bella Durmiente permite una transferencia genética estable y robusta en vertebrados. Nat. Gineta. 41, 753–761 (2009).

Bird, L. E., Subramanya, H. S. y Wigley, D. B. Helicases: ¿un tema estructural unificador? Curr. Opin. Struct. Biol. 8, 14–18 (1998).

Han, M. J. y col. Identificación y evolución de los helitrones del gusano de seda y su contribución a las transcripciones. DNA Res. 20, 471–484 (2013).

Yang, L. & amp Bennetzen, J. L. Descubrimiento basado en estructuras y descripción de helitrones de plantas y animales. Proc. Natl Acad. Sci. Estados Unidos 106, 12832–12837 (2009).

Yang, L. & amp Bennetzen, J. L. Distribución, diversidad, evolución y supervivencia de helitrones en el genoma del maíz. Proc. Natl Acad. Sci. Estados Unidos 106, 19922–19927 (2009).

Harrow, J. y col. GENCODE: la anotación del genoma humano de referencia para el proyecto ENCODE. Genome Res. 22, 1760–1774 (2012).

Andersson, R. y col. Un atlas de potenciadores activos en tejidos y tipos de células humanas. Naturaleza 507, 455–461 (2014).

Guelen, L. et al. Organización del dominio de los cromosomas humanos revelada por el mapeo de las interacciones de la lámina nuclear. Naturaleza 453, 948–951 (2008).

Carlson, C. M. y col. Mutagénesis de transposones de la línea germinal del ratón. Genética 165, 243–256 (2003).

Fischer, S. E., Wienholds, E. & amp Plasterk, R. H. Transposición regulada de un transposón de pescado en la línea germinal del ratón. Proc. Natl Acad. Sci. Estados Unidos 98, 6759–6764 (2001).

Luo, G., Ivics, Z., Izsvak, Z. & amp Bradley, A. Transposición cromosómica de un elemento similar a Tc1 / mariner en células madre embrionarias de ratón. Proc. Natl Acad. Sci. Estados Unidos 95, 10769–10773 (1998).

Tower, J., Karpen, G. H., Craig, N. & amp Spradling, A. C. Transposición preferencial de elementos de Drosophila P a sitios cromosómicos cercanos. Genética 133, 347–359 (1993).

Ton-Hoang, B. y col. Transposición de ISHp608, miembro de una familia inusual de secuencias de inserción bacteriana. EMBO J. 24, 3325–3338 (2005).

Ton-Hoang, B. y col. La transposición de ADN monocatenario se acopla a la replicación del hospedador. Celda 142, 398–408 (2010).

Dayn, A., Malkhosyan, S. & Mirkin, S. M. Transcriptionally driven cruciform formation in vivo. Ácidos nucleicos Res. 20, 5991–5997 (1992).

Krasilnikov, A. S., Podtelezhnikov, A., Vologodskii, A. & Mirkin, S. M. Large-scale effects of transcriptional DNA supercoiling in vivo. J. Mol. Biol. 292, 1149–1160 (1999).

Strick, T. R., Allemand, J. F., Bensimon, D. & Croquette, V. Behavior of supercoiled DNA. Biophys. J. 74, 2016–2028 (1998).

Liu, L. F. & Wang, J. C. Supercoiling of the DNA template during transcription. Proc.Natl Acad. Sci. Estados Unidos 84, 7024–7027 (1987).

Rahmouni, A. R. & Wells, R. D. Direct evidence for the effect of transcription on local DNA supercoiling in vivo. J. Mol. Biol. 223, 131–144 (1992).

Parsa, J. Y. et al. Negative supercoiling creates single-stranded patches of DNA that are substrates for AID-mediated mutagenesis. PLoS Genet. 8, e1002518 (2012).

Faurez, F., Dory, D., Grasland, B. & Jestin, A. Replication of porcine circoviruses. Virol. J. 6, 60 (2009).

Feschotte, C. Transposable elements and the evolution of regulatory networks. Nat. Rev. Genet. 9, 397–405 (2008).

Jiang, N., Bao, Z., Zhang, X., Eddy, S. R. & Wessler, S. R. Pack-MULE transposable elements mediate gene evolution in plants. Naturaleza 431, 569–573 (2004).

Langmead, B., Trapnell, C., Pop, M. & amp Salzberg, S. L. Alineación ultrarrápida y eficiente para la memoria de secuencias cortas de ADN con el genoma humano. Genome Biol. 10, R25 (2009).

Zuker, M. Mfold web server for nucleic acid folding and hybridization prediction. Ácidos nucleicos Res. 31, 3406–3415 (2003).


Resultados

We analyzed 105 cases of alternative DNA processing identified in the O. trifallax micronuclear genome ( Chen et al. 2014 ). We excluded cases that do not involve new genes, including noncoding chromosomes, multigene chromosomes that share exactly one gene, and chromosomes that only share noncoding regions (see Methods). The remaining 69 cases involve 69 germline loci that encode MDS segments for 153 MAC chromosomes with shared 5′ or 3′ terminal regions, or both ( table 1 ). Figura 1B shows the distribution of the fraction of shared coding regions relative to the total length of the coding region. This portion ranges from just a few percent to over 90%. There is no strong bias for sharing of 5′ versus 3′ end regions. Most loci contain two genes that share single-copy MDSs. There are six loci that each contain a set of three genes with shared MDSs. Three loci contain four genes that share MDSs, and there exists one locus that gives rise to five such genes.

Summary of Alternative MDS Processing Cases Investigated in this Study

. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229
. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229

Summary of Alternative MDS Processing Cases Investigated in this Study

. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229
. Total . Share 5′ . Share 3′ . Share 5′ and 3′ . No. of Nonscrambled . No. of Scrambled .
No. of MIC loci 69 32 31 6 31 38
No. of MAC chromosomes 153 75 65 13 80 73
No. of MDSs 2,420 330 349 183 2,191 229

Alternative MDS Processing Creates New Genes

We investigated the emergence of these 69 cases of alternative DNA splicing by examining their orthologs in related species. We sequenced and assembled the macronuclear genomes of six stichotrich ciliates Urostyla sp., Paraurostyla sp., Laurentiella sp., Stylonychia lemnae , Sterkiella histriomuscorum , y Tetmemena sp., whose ribosomal DNA has a closest hit (98%) to Tetmemena pustulata ribosomal DNA (GenBank accession AF508775). We also used the preliminary macronuclear genome assembly of Euplotes crassus , an earlier diverging Spirotrich ciliate, described in Swart et al. (2013) . The assembled stichotrich genomes contain a large percentage of completely assembled somatic chromosomes ( table 2 ). Analyses of CEGs and tRNA complement suggest that our assemblies are complete (see Methods). Aeschlimann et al. (2014) previously reported a Stylonychia lemnae macronuclear genome assembly for a different strain 130c, whose assembly size (50.2 Mb) and total number of contigs (19,851) and two telomere contigs (16,059) are similar to our Stylonychia montaje.

Length Statistics of Stichotrich Genome Assemblies

. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918
. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918

Length Statistics of Stichotrich Genome Assemblies

. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918
. N20 . N50 . Average Length . Total Complexity . No. of Contigs . 5′ Telomere . 3′ Telomere . Both Telomeres .
Urostyla sp. 5,571 2,898 2,105 42.62M 20,244 15,569 15,960 13,496
Sterkiella histriomuscorum5,058 2,822 2,011 66.36M 32,996 19,368 20,756 16,924
Stylonychia lemnae5,643 3,089 2,333 54.71M 23,449 19,324 19,443 18,058
Laurentiella sp. 5,466 3,043 2,293 49.04M 21,383 17,789 17,766 16,399
Paraurostyla sp. 5,326 2,882 2,249 57.10M 25,391 21,028 21,019 19,135
Tetmemena sp. 5,714 3,312 2,404 60.63M 25,219 18,718 18,166 16,577
Oxytricha trifallax JRB510 5,767 3,392 2,558 57.45M 22,458 18,055 18,335 15,918

For two genes A and B that share MDSs in Oxytricha , we queried the presence of their orthologs in other species and assessed whether their orthologs also share sequences, which would suggest that they are also products of alternative MDS processing. Our query in any species X yielded three possible scenarios ( fig. 2A ). First, the presence of both orthologs that shared sequences could suggest the conservation of alternative DNA processing. Second, the presence of only the ortholog of A would suggest the creation of novel gene B via the reuse of a subset of existing segments for gene A after the divergence of species X. Another possibility in this case is that B was created before the divergence of species X but later lost from species X. Third, the absence of either ortholog would suggest that both genes were created after the divergence of species X. If no other species contains either ortholog, this would suggest that both genes were new to the Oxytricha lineage and that an intermediate species with just one gene should exist but was not included in our survey.

The presence of alternative DNA processing is associated with the emergence of new genes. ( A ) Inference of the origin of alternative MDS processing based on the presence of orthologs and MDS sharing in other ciliates. ( B ) Mapping of all cases of alternative MDS processing onto a phylogeny generated from 100 bootstrap replicates with PhyML (with the HKY85 substitution model) based on a MAFFT concatenated multiple sequence alignment of 18S and 28S rRNA genes from 8 ciliate species, including 2 Oxytricha trifallax strains. The tree is rooted with Euplotes crassus . All bootstrap values are above 90%. The scale below the phylogeny illustrates branch substitutions per site. Numbers in red at the tree nodes represent the inferred numbers of cases of alternative processing that emerged before the divergence at each node. The numbers in parenthesis indicate corrected values after examining individual phylogenetic trees, which reveal the loss of paralogs in a few cases.

The presence of alternative DNA processing is associated with the emergence of new genes. ( A ) Inference of the origin of alternative MDS processing based on the presence of orthologs and MDS sharing in other ciliates. ( B ) Mapping of all cases of alternative MDS processing onto a phylogeny generated from 100 bootstrap replicates with PhyML (with the HKY85 substitution model) based on a MAFFT concatenated multiple sequence alignment of 18S and 28S rRNA genes from 8 ciliate species, including 2 Oxytricha trifallax strains. The tree is rooted with Euplotes crassus . All bootstrap values are above 90%. The scale below the phylogeny illustrates branch substitutions per site. Numbers in red at the tree nodes represent the inferred numbers of cases of alternative processing that emerged before the divergence at each node. The numbers in parenthesis indicate corrected values after examining individual phylogenetic trees, which reveal the loss of paralogs in a few cases.

Because we never observed a case where both orthologs are present but they do not share MDSs, we conclude that the emergence of alternative MDS processing is associated with the creation of new genes (gene B) from an existing gene (gene A), by reuse of some of gene A’s germline precursor segments. We mapped the number of new genes created in each lineage onto a phylogeny ( fig. 2B ). All examples appear to have originated in the stichotrich lineages (i.e., none are conserved in Euplotes ) and a large number (28) appear specific to the Oxytricha lineage and thus probably emerged fairly recently. This is a parsimonious estimate, given the possibility that some genes could have emerged earlier but been lost in some species. Corrections are discussed in the next section. In cases where two orthologs share MDSs, the length of the shared regions is usually conserved relative to that in Oxytricha (all but 4 are similar within 50 bp or 10%, whichever is larger, of the length of the shared gene segments in Oxytricha ).

Most Alternative MDSs Derived from Segmental Duplications

For each group of Oxytricha genes that share MDSs with each other, we compared the unique alternative MDS sequences, that is, the regions (often the 5′ or 3′ ends) that differ from each other in the mature chromosomes, with each other. The majority of these (54 out of 69 cases) are more than 40% similar at the protein level (BLASTP, alignment length >80% of the unique regions and mi -value <1e-10 Camacho et al. 2009 ), suggesting that the new, alternative segments arose by duplication of ancestral MDSs. Duplication of partial gene loci most likely occurred, instead of entire genes. It is also possible that duplication of complete gene loci was followed by partial loss of gene regions, resulting in the requirement for sharing of the missing segments (similar to a proposed model for the origin of scrambled genes Gao et al. 2015 ), although careful examination of neighboring MIC sequences did not reveal traces of degenerate or lost duplicate copies of the constitutive MDSs. figura 3A shows the germline MDS–IES map for two paralogous genes with shared MDSs. Their germline precursor loci overlap, with the alternatively spliced MDSs downstream of the shared, constitutive MDSs. figura 3B shows a translated alignment of the somatic versions of both sequences. The boundaries between segments 6 and 7 in the duplicated, alternative regions are precisely conserved in location between the two genes, including short regions of microhomology at recombination junctions (marked by the overlap between consecutive MDSs). The boundaries between segments 8 and 9 in the pink gene and segments 7 and 8 in the gray gene differ in location by just 1 bp, and the boundaries between segments 9 and 10 in the pink gene and 8 and 9 in the gray gene differ by just 3 bp. This suggests that the germline duplication preserved MDS junctions and then two new IESs were inserted into the pink gene after duplication.

Duplication is the major mechanism for creation of alternative gene segments. ( A ) Germline map of a locus with two nonscrambled genes that share five DNA segments at the 5′ end. Arrows represent MDSs and gaps represent IESs. Gray: Contig8.0 pink: Contig22835.0. ( B ) Translated alignment (nucleotide alignment guided by amino acid sequence) of the MAC contigs from Panel A showing paralogy between the duplicated MDSs downstream of MDS 5 (MDS 1–5 are shared) and that the locations of MDS boundaries are conserved between the two paralogs (conserved precisely between MDS 6 and 7 in both pink and gray 1 bp different in location between MDS 8 and 9 in pink and MDS 7 and 8 in gray 3 bp different between MDS 9 and 10 in pink and MDS 8 and 9 in gray). Unique bases or gaps on each sequence are annotated with a vertical black bar, and identical regions are highlighted in light gray. Wide arrows in different colors represent exons (labeled as CDS, yellow), introns (white), start and stop codons, and MDSs. The overlaps between MDSs contain short regions of microhomology at recombination junctions. ( C ) A maximum-likelihood tree, constructed using the alternative MDS regions of two paralogous genes that share MDSs, shows accelerated evolution of gene B after MDS duplication. Gene A: Contig13046.0 gene B: Contig12964.0. The phylogeny, rooted with the Urostyla ortholog, was generated by PhyML with a single substitution rate category and the JTT substitution model, optimized for tree topology and branch length. Numbers at the tree nodes indicate bootstrap values for 100 replicates. The multiple sequence alignment was produced with MAFFT v6.956b (default parameters) and trimmed with trimAl v1.2 with the “-automated1” parameter to remove excess gaps and poorly aligned regions. The scale below the phylogeny illustrates branch substitutions per site.

Duplication is the major mechanism for creation of alternative gene segments. ( A ) Germline map of a locus with two nonscrambled genes that share five DNA segments at the 5′ end. Arrows represent MDSs and gaps represent IESs. Gray: Contig8.0 pink: Contig22835.0. ( B ) Translated alignment (nucleotide alignment guided by amino acid sequence) of the MAC contigs from Panel A showing paralogy between the duplicated MDSs downstream of MDS 5 (MDS 1–5 are shared) and that the locations of MDS boundaries are conserved between the two paralogs (conserved precisely between MDS 6 and 7 in both pink and gray 1 bp different in location between MDS 8 and 9 in pink and MDS 7 and 8 in gray 3 bp different between MDS 9 and 10 in pink and MDS 8 and 9 in gray). Unique bases or gaps on each sequence are annotated with a vertical black bar, and identical regions are highlighted in light gray. Wide arrows in different colors represent exons (labeled as CDS, yellow), introns (white), start and stop codons, and MDSs. The overlaps between MDSs contain short regions of microhomology at recombination junctions. ( C ) A maximum-likelihood tree, constructed using the alternative MDS regions of two paralogous genes that share MDSs, shows accelerated evolution of gene B after MDS duplication. Gene A: Contig13046.0 gene B: Contig12964.0. The phylogeny, rooted with the Urostyla ortholog, was generated by PhyML with a single substitution rate category and the JTT substitution model, optimized for tree topology and branch length. Numbers at the tree nodes indicate bootstrap values for 100 replicates. The multiple sequence alignment was produced with MAFFT v6.956b (default parameters) and trimmed with trimAl v1.2 with the “-automated1” parameter to remove excess gaps and poorly aligned regions. The scale below the phylogeny illustrates branch substitutions per site.

Phylogenetic tree reconstruction using just the alternative MDSs permits visualization and inference of the duplication events. figura 3C shows a phylogeny based on the unique regions of two paralogous genes with shared MDSs. The phylogeny suggests that duplication of the alternative MDS region occurred after the divergence of Paraurostyla , and that gene B evolved faster than gene A post duplication. There are 11 cases where the phylogenetic analysis suggests that the duplication occurred earlier than would be inferred based on ortholog presence and that one copy was lost in some lineages. The numbers in parenthesis in figure 2B show the corrected numbers of inferred origins after examining individual phylogenetic trees.

There are 15 cases where the alternative MDSs show no similarity at the protein level (BLASTP, e-value cutoff 1 e-6), suggesting that they did not arise through duplication. These alternative MDSs could be derived from MIC-limited mobile elements, although their sequences do not correspond to any known transposons in Oxytricha . The lower GC content of some of these segments suggests that they could even be derived from retention of MIC-limited noncoding sequences in the MAC (as demonstrated between strains in Möllenbeck et al. 2006 , and experimentally in Fang et al. 2012 ). For 9 of the 15 cases, no stichotrich species contains just one ortholog (precluding our ability to distinguish ancestral from novel genes) however, we could unambiguously assign the novel gene in the other 6 examples (i.e., gene B in fig. 2A ). Among these, the GC content of the alternative regions in five genes (0.261, 0.305, 0.306, 0.310, 0.310) falls below the lower quartile among all genes in the MAC genome (0.313), suggesting that they may have been acquired from MIC-limited noncoding sequences, which typically have a lower GC content (average 0.284) than the MAC genome.

Evolution of Alternative and Constitutive MDSs

We compared the substitution rates between alternative and constitutive MDSs by using amino acid divergence and the ratio of nonsynonymous to synonymous substitution rates (d norte /D S ). Because the divergence levels among the ciliate species are so high that the rate of synonymous substitutions per synonymous site (d S ) is highly saturated, we used the comparison between two O. trifallax laboratory strains, JRB310 and JRB510, to infer the d norte /D S ratio. We sequenced and assembled the macronuclear genome of the O. trifallax strain JRB510 and compared it with the MAC genome of strain JRB310 reported by Swart et al. (2013) . The distance between these strains is suitable for calculating d norte /D S ratios (median dN: 0.0097 median dS: 0.15 median d norte /D S : 0.066). The d norte /D S ratios between JRB310 and JRB510 orthologs only represent evolutionary rates after divergence of the two strains, but not immediately after the formation of new genes. We find that alternative MDSs evolve faster than shared MDSs, with higher amino acid substitution rates ( fig. 4A , Wilcoxon signed-rank test, PAG = 6.21e-09). There is no significant difference between synonymous substitution rates ( fig. 4B , PAG = 0.173), but the nonsynonymous substitution rates of alternative MDSs are significantly higher ( fig. 4C , PAG = 3.3e-6), as well as the d norte /D S ratios ( fig. 4D , PAG = 3.89e-8). This faster substitution rate is consistent with either stronger functional constraints on the shared regions or, conversely, either weaker selective constraints on the alternative MDSs or greater functional divergence. Shared, constitutive MDSs are intrinsically more constrained because they are translated in more than one gene product, whereas alternative MDSs should have more opportunity to diverge.

Substitution rates for alternative versus shared gene segments. ( A ) Amino acid substitution rates of alternative versus constitutive MDSs. ( B ) Synonymous substitution rates (d S ) of alternative versus constitutive MDSs. ( C ) Nonsynonymous substitution rates (d norte ) of alternative versus constitutive MDSs. ( D ) d norte /D S values of alternative versus constitutive MDSs.

Substitution rates for alternative versus shared gene segments. ( A ) Amino acid substitution rates of alternative versus constitutive MDSs. ( B ) Synonymous substitution rates (d S ) of alternative versus constitutive MDSs. ( C ) Nonsynonymous substitution rates (d norte ) of alternative versus constitutive MDSs. ( D ) d norte /D S values of alternative versus constitutive MDSs.

Potential Functional Divergence of Genes with Shared MDSs

Newly created genes sometimes undergo functional divergence (neofunctionalization or subfunctionalization) to acquire different cellular roles, especially genes that arise through duplication ( Zhang 2003 Conant and Wolfe 2008 ). Similarly, functional divergence could be possible for genes with alternative MDSs that arise through duplication or other mechanisms. We investigated whether the new genes that emerged from alternative MDS processing have evolved either different domain organization or expression patterns. Protein domain analysis did not identify any novel combinations of protein domains in our data set of 69 cases. Instead, the unique MDSs for each group either do not contain any recognizable protein domains or encode the same protein domains.

Although the DNA copy number for genes with shared MDSs is usually similar to each other (only four show a difference above 3-fold fig. 5A ), their overall RNA expression levels differ greatly across all time points during macronuclear development ( Swart et al. 2013 ) (only nine show a difference below 2-fold fig. 5B ), suggesting the possibility of distinct or specialized roles. We also compared the expression profiles for genes with shared MDSs by assessing whether their gene expression levels peak at the same time point. We excluded genes that have total normalized expression levels below ten (i.e., ten normalized RNA-seq reads per kb, represented by the dashed dotted vertical line in fig. 5B ), because low expression may affect the accuracy of the peak analysis. This filter excluded 1 out of 32 cases of genes with shared 5′ DNA regions, 15 out of 31 groups of genes with shared 3′ regions (a higher percentage because RNA-seq is biased toward the 3′ end of a transcript due to poly(A) enrichment during Oligo(dT) priming, but only RNA-seq reads mapping to 5′ ends were scored for these genes), and 2 out of 6 cases of genes that share both 5′ and 3′ regions. For these excluded genes, we verified that their expression is higher than ten normalized RNA-seq reads per kb at other nondevelopmental time points, to exclude the possibility that they are nonfunctional pseudogenes. Among the remaining 31 cases with shared 5′ regions, only 9 show expression peaks at the same time point, and the other 71% have different peaks of expression, consistent with possible functional divergence of the latter cases. Among the remaining 16 cases with shared 3′ regions, only 3 cases have gene expression peaks at the same time point, also suggesting the opportunity for functional divergence among the other 13 cases (81%). Two of the remaining four groups of genes that share both 5′ and 3′ regions have gene expression peaks at the same time point (50%). Figura 5Cmi show distinct expression profiles of genes with shared 5′ or 3′ regions, or both, and that passed the expression filter, suggesting that some new genes created by alternative DNA processing may have undergone functional divergence.

Divergent expression profiles of genes that share precursor segments. ( A ) DNA copy number of genes that share MDSs. For each group of genes that share MDSs, the lowest copy number is plotted on the X -axis and the highest copy number on the y -eje. The solid, dashed, and dotted lines represent y = X , y = 2 X , y y = 3 X , respectivamente. ( B ) Total expression level of genes that share MDSs across a developmental time course. Gene expression levels are represented by a number of normalized RNA-seq counts per kb. The three lines y = X , y = 2 X , y y = 3 X are as in Panel A. The dashed dotted vertical line represent the cutoff of total expression level of ten normalized RNA-seq reads per kb. ( C ) Gene expression profiles of 31 groups of genes that share 5′ regions. The developmental time course includes six time points: Vegetative, asexually growing stage (Veg) and 0, 10, 20, 40, 60 h post mixing of compatible mating types (strains JRB310 and JRB510) to initiate conjugation and macronuclear development. ( D ) Gene expression profiles of 16 groups of genes that share 3′ regions. ( mi ) Gene expression profiles of four groups of genes that share both 5′ and 3′ regions.

Divergent expression profiles of genes that share precursor segments. ( A ) DNA copy number of genes that share MDSs. For each group of genes that share MDSs, the lowest copy number is plotted on the X -axis and the highest copy number on the y -eje. The solid, dashed, and dotted lines represent y = X , y = 2 X , y y = 3 X , respectivamente. ( B ) Total expression level of genes that share MDSs across a developmental time course. Gene expression levels are represented by a number of normalized RNA-seq counts per kb. The three lines y = X , y = 2 X , y y = 3 X are as in Panel A. The dashed dotted vertical line represent the cutoff of total expression level of ten normalized RNA-seq reads per kb. ( C ) Gene expression profiles of 31 groups of genes that share 5′ regions. The developmental time course includes six time points: Vegetative, asexually growing stage (Veg) and 0, 10, 20, 40, 60 h post mixing of compatible mating types (strains JRB310 and JRB510) to initiate conjugation and macronuclear development. ( D ) Gene expression profiles of 16 groups of genes that share 3′ regions. ( mi ) Gene expression profiles of four groups of genes that share both 5′ and 3′ regions.


We acknowledge funding of this research project by the Research Council of Norway (RCN) and the University of Hamburg (Hamburg, Germany). We are grateful to Prof. C. Benning (Michigan State University, East Lansing, United States) for providing the expression vector pNoc ox Venus. We also would like to thank Elke Wölken (Department of Aquatic Ecophysiology and Phycology, University of Hamburg) for analyses of immunogold-labeled N. oceanica transformants by transmission electron microscopy.

aa, amino acid ALNS, allantoin synthase ASW, artificial sea water At, Arabidopsis thaliana CaMV, cauliflower mosaic virus DC, decarboxylase DECR, 2,4-dienoyl-CoA reductase DHNS, 1,4-dihydroxy-2-naphthoyl-CoA synthase dpt, days post transformation EMB8, embryogenesis-associated protein 8 EPA, eicosapentaenoic acid EYFP/GFP, enhanced yellow/green fluorescent protein HIT, histidine triad family protein HIUase, 5-hydroxyisourate hydrolase IndA, indigoidine synthase A MDH, malate dehydrogenase MLS, malate synthase Ng, Nannochloropsis gaditana OHCU, 2-oxo-4-hydroxy-4-carboxy-5-ureidoimidazoline PEX, peroxin PfkB, 6-phosphofructokinase PGL3, 6-phosphogluconolactonase 3 PKT, peroxisomal 3-ketoacyl thiolase PTS1/2, peroxisomal targeting signal type 1/2 PUFA, polyunsaturated fatty acid PUKI, pseudouridine kinase PUMY, pseudouridine monophosphate glycosylase TEM, transmission electron microscopy.


Abstracto

β-defensins (BD) are the largest family of vertebrate defensins with potent antimicrobial, chemotactic and immune-regulatory activities. Four BD genes (BD1-4) have been cloned previously in rainbow trout but none have been reported in other salmonids. In this study seven BD genes (BD1a-b, 2–4, 5a-b) are characterised in Atlantic salmon and additional BD genes (BD1b and BD5) in rainbow trout. Bioinformatic analysis revealed up to seven BD genes in the genomes of other salmonids that belong to five subfamilies (BD1-5) due to whole genome duplications. BD1-2 and BD4-5 are also present in basal teleosts but only BD1 and/or BD5 are present in advanced teleosts due to loss of one chromosomal locus. BD3 is salmonid specific. Fish BD have a unique three-coding exon structure. Fish BD are highly divergent between subfamilies but conserved within each subfamily. Atlantic salmon BD genes are differentially expressed in tissues, often with low level expression in systemic immune organs (head kidney and spleen) yet with at least one BD gene highly expressed in mucosal tissues, heart, blood and liver. This suggests an important role of these BD genes in innate immunity in mucosa, liver and blood in Atlantic salmon.


Ver el vídeo: Genética Molecular: Genes, Exones, Intrones, Alelos y Herencia. (Enero 2022).