Información

¿Cuál es la forma más adecuada de normalizar los datos de expresión génica?


Esta pregunta surge porque al leer un artículo sobre la normalización de datos de expresión génica, no está claro si el método para normalizar los datos es solo para datos de RNA-Seq o podría aplicarse también para microarrays.

Para los datos de RNA-Seq, existen métodos de normalización que se ajustan al efecto del contenido de GC u otros efectos a nivel de gen. ¿Tiene sentido considerar estos efectos en la normalización de datos de expresión génica de microarrays?


La normalización de los datos de expresión es un tema importante con nuevos métodos que se publican con regularidad. Cuando te acerques a algo como esto, por lo general, querrás mirar a las personas que han hecho cosas similares a lo que tú hiciste, y luego, una vez que entiendas por qué hicieron lo que hicieron, puedes preguntar qué necesitas hacer para responder a tus preguntas. Tenga siempre presente su pregunta biológica. Por ejemplo, si está midiendo los QTL, deberá tener mucho más cuidado que si solo estuviera buscando genes afectados por una mutación knockout.

En general, desea utilizar métodos bastante diferentes para los datos de RNAseq y Microarray. Los dos tipos de datos siguen distribuciones completamente diferentes (RNAseq le brinda datos de recuento, los datos de microarrays le brindan señales continuas) y tienen diferentes tipos de ruido técnico que los afectan (el contenido de GC afectará a ambos, pero de una manera diferente). Algunos métodos se pueden usar en ambos, pero generalmente implican coaccionar los datos en una forma diferente (por ejemplo, mapear los recuentos a una distribución normal). El paquete limma para R puede manejar ambos, usando diferentes distribuciones, y es un buen comienzo. Existen métodos más nuevos y supuestamente mejores para RNAseq, que no he usado personalmente.


En términos generales, para los datos de RNA-seq, no desea corregir el contenido de GC u otros efectos a nivel de gen (por ejemplo, la longitud) porque compara los valores de expresión entre las condiciones DENTRO de un gen. Por esta razón, se recomienda utilizar recuentos brutos y no valores normalizados como FPKM. Consulte la Sección 2.7 del manual del usuario de edgeR.

Vale la pena echarle un vistazo a este reciente punto de referencia que compara los métodos de cuantificación de RNA-seq.


Módulos de formación

El siguiente paso en el flujo de trabajo de RNA-seq es el análisis de expresión diferencial. El objetivo de las pruebas de expresión diferencial es determinar qué genes se expresan en diferentes niveles entre condiciones. Estos genes pueden ofrecer información biológica sobre los procesos afectados por la (s) condición (es) de interés.

Los pasos descritos en el cuadro gris a continuación ya los hemos discutido, y ahora continuaremos describiendo los pasos en un Flujo de trabajo de expresión diferencial de secuencia de ARN a nivel de gen de extremo a extremo.

Entonces, ¿qué representan realmente los datos de recuento? Los datos de recuento utilizados para el análisis de expresión diferencial representan el número de lecturas de secuencia que se originaron a partir de un gen en particular. Cuanto mayor es el número de recuentos, más lecturas se asocian con ese gen y se supone que hay un mayor nivel de expresión de ese gen en la muestra.

Los pasos del análisis de expresión diferencial se muestran en el siguiente diagrama de flujo en verde.. Primero, los datos de recuento deben normalizarse para tener en cuenta las diferencias en los tamaños de las bibliotecas y la composición del ARN entre las muestras. Luego, usaremos los recuentos normalizados para hacer algunas gráficas de QC a nivel de gen y muestra. Finalmente, el análisis de expresión diferencial se realiza utilizando su herramienta de interés.


Métodos de normalización para la cuantificación de miARN & # 8211 Pregunte a TaqMan # 40

¿Qué significan para usted los controles endógenos, los controles exógenos y el valor de expresión media?

¡Lo adivinaste! Hoy respondemos a sus preguntas sobre los métodos de normalización para la cuantificación de miARN.

Los microARN o miARN son pequeños

22 ARN no codificantes de nucleótidos que regulan la expresión génica. Los microARN se pueden cuantificar mediante PCR en tiempo real utilizando ensayos TaqMan. En un experimento de expresión de microARN, la variación en la cantidad de material de partida, la recolección de muestras, la preparación y calidad del ARN y la eficiencia de la transcripción inversa pueden contribuir a errores de cuantificación. Por estas razones, es importante utilizar controles de normalización adecuados al cuantificar miARN.

Hay tres tipos de métodos de normalización que se utilizan comúnmente para el análisis de miARN mediante qPCR y controles endógenos # 8211, controles exógenos y normalización del valor de expresión medio o "normalización media global"

La normalización utilizando genes de control endógenos es actualmente el método más preciso para corregir las posibles diferencias en la entrada de ARN o los sesgos de eficiencia de RT. Los controles exógenos o "adiciones" se utilizan típicamente para monitorear la eficiencia de extracción o la cantidad de entrada de muestra para muestras difíciles como plasma / suero u otros biofluidos. Los estudios de perfiles de expresión de miARN a gran escala pueden utilizar la normalización media global, que utiliza la media calculada de todos los miARN en una muestra determinada como normalizador.

Históricamente, los ARN no codificantes, como los snRNA y snoRNA, se utilizaron como normalizadores endógenos para la cuantificación de miARN.

Pero, más recientemente, los líderes de opinión clave en la comunidad de miRNA se han alejado del uso de snoRNA / snRNA como controles endógenos por las siguientes razones:

  • Son más grandes que los miARN.
  • No "reflejan" las propiedades fisicoquímicas del miARN.
  • Tienen un procesamiento celular diferente y funciones diferentes a los miARN.
  • Recientemente se ha descubierto que los niveles de expresión de snoRNA y snRNA están asociados con el cáncer y el pronóstico.

La comunidad de miARN también ha sugerido que el control endógeno ideal tiene una expresión génica que es relativamente constante y moderadamente abundante en una variedad de tejidos y tipos de células y tratamientos.

Los miARN que se expresan uniformemente se pueden usar como control endógeno. Hay varios miARN que se ha demostrado en la literatura y en estudios experimentales que se expresan a niveles relativamente constantes en muchos tipos de tejidos diferentes (mostrar tabla). Estos pueden funcionar como buenos controles endógenos para su condición experimental.

Por cierto, se recomienda validar 2 o más de estos miARN como controles endógenos para la célula, el tejido o el tratamiento diana que está utilizando porque ningún control puede actuar como un control endógeno universal para todas las condiciones experimentales.

Además, las moléculas de miARN sintéticas se pueden usar como controles de adición y son extremadamente útiles como controles exógenos en muestras difíciles como suero / plasma.

Como su nombre lo indica, los picos o controles exógenos son oligonucleótidos de ARN sintéticos que se agregan a la muestra.

Un control de aumento debe ser una secuencia objetivo que no esté presente en su muestra. Por ejemplo, ath-miR-159a (necesita guía de pronunciación) no está presente en humanos, por lo que es un buen control exógeno para humanos.

Hay 3 métodos de normalización diferentes, controles exógenos, controles endógenos y normalización del valor de expresión medio, y estos métodos de normalización le permiten controlar ciertos aspectos de su proceso experimental al analizar miARN mediante qPCR.


Resultados

Quantro: prueba de diferencias globales en distribuciones entre grupos

Considere un conjunto de datos sin procesar de alto rendimiento X ik representando I ∈ (1, …, norte k) muestras en cada uno de los k ∈ (1, …, K) grupos (norte T muestras totales) de un experimento de expresión génica o metilación del ADN. Asumimos X ik tiene alguna distribución comúnX ik ∼ ℱ k) donde ℱ k es la distribución teórica de la k th grupo. Definimos ( _^ <-1> ) como la distribución cuantílica observada para el I th muestra en el k th grupo. Como primer paso, usamos un ANOVA para probar si el promedio de las medianas de las distribuciones es diferente entre los grupos y la mediana normaliza las muestras en consecuencia. Deje (< overline> _ <. k> ^ <-1> = frac <1>< Displaystyle < sum> _^_^ <-1>> ) sea la distribución de cuantiles promediada entre todas las muestras en el k th agrupar y dejar (< overline> _ <..> ^ <-1> = frac <1> frac <1>< Displaystyle < sum> _^ K < Displaystyle < sum> _^_^ <-1> >> ) sea la distribución de cuantiles promediada entre todas las muestras y grupos.

Para cuantificar las diferencias entre dos distribuciones, utilizamos la distancia de Mallow [28], que se define como la distancia entre dos distribuciones de probabilidad en una región (ecuación S1 en el archivo adicional 1). Definimos el varianza total de las distribuciones como la suma de las diferencias al cuadrado entre F ik - 1 y (< overline> _ <..> ^ <-1> ) usando la distancia de Mallow (en el caso donde pag = 2) como:

los varianza total puede descomponerse (Ecs. S2-7 en el archivo adicional 1) en la varianza entre grupos (SS Entre) y la varianza dentro de los grupos (SS dentro de):

Proponemos utilizar una estadística de prueba basada en datos, denominada F quantro, para probar las diferencias globales en las distribuciones entre los K grupos. La hipótesis nula es que no existen diferencias globales en las distribuciones entre los grupos y la hipótesis alternativa es que al menos un grupo es diferente al resto.

Si no hay diferencias globales en las distribuciones entre los grupos (debido a variaciones técnicas o biológicas), podemos aplicar un método de ajuste global, como la normalización de cuantiles, para eliminar cualquier variación técnica no deseada. Si existen diferencias globales en las distribuciones entre los grupos, la normalización de cuantiles puede no ser una técnica de normalización apropiada dependiendo de la fuente de variación (variación técnica o biológica).

los F quantro La estadística de prueba (Ec. S8 en el archivo adicional 1) es una relación del error cuadrático medio entre grupos (SRA Entre) al error cuadrático medio dentro de los grupos (SRA dentro de):

Usamos pruebas de permutación para evaluar la significancia estadística de F quantro y rechazar la hipótesis nula si el pag El valor (Ec. S9 en el archivo adicional 1) de la prueba de permutación es menor que algún nivel de significancia α.

Cambios específicos y globales en la expresión génica

Aplicamos quantro a varios conjuntos de datos de expresión génica disponibles públicamente basados ​​en plataformas de microarrays y RNA-Seq (Tabla S1 en el archivo adicional 1) para investigar dirigido y global diferencias en las distribuciones entre grupos. Usamos un nivel de significancia α = 0.05 como el umbral para probar global cambios en las distribuciones entre grupos. Ejemplos de cambios específicos en las distribuciones entre grupos son la expresión génica de muestras de la población Yoruba (YRI) estratificada por genotipo en función de un loci de rasgos cuantitativos de expresión (eQTL) (pag = 0.917 Fig.2a Figura S1 en el archivo adicional 1), muestras de dos cepas de ratones endogámicos (pag = 0.245 Figura S2 en el archivo adicional 1), muestras de macrófagos alveolares de no fumadores, fumadores y pacientes con asma (pag = 0.562 Fig.2b Figura S3 en el archivo adicional 1), muestras de cepillado bronquial de individuos con y sin enfermedad pulmonar obstructiva crónica (pag = 0.218 Figura S4 en el archivo adicional 1) y muestras de dos regiones del cerebro en pacientes con enfermedad de Parkinson (pag = 0.264 Figura S5 en archivo adicional 1). En todos los ejemplos anteriores, la normalización de cuantiles se considera apropiada porque no se detectaron diferencias globales en las distribuciones entre grupos en el nivel de significancia α = 0.05.

Al comparar la expresión génica de dos tejidos, encontramos sorprendentes diferencias globales en las distribuciones entre los tejidos del cerebro y el hígado (pag = 0.004 Fig.2c Figura S6 en el archivo adicional 1). Se consideraron varios estudios del Gene Expression Omnibus (GEO) para representar cada tejido y evitar que los efectos de lote [29] de diferentes estudios de GEO se confundan con diferencias en los tejidos. También comparamos la expresión génica de muestras normales y tumorales. Obtuvimos múltiples estudios de GEO y encontramos diferencias globales en las distribuciones entre las muestras normales y tumorales de pulmón (pag & lt 0.001 Fig.2d), mama (pag & lt 0,001), próstata (pag & lt 0,001), tiroides (pag & lt 0,001), estómago (pag & lt 0,001) y tejidos hepáticos (pag = 0.044) (Figuras S7-12 en el archivo adicional 1). También encontramos cambios globales en la distribución de los tejidos del hígado entre cuatro grupos de pacientes (control, obesidad sana, esteatosis y muestras de nash) a partir de un estudio que investigaba la expresión génica de la enfermedad del hígado graso no alcohólico (pag = 0,004 Figura S13 en el archivo adicional 1).

Cambios específicos y globales en la metilación del ADN

Además de la expresión génica, consideramos tres conjuntos de datos de metilación del ADN disponibles públicamente. No detectamos diferencias globales en la distribución de los tejidos adiposos de los pacientes antes y después de seis meses de ejercicio (pag = 0.132 Fig.3a Figura S14 en el archivo adicional 1) y tejidos pancreáticos de no diabéticos y diabetes tipo 2 (pag = 0.069 Figura S15 en archivo adicional 1). A diferencia de, quantro detectaron diferencias globales en las distribuciones entre seis tipos de células purificadas de sangre completa (pag & lt 0.001 Fig. 3b Figura S16 en el archivo adicional 1), que puede ser relevante para los estudios que estiman la composición celular de la sangre total mediante la metilación del ADN [30, 31].

Variación biológica en distribuciones de microarrays de metilación de ADN sin procesar. a Ejemplo de cambios específicos en distribuciones: valores beta sin procesar de norte = 46 matrices que comparan muestras de tejido adiposo de hombres sanos antes y después de 6 meses de ejercicio. B Ejemplo de cambios globales en distribuciones: valores beta sin procesar de norte = 35 matrices que comparan seis tipos de células purificadas de sangre completa: monocitos CD14 + (Mononucleosis infecciosa), Células B CD19 + (Bcell), Células T CD4 + (CD4T), Células asesinas naturales CD56 + (NK), Células T CD8 + (CD8T) y granulocitos (Gran)

Quantro mejora la precisión de la detección de CpG metilados diferencialmente

Aquí evaluamos el desempeño de los métodos de normalización global en el contexto de dirigido y global cambios en las distribuciones con el objetivo de detectar CpG metilados diferencialmente. Realizamos un estudio de simulación de Monte Carlo para ilustrar cómo el uso de métodos de normalización global, como la normalización por cuantiles, no siempre es apropiado y el F quantro la estadística de prueba puede orientar la elección de la normalización. Para el estudio de simulación, simulamos matrices de metilación de ADN con el objetivo de detectar CpG metiladas diferencialmente, pero tenga en cuenta que estos resultados también se traducen en expresión génica diferencial. Comparamos ingenuamente el uso de la normalización de cuantiles con el uso de quantro para guiar la decisión de usar normalización cuantílica o ninguna normalización para evaluar el costo de usar métodos de normalización global en el contexto de distribuciones con diferencias globales.

Si solo hay una minoría de CpG metiladas diferencialmente, la normalización de cuantiles reduce el sesgo y el error cuadrático medio (MSE) en la detección de diferencias verdaderas entre grupos de muestras porque elimina la variación técnica no deseada (Figuras S21 y S22 en el archivo adicional 1). A medida que aumenta el número de CpG metiladas diferencialmente, la normalización de cuantiles eliminará tanto la variación técnica no deseada como la variación biológica interesante, lo que dará como resultado un mayor sesgo y MSE al detectar la metilación diferencial. Por el contrario, el uso de quantro detecta estas diferencias globales y, por lo tanto, reduce el sesgo y el MSE en comparación con el uso de la normalización de cuantiles (Figuras S21 y S22 en el archivo adicional 1). Del mismo modo, el número de descubrimientos falsos se reduce cuando se utiliza quantro para orientar la elección de la normalización en el caso de que existan diferencias globales entre grupos. Por ejemplo, al considerar una matriz de metilación de ADN de 450K si solo hay una pequeña cantidad de CpG metilados diferencialmente (1% de CpG o 4500 CpG), quantro y la normalización de cuantiles son comparables en el número de descubrimientos falsos (873 y 873, respectivamente), pero si existen diferencias globales en las distribuciones entre grupos (10% de CpG o 45.000 CpG), quantro es capaz de detectar esas diferencias globales y reducir el número de descubrimientos falsos en comparación con la normalización de cuantiles (4887 y 6583, respectivamente) (Figura S23 en el archivo adicional 1). Utilizando quantro brinda a los investigadores una herramienta basada en datos para probar si los métodos de normalización global son apropiados, como la normalización de cuantiles, que puede resultar en un mayor sesgo, MSE y más descubrimientos falsos al detectar CpG metilados diferencialmente en el contexto de diferencias globales en las distribuciones.

Además, consideramos la tasa de verdaderos positivos y la tasa de falsos positivos de usar la normalización de cuantiles y usar quantro para guiar la elección de la normalización mientras se varía el umbral del número de CpG superiores metilados diferencialmente seleccionados. Si solo hay un pequeño número de CpG metilados diferencialmente, la normalización de cuantiles y quantro son comparables en rendimiento, pero cuando aumenta la proporción de CpG metilados diferencialmente, la normalización de cuantiles no detecta las diferencias globales entre los grupos, lo que resulta en una menor sensibilidad y especificidad (Figura S24 en el archivo adicional 1). Utilizando quantro como herramienta para determinar qué tipo de enfoque de normalización emplear da como resultado una mayor sensibilidad y especificidad al detectar verdaderos CpG metilados diferencialmente en comparación con el uso ingenuo de la normalización por cuantiles.


El impacto de los métodos de normalización en el análisis de datos de RNA-Seq

Las tecnologías de secuenciación de alto rendimiento, como Illumina Hi-seq, son nuevas herramientas poderosas para investigar una amplia gama de problemas biológicos y médicos. Los conjuntos de datos masivos y complejos producidos por los secuenciadores crean la necesidad de desarrollar métodos estadísticos y computacionales que puedan abordar el análisis y la gestión de datos. La normalización de datos es uno de los pasos más cruciales del procesamiento de datos y este proceso debe considerarse cuidadosamente ya que tiene un efecto profundo en los resultados del análisis. En este trabajo, nos centramos en una comparación completa de cinco métodos de normalización relacionados con la profundidad de secuenciación, ampliamente utilizados para los datos de secuenciación del transcriptoma (RNA-seq), y su impacto en los resultados del análisis de expresión génica. Con base en este estudio, sugerimos un flujo de trabajo universal que se puede aplicar para la selección del procedimiento de normalización óptimo para cualquier conjunto de datos en particular. El flujo de trabajo descrito incluye el cálculo de los valores de sesgo y varianza para los genes de control, la sensibilidad y especificidad de los métodos y los errores de clasificación, así como la generación de gráficos de diagnóstico. La combinación de la información anterior facilita la selección del método de normalización más apropiado para los conjuntos de datos estudiados y determina qué métodos se pueden usar indistintamente.

1. Introducción

En los últimos años, la tecnología de secuenciación de ARN (RNA-seq) se ha convertido en un pilar de la investigación biomédica y es una alternativa atractiva a los microarrays. Las tecnologías de RNA-seq tienen varias ventajas sobre los microarrays, incluido menos ruido (los sesgos técnicos inherentes a la tecnología de microarrays no están presentes en los experimentos de RNA-seq) [1], la posibilidad de detectar isoformas de empalme alternativas [2, 3] y la potencia para detectar genes nuevos, promotores de genes, isoformas y expresión específica de alelos [4]. El costo decreciente de la secuenciación de próxima generación (NGS) es un argumento adicional para la selección de RNA-seq en lugar del análisis de expresión génica basado en microarrays. A pesar del menor sesgo en el experimento de RNA-seq, todavía hay algunas fuentes de variación sistemática que deben eliminarse de los datos de RNA-seq antes del análisis de expresión diferencial (DE). En particular, estas variaciones incluyen diferencias entre muestras, como el tamaño de la biblioteca (profundidad de secuenciación) [5] o diferencias dentro de la muestra, por ejemplo, en la longitud del gen [6], el contenido de guanina-citosina (GC) [7, 8], o variación no deseada introducida por efecto de lote [9]. La experiencia con datos de microarrays ha demostrado repetidamente que la normalización tiene como objetivo garantizar que las estimaciones de expresión sean más comparables entre características (genes) y muestras. Sin embargo, todavía hay muchas preguntas sobre el impacto del método de normalización en los resultados del análisis de datos de RNA-seq. La importancia de la normalización de datos de RNA-seq se demostró en [10]. Su principal hallazgo fue que la elección del procedimiento de normalización afecta los resultados del análisis DE: la sensibilidad varía más entre los procedimientos de normalización que entre las estadísticas de prueba. Los autores de [10, 11] demostraron que el paso de normalización plantea interrogantes, y todavía existe la necesidad de proporcionar consejos prácticos útiles y construir pautas claras para los investigadores que pueden no estar seguros de cómo elegir un método de normalización. Con este fin, proponemos aplicar una combinación de métodos gráficos y estadísticos para comparar el impacto de la normalización particular en los resultados del análisis DE. Nuestra investigación se refiere a cinco métodos de normalización ampliamente utilizados para la normalización de datos de secuencia de ARN: Media recortada de

-valores, cuartil superior, mediana, cuantil y normalización de PoissonSeq implementados en los paquetes R edgeR (v3.2.4), DESeq (v1.12.1), EBSeq (v1.3.1) y PoissonSeq 3 (v1.1.2), respectivamente. La comparación se basó en el análisis de tres conjuntos de datos. Dos de ellos son conjuntos de datos disponibles públicamente (datos de Bodymap y Cheung) y uno es el conjunto de datos (datos AML) que provienen de uno de nuestros proyectos (aún no publicado). En este artículo, describimos un método simple y efectivo para comparar diferentes enfoques de normalización y mostramos cómo los investigadores pueden mejorar los resultados del análisis de expresión diferencial al incluir en el paso de normalización diferentes aspectos basados ​​en la biología o la informática.

2. Materiales y métodos

En esta sección, describimos los métodos de normalización que se compararán y los conjuntos de datos utilizados en nuestro estudio. A continuación, proponemos los criterios de comparación del impacto de los métodos de normalización en los resultados del análisis DE.

2.1. Métodos de normalización

Desde la aparición de la tecnología RNA-seq, se han desarrollado varios métodos de normalización. En nuestro trabajo nos centramos principalmente en una comparación de cinco de los métodos de normalización más populares utilizados para el análisis DE de datos de RNA-seq, implementados en cuatro paquetes de bioconductores: Media de valores recortada (TMM) [11] y Cuartil superior (UQ) [10], ambos implementados en el paquete edgeR Bioconductor [12], Median (DES) implementado en el paquete DESeq Bioconductor [13], Quantile (EBS) [10] implementado en el paquete EBSeq Bioconductor [14], y PoissonSeq (PS ) normalización implementada en el paquete PoissonSeq [15]. Todos los paquetes están disponibles en CRAN (http://cran.r-project.org/web/packages) y Bioconductor (http://www.bioconductor.org/packages/release/bioc).

Debido a que la fuente básica de variaciones entre muestras es la diferencia en el tamaño de la biblioteca (las muestras de ARN pueden secuenciarse a diferentes profundidades), a cada biblioteca se le asigna un factor de normalización. Hay varias formas de calcular un factor de normalización. Consideramos cinco métodos diferentes que se describen a continuación.

Asumamos que tenemos

denotar recuentos de lectura para el gen

es el factor de escala para la ésima muestra.

El primer método presentado calcula una media recortada de valores entre cada par de muestras. Este método fue propuesto por Robinson y Oshlack [11] y se basa en la hipótesis de que la mayoría de los genes no se expresan diferencialmente. Los autores definieron un factor de normalización para una muestra estudiada con una muestra de referencia de la siguiente manera:

. son, respectivamente, el número total de lecturas para la muestra th y la muestra de referencia, y

representa el conjunto de genes sin recortar y

(niveles de expresión absoluta) valores (de acuerdo con [11] la media ponderada recortada es el promedio después de eliminar el porcentaje superior e inferior de los datos, los valores se recortan en un 30% y los valores se recortan en un 5%). De acuerdo con el supuesto de que la mayoría de los genes no son DE,

El siguiente método, elaborado en [10], es el Cuartil superior (UQ) implementado en el paquete edgeR. Aquí, el factor de escala se calcula a partir del percentil 75 de los recuentos de cada biblioteca después de eliminar las transcripciones, que son cero en todas las bibliotecas. Tiene la siguiente forma:

es el cuartil superior de la muestra, que es la muestra con recuentos normalizados y.

Anders y Huber [13] sugirieron el método de normalización de la mediana implementado en el paquete DESeq Bioconductor. Este método hace la misma suposición que el método TMM (la mayoría de los genes no son DE). Un factor de escala para una muestra dada toma la mediana de las razones de los conteos de la muestra observada a la media geométrica entre las muestras (es decir, una muestra de pseudoreferencia):

También es factible realizar la normalización de cuantiles a través de muestras, como se hace a menudo en el caso de datos de microarrays [10]. Aquí, usamos la normalización de Quantile que se implementa en el paquete EBSeq Bioconductor [14]. Este método de normalización estima la profundidad de secuenciación de un experimento por un cuartil superior de sus recuentos y tiene la siguiente forma:

son los cuartiles superiores de la th muestra y th muestra, respectivamente. Este método alinea la distribución de todas las muestras.

Finalmente, también probamos un método de normalización (PS) propuesto en [15], implementado en el paquete PoissonSeq. Tiene la siguiente fórmula:

donde es el conjunto de genes encontrados por las estadísticas de bondad de ajuste de la forma:

es el factor de escala de Total Count (TC). Elegimos genes para el conjunto para el que los valores de

Además, comparamos el rendimiento de todos los métodos de normalización mencionados anteriormente con los datos no normalizados, indicados por "datos sin procesar" (RD).

Además, también se consideró otra fuente de variación, relacionada con el contenido de GC y el efecto del lote. Los resultados obtenidos revelaron que la inclusión del análisis de contenido de GC no contribuyó a la estrategia de comparación propuesta y no influyó en la clasificación resumida (consulte la Figura S5 y la Tabla S4 en el Material complementario disponible en línea en http://dx.doi.org/10.1155/ 2015/621690). Por lo tanto, esta estrategia de normalización no se incluyó en un análisis adicional.

La variación indeseable que proviene de los efectos del lote, como el tiempo de muestreo, la tecnología diferente, se puede ajustar con la ayuda de métodos implementados en el paquete sva [9]. Solo teníamos información sobre los lotes en los datos ALD que podrían introducirse en dos fechas de muestreo. Es por eso que solo consideramos este enfoque para los datos ALD. Antes de incluir una normalización adicional, verificamos si existía la presencia de efectos por lotes en los conjuntos de datos ALD. La detección de la presencia de efectos por lotes en los datos de AML se logró de dos maneras. Hemos proporcionado un agrupamiento jerárquico (ver Figura S8) junto con el análisis de componentes principales (ver Figura S9). Nuestros resultados no confirmaron la existencia de un efecto de lote relacionado con la fecha de muestreo en el caso de los datos ALD. Por lo tanto, esta estrategia de normalización se descuidó en un análisis posterior.

2.2. Fuentes de datos

Los cinco métodos de normalización se compararon sobre la base del análisis de tres conjuntos de datos de RNA-seq reales. Dos conjuntos de datos incluidos en este estudio se obtuvieron de recursos disponibles públicamente (datos de Bodymap y Cheung) y uno se obtuvo del proyecto realizado en el Instituto de Química Bioorgánica en Poznan (datos AML). El conjunto de datos de Bodymap se publicó en [16], donde se estudió el transcriptoma de células epiteliales mamarias humanas no transformadas en referencia a los datos de Illumina Bodymap recopilados de tejidos normales. El conjunto de datos de Cheung [17] proviene del estudio de la expresión génica de las células B humanas de individuos pertenecientes a familias numerosas. El objetivo del estudio fue la identificación de transreguladores polimórficos. Ambos conjuntos de datos se encuentran depositados en la base de datos Recount en http://bowtie-bio.sourceforge.net/recount/ [18].

El conjunto de datos AML proviene de nuestro experimento RNA-seq aún no publicado. Estudiamos los perfiles de expresión génica en 30 muestras de sangre periférica (PB) y médula ósea (MO) obtenidas de 25 pacientes adultos con LMA (leucemia mieloide aguda) curados en el Departamento de Hematología y Trasplante de Médula Ósea de la Universidad de Ciencias Médicas de Poznan. Se secuenciaron dos muestras por carril en el Instituto de Química Bioorgánica de Poznan, utilizando una celda de flujo de lectura única (SR-FC) y Genome Analyzer IIx (GAIIx, Illumina). Como control, una muestra de BM y un conjunto de 12 muestras de PB obtenidas de voluntarios sanos se secuenciaron en un carril adicional. Las bibliotecas se prepararon a partir de hasta 4 μg de ARN total con el uso del TruSeq RNA Sample Preparation Kit v2 (Illumina), de acuerdo con las instrucciones del fabricante, y validado con un chip DNA 1000 (Agilent). Cada biblioteca generó aproximadamente 20 millones de lecturas de 50 nt de longitud, procesadas en CASAVA, FastQC y NGS QC Toolkit. Las lecturas se asignaron al genoma humano de referencia UCSC hg19 con la ejecución de TopHat (v2.0.6).

Antes de todos los cálculos, filtramos los conjuntos de datos para obtener una cantidad similar de genes en cada conjunto de datos. De los conjuntos de datos de Cheung y Bodymap, elegimos solo aquellos genes para los que la media de los recuentos de todas las muestras era mayor que 0, mientras que en el conjunto de datos de AML elegimos 50 como el valor de corte para la media de los recuentos en todos muestras. La información resumida sobre cada conjunto de datos se presenta en la Tabla 1, mientras que los detalles se pueden encontrar en la Tabla complementaria S1 y la Figura S1. Como podemos ver, los conjuntos de datos variaron con el tamaño de la muestra y el número de genes, así como con los niveles de expresión génica. En el conjunto de datos de Cheung, predominan los genes con bajos niveles de expresión. En el conjunto de datos de Bodymap, el grupo más grande está constituido por los genes con altos niveles de expresión, mientras que en el conjunto de datos de AML, el grupo más grande está constituido por los genes con niveles medios de expresión. Esta variedad de conjuntos de datos permite revelar las diferencias de rendimiento de los métodos de normalización en el caso de datos con diferente estructura de genes.

2.3. Criterios analíticos para la comparación de métodos de normalización
2.3.1. Selección de genes de limpieza (HG)

La idea de utilizar HG surgió de la investigación anterior sobre el experimento de microarrays. En ese experimento se utilizaron micromatrices de tinte intercambiado. Los tintes elegidos desempeñaron el papel de genes domésticos. En experimentos considerados RNA-seq, no tenemos las listas de genes de mantenimiento de forma directa. Es por eso que decidimos realizar nuestra investigación del impacto de los métodos de normalización basados ​​en la versión analítica de las listas de HG, genes expresados ​​de manera similar en las muestras.

Se utilizó como medida la raíz cuadrada del error cuadrático medio. Los genes de mantenimiento se seleccionaron sobre la base de los datos sin procesar mediante el uso de la siguiente fórmula:

donde es la media de los recuentos de genes. Decidimos elegir genes de mantenimiento para todos los conjuntos de datos en función de un valor de corte particular y aplicamos una transformación lineal de los resultados al intervalo

usando la normalización min-max:

Luego seleccionamos el 1% de todos los genes con los valores más bajos como genes de mantenimiento. Aunque el número de genes de mantenimiento fue el mismo en cada conjunto de datos, se incluyeron genes diferentes para cada conjunto. Las tablas y diagramas de barras sobre la selección de genes de mantenimiento se proporcionan en Materiales suplementarios (Tabla S2 y Figura S2). Estos indican los mismos hechos que para el caso con todos los genes tomados en cuenta. Existe cierta variabilidad en los conjuntos de datos con respecto al número de genes HG para cada nivel de abundancia de lecturas. En todos los conjuntos de datos, podemos ver que existe el mayor número de genes HG con un número de lecturas en genes por debajo de 500 (nivel de abundancia medio relativo).

2.3.2. Sesgo y varianza

Para evaluar los métodos de normalización utilizados para el procesamiento de datos de RNA-seq, se aplicó el criterio de sesgo y varianza propuesto por Argyropoulos et al. [19] para el análisis de datos de microarrays de doble canal. Hemos ajustado anteriormente este método para datos de microarrays de un canal [20]. En este artículo, transformamos el método para que sea adecuado para los datos de RNA-seq. Podemos usar las siguientes fórmulas de sesgo y varianza como aproximaciones de exactitud y precisión, respectivamente:

donde denota recuentos de lectura para

El gen de control de la th muestra es el recuento medio del gen de control th y es el valor medio de para el gen de control th, y True Log Ratio es el valor real de para el gen de control th de la definición de HG. La precisión de una medición es el grado de cercanía de las mediciones de una cantidad al valor real. La precisión de una medición es el grado en que las mediciones repetidas en condiciones inalteradas muestran los mismos resultados. Según la definición, cada gen, que se considera HG, debe tener el mismo número de recuentos en cada muestra, así como el valor medio de recuentos para este gen. Por lo tanto, el True Log Ratio es igual a 0 y la fórmula (10) para el sesgo se reduce a la raíz del error cuadrático medio (RMSE): Los ratios (sesgo y varianza) para cada método de normalización serán la media de los valores de sesgo y varianza. calculado para todos los genes de control (mantenimiento). El método de normalización "A" sería preferible al método "B" si está asociado con el menor sesgo y varianza [19].

2.3.3. Análisis de expresión diferencial

Nuestro objetivo era averiguar cómo los métodos de normalización afectan los resultados de expresión diferencial. Por lo tanto, después de la aplicación de cada método de normalización, el análisis de expresión diferencial se realizó utilizando el método edgeR del paquete edgeR Bioconductor [12]. Se eligió este método porque mostró un rendimiento confiable en una amplia gama de experimentos y permite la fácil inclusión de factores de escala en la prueba estadística. El método edgeR se desarrolló específicamente para modelar la dispersión de datos de recuento y está diseñado para datos de secuencia de ARN sobredispersos. Brevemente, se supone que los recuentos son una distribución binomial negativa, según

donde es el nivel de expresión del gen en la muestra, es el factor de normalización en la muestra y es la dispersión del gen. El método de análisis de expresión diferencial, implementado en el paquete edgeR, amplía la prueba exacta de Fisher.

2.3.4. Errores de predicción

Se aplicó un análisis discriminante para determinar la efectividad de la clasificación de la muestra basada en los DEG encontrados identificados en cada conjunto de datos después de cada procedimiento de normalización. Los diferentes métodos de clasificación pueden dar lugar a diferentes errores de predicción. Estimamos los errores de clasificación basados ​​en los cinco clasificadores: Bayes ingenuo, red neuronal,

-vecino más cercano, máquinas de vectores de soporte y bosque aleatorio que se presentan en la Tabla 2. Al analizar cada conjunto de datos, usamos la validación cruzada de dejar uno fuera (LOOCV) para obtener la estimación de los errores predictores del conjunto de prueba que resulta de utilizando diferentes clasificadores. Para un conjunto de datos con

muestras, este método implica ejecuciones separadas. Para cada ejecución, se utilizan varias muestras, menos un punto de datos, para entrenar el modelo y luego se realiza la predicción en el punto de datos restante. El error de predicción general es la suma de los errores de todas las ejecuciones [21]. Como entrada para los clasificadores en el análisis discriminante, elegimos estos genes informativos, que tienen un alto poder de discriminación que se expresan diferencialmente. El conjunto de genes se obtuvo mediante un proceso de selección de genes a partir de una estadística de prueba después de cada procedimiento de normalización.

Todos los cálculos y gráficos de diagnóstico se realizaron con R 3.0.2 [22].

3. Resultados

El objetivo de nuestro estudio fue comparar varios enfoques de normalización y delinear el flujo de trabajo que ayudará a seleccionar el método de normalización apropiado para un conjunto de datos en particular. Decidimos probar cinco de los métodos más utilizados de normalización de datos de secuencia de ARN: Media recortada de valores (TMM), Cuartil superior (UQ), Mediana (DES), Cuantil (EBS) y PoissonSeq (PS), descritos en detalle en la sección de Métodos. Todos los métodos se probaron en tres conjuntos de datos diferentes: Bodymap, Cheung y datos AML. Los detalles relacionados con los conjuntos de datos se describen en la Sección 2.

3.1. Análisis de expresión diferencial (DE)

El objetivo principal de muchos experimentos de RNA-seq es identificar genes que se expresan diferencialmente entre las condiciones comparadas. Al analizar los tres conjuntos de datos mencionados anteriormente, verificamos el impacto directo de los métodos de normalización descritos anteriormente en los resultados del análisis DE. Después de cada normalización, determinamos las listas de genes expresados ​​diferencialmente (DEG) utilizando la prueba estadística del paquete edgeR. En el caso de cada conjunto de datos, comparamos los niveles de expresión génica entre dos tipos de muestras biológicas y clasificamos los genes de acuerdo con

valores. Los genes que tenían valores ajustados & lt 0,05 se seleccionaron expresados ​​diferencialmente.

Los resultados del análisis de DE se pueden comparar en función del número y contenido de DEG. La visualización de los DEG se presenta en la Figura 1. Los gráficos de barras muestran la contribución de genes con niveles de expresión particulares en las listas de DEG para todos los conjuntos de datos, seleccionados de los datos enviados a cinco métodos probados de normalización y datos brutos (RD). Como podemos ver, la influencia de los métodos de normalización difiere entre conjuntos de datos. En el caso del conjunto de datos de Cheung, todos los métodos dan como resultado un número similar de DEG y su parte significativa constituye genes con bajos niveles de expresión. Se observó una contribución más equilibrada de DEG en el conjunto de datos de Bodymap; el número de DEG con un nivel de expresión medio es ligeramente superior al número de genes de expresión muy alta o débil. En el conjunto de datos de AML, los genes con un nivel de expresión promedio predominan claramente en la lista de DEG. Aquí, también existen las diferencias más significativas en el número de DEG entre los datos normalizados de diversas maneras. El método más restrictivo pareció ser TMM, mientras que el mayor número de DEG se obtuvo mediante los métodos EBS y PS. La contribución de todos los grupos de genes es la misma para cada método de normalización.

-eje los métodos de normalización se presentan, mientras que el

-eje representa el número de DEG determinados después de cada procedimiento de normalización. Los colores de las barras representan los grupos de genes de un nivel de expresión particular.

Los gráficos MA, disponibles en Materiales suplementarios (Figura S3), se generaron para una visualización adicional de los DEG. Presentan la relación entre la media base y el log2FC de los recuentos. Los resultados muestran que los DEG en cada gráfico MA después de la normalización están ligeramente más dispersos en comparación con los datos brutos. Sin embargo, la ubicación de DEG difiere según el método de normalización para los conjuntos de datos AML y Bodymap. En el caso de los datos de AML también vale la pena señalar que podemos observar más DEG sobreexpresados ​​que subexpresados.

Como es difícil evaluar qué método de normalización es más adecuado para un conjunto de datos basado en el análisis de parcelas MA, es necesaria una verificación más precisa. Con este fin, calculamos los valores de sesgo y varianza.

3.2. Cálculo de sesgo y varianza

Basándonos en los detalles descritos en la sección anterior, seleccionamos genes de mantenimiento para los cuales calculamos los valores de sesgo y varianza. Siguiendo la idea descrita en el estudio [19], asumimos que el método de normalización más apropiado es el que genera los valores más bajos de sesgo y varianza para los genes de control. Los valores de sesgo y varianza se calcularon de acuerdo con las fórmulas (11) y (12) para todos los genes de mantenimiento seleccionados por separado para cada conjunto de datos, como se describe en la Sección 2. Luego, para cada conjunto de datos, la media del sesgo y los valores de varianza para Se calculó cada método de normalización y para todos los genes de control. Las tablas 3 y 4 presentan la clasificación de los métodos de normalización basados ​​en estos valores de sesgo y varianza; el método con el sesgo o varianza más bajo se clasificó como 1. Los valores de sesgo y varianza más altos, al menos en los conjuntos de datos de Cheung y Bodymap, se observaron para los datos brutos no normalizados (RD), incluidos en las tablas para la comparación. Teniendo en cuenta todos estos conjuntos de datos, la conclusión es que los mejores resultados se obtuvieron utilizando los métodos de normalización DES, EBS y PS, y los métodos que generaron los valores más altos de sesgo y varianza fueron TMM y UQ. En el caso de los datos AML, la aplicación del método TMM condujo a un aumento del sesgo y la varianza presentes en RD. Vale la pena señalar que las diferencias entre ellos son pequeñas en todos los conjuntos de datos.

3.3. Sensibilidad y especificidad

La sensibilidad y la especificidad de los métodos de normalización se investigaron utilizando el conjunto de datos AML, basado en nuestra experiencia anterior con el análisis de datos de microarrays, descritos en [20], así como la evidencia de la literatura [23, 24]. Primero, los conjuntos de genes se seleccionaron como controles positivos y negativos. Los controles positivos consistieron en genes que eran fuertes candidatos para DEG. Para el conjunto de controles positivos, seleccionamos genes que fueron validados por análisis de reacción en cadena de la polimerasa (PCR) en tiempo real o descritos en la literatura como sobreexpresados ​​(o, menos frecuentemente, subexpresados) en AML o células hematopoyéticas inmaduras [23]. Los controles negativos incluyeron genes que no son DEG (sus niveles de expresión no deben diferir entre estos dos tipos de muestras) [24]. En total, se eligieron 44 genes como controles positivos y 44 genes como controles negativos. Las listas de genes se pueden encontrar en la Tabla S3. La sensibilidad y la especificidad de los métodos de normalización se calcularon, respectivamente, como un porcentaje de controles positivos que estaban presentes y el porcentaje de controles negativos que estaban ausentes en cada lista de genes expresados ​​diferencialmente. Los métodos de normalización con los valores más altos de especificidad muestran mejor los genes expresados ​​de forma no diferencial, mientras que, por otro lado, los métodos con los valores de sensibilidad más altos indican una alta probabilidad de encontrar DEG que son realmente DEG. Los resultados de este análisis se presentan en la Tabla 5.

La Tabla 5 muestra que los valores de especificidad para los métodos EBS y PS son sustancialmente más bajos que para los restantes. Los valores de sensibilidad fueron menos divergentes entre los métodos y fueron generalmente bajos, en el rango entre el 10 y el 31%. Además, para los métodos TMM y EBS obtuvimos los resultados más divergentes: la mayor especificidad pero la menor sensibilidad para TMM, y lo contrario para EBS. En el caso de la especificidad, podemos ver que la mayoría de los métodos producen valores de especificidad superiores al 80%.

3.4. Errores de predicción

La Tabla 6 presenta una comparación de los cinco métodos de normalización cuando para cada conjunto de datos se utilizaron diferentes números de genes informativos basados ​​en cinco clasificadores y LOOCV. En cada caso, seleccionamos el número de genes expresados ​​diferencialmente como el 75% del número de muestras. Por lo tanto, para los conjuntos de datos de Cheung, Bodymap y AML tenemos, respectivamente, 30 (

) genes expresados ​​diferencialmente. Los resultados de la tabla sugieren que, en todos los conjuntos de datos, PS, DES y EBS funcionan mejor que TMM y UQ.

3.5. Gráficos de diagnóstico

Además de los métodos analíticos para la comparación de métodos de normalización, sugerimos utilizar determinantes adicionales que pueden ser útiles para el rechazo de los métodos más comúnmente utilizados que evidentemente fallan. Es posible que los métodos de normalización produzcan resultados diferentes para diferentes conjuntos de datos. Por lo tanto, sugerimos la aplicación del siguiente flujo de trabajo basado en gráficos de diagnóstico para determinar qué método de normalización es óptimo para un conjunto de datos específico. Aquí, nos enfocamos solo en el conjunto de datos AML. En la Figura 2 (a) podemos observar las diferencias introducidas a los factores de normalización obtenidos por cada método de normalización. De esta figura podemos concluir que los coeficientes de normalización determinados con los métodos TMM y UQ se agrupan y divergen del resto de métodos de normalización.

Los resultados de la Tabla 6 se pueden resumir considerando los errores promedio expresados ​​mediante cifras. Para el conjunto de datos AML, se pueden clasificar los rendimientos de los cinco métodos de normalización. Los porcentajes de errores de clasificación obtenidos por métodos de normalización podrían usarse para obtener un intervalo de confianza del 95% de la media de la proporción de errores de clasificación para la normalización. El gráfico de barras correspondiente que representa los intervalos de confianza se muestra en la Figura 2 (b). Este gráfico indica que los métodos TMM, UQ y DES superan a los otros dos métodos con respecto al rendimiento de clasificación.

3.6. DEG comunes

Para comparar el número de genes DE y el número de genes DE comunes que se encuentran entre los métodos de normalización realizados para un conjunto de datos en particular, generamos diagramas de globo (Figura 2 (c) y Figura S5) y diagramas de Venn (ver Figura S4). Los gráficos de globo representan porcentajes del número de genes expresados ​​diferencialmente detectados comúnmente entre los métodos th y th. Primero calculamos en la celda th una proporción de detección común con respecto al método th:

, es el número de genes expresados ​​diferencialmente detectados comúnmente por el método ésimo y el método ésimo, y es el número de genes expresados ​​diferencialmente detectados por el método ésimo. A continuación, tomamos el valor porcentual medio de genes comunes entre cada par de métodos. El método más preferible es el que tiene el mayor número de DEG comunes.

Para el conjunto de datos AML (Figura 2 (c)), el número más bajo de DEG comunes con otros métodos se produce mediante el método de normalización TMM y el mejor mediante el método EBS. El menor número de DEG comunes se obtuvo para las comparaciones EBS-TMM y PS-TMM. De este análisis llegamos a la conclusión de que el conjunto de genes identificados como DEG no es estable y depende tanto del método de normalización de datos como del propio conjunto de datos. Sin embargo, en el caso del conjunto de datos de AML, hay un conjunto de 227 genes comunes para todos los métodos probados (Figura S4 complementaria) y estos genes pueden considerarse como los candidatos más fuertes para DEG (Figura S4). En el caso del conjunto de datos de Cheung, notamos que la mayoría de los métodos parecen funcionar de manera similar. Para el conjunto de datos Bodymap, todos los métodos de normalización arrojaron porcentajes ligeramente más bajos de DEG comúnmente detectados que en el caso del conjunto de datos Cheung. Para los datos brutos (RD), el número de genes comunes para cualquier par de métodos fue inferior al 50% (ver Figura S5). Los diagramas de Venn para los conjuntos de datos de Cheung y Bodymap también confirmaron esta tendencia (Figura S4).

3.7. Agrupación de métodos de normalización

La agrupación en clústeres es otro enfoque para comparar el rendimiento de los métodos de normalización. Basándonos en las similitudes entre las listas de genes DE, generamos dendrogramas para observar fácilmente qué métodos se agrupan. La medida exacta de similitud fue el rango del gen DE. En el caso de cada conjunto de datos, para cinco variantes de datos normalizados, así como para los datos brutos (RD), se obtuvieron conjuntos particulares de genes expresados ​​diferencialmente. Primero, elegimos genes comunes a las seis listas DEG. Dado que obtuvimos 20 genes en común entre seis métodos, realizamos la agrupación de los métodos de normalización basados ​​en estos DEG comunes. Luego, para todos los métodos, clasificamos estos genes, obteniendo así listas de clasificación de genes. Basándonos en estas listas, calculamos la matriz de distancias usando la distancia euclidiana y trazar dendrogramas (Figura 2 (d)). Los dendrogramas se construyeron a partir de agrupaciones jerárquicas utilizando el método de Ward. Este criterio es otro enfoque que compara las listas DEG. El criterio anterior (DEG comunes) nos brinda la información sobre el porcentaje de DEG en común por par de métodos, mientras que este criterio brinda la información sobre la similitud entre los métodos en función del orden de los DEG comunes en cada lista.

3.8. Resumen de rangos

Combinando todos los criterios descritos en las secciones anteriores, nos gustaría determinar cuál de los cinco métodos de normalización probados sería apropiado para el conjunto de datos ALD. La Tabla 7 resume los rangos obtenidos según los valores de sesgo y varianza, los errores de predicción, la sensibilidad, la especificidad y el número de DEG comunes para el conjunto de datos de AML. En el caso de que todos los criterios incluidos en la Tabla 7 sean igualmente importantes, el investigador puede basar la decisión en el rango final calculado como la media de los rangos establecidos por separado para cada criterio utilizando métodos de normalización elegidos.

4. Discusión

En la práctica, la normalización de datos de alto rendimiento sigue siendo una cuestión importante y ha recibido mucha atención en la literatura. El creciente número de métodos de normalización dificulta que los científicos decidan qué método se debe utilizar para qué conjunto de datos en particular. Con base en los resultados presentados en este artículo, así como en [25], podemos concluir que la normalización afecta el análisis de expresión diferencial, por lo tanto, un aspecto importante es cómo elegir el método más sensible para los datos. En este artículo hemos demostrado que, dependiendo de la estructura de los datos, la influencia de la normalización difiere (ver Figuras 1 y 2 (d)). En nuestro trabajo hemos demostrado que en base a algunos de estos criterios la elección del método de normalización puede ser más adecuada y robusta y puede hacerse de forma más automática. Los coeficientes como el sesgo y la varianza se pueden considerar como criterios para una comparación de métodos de normalización. Vale la pena señalar que en nuestra investigación en la mayoría de los casos la inclusión de la normalización reduce los valores de sesgo y varianza en comparación con los datos brutos, lo que confirma la necesidad de normalización. Cuando las diferencias entre los valores de sesgo y varianza son significativas, el uso de rangos de estos valores refleja las diferencias reales con mayor precisión. Sin embargo, en nuestra investigación, las diferencias entre el sesgo y los valores de varianza obtenidos para todos los métodos en todos los conjuntos de datos son pequeñas. En tal caso, el uso de rangos no refleja las verdaderas diferencias entre los métodos y se necesitan criterios adicionales. Las parcelas de diagnóstico podrían servir como determinantes adicionales y pueden ser útiles para el rechazo de los métodos más punteros que evidentemente fallan. Nuestro estudio indica que el uso del método TMM en la mayoría de los casos se muestra mal. Esta conclusión no concuerda con la evaluación realizada por [26, 27]. Su estudio indicó que el uso del método TMM condujo a un buen desempeño en conjuntos de datos simulados. Una razón del desacuerdo de estos resultados puede deberse a diferentes enfoques de comparación y uso de criterios no considerados por otros autores. Otra razón de las diferencias en las conclusiones podría surgir del número de réplicas biológicas utilizadas en nuestro estudio o podría estar relacionada con los conjuntos de datos particulares utilizados en estos artículos.

Además, encontramos que otras conclusiones descritas en [26] son ​​consistentes con nuestros propios resultados. Estos resultados confirman los resultados satisfactorios del método DESeq. En la Tabla 7 presentamos el resumen de rangos para el conjunto de datos ALD. Es posible que la normalización de otros conjuntos de datos pueda producir resultados diferentes a los obtenidos con el conjunto de datos AML (en este artículo hemos demostrado que, dependiendo de la estructura de los datos, la influencia de la normalización difiere). En general, cada criterio propuesto en el documento se centra en diferentes aspectos de la comparación. Dependiendo de los objetivos principales de la investigación, algunos de los criterios podrían ser más útiles, por ejemplo, si el impacto radica en una buena predicción basada en genes elegidos, el aspecto importante serán los errores de predicción. Sin embargo, en algunos casos, los resultados de los criterios no son concluyentes. En tal situación, sugerimos la aplicación del siguiente flujo de trabajo para determinar qué método de normalización es óptimo para un conjunto de datos específico: (i) normalizar los datos utilizando métodos considerados, (ii) calcular el "sesgo" y la "varianza" y clasificar los métodos con base en estos valores, (iii) después de cada normalización realizar un análisis diferencial y determinar las listas DEG encontradas por cada método de normalización, (iv) seleccionar un subconjunto de genes que puedan servir como controles positivos y negativos para investigar la sensibilidad y especificidad de los métodos de normalización y clasificar los métodos en función de estos criterios, (v) calcular el porcentaje de la media de los errores de predicción obtenidos utilizando clasificadores elegidos para los DEG encontrados por cada método de normalización y clasificarlos, (vi) dibujar diagramas de Venn o diagramas de globo basados ​​en el número de genes expresados ​​diferencialmente y clasifique los métodos según el número de valores de DEG comunes, y (vii) según el resumen de rangos, elija la normalización más adecuada. thod del conjunto de datos investigados. Observamos aquí que el método de normalización puede influir en los resultados de la expresión, lo que lleva a un análisis DE erróneo, por lo que es muy importante esforzarse en esta etapa del análisis. Finalmente, queríamos llamar la atención sobre el hecho de que nuestro artículo no indica claramente qué método de normalización es el mejor, pero agrega una nueva mirada a cómo elegir la normalización para el análisis de datos de RNA-Seq para evitar análisis DE erróneos. Puede aplicarse no solo a métodos relacionados con la profundidad de secuenciación, sino que el algoritmo propuesto también es adecuado para comparar normalizaciones que tienen en cuenta otras fuentes de variación no deseada.

5. Conclusiones

En el estudio, se propusieron nuevos coeficientes como el sesgo y la varianza como criterios objetivos para una comparación de métodos de normalización. En conclusión, nuestros resultados sugieren que, dependiendo de la estructura de datos de RNA-seq y el método aplicado, la influencia de la normalización difiere. Sin embargo, los criterios presentados, en particular el sesgo y la varianza, pueden respaldar la elección del método de normalización óptimo para un conjunto de datos específico.

Conflicto de intereses

Los autores declaran que no existe ningún conflicto de intereses con respecto a la publicación de este artículo.

Expresiones de gratitud

Los autores desean agradecer al revisor la evaluación exhaustiva del artículo y sus valiosos comentarios. Este trabajo fue apoyado por el Ministerio de Ciencia y Educación Superior de la República de Polonia por el programa KNOW.

Materiales complementarios

En Materiales suplementarios proporcionamos detalles adicionales sobre los conjuntos de datos utilizados en la investigación presentada. Además, proporcionamos aquí resultados adicionales no incluidos en el texto principal para la comparación de los métodos de normalización, que incluyen otras fuentes de variación como el contenido de GC y la corrección por lotes.

Referencias

  1. S. Zhao, W.-P. Fung-Leung, A. Bittner, K. Ngo y X. Liu, "Comparación de RNA-Seq y microarrays en el perfil de transcriptomas de células T activadas", Más uno, vol. 9, no. 1, ID de artículo e78644, 2014. Ver en: Sitio del editor | Google Académico
  2. E. T. Wang, R. Sandberg, S. Luo et al., "Regulación alternativa de isoformas en transcriptomas de tejidos humanos", Naturaleza, vol. 456, no. 7221, págs. 470–476, 2008. Ver en: Sitio del editor | Google Académico
  3. Q. Pan, O. Shai, L. J. Lee, B. J. Frey y B. J. Blencowe, "Estudio profundo de la complejidad de empalme alternativo en el transcriptoma humano mediante secuenciación de alto rendimiento", Genética de la naturaleza, vol. 40, no. 12, págs. 1413–1415, 2008. Ver en: Sitio del editor | Google Académico
  4. W. M. Landau y P. Liu, "Estimación de la dispersión y su efecto en el rendimiento de la prueba en el análisis de datos de RNA-seq: una comparación de métodos basada en simulación", Más uno, vol. 8, no. 12, ID de artículo e81415, 2013. Ver en: Sitio del editor | Google Académico
  5. A. Mortazavi, B. A. Williams, K. McCue, L. Schaeffer y B. Wold, "Mapeo y cuantificación de transcriptomas de mamíferos por RNA-Seq", Métodos de la naturaleza, vol. 5, no. 7, págs. 621–628, 2008. Ver en: Sitio del editor | Google Académico
  6. A. Oshlack y M. J. Wakefield, "El sesgo de longitud de la transcripción en los datos de RNA-seq confunde la biología de sistemas", Biología Directa, vol. 4, artículo 14, 2009. Ver en: Sitio del editor | Google Académico
  7. J. K. Pickrell, J. C. Marioni, A. A. Pai et al., "Comprensión de los mecanismos subyacentes a la variación de la expresión génica humana con secuenciación de ARN", Naturaleza, vol. 464, no. 7289, págs. 768–772, 2010. Ver en: Sitio del editor | Google Académico
  8. D. Risso, K. Schwartz, G. Sherlock et al., "Normalización del contenido de GC para RNA-seq", Tech. Rep. 291, División de Bioestadística, Universidad de California, Berkeley, 2011. Ver en: Google Scholar
  9. J. T. Leek, R. B. Scharpf, H. C. Bravo et al., "Abordar el impacto generalizado y crítico de los efectos por lotes en datos de alto rendimiento", Nature Reviews Genética, vol. 11, no. 10, págs. 733–739, 2010. Ver en: Sitio del editor | Google Académico
  10. J. H. Bullard, E. Purdom, K. D. Hansen y S. Dudoit, "Evaluación de métodos estadísticos para la normalización y expresión diferencial en experimentos de mRNA-Seq", Bioinformática BMC, vol. 11, artículo 94, 2010. Ver en: Sitio del editor | Google Académico
  11. M. D. Robinson y A. Oshlack, "Un método de normalización a escala para el análisis de expresión diferencial de datos de RNA-seq", Biología del genoma, vol. 11, no. 3, artículo r25, 2010. Ver en: Sitio del editor | Google Académico
  12. M. D. Robinson, D. J. McCarthy y G. K. Smyth, "EdgeR: un paquete de bioconductores para el análisis de expresión diferencial de datos de expresión génica digital", Bioinformática, vol. 26, no. 1, págs. 139–140, 2010. Ver en: Sitio del editor | Google Académico
  13. S. Anders y W. Huber, "Análisis de expresión diferencial para datos de recuento de secuencias", Biología del genoma, vol. 11, no. 10, artículo R106, 2010. Ver en: Sitio del editor | Google Académico
  14. N. Leng, J. Dawson, J. Thomson et al., "EBSeq: un modelo jerárquico empírico de bayes para la inferencia en experimentos de RNA-seq", Tech. Rep. 226, Universidad de Wisconsin, 2012. Ver en: Google Scholar
  15. J. Li, D. M. Witten, I. M. Johnstone y R. Tibshirani, "Normalización, pruebas y estimación de la tasa de descubrimiento falso para datos de secuenciación de ARN", Bioestadística, vol. 13, no. 3, págs. 523–538, 2012. Ver en: Sitio del editor | Google Académico
  16. Y. W. Asmann, B. M. Necela, K. R. Kalari et al., "Detección de transcripciones de fusión redundantes como biomarcadores o dianas terapéuticas específicas de la enfermedad en el cáncer de mama", Investigación sobre el cáncer, vol. 72, no. 8, págs. 1921–1928, 2012. Ver en: Sitio del editor | Google Académico
  17. V. G. Cheung, R. R. Nayak, I. X. Wang et al., "Regulación polimórfica cis y trans de la expresión génica humana", Biología PLoS, vol. 8, no. 9, ID de artículo e1000480, 2010. Ver en: Sitio del editor | Google Académico
  18. A. C. Frazee, B. Langmead y J. T. Leek, "Recount: un recurso de múltiples experimentos de conjuntos de datos de recuento de genes RNA-seq listos para el análisis", Bioinformática BMC, vol. 12, artículo 449, 2011. Ver en: Sitio del editor | Google Académico
  19. C. Argyropoulos, A. A. Chatziioannou, G. Nikiforidis, A. Moustakas, G. Kollias y V. Aidinis, "Criterios operativos para seleccionar un algoritmo de normalización de datos de microarrays de ADNc", Informes oncológicos, vol. 15, no. 4, págs. 983–996, 2006. Ver en: Google Scholar
  20. B. Uszczynska, J. Zyprych-Walczak, L. Handschuh et al., "Análisis de matrices boutique: un método universal para la selección del procedimiento de normalización de datos óptimo", Revista Internacional de Medicina Molecular, vol. 32, no. 3, págs. 668–684, 2013. Ver en: Sitio del editor | Google Académico
  21. D. Chen, Z. Liu, X. Ma y D. Hua, "Selecting genes by test statistics", Revista de Biomedicina y Biotecnología, vol. 2005, no. 2, págs. 132-138, 2005. Ver en: Sitio del editor | Google Académico
  22. Equipo principal de desarrollo de R, R: un lenguaje y un entorno para la informática estadística, R Foundation for Statistical Computing, Viena, Austria, 2011.
  23. M. Goswami, N. Hensel, B. D. Smith et al., "Expresión de objetivos putativos de la inmunoterapia en leucemia mieloide aguda y tejidos sanos", Leucemia, vol. 28, no. 5, págs. 1167–1170, 2014. Ver en: Sitio para editores | Google Académico
  24. E. Eisenberg y E. Y. Levanon, "Human housekeeping genes, revisited", Tendencias en genética, vol. 29, no. 10, págs. 569–574, 2013. Ver en: Sitio del editor | Google Académico
  25. F. Seyednasrollah, A. Laiho y L. L. Elo, "Comparación de paquetes de software para detectar la expresión diferencial en estudios de RNA-seq", Sesiones informativas en bioinformática, vol. 16, no. 1, págs. 59–70, 2015. Ver en: Sitio del editor | Google Académico
  26. MAMÁ. Dillies, A. Rau, J. Aubert et al., "Una evaluación completa de los métodos de normalización para el análisis de datos de secuenciación de ARN de alto rendimiento de Illumina", Sesiones informativas en bioinformática, vol. 14, no. 6, págs. 671–683, 2013. Ver en: Sitio del editor | Google Académico
  27. E. Maza, P. Frasse, P. Senin, M. Bouzayen y M. Zouine, "Comparación de métodos de normalización para el análisis diferencial de la expresión génica en experimentos de RNA-Seq: una cuestión del tamaño relativo de los transcriptomas estudiados", Biología Comunicativa & # x26 Integrativa, vol. 6, no. 6, ID de artículo e25849, 2013. Ver en: Sitio del editor | Google Académico

Derechos de autor

Copyright & # xA9 2015 J. Zyprych-Walczak et al. Este es un artículo de acceso abierto distribuido bajo la licencia de atribución de Creative Commons, que permite el uso, distribución y reproducción sin restricciones en cualquier medio, siempre que el trabajo original se cite correctamente.


Métodos de análisis

C.B. Johansson,. K. Roeser, en Comprehensive Biomaterials, 2011

3.313.7.8.2 Expresión génica

Los análisis de expresión genética se están acercando al campo de la investigación de biomateriales. Los informes iniciales revelaron la posibilidad de estudiar la unión funcional y los mecanismos biológicos relacionados con los datos biomecánicos mediante la combinación de la información recopilada a partir de los resultados de la expresión génica de proteínas relacionadas con la remodelación ósea en el tejido recuperado. 65 Otros estudios de expresión génica en los que se han investigado tanto el implante como el tejido que rodea al implante revelan datos interesantes que aportarán importantes conocimientos al campo de la osteointegración que antes no eran posibles. 66 Otro estudio realizado recientemente implicó la eliminación de datos de torque junto con la cantidad de formación ósea y resorción ósea, así como genes inflamatorios tanto en el implante recuperado como en el tejido circundante. 41 En un estudio que comparó implantes maquinados (control) y pulidos con chorro de arena (prueba) colocados en el fémur de ratones, encontramos diferencias notables en la formación ósea histológicamente, y los resultados correspondientes del análisis de transferencia Northern mostraron una expresión significativamente mayor de ARNm de osteocalcina para el grupo de prueba ( Figura 12 ) (datos no publicados). Este campo de investigación está atrayendo ahora más atención y se espera que avance más. Una vez más, para poder realizar tantas pruebas como sea posible en la misma muestra, es necesario delinear un diseño de estudio cuidadoso antes de comenzar el estudio.

Figura 12. (a) Análisis de transferencia Northern de implantes mecanizados y pulidos con chorro de arena colocados en el fémur de ratón. Se siguió la expresión de ARNm de osteocalcina desde el día 1 hasta el día 7. (b) Sección de parafina teñida con HE (hematoxilina-eosina) correspondiente el día 3 y la semana 1 (día 7) para ambos grupos. El diámetro del implante está en milímetros.


Preguntas frecuentes sobre el paquete WGCNA

Esta página proporciona una lista de preguntas frecuentes y nuestras respuestas más frecuentes. Lea estos antes de enviarnos un correo electrónico sobre un problema. Esta pregunta frecuente se actualizó por última vez el 24 de diciembre de 2017.

Preguntas de análisis de datos

No recomendamos intentar WGCNA en un conjunto de datos que consta de menos de 15 muestras. En un entorno típico de alto rendimiento, las correlaciones en menos de 15 muestras serán simplemente demasiado ruidosas para que la red sea biológicamente significativa. Si es posible, uno debe tener al menos 20 muestras como con cualquier método de análisis, más muestras generalmente conducen a resultados más sólidos y refinados.

Los conjuntos de sondas o genes se pueden filtrar por expresión media o varianza (o sus análogos robustos tales como desviación absoluta mediana y mediana, MAD) ya que los genes de baja expresión o no variables generalmente representan ruido. Si es mejor filtrar por expresión media o por varianza es un tema de debate, ambos tienen ventajas y desventajas, pero lo que es más importante, tienden a filtrar conjuntos similares de genes ya que la media y la varianza suelen estar relacionadas.

Nosotros no recomiendan filtrar los genes por expresión diferencial. WGCNA está diseñado para ser un método de análisis no supervisado que agrupa genes en función de sus perfiles de expresión. El filtrado de genes por expresión diferencial conducirá a un conjunto de genes correlacionados que esencialmente formarán un módulo único (o unos pocos muy correlacionados). También invalida por completo la suposición de topología sin escala, por lo que la elección de la potencia de umbral suave mediante el ajuste de topología sin escala fallará.

  • Redes firmadas. La elección de redes firmadas o no firmadas es compleja, pero en general preferimos las redes firmadas (o "híbridas firmadas") a las no firmadas. Para construir redes firmadas, use el argumento tipo = "firmado" o tipo = "híbrido firmado" en funciones como precisionMeasures, adyacencia, elijaOneHubInEachModule, elijaTopHubInEachModule, más cercanoNeighborConnectivity, más cercanoNeighborConnectivityMS, orderBranchesUsingHubGenes, softConnectivity el archivo de ayuda y posiblemente otros en caso de duda). Algunas funciones usan el argumento tipo de red para seleccionar el tipo de red, los ejemplos notables son blockwiseModules, blockwiseConsensusModules, blockwiseIndividualTOMs, consensoTOM, intramodularConnectivity, modulePreservation, pickSoftThreshold, TOMsimilarityFromExpr, vectorTOM pero también hay otros. Nuevamente, lea el archivo de ayuda en caso de duda.
  • Correlación sólida. El método de correlación predeterminado en todas las funciones de WGCNA es la correlación estándar de Pearson. En general, a menos que exista una buena razón para creer que no hay mediciones atípicas, recomendamos (y usamos nosotros mismos) la correlación media de dos pesos como una alternativa sólida. Esto se implementa en la función bicor de WGCNA. Muchas funciones de WGCNA toman el argumento corFnc que permite especificar una función de correlación alternativa al estándar cor y bicor es una opción. Se pueden especificar argumentos adicionales a la función de correlación usando el argumento corOptions (dependiendo de la función, este argumento puede requerir una de dos formas alternativas; consulte la ayuda de cada función para obtener más detalles). En ciertas funciones, en particular las de la familia por bloques, la función de correlación no se puede especificar directamente como una función, sino que se debe usar el argumento corType para especificar la correlación media de Pearson o de dos pesos.

  • Restringir el número de valores atípicos excluidos: argumento maxPOutliers. La versión predeterminada de la correlación media de peso doble, descrita en Langfelder y Horvath (2011) (enlace al artículo), puede producir resultados no deseados cuando los datos tienen una distribución bimodal (p. Ej., Cuando la expresión de un gen depende en gran medida de una variable binaria como el estado de la enfermedad o el genotipo) o cuando una de las variables que entran en la correlación es en sí misma binaria (u ordinal). Por esta razón, recomendamos encarecidamente usar el argumento maxPOutliers = 0.05 o 0.10 siempre que se use la correlación media de peso doble. Este argumento esencialmente obliga a bicor a no considerar nunca más que la proporción especificada de muestras como valores atípicos.
  • Tratar con datos binarios. Cuando se relacionan los datos de alto rendimiento x con la variable binaria y, como los rasgos de muestra, se puede usar el argumento robustY = FALSE para desactivar el tratamiento robusto para el argumento y de bicor. Esto da como resultado una correlación híbrida robusta-Pearson como se describe en Langfelder y Horvath (2011). La correlación híbrida también se puede utilizar cuando una de las entradas es numérica pero se sabe que no tiene valores atípicos.

Si. En lo que respecta a WGCNA, trabajar con datos de secuencia de ARN (correctamente normalizados) no es realmente diferente de trabajar con datos de microarrays (normalizados correctamente).

Sugerimos eliminar las características cuyos recuentos son consistentemente bajos (por ejemplo, eliminar todas las características que tienen un recuento de menos de, digamos, 10 en más del 90% de las muestras) porque esas características de baja expresión tienden a reflejar ruido y correlaciones basadas en recuentos que son en su mayoría cero no son realmente significativos. Los umbrales reales deben basarse en el diseño experimental, la profundidad de secuenciación y los recuentos de muestras.

A continuación, recomendamos una transformación estabilizadora de la varianza. Por ejemplo, el paquete DESeq2 implementa la función varianceStabilizingTransformation que hemos encontrado útil, pero también se podría comenzar con recuentos normalizados (o datos RPKM / FPKM) y transformarlos mediante log2 (x + 1). Para características altamente expresadas, las diferencias entre la estabilización de la varianza completa y una transformación logarítmica simple son pequeñas.

Ya sea que se utilice RPKM, FPKM o simplemente recuentos normalizados no hace una gran diferencia para el análisis WGCNA siempre que se procesen todas las muestras. de la misma manera. Estos métodos de normalización marcan una gran diferencia si se quiere comparar la expresión del gen A con la expresión del gen B, pero WGCNA calcula correlaciones para las que los factores de escala genéticos no hacen ninguna diferencia. (Por supuesto, los factores de escalamiento de muestras sí, por lo que las muestras deben normalizarse).

Si los datos provienen de diferentes lotes, recomendamos verificar los efectos del lote y, si es necesario, ajustarlos. Usamos ComBat para la eliminación de efectos por lotes, pero otros métodos también deberían funcionar.

Finalmente, por lo general, verificamos los diagramas de dispersión de cuantiles para asegurarnos de que no haya cambios sistemáticos entre muestras si los cuantiles de muestra muestran correlaciones (lo que suele suceder), se puede utilizar la normalización de cuantiles para eliminar este efecto.

La heterogeneidad de los datos puede afectar cualquier análisis estadístico, y más aún uno no supervisado como WGCNA. Las modificaciones que se deben hacer al análisis, si las hay, dependen fundamentalmente de si la heterogeneidad (o su impulsor subyacente) se considera "interesante" para la pregunta que el analista está tratando de responder, o no. Si uno tiene suerte, el principal impulsor de las diferencias de la muestra es el tratamiento / condición que uno estudia, en cuyo caso WGCNA se puede aplicar a los datos tal cual. Desafortunadamente, a menudo los impulsores de heterogeneidad no son interesantes y deben ajustarse. Dichos factores pueden ser técnicos (efectos del lote, variables técnicas como el intervalo post-mortem, etc.) o biológicos (por ejemplo, diferencias de sexo, tejido o especies).

Si uno tiene una fuente categórica de variación (p. Ej., Diferencias de sexo o tejido) y el número de muestras en cada categoría es lo suficientemente grande (al menos 30, digamos) para construir una red en cada categoría por separado, puede valer la pena llevar a cabo un análisis del módulo de consenso (Tutorial II, ver Tutoriales de WGCNA). Debido a que este análisis construye una red en cada categoría por separado, la variación entre categorías no afecta el análisis.

Si se desea construir una sola red para todas las muestras, se deben ajustar las fuentes no deseadas o poco interesantes de gran variación en los datos. Para factores categóricos (ordinales) recomendamos utilizar la función ComBat (del paquete sva). Los usuarios que nunca hayan usado ComBat antes deben leer el archivo de ayuda de ComBat y trabajar con la viñeta sva (escriba viñeta ("sva") en el indicador R) para asegurarse de que usan ComBat correctamente.

Para fuentes continuas de variación (por ejemplo, intervalo post mórtem), se puede usar regresión lineal simple para ajustar los datos. Es posible que existan métodos más avanzados que también permitan el uso de covariables y protejan de la corrección excesiva.

Cualquiera que sea el método que se utilice, advertimos al usuario que la eliminación de fuentes de variación no deseadas nunca es perfecta y, en algunos casos, puede conducir a la eliminación de una verdadera señal interesante y, en casos raros, puede introducir una señal de asociación espuria. Por lo tanto, solo deben eliminarse las fuentes de variación relativamente grande.

Primero, el usuario debe asegurarse de que las variables (conjuntos de sondas, genes, etc.) no ha sido filtrado por expresión diferencial con respecto a un rasgo de muestra. Consulte el punto 2 anterior para obtener detalles sobre genes filtrantes o conjuntos de sondas beneficiosos y perjudiciales.

Si el índice de ajuste de topología sin escala no alcanza valores superiores a 0,8 para potencias razonables (menos de 15 para redes híbridas firmadas o sin firmar, y menos de 30 para redes firmadas) y la conectividad media sigue siendo relativamente alta (en cientos o más) , lo más probable es que los datos muestren un fuerte impulsor que hace que un subconjunto de las muestras sea globalmente diferente del resto. La diferencia provoca una alta correlación entre grandes grupos de genes, lo que invalida la suposición de la aproximación de topología libre de escala.

La falta de un ajuste de topología libre de escala por sí misma no invalida los datos, pero debe analizarse detenidamente. Siempre es útil trazar el árbol de agrupación de muestras y cualquier información de muestra técnica o biológica debajo de él, como en la Figura 2 del Tutorial I, sección 1, las agrupaciones fuertes en el árbol de agrupación indican grupos de muestras globalmente diferentes. Podría ser el resultado de un efecto técnico como un efecto de lote, heterogeneidad biológica (por ejemplo, un conjunto de datos que consta de muestras de 2 tejidos diferentes) o cambios fuertes entre las condiciones (por ejemplo, en una serie de tiempo). Se debe investigar cuidadosamente si existe heterogeneidad de la muestra, qué impulsa la heterogeneidad y si los datos deben ajustarse (ver punto anterior).

Si la falta de ajuste de topología libre de escala resulta ser causada por una variable biológica interesante que no se desea eliminar (es decir, ajustar los datos), se puede elegir la potencia de umbral suave adecuada en función del número de muestras. como en la tabla siguiente. Esta tabla se actualizó en diciembre de 2017 para que las redes resultantes sean conservadoras.

Número de muestras Redes híbridas firmadas y sin firmar Redes firmadas
Menos de 20 9 18
20-30 8 16
30-40 7 14
más de 40 6 12

Muchas de las funciones de WGCNA toman múltiples argumentos que controlan diversas sutilezas en la construcción de redes y la identificación de módulos. En general, intentamos proporcionar valores predeterminados que funcionen razonablemente bien en la mayoría de las situaciones comunes. Sin embargo, en algunos casos, con el tiempo, descubrimos que un entorno diferente es más apropiado. En la mayoría de los casos, mantenemos el antiguo valor predeterminado para la reproducibilidad.

Errores al ejecutar ejemplos de tutoriales

Este error casi siempre ocurre porque R no pudo cargar el paquete WGCNA. En R, escriba

Si obtiene un error en la función pickSoftThreshold, consulte el elemento 1 en Errores en tiempo de ejecución. De lo contrario, envíe un correo electrónico a Peter Langfelder. Ciertamente, es posible que los tutoriales aún contengan errores no descubiertos, o que nuestros cambios en el paquete o cambios en R hayan roto el tutorial ofensivo.

El culpable más probable es el tamaño de su conjunto de datos. En particular, las Secciones 2.a de los Tutoriales I y II asumen que tiene menos de 5000 sondas en su conjunto de datos. Si tiene más que eso, consulte la sección 2.c correspondiente (Manejo de grandes conjuntos de datos). Modifique el argumento maxBlockSize para que se adapte a las capacidades de su computadora; los detalles se describen en la Sección 2.c del tutorial correspondiente.

Errores de tiempo de ejecución

Aunque la mayoría de los procesadores modernos tienen varios núcleos, algunos entornos, sobre todo los clústeres (como los clústeres de Sun Grid Engine), solo tienen un núcleo de procesador disponible para cada proceso. Intentar iniciar varios subprocesos a menudo conduce a mensajes de error similares a este ejemplo: el subproceso 0 no se pudo iniciar correctamente. Código de error: 11.

Si esto sucede, desactive el enhebrado (por ejemplo, usando la función

Varios usuarios de Mac han informado errores de malloc como

R (9073,0xa013dfa0) malloc: *** mmap (tamaño = 95006720) falló (código de error = 12)
*** error: no se puede asignar la región
*** establecer un punto de interrupción en malloc_error_break para depurar

Por lo que sabemos, este es un mensaje espurio e inofensivo, y puede ser ignorado. Para todos los usuarios de Mac conocedores de C y gcc, si encuentran una causa y una solución, háganoslo saber.

  • Los datos contienen demasiadas entradas faltantes. Intentamos hacer que el código sea resistente a los datos faltantes, pero a veces nos perdemos algo. Como prueba, intente imputar los datos faltantes y ejecute una ejecución de prueba con datos imputados.
  • Los datos pueden contener muy pocas muestras o sondas.
  • Los datos de entrada no son numéricos. Este suele ser un problema sutil y difícil de detectar. Al leer datos de tablas de texto (archivos .txt separados por tabuladores o archivos .csv separados por comas), R puede convertir un marco de datos en una lista y / o convertir algunas columnas en un carácter o factor. Esto puede suceder, por ejemplo, porque los datos que faltan en su archivo de datos están codificados como NULL o N / A, mientras que R espera NA y todo lo demás se trata como una cadena de caracteres.Es mejor resolver estos problemas en la fuente, pero puede que no siempre sea posible y el usuario deberá ejecutar una versión de
  • Por último, pero no menos importante, sus datos pueden estar perfectamente bien pero no dar lugar a ningún módulo, o quizás solo a un módulo, y estos casos pueden no ser manejados correctamente por el código (es decir, el código tiene errores). Envíe un correo electrónico a Peter Langfelder si se encuentra en una situación de este tipo.

Algunos errores pueden deberse a la conversión entre matrices y marcos de datos. Para la mayoría de los propósitos, un data.frame y una matriz son equivalentes y muchas funciones se ejecutarán con ambos tipos de argumentos. Una gran excepción es el manejo de los nombres de las columnas. Si bien los nombres de columna de las matrices son bastante arbitrarios, los nombres de columna de los marcos de datos deben comenzar con una letra, un guión bajo o un punto. Esto puede ser un problema si, por ejemplo, los datos de expresión se almacenan en una matriz y los identificadores del conjunto de sondas comienzan con un número, por ejemplo, "1552612_at". Cuando se convierte a un marco de datos, R antepondrá una "X" a cada nombre de columna no válido, haciendo que el ejemplo sea "X1552612_at". Tales cambios pueden causar errores, por ejemplo, en la función plotNetworkHeatmap y otros.

Hemos recibido informes dispersos de fallos en Mac OSX 10.6.x (los sistemas 10.5.x no presentan este error). Los síntomas son varios fallos graves (congelación, fallos de segmentación y similares) que ocurren cuando se intenta ejecutar casi cualquier cosa después de cargar la versión 1.00 del paquete WGCNA y anteriores. El culpable resultó estar equivocado y / o Tcl / Tk instalado incorrectamente. Por esta razón, hemos eliminado la dependencia Tcl / Tk a partir de la versión 1.10 de WGCNA. Instale la nueva versión. Si sus problemas persisten, póngase en contacto con Peter Langfelder.

Problemas de instalación

Antes de dedicar tiempo a intentar resolver un problema de instalación con el paquete descargado, considere instalar el paquete desde CRAN. Entendemos que actualizar R puede parecer un poco complicado, pero al final vale la pena.

A partir de la versión R 2.14.0, el paquete impute se ha retirado de CRAN y ahora está disponible exclusivamente en Bioconductor. Para instalarlo, escriba las siguientes líneas en una sesión de R:

Esto debería instalar el paquete, pero esté atento a los errores que puedan surgir.

Una causa común de este error es que cuando el usuario guarda el archivo, el sistema operativo lo descomprime o descomprime. Por lo general, esto significa que el paquete .zip o .tar.gz se descomprime y extrae, lo que deja el archivo inutilizable para R. Por ejemplo, Mac OS X parece descomprimir automáticamente el archivo comprimido con gzip. La solución es guardar el archivo en el disco como está, sin permitir que ningún programa como WinZip lo toque. R descomprimirá y descomprimirá el paquete. En una Mac, es posible que deba abrir una terminal, cambiar al directorio donde guardó el archivo y escribir

La mejor solución es actualizar su R a la versión más reciente, luego simplemente ejecute R y use el comando install.packages ("WGCNA"). Si por alguna razón no puede o no desea actualizar su R, consulte las instrucciones de instalación y asegúrese de tener instaladas las herramientas XCode necesarias.

Algunos usuarios han informado que también es necesario un paquete llamado gfortran.pkg. Esta puede ser una nueva característica de R a partir de la versión 2.9.0.

Actualizar: A partir de la versión 1.10, WGCNA no requiere qvalue. Instale la versión más reciente de WGCNA, esto debería solucionar todos los problemas de instalación de Tcl / Tk y qvalue.

Problemas de compatibilidad de versiones

Preguntas generales

Al construir una red a partir de un conjunto de datos de un tamaño genómico típico (es decir, entre 10000 y 30000 genes u otras variables), el paso que consume más tiempo es el cálculo de la matriz de superposición topológica, que implica multiplicar matrices con decenas de miles de filas. y columnas. Con una distribución R estándar, esto puede llevar varias horas incluso en una estación de trabajo moderna, ya que la multiplicación de matrices en R estándar no aprovecha el subproceso múltiple (ejecución en paralelo). Es posible acelerar este proceso en un factor de 10-100 instalando una biblioteca de Subprogramas de Álgebra Lineal Básica (BLAS) optimizada para la velocidad y compilando R contra ella. El proceso de compilación de R contra una biblioteca BLAS mejorada se describe en el manual de instalación y administración de R. La compilación de R en Linux y Unix suele ser relativamente simple y directa. En Mac OSX y (más aún) en Windows, requiere la instalación de herramientas y paquetes adicionales. Aunque es útil tener privilegios de administrador para compilar e instalar R, generalmente no es necesario. Consulte el manual de instalación y administración de R para obtener todos los detalles.

Parte del código WGCNA está escrito para aprovechar la ejecución en paralelo para acelerar los cálculos. Hay dos mecanismos principales de cálculo en paralelo que utiliza WGCNA: las funciones compiladas cor y bicor utilizan subprocesos POSIX para una parte, pero no para todo el cálculo. Este código paralelo solo está disponible en plataformas que tienen subprocesos POSIX disponibles (varios tipos de Linux y Unix y Mac OS). No está disponible en Windows. Algunas funciones (como pickSoftThreshold) pueden usar subprocesos POSIX donde están disponibles y usan clústeres de SNOW donde el subproceso múltiple no está disponible. Los usuarios deben tener en cuenta que POSIX y la ejecución en paralelo del clúster son muy diferentes y no son intercambiables; de hecho, muchos entornos de clúster solo asignan un único núcleo a cada proceso ("trabajo") e intentar iniciar subprocesos adicionales genera errores (consulte Errores en tiempo de ejecución). debajo).

    Dentro de R, llame a la función

por ejemplo, si tiene 2 núcleos (o desea utilizar 2 núcleos),

Tenga en cuenta que esta configuración no afecta el estado de subprocesos múltiples de la biblioteca BLAS subyacente.


Fondo

La reacción cuantitativa en cadena de la polimerasa con transcriptasa inversa (qRT-PCR) se ha convertido en un método de elección para estudios de expresión génica en muestras clínicas, especialmente para dianas de interés con pocas copias y para muestras de tamaño limitado [1-3]. En comparación con los microarrays [4], qRT-PCR se beneficia de un amplio rango dinámico, sensibilidad y permite una cuantificación precisa [5, 6].

Sin embargo, para cuantificar con precisión los cambios en el nivel de expresión de los genes diana mediante qRT-PCR, se debe aplicar la normalización de la heterogeneidad en las muestras clínicas y también de la variabilidad introducida durante la extracción de ARN y la síntesis de ADNc [1, 7]. Además de la normalización al tamaño de la muestra y el ARN total, la normalización utilizando genes de referencia endógenos representa un enfoque relevante [3]. Idealmente, los genes de referencia deberían expresarse constitutivamente por todos los tipos de células y no deberían verse afectados por enfermedades ni por procedimientos experimentales. Hasta la fecha, todavía no se ha identificado un gen de referencia universal. Los genes de mantenimiento (HKG) son los genes de referencia más utilizados [1]. Aunque los HKG son expresados ​​por cualquier célula, su expresión varía entre diferentes tipos de células / órganos [8, 9]. Por tanto, debería validarse el uso de HKG como genes de referencia para un tipo de muestra particular.

Hasta ahora, solo se han validado unos pocos genes de referencia para células del compartimento respiratorio, específicamente GNB2L1 fue validado para macrófagos broncoalveolares en pacientes con enfermedad pulmonar obstructiva crónica (EPOC) [10] y GAPDH (gliceraldehído-3-fosfato deshidrogenasa) para células no pequeñas. cáncer de pulmón [11]. La mayoría de los estudios publicados sobre qRT-PCR en entornos pulmonares utilizan un enfoque general de normalización frente a GAPDH o ACTB (beta-actina) [12-16]. Sin embargo, estos genes de referencia "tradicionales" ya se han encontrado inadecuados para normalizar los niveles de ARNm en las vías respiratorias asmáticas [17, 18] y también para estudios de expresión que emplean macrófagos broncoalveolares [10].

Con el fin de identificar genes de referencia adecuados para la normalización de qRT-PCR en el entorno del compartimento broncoalveolar, nuestro objetivo, por lo tanto, fue identificar HKG con la expresión de ARNm más estable en células broncoalveolares (BAL). Nuestra elección de HKG candidatos se basó en 1) su uso común en experimentos previos de qRT-PCR (ACTB, GAPDH, G6PD), 2) expresión estable en diferentes tejidos humanos en experimentos de microarrays (ARF1, CANX, GPS1, PSMB2, PSMD2) [ 8, 9] y 3) expresión estable en macrófagos broncoalveolares y neutrófilos periféricos (GNB2L1, RPL32) [10, 19]. Para tener en cuenta las variaciones del perfil celular BAL en diferentes enfermedades respiratorias, estudiamos la estabilidad de la expresión de ARNm de HKG en setenta y un sujetos en un espectro de patologías pulmonares. Además del perfil celular BAL y el tipo de patología pulmonar, se investigaron cuatro variables por su posible influencia en la expresión del ARNm de los HKG estudiados: tabaquismo, sexo, tratamiento y edad. Además, la estabilidad de la expresión del ARNm de los diez HKG se validó en la segunda cohorte de BAL independiente que consta de diecisiete sujetos de control y sesenta y tres pacientes con sarcoidosis, con especial énfasis en los subgrupos de pacientes. Finalmente, mediante la investigación de la expresión de ARNm de dos citocinas conocidas asociadas con la sarcoidosis, INFG (interferón gamma) y CCL2 / MCP-1, proporcionamos evidencia práctica de que la normalización con genes de referencia validados en muestras clínicas es un requisito previo absoluto para obtener información válida clínicamente imparcial. de qRT-PCR.


Recuadro 1: Comparaciones de microarrays y secuenciación para análisis de expresión génica

Se han realizado ahora varias comparaciones de datos de microarrays y RNA-seq. Estos incluyen demostraciones de prueba de principio de la plataforma de secuenciación [2, 31, 32], estudios de comparación dedicados [34, 75–77] y desarrollo de metodología de análisis [10]. Los resultados son unánimes: la secuenciación tiene una mayor sensibilidad y rango dinámico, junto con una menor variación técnica. Además, las comparaciones han destacado una fuerte concordancia entre microarrays y secuenciación en medidas de expresión tanto absoluta como diferencial. Sin embargo, los microarrays han tenido, y siguen siendo, un gran éxito en el interrogatorio del transcriptoma en muchos entornos biológicos. Los ejemplos incluyen definir la célula de origen para los subtipos de cáncer de mama [78] e investigar el efecto de la evolución en la expresión génica en Drosophila [79].

Los microarrays y la secuenciación tienen sus propios sesgos específicos que pueden afectar la capacidad de una plataforma para medir DE. Es bien sabido que la hibridación cruzada de sondas de microarrays afecta las medidas de expresión de una manera no uniforme [80, 81] y el contenido de la secuencia influye en las intensidades de las sondas medidas [82]. Mientras tanto, varios estudios han observado un sesgo de GC en los datos de RNA-seq [45] y RNA-seq puede sufrir ambigüedad en el mapeo de secuencias paralogous. Además, existe un poder estadístico más alto para detectar cambios en recuentos más altos (por ejemplo, una diferencia doble de 200 lecturas a 100 lecturas es estadísticamente más significativa que 20 lecturas a 10, bajo la hipótesis nula de ninguna diferencia) este sesgo típicamente se manifiesta en RNA-seq como una asociación entre la DE y la longitud del gen, un efecto que no está presente en los datos de microarrays [66, 68]. Otros estudios indican que los protocolos de secuenciación específicos producen sesgos en las lecturas generadas, que pueden estar relacionados con la composición de la secuencia y la distancia a lo largo de la transcripción [49, 50, 83, 84]. Por ejemplo, se ha descubierto que la preparación de bibliotecas para ARN pequeños afecta fuertemente al conjunto de secuencias observadas [85]. Además, los enfoques de ensamblaje del transcriptoma están necesariamente sesgados por el nivel de expresión porque hay menos información disponible para los genes expresados ​​en un nivel bajo [11, 14]. Muchos de estos sesgos aún se están explorando y los métodos estadísticos inteligentes que aprovechan este conocimiento pueden proporcionar mejoras en los métodos existentes.

Además del mayor rango dinámico y sensibilidad de RNA-seq, varios factores adicionales han contribuido a la rápida captación de secuenciación para análisis de expresión diferencial. Primero, los microarrays simplemente no están disponibles para muchos organismos no modelo (por ejemplo, Affymetrix ofrece microarrays para aproximadamente 30 especies [86]). Por el contrario, los genomas y la información de secuencias están disponibles para miles de especies [87]. Además, incluso cuando no se dispone de genomas, la secuencia de ARN se puede realizar y el transcriptoma aún se puede interrogar (por ejemplo, un estudio reciente utilizó la secuencia de ARN para investigar el origen celular del tumor facial del diablo de Tasmania [88]). En segundo lugar, la secuenciación ofrece un detalle sin precedentes sobre las características transcripcionales que las matrices no pueden, como nuevas regiones transcritas, expresión específica de alelos, edición de ARN y una capacidad integral para capturar empalmes alternativos. Por ejemplo, un estudio reciente de RNA-seq [11] pudo mostrar varios ejemplos de cambio de isoformas durante la diferenciación celular, y se utilizó RNA-seq para mostrar la expresión del padre de origen en el cerebro de ratón [5].

La secuenciación no está exenta de desafíos, por supuesto. El costo de la plataforma puede ser limitante para algunos estudios. Sin embargo, con la expansión de la capacidad total de secuenciación y la capacidad de multiplexación, el costo por muestra para generar suficiente profundidad de secuencia pronto será comparable al de los microarrays. Sin embargo, el costo de la informática para almacenar, procesar y analizar los datos es sustancial [89]. Los investigadores con acceso limitado al personal y los recursos informáticos pueden optar por utilizar microarrays porque los procedimientos de análisis de datos son relativamente maduros. Por último, está claro que las metodologías de análisis de datos para secuenciar datos seguirán evolucionando durante algún tiempo.


Validación de Tuba1a como control interno apropiado para la normalización del análisis de expresión génica durante el desarrollo pulmonar del ratón

La relación de expresión entre el gen analizado y un gen de control interno es el método de normalización más utilizado para el análisis de la expresión de RT-PCR cuantitativa (qRT-PCR). El gen de referencia ideal para un experimento específico es aquel cuya expresión no se ve afectada por las diferentes condiciones experimentales probadas. En este estudio, validamos la aplicabilidad de cinco genes de referencia de uso común durante diferentes etapas del desarrollo pulmonar del ratón. La estabilidad de la expresión de cinco genes de referencia diferentes (Tuba1a, Actb Gapdh, Rn18S e Hist4h4) se calculó en cinco grupos experimentales utilizando el algoritmo estadístico del software geNorm. En general, Tuba1a mostró la menor variabilidad en la expresión entre las diferentes etapas del desarrollo pulmonar, mientras que Hist4h4 y Rn18S mostraron la máxima variabilidad en su expresión. El análisis de expresión de dos marcadores específicos de pulmón, la proteína tensioactiva C (SftpC) y la proteína de 10 kDA específica de la célula Clara (Scgb1a1), normalizados a cada uno de los cinco genes de referencia probados aquí, confirmó nuestros resultados y mostró que la elección incorrecta del gen de referencia puede conducir a artefactos. Además, una combinación de dos controles internos para la normalización del análisis de expresión durante el desarrollo pulmonar aumentará la precisión y fiabilidad de los resultados.

Cifras

Estructura genética de marcadores comúnmente ...

Estructura genética de los marcadores que se utilizan comúnmente como controles internos para el análisis de expresión durante ...

Caracterización de pares de cebadores diseñados ...

Caracterización de pares de cebadores diseñados para análisis de expresión del control interno durante…

Identidad de secuencia del PCR ...

Identidad de secuencia de los productos de PCR para los cinco genes de referencia evaluados en…

Análisis de expresión del interno ...

Análisis de expresión de los genes de control interno evaluados en este estudio durante diferentes…

Cálculo de la estabilidad de expresión promedio ...

Cálculo de la estabilidad de expresión promedio y el coeficiente de variación por pares para cada uno de los…

Análisis de expresión de dos celdas ...

Análisis de expresión de dos marcadores de linaje celular durante el desarrollo del pulmón de ratón utilizando diferentes ...

Análisis de expresión de dos celdas ...

Análisis de expresión de dos marcadores de linaje celular durante el desarrollo del pulmón de ratón utilizando un ...


Métodos

Preparación de muestras de plantas

Una línea endogámica diploide estándar de la comunidad de Brachypodium distachyon, Bd21, se utilizó para todos los tratamientos experimentales. La pálea y la lemma se despegaron cuidadosamente de las semillas maduras con unas pinzas finas. Las semillas despojadas se esterilizaron sumergiéndolas en una solución de lejía doméstica al 10% (NaOCl al 5,25%) suplementada con Tween 20 al 0,1% durante 10 min con oscilación ocasional. Las semillas esterilizadas se enjuagaron minuciosamente tres veces con agua bidestilada estéril y se colocaron en placas de agar Murashige y Skoog (MS) (en adelante placas de agar MS) (4,3 g / l de sales MS con vitaminas, sacarosa al 3%, pH 5,8, y 0,4% de fitagel). Las semillas se trataron en frío a 4 ° C durante 2 días para sincronizar la germinación y se dejaron germinar en una sala de cultivo controlada a 25 ° C con un ciclo fotoperiódico diario de 16 h de luz y 8 h de oscuridad.

Se utilizaron plantas de Brachypodium de cuatro semanas para tratamientos con hormonas de crecimiento y estrés abiótico. Las muestras de plantas recolectadas se congelaron en nitrógeno líquido y se almacenaron a -80 ° C hasta la extracción del ARN. Para los estudios de expresión génica en diferentes tejidos vegetales, se recolectaron tejidos vegetales apropiados de plantas completamente desarrolladas de 5 semanas de edad. Para los estudios de expresión génica en diferentes etapas de desarrollo, las plantas se cosecharon a los 7 días después de la germinación (DAG) (fase vegetativa temprana), 12 (fase vegetativa tardía), 20 (fase de transición) y 30 (fase reproductiva) (ver archivo adicional 2 ).

Hormonas de crecimiento y estrés abiótico.

Para los tratamientos con hormona del crecimiento, se transfirieron plantas de Brachypodium de 4 semanas a los cultivos líquidos MS suplementados con IAA (50 μM), brassinolida (BL, 50 μM), zeatina (50 μM), ABA (100 μM), GA (50 μM) μM), ácido 1-aminociclopropano-1-carboxílico (ACC, 50 μM), SA (100 μM) o con MeJA (100 μM) y se incubó durante 5 h con agitación suave. Las plántulas simuladas se incubaron de manera similar en un líquido MS pero sin añadir hormonas de crecimiento.

Para los tratamientos de estrés por sequía y sal, las plantas de Brachypodium de 4 semanas de edad se transfirieron a los cultivos líquidos MS suplementados con NaCl 300 mM o con manitol 400 mM, respectivamente, y se agitaron suavemente durante 5 h. Para los tratamientos de frío y calor, las plántulas se incubaron a 4 ° C durante 5 ho 42 ° C durante 2 h, respectivamente.

Selección de genes de referencia potenciales en Brachypodium

Para identificar posibles homólogos de Brachypodium de los genes de Arabidopsis o de arroz comúnmente utilizados como controles internos para estudios de expresión génica, consultamos la versión 0.52 del software HarvEST: Brachypodium http://harvest-web.org, que muestra 6 bibliotecas diferentes de Brachypodium. Todas las secuencias de genes se obtuvieron de la base de datos dbEST de GenBank. El software HarvEST: Brachypodium contiene los mejores resultados de BLASTX de UniProt y los genomas de arroz y Arabidopsis (TIGR versión 5, febrero de 2007, y TAIR versión 7, abril de 2007, respectivamente).

HarvEST es principalmente un software de visualización de bases de datos EST que enfatiza la función genética y está orientado a la genómica comparativa y al diseño de oligonucleótidos, con el objetivo de apoyar diversas actividades de investigación, como diseño de contenido de microarrays, anotación funcional y mapeo físico y genético http: //harvest.ucr.edu. HarvEST: Brachypodium es la base de datos EST más reciente y estandarizada para Brachypodium y, por lo tanto, puede usarse para examinar alineaciones de secuencias y determinar dónde se desvían de manera confiable las secuencias individuales de una secuencia de consenso.

Se utilizaron tecnologías ecológicamente racionales de Brachypodium seleccionadas de genes de referencia potenciales para diseñar cebadores. Se diseñó un conjunto de cebadores de qRT-PCR con alta eficiencia para nueve genes de referencia individuales utilizando el software Primer3 (versión 0.4.0) [24]. Los cebadores se diseñaron para tener temperaturas de fusión en un rango de 50 a 60 ° C, dependiendo de los genes individuales. Sus secuencias se resumen en el archivo adicional 1.

Extracción de ARN total y síntesis de ADNc primario

El ARN total se extrajo de las muestras de plantas apropiadas utilizando el mini kit RNeasy Plant (Qiagen, Valencia, CA) de acuerdo con el procedimiento del fabricante. La calidad e integridad de las muestras de ARN se evaluaron mediante mediciones de absorbancia y mediante análisis electroforético utilizando el Programa de análisis y adquisición de imágenes Labwork (Media Cybernetics, San Diego, CA). Todas las muestras de ARN utilizadas en las reacciones qRT-PCR mostraron una relación de absorbancia de 260/280 nm de 1.8 - 2.2. Las muestras de ARN con una proporción de ≈ 2 generalmente están calificadas para reacciones enzimáticas posteriores. Antes de la RT-PCR y la qRT-PCR, las muestras de ARN total se pretrataron con una ADNasa I libre de ARNasa para eliminar cualquier ADN genómico contaminante. El ADNc primario se sintetizó a partir de aproximadamente 3 μg de ARN total utilizando el sistema de síntesis de primera cadena MMLV (Promega, Madison, WI) y los cebadores oilgo-dT y aleatorios en un volumen de reacción de 40 μl de acuerdo con el procedimiento del fabricante.

Para descartar cualquier contaminación de ADN genómico en las preparaciones de ARN, las muestras de ARN y el ADN genómico se sometieron en paralelo a amplificaciones por PCR del ARR4 y GAPDH Se compararon las secuencias de genes (30 ciclos) y los productos de la PCR. No se detectaron amplificaciones visibles de ADN genómico de las muestras de ARN (consulte el archivo adicional 15).

RT-PCR y qRT-PCR

Se tomó un μl de la mezcla de reacción de síntesis de ADNc primario para la posterior amplificación por PCR mediante RT-PCR o qRT-PCR. Los ciclos de RT-PCR se llevaron a cabo de forma rutinaria durante 20 a 35 ciclos, dependiendo del rango lineal de amplificación por PCR para cada gen. Cada ciclo de PCR incluyó incubaciones a 94 ° C durante 30 s, a 55 ° C durante 1 min y a 72 ° C durante 5 min. Se ejecutó un ciclo adicional a 72 ° C durante 10 minutos después del último ciclo para permitir el recorte de polimerizaciones incompletas. Los genes de control positivos y negativos se incluyeron en los conjuntos de reacción para garantizar la viabilidad de las condiciones del ensayo. Los cebadores de RT-PCR utilizados se enumeran en el archivo adicional 1.

Las reacciones qRT-PCR se llevaron a cabo en bloques de 96 pocillos con un Applied Biosystems 7500 Real-Time PCR System utilizando la mezcla maestra SYBR Green I en un volumen de reacción de 25 μl, que contiene 1 μl de la mezcla de reacción de ADNc primario, 2X SYBR Green PCR Master Mix (Applied Biosystems, Foster City, CA) y un par de cebadores. Los cebadores utilizados se enumeran en el archivo adicional 1. El perfil de ciclo térmico de dos pasos utilizado fue de 15 sa 95 ° C y 1 min a 60 ° C. Todas las reacciones de qRT-PCR se llevaron a cabo en duplicados biológicos, cada uno de los cuales se utilizó para la extracción de ARN seguida de qRT-PCR por triplicado. El ciclo de umbral final (Ct) los valores fueron la media de seis valores (duplicados biológicos, cada uno con triplicado). El comparativo ΔΔCt Se utilizó el método para evaluar las cantidades relativas de cada producto amplificado en las muestras. La Ct se determinó automáticamente para cada reacción mediante el conjunto del sistema de PCR en tiempo real 7500 de Applied Biosystems con los parámetros predeterminados. La especificidad de las reacciones qRT-PCR se determinó mediante el análisis de la curva de fusión de los productos amplificados utilizando el método estándar instalado en el sistema.

Cada conjunto de reacción qRT-PCR incluía un control negativo con agua en lugar de cDNA. Se promediaron las mediciones duplicadas y los valores medios se utilizaron para cálculos adicionales.

Determinación de la estabilidad de expresión de genes de referencia

La estabilidad de expresión de cada gen de referencia se analizó utilizando los paquetes de software geNorm (versión 3.5) y NormFinder (versión 0.953), que también están integrados en el software GenEx (versión 4.3.5, http://www.multid.se). El software geNorm calcula la estabilidad de la expresión génica (M) para un gen de referencia como la variación media por pares V para el gen con todos los demás genes de referencia probados. La exclusión gradual del gen con el valor M más alto permite clasificar los genes probados según la estabilidad de sus patrones de expresión.

El software NormFinder es un algoritmo para identificar el gen de normalización óptimo entre un conjunto de genes candidatos. Clasifica el conjunto de genes de normalización candidatos de acuerdo con la estabilidad de sus patrones de expresión en un conjunto de muestras dado bajo un diseño experimental dado. Por lo tanto, puede analizar los datos de expresión obtenidos a través de cualquier método cuantitativo, como qRT-PCR y perfiles de expresión basados ​​en microarrays. El valor de estabilidad más bajo representa la expresión génica más estable dentro del conjunto de genes examinado.


Ver el vídeo: 12 Expresión Génica (Enero 2022).