Información

¿Cómo podría identificar si los datos de RNA-seq dados son un extremo emparejado o un extremo único?


Necesito tener un conjunto de datos RNA-Seq y, por lo tanto, he visitado el siguiente sitio NCBI-geo C. Elegans

En la parte del archivo complementario, hice clic en el SRP / SRP051 / SRP051702 ftp y descargado sra expediente. Entonces necesito convertirlo al formato de archivo fastq. Para este propósito, he escuchado que existe un sra-toolkit y dentro de él hay fastq-dump exacutable. Sin embargo, para usarlo, primero tengo que averiguar si mi archivo sra contiene datos de lectura de un solo extremo o de un extremo emparejado. Entonces, mi pregunta es ¿cómo podría saber el tipo de lecturas en el conjunto de datos (en el primer enlace)?

Sin ninguna información, usé --split_files Bandera de fastq-dump exacutable y generó dos 14 Gb (ambos son exactamente 14.346.367.840 bytes) archivos y su nombre son SRR1741330_1.fastq y SRR1741330_2.fastq ¿Significa que mi conjunto de datos está emparejado?

Como otra pregunta (diferente pero relacionada con la parte 1). En el archivo SRR1741330_1.fastq, en algunas líneas, las secuencias contienen diferentes caracteres como CCCFFFFFGFHHHGJJJJI # 1? FEIGGI… Antes de examinar estos archivos, he pensado que estas líneas de secuencia solo deberían contener las letras A, G, T y C. ¿Qué son estos F, H, J, I, # ,? etc ...

Mis preguntas pueden ser triviales y sin sentido, pero como soy una persona totalmente nueva en esta área, no podía entenderlas.

EDITAR

Nueva pregunta

Me pregunto una cosa más, ya que está relacionada con la parte anterior de mi pregunta, la hice aquí en lugar de crear una nueva pregunta. Después de generar el archivo fastq con el ejecutable dump_fastq, todas las secuencias tienen una longitud de 50. ¿Se debe a los parámetros del ejecutable dump_fastq o está relacionado con el archivo sra original? En otras palabras, ¿podría aumentar esta longitud?


Para saber si un conjunto de datos era de un extremo o de un extremo emparejado, vaya a SRA, haga clic en una ejecución y busque en "Biblioteca". Los conjuntos de datos de extremo emparejado normalmente tendrán "Diseño: emparejado". Tenga en cuenta que las personas no siempre marcan esto correctamente, lo que causa un sinfín de dolores de cabeza.

Con respecto a líneas como "CCCFFFFFGFHHHGJJJJI # 1? FEIGGI", esa es la línea de puntuación de calidad. Consulte el artículo de fastq en wikipedia para obtener más detalles.

Editar: Con respecto a la parte actualizada de su pregunta, no, no puede aumentar esta longitud. Las secuencias producidas por las máquinas Illumina tienen una longitud fija y esa longitud (o la longitud que se envió) es lo que está obteniendo. Como regla general, obtendrá cualquier secuencia que se haya actualizado (a menos que olvide la opción --split3 (o como se llame)).


FusionSeq: un marco modular para encontrar fusiones de genes mediante el análisis de datos de secuenciación de ARN de extremos emparejados

Hemos desarrollado FusionSeq para identificar transcripciones de fusión a partir de secuenciación de ARN de extremos emparejados. FusionSeq incluye filtros para eliminar fusiones candidatas falsas con artefactos, como desalineación o emparejamiento aleatorio de fragmentos de transcripción, y clasifica a los candidatos según varias estadísticas. También tiene un módulo para identificar secuencias exactas en uniones de puntos de interrupción. FusionSeq detectó fusiones nuevas y conocidas en un conjunto de datos de calibración secuenciado especialmente, incluidos ocho cánceres con y sin reordenamientos conocidos.


El diseño es un paso fundamental de un experimento de RNA-Seq en particular. Algunas preguntas importantes como la profundidad / cobertura de la secuencia o cuántas réplicas biológicas o técnicas deben considerarse cuidadosamente. Revisión de diseño. [5]

  • ADECUADO : Evaluación de potencia PROspectiva para RNAseq.
  • ARNtor Aplicación de Android para calcular parámetros óptimos para herramientas y kits populares disponibles para proyectos de secuenciación de ADN.
  • Scotty : una herramienta web para diseñar experimentos de RNA-Seq para medir la expresión diferencial de genes.
  • ssizeRNA Cálculo del tamaño de la muestra para el diseño experimental de RNA-Seq.

La evaluación de la calidad de los datos brutos [6] es el primer paso del proceso bioinformático de RNA-Seq. A menudo, es necesario filtrar datos, eliminando secuencias o bases de baja calidad (recorte), adaptadores, contaminaciones, secuencias sobrerrepresentadas o corrigiendo errores para asegurar un resultado final coherente.

Control de calidad Editar

  • AfterQC - Filtrado, recorte, eliminación de errores y control de calidad automáticos para datos fastq.
  • dupRadar[7] Un paquete R que proporciona funciones para trazar y analizar las tasas de duplicación que dependen de los niveles de expresión.
  • FastQC es una herramienta de control de calidad para datos de secuencia de alto rendimiento (Babraham Institute) y está desarrollada en Java. La importación de datos es posible desde archivos FastQ, formato BAM o SAM. Esta herramienta proporciona una descripción general para informar sobre áreas problemáticas, gráficos de resumen y tablas para una evaluación rápida de los datos. Los resultados se presentan en informes permanentes HTML. FastQC se puede ejecutar como una aplicación independiente o se puede integrar en una solución de canalización más grande.
  • fastqp Evaluación de calidad simple de FASTQ usando Python.
  • Kraken: [8] Un conjunto de herramientas para el control de calidad y el análisis de datos de secuencia de alto rendimiento.
  • HTSeq . [9] El script de Python htseq-qa toma un archivo con lecturas secuenciales (lecturas sin procesar o alineadas) y produce un archivo PDF con gráficos útiles para evaluar la calidad técnica de una ejecución.
  • mRIN[10] - Evaluación de la integridad del ARNm directamente a partir de los datos de RNA-Seq.
  • MultiQC[11] - Agregue y visualice resultados de numerosas herramientas (FastQC, HTSeq, RSeQC, Tophat, STAR, otros ..) en todas las muestras en un solo informe.
  • NGSQC: canalización de análisis de calidad multiplataforma para datos de secuenciación profunda.
  • Kit de herramientas de control de calidad de NGS Un conjunto de herramientas para el control de calidad (QC) de los datos de secuenciación de próxima generación (NGS). El conjunto de herramientas comprende herramientas independientes fáciles de usar para el control de calidad de los datos de secuencia generados con las plataformas Illumina y Roche 454 con resultados detallados en forma de tablas y gráficos, y filtrado de datos de secuencia de alta calidad. También incluye algunas otras herramientas, que son útiles en el análisis y control de calidad de datos NGS.
  • PRINSEQ es una herramienta que genera estadísticas resumidas de secuencia y datos de calidad y que se utiliza para filtrar, reformatear y recortar datos de secuencia de próxima generación. Está especialmente diseñado para datos 454 / Roche, pero también se puede utilizar para otros tipos de secuencia.
  • Cadena de control de calidad es un paquete de herramientas de control de calidad para datos de secuenciación de próxima generación (NGS), que consta de evaluaciones de calidad de lecturas sin procesar y detección de contaminación de novo, que podría identificar todas las posibles secuencias de contaminación.
  • QC3 una herramienta de control de calidad diseñada para secuenciar datos de ADN para datos sin procesar, alineación y llamadas de variantes.
  • qrqc Escanea rápidamente, lee y recopila estadísticas sobre frecuencias base y de calidad, longitud de lectura y secuencias frecuentes. Produce una salida gráfica de estadísticas para su uso en procesos de control de calidad y un informe de calidad HTML opcional. Los objetos S4 SequenceSummary permiten escribir pruebas y funcionalidades específicas en torno a los datos recopilados.
  • ARN-SeQC[12] es una herramienta con aplicación en el diseño de experimentos, optimización de procesos y control de calidad antes del análisis computacional. Esencialmente, proporciona tres tipos de control de calidad: recuentos de lectura (como lecturas duplicadas, lecturas mapeadas y lecturas únicas mapeadas, lecturas de ARNr, lecturas anotadas en transcripciones, especificidad de hebra), cobertura (como cobertura media, coeficiente de variación medio, 5 '/ Cobertura 3 ', brechas en la cobertura, sesgo de GC) y correlación de expresión (la herramienta proporciona una estimación de los niveles de expresión basada en RPKM). RNA-SeQC está implementado en Java y no se requiere instalación, sin embargo, se puede ejecutar usando el GenePattern interfaz web. La entrada puede ser uno o más archivos BAM. Los informes HTML se generan como salida.
  • RSeQC[13] analiza diversos aspectos de los experimentos de RNA-Seq: calidad de secuencia, profundidad de secuenciación, especificidad de hebra, sesgo de GC, distribución de lectura sobre la estructura del genoma y uniformidad de cobertura. La entrada puede ser archivos SAM, BAM, FASTA, BED o archivo de tamaño de cromosoma (archivo de texto sin formato de dos columnas). La visualización se puede realizar mediante navegadores de genoma como UCSC, IGB e IGV. Sin embargo, los scripts de R también se pueden utilizar para la visualización.
  • SAMStat[14] identifica problemas e informa varias estadísticas en diferentes fases del proceso. Esta herramienta evalúa secuencias no mapeadas, mapeadas de forma deficiente y precisa de forma independiente para inferir posibles causas de mapeo deficiente.
  • SolexaQA calcula estadísticas de calidad de secuencia y crea representaciones visuales de la calidad de los datos para los datos de secuenciación de segunda generación. Originalmente desarrollado para el sistema Illumina (conocido históricamente como “Solexa”), SolexaQA ahora también es compatible con Ion Torrent y 454 data.
  • Recorte en abundancia es un script de envoltura para automatizar la calidad y el recorte del adaptador, así como el control de calidad, con algunas funciones adicionales para eliminar las posiciones de metilación sesgadas para los archivos de secuencia RRBS (para secuenciación direccional, no direccional (o de extremo emparejado)).

Mejorando la calidad Editar

La mejora de la calidad de RNA-Seq, corregir el sesgo es un tema complejo. [15] [16] Cada protocolo RNA-Seq introduce un tipo específico de sesgo, cada paso del proceso (como la tecnología de secuenciación utilizada) es susceptible de generar algún tipo de ruido o tipo de error. Además, incluso las especies investigadas y el contexto biológico de las muestras pueden influir en los resultados e introducir algún tipo de sesgo. Ya se informaron muchas fuentes de sesgo: contenido de GC y enriquecimiento de PCR, [17] [18] agotamiento del ARNr, [19] errores producidos durante la secuenciación, [20] cebado de la transcripción inversa causada por hexámeros aleatorios. [21]

Se desarrollaron diferentes herramientas para intentar solucionar cada uno de los errores detectados.

Eliminación de recortes y adaptadores Editar

  • BBDuk Herramienta multiproceso para recortar adaptadores y filtrar o enmascarar contaminantes según el emparejamiento kmer, lo que permite una distancia de martilleo o edición, así como bases degeneradas. También realiza un filtrado y recorte de calidad óptimos, conversión de formato, informes de concentración de contaminantes, filtrado gc, filtrado de longitud, filtrado de entropía, filtrado de castidad y genera histogramas de texto para la mayoría de las operaciones. Interconvierte entre fastq, fasta, sam, scarf, interleaved y 2-file paired, gzip, bzipped, ASCII-33 y ASCII-64. Mantiene las parejas juntas. De código abierto, escrito en Java puro, es compatible con todas las plataformas sin recopilación ni otras dependencias.
  • clean_reads limpia NGS (Sanger, 454, Illumina y solid) lee. Puede recortar regiones, adaptadores, vectores y expresiones regulares de mala calidad. También filtra las lecturas que no cumplen con un criterio de calidad mínimo basado en la longitud de la secuencia y la calidad media.
  • condetri[22] es un método para el recorte de lectura dependiente del contenido para los datos de Illumina que utiliza puntuaciones de calidad de cada base de forma individual. Es independiente de la secuencia de cobertura y la interacción del usuario. El enfoque principal de la implementación es la usabilidad y la incorporación del recorte de lectura en las líneas de procesamiento y análisis de datos de secuenciación de próxima generación. Puede procesar datos de secuenciación de un solo extremo y de dos extremos de longitud arbitraria.
  • cutadapt[23] elimina las secuencias adaptadoras de los datos de secuenciación de próxima generación (Illumina, SOLiD y 454). Se usa especialmente cuando la longitud de lectura de la máquina de secuenciación es más larga que la molécula secuenciada, como en el caso del microARN.
  • Deconseq Detecte y elimine contaminaciones de los datos de secuencia.
  • Erne-Filter[24] es un paquete de alineación de cadenas cortas cuyo objetivo es proporcionar un conjunto completo de herramientas para manejar lecturas cortas (como NGS). ERNE comprende ERNE-FILTER (recorte de lectura y filtrado de continaminación), ERNE-MAP (herramienta / algoritmo de alineación del núcleo), ERNE-BS5 (alineador de lectura tratado con bisulfito) y ERNE-PMAP / ERNE-PBS5 (versiones distribuidas de los alineadores).
  • FastqMcf Fastq-mcf intenta: Detectar y eliminar adaptadores de secuenciación y cebadores Detectar sesgos limitados en los extremos de las lecturas y recortar Detectar mala calidad en los extremos de las lecturas y recortar Detectar Ns y quitar de los extremos Quitar lecturas con la bandera CASAVA 'Y' (pureza filtrado) Descartar secuencias que son demasiado cortas después de todo lo anterior Mantenga sincronizadas varias lecturas de mate mientras hace todo lo anterior.
  • FASTX Toolkit es un conjunto de herramientas de línea de comandos para manipular lecturas en archivos en formato FASTA o FASTQ. Estos comandos hacen posible preprocesar los archivos antes de mapearlos con herramientas como Bowtie. Algunas de las tareas permitidas son: conversión de formato FASTQ a FASTA, información sobre estadísticas de calidad, eliminación de adaptadores de secuenciación, filtrado y corte de secuencias en función de la calidad o conversión de ADN / ARN.
  • Flexbar realiza la eliminación de secuencias de adaptadores, funciones de recorte y filtrado.
  • FreClu mejora la precisión general de la alineación al realizar la corrección de errores de secuenciación mediante el recorte de lecturas cortas, según una metodología de agrupamiento.
  • htSeqTools es un paquete Bioconductor capaz de realizar control de calidad, procesamiento de datos y visualización. htSeqTools permite visualizar correlaciones de muestras, eliminar artefactos de sobreamplificación, evaluar la eficiencia del enriquecimiento, corregir el sesgo de hebra y visualizar aciertos.
  • NxTrim Recorte de adaptadores y rutina de creación de bibliotecas virtuales para bibliotecas Illumina Nextera Mate Pair.
  • PRINSEQ[25] genera estadísticas de los datos de su secuencia para la longitud de la secuencia, el contenido de GC, las puntuaciones de calidad, los n-plicados, la complejidad, las secuencias de etiquetas, las colas poli-A / T, las razones de probabilidades. Filtrar los datos, reformatear y recortar secuencias.
  • Sable Una herramienta de desmultiplexación y recorte de códigos de barras para archivos FastQ.
  • Guadaña Una recortadora de contaminantes con adaptador de extremo de 3 '.
  • Vidente es un algoritmo de corrección de errores de secuenciación para conjuntos de datos RNA-seq. Toma las secuencias de lectura sin procesar producidas por una plataforma de secuenciación de próxima generación como las máquinas de Illumina o Roche. SEECER elimina las discrepancias y los errores indel de las lecturas sin procesar y mejora significativamente el análisis posterior de los datos. Especialmente si los datos de RNA-Seq se utilizan para producir un ensamblaje de transcriptoma de novo, ejecutar SEECER puede tener un impacto tremendo en la calidad del ensamblaje.
  • Hoz Una herramienta de recorte adaptativa con ventana para archivos FASTQ usando calidad.
  • SnoWhite[26] es una tubería diseñada para limpiar de manera flexible y agresiva las lecturas de secuencias (ADNg o ADNc) antes del ensamblaje. Toma y devuelve archivos de secuencia con formato fastq o fasta.
  • ShortRead es un paquete proporcionado en los entornos R (lenguaje de programación) / BioConductor y permite la entrada, manipulación, evaluación de calidad y salida de datos de secuenciación de próxima generación. Esta herramienta hace posible la manipulación de datos, como soluciones de filtrado para eliminar lecturas basadas en criterios predefinidos. ShortRead podría complementarse con varios paquetes de bioconductores para obtener más soluciones de análisis y visualización (BioStrings, BSgenome, IRanges, etc.).
  • SortMeRNA es una herramienta de programa para filtrar, mapear y seleccionar lecturas NGS de OTU en datos metatranscriptómicos y metagenómicos. El algoritmo central se basa en semillas aproximadas y permite el análisis de secuencias de nucleótidos. La principal aplicación de SortMeRNA es filtrar el ARN ribosómico a partir de datos metatranscriptómicos.
  • Limpiador de etiquetas La herramienta TagCleaner se puede utilizar para detectar automáticamente y eliminar de manera eficiente secuencias de etiquetas (por ejemplo, etiquetas WTA) de conjuntos de datos genómicos y metagenómicos. Es fácilmente configurable y proporciona una interfaz fácil de usar.
  • Trimmomatic[27] realiza el recorte para las plataformas Illumina y trabaja con lecturas FASTQ (simples o en pares). Algunas de las tareas ejecutadas son: cortar adaptadores, cortar bases en posiciones opcionales basadas en umbrales de calidad, cortar lecturas a una longitud específica, convertir puntajes de calidad a Phred-33/64.
  • fastp Una herramienta diseñada para proporcionar preprocesamiento todo en uno para archivos FastQ. Esta herramienta está desarrollada en C ++ con soporte para múltiples subprocesos.
  • Kit de herramientas FASTX FASTX-Toolkit es una colección de herramientas de línea de comandos para el preprocesamiento de archivos FASTA / FASTQ de lecturas cortas.

Detección de lecturas quiméricas Editar

Las tecnologías de secuenciación recientes normalmente requieren que las muestras de ADN se amplifiquen mediante la reacción en cadena de la polimerasa (PCR). La amplificación a menudo genera elementos quiméricos (especialmente de origen ribosómico): secuencias formadas a partir de dos o más secuencias originales unidas.

  • UCHIME es un algoritmo para detectar secuencias quiméricas.
  • QuimeraSlayeres una utilidad de detección de secuencias quiméricas, compatible con secuencias Sanger de longitud casi completa y secuencias 454-FLX más cortas (

Corrección de errores Editar

Caracterización de errores de secuenciación de alto rendimiento y su eventual corrección. [28]

  • Acacia Corrector de errores para lecturas de amplicones pirosecuenciados.
  • AllPathsLG error de corrección.
  • Amplicón Ruido[29] AmpliconNoise es una colección de programas para la eliminación de ruido de 454 amplicones de PCR secuenciados. Implica dos pasos: la eliminación del ruido de la secuenciación en sí y la eliminación de los errores de los puntos de PCR. Este proyecto también incluye el algoritmo Perseus para la eliminación de quimeras.
  • BayesHammer. Agrupación bayesiana para corrección de errores. Este algoritmo se basa en gráficos de Hamming y subgrupos bayesianos. Si bien BAYES HAMMER se diseñó para la secuenciación de una sola celda, también mejora las herramientas de corrección de errores existentes para los datos de secuenciación masiva.
  • Bendecir[30] Una solución de corrección de errores basada en filtros de floración para lecturas de secuenciación de alto rendimiento.
  • Azul[31] Blue es una herramienta de corrección de errores de lectura corta basada en el consenso y el contexto de k-mer.
  • bf Un corrector de errores de secuenciación diseñado para lecturas cortas de Illumina. Utiliza un algoritmo no codicioso con una velocidad comparable a las implementaciones basadas en métodos codiciosos.
  • Denoiser Denoiser está diseñado para abordar problemas de ruido en los datos de pirosecuenciación. Denoiser es una variante heurística de PyroNoise. Los desarrolladores de denoiser informan de un buen acuerdo con PyroNoise en varios conjuntos de datos de prueba.
  • Eco Un algoritmo de corrección de errores de lectura corta sin referencia.
  • Encendedor. Una corrección de errores de secuenciación sin contar.
  • LSC LSC utiliza lecturas cortas de Illumina para corregir errores en lecturas largas.
  • Karect Karect: corrección precisa de errores de sustitución, inserción y eliminación para datos de secuenciación de próxima generación.
  • Nodo NoDe: un algoritmo de corrección de errores para lecturas de amplicones de pirosecuenciación.
  • PyroTagger PyroTagger: una canalización rápida y precisa para el análisis de datos de pirosecuencia de amplicones de ARNr.
  • Terremoto es una herramienta para corregir errores de secuenciación de sustitución en experimentos con cobertura profunda para las lecturas de secuenciación de Illumina.
  • Quórum: Un corrector de errores para Illumina Reads.
  • Rcorrector. Corrección de errores para las lecturas de RNA-seq de Illumina.
  • Reptil es un software desarrollado en C ++ para corregir errores de secuenciación en lecturas cortas de plataformas de secuenciación de próxima generación.
  • Seecer Corrección de error de secuenciación para lecturas de ARN.
  • SGA.
  • SOAP denovo.
  • UNOISE.

Corrección de sesgo Editar

  • alpino[32] Modelado y corrección del sesgo de secuencia de fragmentos para RNA-seq.
  • cqn[33] es una herramienta de normalización para datos de RNA-Seq, que implementa el método de normalización de cuantiles condicional.
  • EDASeq[34] es un paquete de bioconductores para realizar la normalización de contenido de GC para datos de secuencia de ARN.
  • GeneScissors Un enfoque integral para detectar y corregir inferencias de transcriptomas falsas debido a la desalineación de lecturas de RNAseq.
  • Mirar[35] es una colección de enfoques bayesianos para inferir determinantes ocultos y sus efectos a partir de perfiles de expresión génica utilizando métodos de análisis factorial. Las aplicaciones de PEER han: a) detectaron efectos por lotes y factores de confusión experimentales, b) aumentaron el número de hallazgos de QTL de expresión en tres veces, c) permitieron la inferencia de rasgos celulares intermedios, como el factor de transcripción o activaciones de vías.
  • RUV[36] es un paquete R que implementa los métodos de eliminación de variaciones no deseadas (RUV) de Risso et al. (2014) para la normalización de los recuentos de lectura de RNA-Seq entre muestras.
  • svaAnálisis de variables sustitutas.
  • svaseq eliminar los efectos por lotes y otros ruidos no deseados de los datos de secuenciación.
  • SysCall[37] es una herramienta de clasificación para la identificación y corrección de errores sistemáticos en datos de secuencia de alto rendimiento.

Otras tareas / procesamiento previo de datos Editar

Otras tareas realizadas antes de la alineación, a saber, fusiones de lectura por pares.

  • AuPairWise Un método para estimar la replicabilidad de RNA-Seq a través de la coexpresión.
  • BamHash es un método basado en suma de comprobación para garantizar que los pares de lectura en los archivos FASTQ coincidan exactamente con los pares de lectura almacenados en los archivos BAM, independientemente del orden de las lecturas. BamHash se puede utilizar para verificar la integridad de los archivos almacenados y descubrir cualquier discrepancia. Por lo tanto, BamHash se puede usar para determinar si es seguro eliminar los archivos FASTQ que almacenan lecturas de secuenciación sin procesar después de la alineación, sin la pérdida de datos.
  • BBMerge Fusiona lecturas emparejadas según la superposición para crear lecturas más largas y un histograma de tamaño de inserción. Rápido, multiproceso y con muy pocos falsos positivos. De código abierto, escrito en Java puro, es compatible con todas las plataformas sin recopilación ni otras dependencias. Distribuido con BBMap.
  • Biopiezas son una colección de herramientas bioinformáticas que se pueden ensamblar de una manera muy fácil y flexible para realizar tareas simples y complejas. Los Biopieces funcionan en un flujo de datos de tal manera que el flujo de datos puede pasar a través de varios Biopieces diferentes, cada uno de los cuales realiza una tarea específica: modificar o agregar registros al flujo de datos, crear gráficos o cargar datos en bases de datos y servicios web.
  • AFRONTAR[38] COPE: una herramienta precisa de conexión de lecturas de extremos de pares basada en k-mer para facilitar el ensamblaje del genoma.
  • DeconRNASeq es un paquete R para la desconvolución de tejidos heterogéneos basado en datos de mRNA-Seq.
  • Pantalla FastQ filtra secuencias de formato FASTQ en un conjunto de bases de datos para confirmar que las secuencias contienen lo que se espera (como contenido de especies, adaptadores, vectores, etc.).
  • DESTELLO es una herramienta de preprocesamiento de lectura. FLASH combina lecturas paired-end que se superponen y las convierte en lecturas largas únicas.
  • IDCheck
  • ORNA y ORNA Q / K Una herramienta para reducir la redundancia en los datos RNA-seq que reduce los requisitos de recursos computacionales de un ensamblador.
  • PANDASeq.es un programa para alinear las lecturas de Illumina, opcionalmente con cebadores de PCR incrustados en la secuencia, y reconstruir una secuencia superpuesta.
  • PERA[39] PEAR: Fusión de lectura de extremos emparejados de Illumina.
  • secuencia de comandos qRNASeq La herramienta qRNAseq se puede utilizar para eliminar con precisión los duplicados de PCR de los datos de RNA-Seq si se han utilizado Molecular Indexes ™ u otras etiquetas estocásticas durante la preparación de la biblioteca.
  • SHERA[40] un alineador reductor de errores de lectura corta.
  • XORRO Superposición rápida de lectura de extremo emparejado.

Después del control de calidad, el primer paso del análisis de RNA-Seq implica la alineación de las lecturas secuenciadas con un genoma de referencia (si está disponible) o con una base de datos de transcriptomas. Ver también Lista de software de alineación de secuencias.

Alineadores cortos (sin empalmar) Editar

Los alineadores cortos son capaces de alinear lecturas continuas (que no contienen espacios como resultado del empalme) con un genoma de referencia. Básicamente, hay dos tipos: 1) basado en el método de transformación de Burrows-Wheeler como Bowtie y BWA, y 2) basado en métodos de extensión de semillas, algoritmos Needleman-Wunsch o Smith-Waterman. El primer grupo (Bowtie y BWA) es muchas veces más rápido, sin embargo, algunas herramientas del segundo grupo tienden a ser más sensibles, generando lecturas alineadas más correctamente.

  • MEJOR alinea lecturas cortas con secuencias de referencia y presenta una sensibilidad particular hacia errores, SNP, inserciones y deleciones. BFAST trabaja con el algoritmo Smith-Waterman. Ver también seqanwers / BFAST.
  • Corbata de moño es un alineador corto que utiliza un algoritmo basado en la transformada de Burrows-Wheeler y el índice FM. Bowtie tolera una pequeña cantidad de desajustes.
  • Bowtie2 Bowtie 2 es una herramienta de memoria eficiente para alinear las lecturas de secuenciación con secuencias de referencia largas. Se recomienda particularmente para alinear lecturas de aproximadamente 50 hasta 100 o miles de caracteres, y es particularmente bueno para alinear con genomas relativamente largos (por ejemplo, de mamíferos). Bowtie 2 indexa el genoma con un índice FM para mantener pequeña su huella de memoria: para el genoma humano, su huella de memoria suele ser de alrededor de 3,2 GB. Bowtie 2 admite modos de alineación con espacios, local y emparejado.
  • Alineador Burrows-Wheeler (BWA) BWA es un paquete de software para mapear secuencias de baja divergencia contra un genoma de referencia grande, como el genoma humano. Consta de tres algoritmos: BWA-backtrack, BWA-SW y BWA-MEM. El primer algoritmo está diseñado para lecturas de secuencia de Illumina de hasta 100 pb, mientras que los dos restantes para secuencias más largas oscilaron entre 70 pb y 1 Mbp. BWA-MEM y BWA-SW comparten características similares, como soporte de lectura larga y alineación dividida, pero BWA-MEM, que es el último, generalmente se recomienda para consultas de alta calidad, ya que es más rápido y más preciso. BWA-MEM también tiene un mejor rendimiento que BWA-backtrack para lecturas de Illumina de 70-100 pb.
  • Paquete de análisis de oligonucleótidos cortos (SOAP)
  • GNUMAP realiza la alineación utilizando un algoritmo probabilístico de Needleman-Wunsch. Esta herramienta es capaz de manejar la alineación en regiones repetitivas de un genoma sin perder información. La salida del programa se desarrolló para facilitar la visualización utilizando el software disponible.
  • Maq primero alinea las lecturas con las secuencias de referencia y luego realiza una etapa de consenso. En la primera etapa, solo realiza una alineación sin espacios y tolera hasta 3 desajustes.
  • Mosaik Mosaik puede alinear lecturas que contienen brechas cortas utilizando el algoritmo Smith-Waterman, ideal para superar SNP, inserciones y eliminaciones.
  • NovoAlign (comercial) es un alineador corto para la plataforma Illumina basado en el algoritmo Needleman-Wunsch. Puede trabajar con datos de bisulfito. Salida en formato SAM.
  • Permanente es un paquete de software que fue diseñado para realizar alineaciones de escala de genoma altamente eficientes para cientos de millones de lecturas cortas producidas por las plataformas de secuenciación ABI SOLiD e Illumina. PerM es capaz de proporcionar sensibilidad total para alineaciones dentro de 4 desajustes para lecturas SÓLIDAS de 50 pb y 9 desajustes para lecturas de Illumina de 100 pb.
  • RazerS
  • SELLO utiliza un modelo MapReduce para producir computación distribuida en grupos de computadoras. Seal utiliza BWA para realizar la alineación y Picard MarkDuplicates para la detección y eliminación de lecturas duplicadas.
  • segemehl
  • SeqMap
  • Camarón emplea dos técnicas para alinear lecturas cortas. En primer lugar, la técnica de filtrado de q-gramos basada en múltiples semillas identifica regiones candidatas. En segundo lugar, estas regiones se investigan en detalle utilizando el algoritmo de Smith-Waterman.
  • SMALT
  • Stampy combina la sensibilidad de las tablas hash y la velocidad de BWA. Stampy está preparado para la alineación de lecturas que contienen variaciones de secuencia como inserciones y eliminaciones. Es capaz de manejar lecturas de hasta 4500 bases y presenta la salida en formato SAM.
  • Subread[41] es un alineador de lectura. Utiliza el paradigma de mapeo de semilla y voto para determinar la ubicación de mapeo de la lectura usando su región mapeable más grande. Decide automáticamente si la lectura debe mapearse globalmente o localmente. Para los datos de RNA-seq, se debe utilizar Subread con el fin de analizar la expresión. Subread también se puede utilizar para mapear lecturas de DNA-seq.
  • ZOOM (comercial) es un alineador corto de la plataforma Illumina / Solexa 1G. ZOOM utiliza la metodología de semillas espaciadas extendidas que construyen tablas hash para las lecturas y tolera desajustes e inserciones y eliminaciones.
  • WHAM WHAM es una herramienta de alineación de secuencias de alto rendimiento desarrollada en la Universidad de Wisconsin-Madison. Alinea secuencias cortas de ADN (lecturas) con todo el genoma humano a una velocidad de más de 1500 millones de lecturas de 60 bits / s por hora, que es de uno a dos órdenes de magnitudes más rápido que las técnicas líderes de vanguardia.

Alineadores empalmados Editar

Muchas lecturas abarcan uniones exón-exón y no se pueden alinear directamente con alineadores cortos, por lo que se necesitaban alineadores específicos: alineadores empalmados. Algunos alineadores empalmados emplean alineadores cortos para alinear en primer lugar lecturas continuas / sin empalmar (enfoque de exón primero), y luego siguen una estrategia diferente para alinear el resto que contiene regiones empalmadas; normalmente, las lecturas se dividen en segmentos más pequeños y se mapean de forma independiente. Ver también. [42] [43]

Alineadores basados ​​en uniones de empalme conocidas (alineadores guiados por anotaciones) Editar

En este caso, la detección de uniones de empalme se basa en los datos disponibles en las bases de datos sobre uniones conocidas. Este tipo de herramientas no pueden identificar nuevas uniones de empalme. Algunos de estos datos provienen de otros métodos de expresión como etiquetas de secuencia expresada (EST).

  • Erange es una herramienta para la alineación y cuantificación de datos de transcriptomas de mamíferos.
  • IsoformEx
  • MapAL
  • OSA
  • ARN-MATE es una tubería computacional para la alineación de datos del sistema SOLID de Applied Biosystems. Brinda la posibilidad de control de calidad y recorte de lecturas. Las alineaciones del genoma se realizan utilizando mapreads y las uniones de corte y empalme se identifican basándose en una biblioteca de secuencias de unión de exón conocidas. Esta herramienta permite la visualización de alineaciones y el recuento de etiquetas.
  • RON realiza la alineación basada en una tubería, pudiendo manipular lecturas con uniones de empalme, utilizando Bowtie y Blat. El diagrama de flujo comienza a alinearse con un genoma y una base de datos de transcriptomas ejecutados por Bowtie. El siguiente paso es realizar la alineación de secuencias no mapeadas con el genoma de referencia utilizando BLAT. En el paso final, todas las alineaciones se fusionan para obtener la alineación final. Los archivos de entrada pueden estar en formato FASTA o FASTQ. La salida se presenta en formato RUM y SAM.
  • RNASEQR.
  • SAMMate
  • SpliceSeq
  • X-Mate

Alineadores de empalmes de novo Editar

Los alineadores de empalme de novo permiten la detección de nuevas uniones de empalme sin necesidad de información anotada previa (algunas de estas herramientas presentan la anotación como opción suplementaria).

  • ABMapper
  • BBMap Utiliza kmers cortos para alinear las lecturas directamente con el genoma (que abarcan intrones para encontrar nuevas isoformas) o transcriptoma. Muy tolerante a errores de sustitución e indeles, y muy rápido. Admite la salida de todas las etiquetas SAM necesarias para Cufflinks. No hay límite para el tamaño del genoma o el número de empalmes por lectura. Admite lecturas de Illumina, 454, Sanger, Ion Torrent, PacBio y Oxford Nanopore, emparejadas o de un solo extremo. No utiliza ninguna heurística de búsqueda de sitios de empalme optimizada para una sola rama taxonómica, sino que encuentra alineaciones globales de transformación multiafinas de puntuación óptima y, por lo tanto, es ideal para estudiar nuevos organismos sin anotación y motivos de empalme desconocidos. De código abierto, escrito en Java puro, es compatible con todas las plataformas sin recopilación ni otras dependencias.
  • ContextMap fue desarrollado para superar algunas limitaciones de otros enfoques de mapeo, como la resolución de ambigüedades. La idea central de esta herramienta es considerar las lecturas en el contexto de expresión génica, mejorando así la precisión de la alineación. ContextMap se puede utilizar como un programa independiente y es compatible con los mapeadores que producen un archivo SAM en la salida (por ejemplo: TopHat o MapSplice). En modo independiente, alinea las lecturas con un genoma, con una base de datos de transcriptomas o con ambos.
  • CRAC proponen una forma novedosa de analizar lecturas que integra ubicaciones genómicas y cobertura local, y detecta mutaciones candidatas, indeles, empalmes o uniones de fusión en cada lectura. Es importante destacar que CRAC mejora su rendimiento predictivo cuando se suministra, por ejemplo, con 200 nt lee y debería adaptarse a las necesidades futuras de análisis de lectura.
  • GSNAP
  • GMAP Un programa de alineación y mapeo genómico para secuencias de ARNm y EST.
  • HISAT HISAT es un programa de alineación empalmado para mapear lecturas de secuencia de ARN. Además de un índice FM global que representa un genoma completo, HISAT utiliza un gran conjunto de índices FM pequeños que cubren colectivamente todo el genoma (cada índice representa una región genómica de

Se necesitan 48.000 índices para cubrir el genoma humano). Estos pequeños índices (llamados índices locales) combinados con varias estrategias de alineación permiten una alineación efectiva de las lecturas de RNA-seq, en particular, las lecturas que abarcan múltiples exones. La huella de memoria de HISAT es relativamente baja (

Alineadores de empalmes de novo que también usan anotación opcionalmente Editar
  • MapaSiguiente
  • OLego
  • ESTRELLA es una herramienta que emplea "búsqueda secuencial máxima mapeable de semillas en matrices de sufijos sin comprimir seguida de un procedimiento de agrupación y costura de semillas", detecta uniones de empalmes canónicos, no canónicos y secuencias de fusión quimérica. Ya está adaptado para alinear lecturas largas (tecnologías de secuenciación de tercera generación) y puede alcanzar velocidades de 45 millones de lecturas emparejadas por hora por procesador. [46]
  • Subjunc[41] es una versión especializada de Subread. Utiliza todas las regiones cartografiables en una lectura de secuencia de ARN para descubrir exones y uniones exón-exón. Utiliza las señales del donante / receptor para encontrar las ubicaciones exactas de empalme. Subjunc produce alineaciones completas para cada lectura de secuencia de ARN, incluidas las lecturas que abarcan el exón, además de las uniones exón-exón descubiertas. Subjunc debe utilizarse para la detección de uniones y la detección de variaciones genómicas en los datos de RNA-seq.
  • Sombrero de copa[47] está preparado para encontrar uniones de novo. TopHat alinea las lecturas en dos pasos. En primer lugar, las lecturas sin empalmar se alinean con Bowtie. Después, las lecturas alineadas se ensamblan con las islas de secuencias resultantes de Maq. En segundo lugar, las uniones de empalme se determinan basándose en las lecturas inicialmente no mapeadas y los posibles sitios donantes y aceptores canónicos dentro de las secuencias de islas.
Otros alineadores empalmados Editar

Evaluación de herramientas de alineación Editar

  • AlignerBoost es un conjunto de herramientas de software generalizado para impulsar la precisión del mapeo de secuenciación de próxima generación utilizando un marco de calidad de mapeo basado en Bayesiano.
  • CADBURE Herramienta de bioinformática para evaluar el rendimiento del alineador en su conjunto de datos RNA-Seq.
  • QualiMap : Evaluación de datos de alineación de secuenciación de próxima generación.
  • RNAseqEVAL Una colección de herramientas para evaluar el mapeo de secuencias de ARN.
  • Rompecabezas: Evaluación comparativa individualizada y optimización de los resultados del mapeo de lectura para datos NGS.

Herramientas generales Editar

Estas herramientas realizan la normalización y calculan la abundancia de cada gen expresado en una muestra. [48] ​​RPKM, FPKM y TPMs [49] son ​​algunas de las unidades empleadas para cuantificar la expresión. Algunos programas también están diseñados para estudiar la variabilidad de la expresión genética entre muestras (expresión diferencial). Los estudios cuantitativos y diferenciales están determinados en gran medida por la calidad de la alineación de las lecturas y la precisión de la reconstrucción de isoformas. Se encuentran disponibles varios estudios que comparan métodos de expresión diferencial. [50] [51] [52]

  • ABSSeq un nuevo método de análisis de RNA-Seq basado en el modelado de diferencias de expresión absolutas.
  • ALDEx2 es una herramienta para el análisis comparativo de datos de secuenciación de alto rendimiento. ALDEx2 utiliza análisis de datos de composición y se puede aplicar a RNAseq, secuenciación de genes de rRNA 16S, secuenciación metagenómica y experimentos de crecimiento selectivo.
  • Alexa-Seq es una tubería que hace posible realizar análisis de expresión génica, análisis de expresión específica de transcripción, expresión de unión de exón y análisis alternativo cuantitativo. Permite una amplia visualización de expresiones alternativas, estadísticas y gráficos.
  • ARH-seq - identificación de empalme diferencial en datos de secuencia de ARN.
  • ASC[53]
  • Vestido de bola
  • BaySeq es un paquete de bioconductores para identificar la expresión diferencial utilizando datos de secuenciación de próxima generación, a través de métodos empíricos bayesianos. Existe la opción de utilizar el paquete "snow" para la paralelización del procesamiento de datos informáticos, recomendado cuando se trata de grandes conjuntos de datos.
  • GMNB[54] es un método bayesiano para el análisis de la expresión diferencial de genes temporales a través de diferentes fenotipos o condiciones de tratamiento que maneja naturalmente la heterogeneidad de la profundidad de secuenciación en diferentes muestras, eliminando la necesidad de una normalización ad-hoc.
  • BBSeq
  • BitSeq (Inferencia bayesiana de transcripciones a partir de datos de secuenciación) es una aplicación para inferir niveles de expresión de transcripciones individuales a partir de datos de secuenciación (RNA-Seq) y estimar la expresión diferencial (DE) entre condiciones.
  • CEDER Detección precisa de genes expresados ​​diferencialmente mediante la combinación de la importancia de los exones utilizando RNA-Seq.
  • CPTRA El paquete CPTRA es para analizar datos de secuenciación de transcriptomas de diferentes plataformas de secuenciación. Combina las ventajas de 454, Illumina GAII u otras plataformas y puede realizar tareas de alineación y anotación de etiquetas de secuencia y cuantificación de expresión.
  • casper es un paquete de bioconductores para cuantificar la expresión a nivel de isoformas. Combina el uso de resúmenes de datos informativos, estimación flexible de sesgos experimentales y consideraciones de precisión estadística que (según se informa) proporcionan reducciones sustanciales en el error de estimación.
  • Gemelos / Gemelos es apropiado para medir global de novo expresión de isoformas de transcripción. Realiza ensamblaje de transcripciones, estimación de abundancias y determina expresión diferencial (Cuffdiff) y regulación en muestras de RNA-Seq. [55]
  • DESeq es un paquete de bioconductores para realizar análisis de expresión genética diferencial basados ​​en distribución binomial negativa.
  • DEGSeq
  • Derfinder Análisis de expresión diferencial agnóstico de anotación de datos de RNA-seq en resolución de pares de bases mediante el enfoque DER Finder.
  • DISPOSITIVO es una potente solución integrada para el análisis de datos de expresión diferencial. Usando DESeq2 como marco, DEvis proporciona una amplia variedad de herramientas para la manipulación, visualización y gestión de proyectos de datos.
  • DEXSeq es un paquete de bioconductores que encuentra el uso diferencial diferencial de exones en función de los recuentos de exones de RNA-Seq entre muestras. DEXSeq emplea una distribución binomial negativa, brinda opciones para la visualización y exploración de los resultados.
  • DEXUS es un paquete de bioconductores que identifica genes expresados ​​diferencialmente en datos de RNA-Seq en todos los diseños de estudios posibles, como estudios sin réplicas, sin grupos de muestras y con condiciones desconocidas. [56] A diferencia de otros métodos, DEXUS no necesita réplicas para detectar transcripciones expresadas diferencialmente, ya que las réplicas (o condiciones) se estiman mediante el método EM para cada transcripción.
  • DGEclust es un paquete de Python para agrupar datos de expresión de RNA-seq, CAGE y otros ensayos NGS utilizando un modelo de mezcla de proceso de Dirichlet jerárquico. Las configuraciones de agrupamiento estimadas se pueden postprocesar para identificar genes expresados ​​diferencialmente y para generar dendrogramas y mapas de calor de genes y muestras. [57]
  • DiffSplice es un método para la detección y visualización de la expresión diferencial, que no depende de las anotaciones genéticas. Este método se apoya en la identificación de módulos de empalme alternativos (ASM) que divergen en las diferentes isoformas. Se aplica una prueba no paramétrica a cada ASM para identificar una transcripción diferencial significativa con una tasa de descubrimiento falso medida.
  • EBSeq es un paquete de bioconductores para identificar genes e isoformas expresadas diferencialmente (DE) en dos o más condiciones biológicas en un experimento de secuencia de ARN. También se puede utilizar para identificar contigs DE después de realizar el ensamblaje del transcriptoma de novo. Al realizar el análisis DE en isoformas o contig, diferentes grupos de isoforma / contig tienen distintas incertidumbres de estimación. EBSeq modela las distintas incertidumbres utilizando un modelo empírico de Bayes con diferentes priores.
  • Arista es un paquete R para el análisis de la expresión diferencial de datos de métodos de secuenciación de ADN, como datos de RNA-Seq, SAGE o ChIP-Seq. edgeR emplea métodos estadísticos compatibles con la distribución binomial negativa como modelo para la variabilidad del recuento.
  • EdgeRun un paquete R para el descubrimiento de expresiones diferenciales sensibles y funcionalmente relevantes mediante una prueba exacta incondicional.
  • EQP La tubería de cuantificación de exones (EQP): un enfoque integral para la cuantificación de la expresión de genes, exones y uniones a partir de datos de RNA-seq.
  • ESAT El kit de herramientas de análisis de secuencia final (ESAT) está especialmente diseñado para ser aplicado en la cuantificación de la anotación de bibliotecas de genes RNA-Seq especializadas que se dirigen a los extremos 5 'o 3' de las transcripciones.
  • Rápido El rendimiento incluye cuantificación de RNA-Seq a nivel de transcripción, análisis de haplotipos y alelos específicos y puede estimar la abundancia de transcripciones de las múltiples isoformas presentes en un gen. Aunque podría acoplarse directamente con alineadores (como Bowtie), eXpress también se puede usar con ensambladores de novo y, por lo tanto, no se necesita un genoma de referencia para realizar la alineación. Funciona en Linux, Mac y Windows.
  • BORRAR realiza alineación, normalización y cuantificación de genes expresados.
  • featureCounts un cuantificador de lectura de uso general eficiente.
  • FDM
  • FineSplice Detección y estimación mejoradas de uniones de empalme a partir de datos de RNA-Seq.
  • ORO[58] Cambio de pliegue generalizado para clasificar genes expresados ​​diferencialmente a partir de datos de RNA-seq.
  • globalSeq[59] Prueba global de recuentos: prueba de asociación entre RNA-Seq y datos de alta dimensión.
  • GPSeq Esta es una herramienta de software para analizar datos de secuencia de ARN para estimar la expresión de genes y exones, identificar genes expresados ​​diferencialmente y exones empalmados diferencialmente.
  • IsoDOT - Expresión diferencial de isoformas de ARN.
  • Limma Limma potencia los análisis de expresión diferencial para estudios de secuenciación de ARN y microarrays.
  • LPEseq probar con precisión la expresión diferencial con un número limitado de repeticiones.
  • Kallisto "Kallisto es un programa para cuantificar abundantes transcripciones a partir de datos de RNA-Seq, o más generalmente de secuencias objetivo utilizando lecturas de secuenciación de alto rendimiento. Se basa en la nueva idea de pseudoalineación para determinar rápidamente la compatibilidad de lecturas con objetivos, sin la Necesidad de alineación. En los puntos de referencia con datos RNA-Seq estándar, kallisto puede cuantificar 30 millones de lecturas humanas en menos de 3 minutos en una computadora de escritorio Mac usando solo las secuencias de lectura y un índice de transcriptoma que en sí mismo toma menos de 10 minutos para construir ".
  • ALFOMBRILLAS Análisis multivariado de empalme de transcripciones (MATS).
  • MAPTest proporciona un marco de prueba general para el análisis de expresión diferencial del experimento de curso temporal de RNA-Seq. El método del paquete se basa en el modelo de mezcla gaussiana binomial negativa latente. La prueba propuesta es óptima en la máxima potencia media. La prueba permite no solo la identificación de genes DE tradicionales, sino también la prueba de una variedad de hipótesis compuestas de interés biológico. [60]
  • MetaDiff Análisis de expresión diferencial de isoformas mediante metarregresión de efectos aleatorios.
  • metaseqR es un paquete de bioconductores que detecta genes expresados ​​diferencialmente a partir de datos de RNA-Seq mediante la combinación de seis algoritmos estadísticos que utilizan ponderaciones estimadas a partir de su rendimiento con datos simulados estimados a partir de datos reales, ya sean públicos o basados ​​en el usuario. De esta manera, metaseqR optimiza el compromiso entre precisión y sensibilidad. [61] Además, metaseqR crea un informe detallado e interactivo con una variedad de diagramas de diagnóstico y exploración y texto autogenerado.
  • MMSEQ es una tubería para estimar la expresión de isoformas y el desequilibrio alélico en organismos diploides basado en RNA-Seq. La canalización emplea herramientas como Bowtie, TopHat, ArrayExpressHTS y SAMtools. Además, edgeR o DESeq para realizar expresión diferencial.
  • MultiDE
  • Myrna es una herramienta de canalización que se ejecuta en un entorno de nube (MapReduce elástico) o en una computadora única para estimar la expresión génica diferencial en conjuntos de datos de RNA-Seq. Bowtie se emplea para alineación de lectura corta y algoritmos R para cálculos de intervalo, normalización y procesamiento estadístico.
  • NEUMA es una herramienta para estimar la abundancia de ARN mediante la normalización de la longitud, basada en lecturas alineadas de forma única y modelos de isoformas de ARNm. NEUMA utiliza datos de transcriptomas conocidos disponibles en bases de datos como RefSeq.
  • NOISeq NOISeq es un enfoque no paramétrico para la identificación de genes expresados ​​diferencialmente a partir de datos de recuento o datos de recuento previamente normalizados. NOISeq modela empíricamente la distribución de ruido de los cambios de recuento contrastando las diferencias de cambio de pliegues (M) y las diferencias de expresión absoluta (D) para todas las características en muestras dentro de la misma condición.
  • NPEBseq es un método bayesiano empírico no paramétrico para el análisis de expresión diferencial.
  • NSMAP permite la inferencia de isoformas así como la estimación de niveles de expresión, sin información anotada. Los exones se alinean y las uniones de empalme se identifican utilizando TopHat. Todas las posibles isoformas se calculan mediante una combinación de los exones detectados.
  • NURD una implementación de un nuevo método para estimar la expresión de isoformas a partir de datos de secuencia de ARN no uniformes.
  • PANDORA Un paquete R para el análisis y reporte de resultados de datos de RNA-Seq mediante la combinación de múltiples algoritmos estadísticos.
  • PennSeq PennSeq: cuantificación precisa de la expresión génica específica de isoformas en RNA-Seq mediante el modelado de la distribución de lectura no uniforme.
  • Cuarc Quark permite la compresión basada en semireferencias de datos de secuencia de ARN.
  • QuasR Cuantificar y anotar lecturas cortas en R.
  • RapMap Una herramienta rápida, sensible y precisa para mapear lecturas de RNA-seq a transcriptomas.
  • RNAeXpress Se puede ejecutar con la GUI de Java o la línea de comandos en Mac, Windows y Linux. Se puede configurar para realizar recuento de lecturas, detección de características o comparación GTF en datos mapeados de rnaseq.
  • Rcount Rcount: recuento de lecturas RNA-Seq simple y flexible.
  • rDiff es una herramienta que puede detectar el procesamiento diferencial de ARN (por ejemplo, empalme alternativo, poliadenilación o ocupación de ribosomas).
  • RNASeqPower Cálculo de estimaciones de tamaño de muestras para estudios de RNA Seq. Versión del paquete R.
  • RNA-Skim RNA-Skim: un método rápido para la cuantificación de RNA-Seq a nivel de transcripción.
  • rSeq rSeq es un conjunto de herramientas para el análisis de datos de RNA-Seq. Consiste en programas que se ocupan de muchos aspectos del análisis de datos de RNA-Seq, como la evaluación de la calidad de lectura, la generación de secuencias de referencia, el mapeo de secuencias, la estimación de expresiones de genes e isoformas (RPKM), etc.
  • RSEM
  • rQuant es un servicio web (instalación de Galaxy (biología computacional)) que determina la abundancia de transcripciones por locus de genes, basándose en la programación cuadrática. rQuant es capaz de evaluar los sesgos introducidos por las condiciones experimentales. Se emplea una combinación de herramientas: PALMapper (lee la alineación), mTiM y mGene (inferencia de nuevas transcripciones).
  • Salmón es una herramienta de software para calcular la abundancia de transcripciones a partir de datos de RNA-seq utilizando un enfoque sin alineación (basado directamente en las lecturas sin procesar) o basado en alineación (basado en alineaciones precalculadas). Utiliza un enfoque de optimización estocástica en línea para maximizar la probabilidad de abundancia de transcripciones en los datos observados. El software en sí es capaz de hacer uso de muchos subprocesos para producir estimaciones de cuantificación precisas rápidamente. Es parte del Pez vela suite de software, y es el sucesor de la herramienta Sailfish.
  • SAJR es un contador de lectura escrito en Java y un paquete R para análisis de empalme diferencial. Utiliza lecturas de unión para estimar la exclusión del exón y lecturas mapeadas dentro del exón para estimar su inclusión. SAJR lo modela mediante GLM con distribución cuasibinomial y utiliza una prueba de probabilidad logarítmica para evaluar la significancia.
  • Scotty Realiza análisis de potencia para estimar el número de réplicas y la profundidad de secuenciación necesaria para llamar a la expresión diferencial.
  • Sello algoritmo sin alineación para cuantificar la expresión de la secuencia haciendo coincidir kmers entre lecturas sin procesar y un transcriptoma de referencia. Maneja lecturas emparejadas e isoformas alternas, y usa poca memoria. Acepta todos los formatos de lectura comunes y genera recuentos de lectura, cobertura y valores de FPKM por secuencia de referencia. De código abierto, escrito en Java puro, es compatible con todas las plataformas sin recopilación ni otras dependencias. Distribuido con BBMap. (Seal - Sequence Expression AnaLyzer - no está relacionado con el alineador de lectura corta distribuido SEAL).
  • semisuple[62] Modelo de mezcla semi-supervisado: detección de SNP con efectos interactivos sobre un rasgo cuantitativo
  • Detective es un programa para el análisis de experimentos de RNA-Seq para los que se han cuantificado las abundancias de transcripciones con kallisto.
  • Brújula de empalme detección de empalme diferencial utilizando datos de RNA-Seq.
  • sSeq El propósito de este paquete R es descubrir los genes que se expresan diferencialmente entre dos condiciones en experimentos de RNA-seq.
  • StringTie es un ensamblador de alineaciones de RNA-Seq en transcripciones potenciales. Utiliza un algoritmo de flujo de red novedoso, así como un paso de ensamblaje de novo opcional para ensamblar y cuantificar transcripciones de longitud completa que representan múltiples variantes de empalme para cada locus génico. Fue diseñado como un sucesor de Cufflinks (sus desarrolladores incluyen algunos de los desarrolladores de Cufflinks) y tiene muchas de las mismas características.
  • Tigre Método de estimación de abundancia de isoformas de transcripción con alineación con huecos de datos de RNA-Seq mediante inferencia bayesiana variacional.
  • TimeSeq Detección de genes expresados ​​diferencialmente en datos de secuencia temporal de ARN.
  • Calculadora TPM[63] software de un solo paso para cuantificar la abundancia de ARNm de características genómicas.
  • WemIQ es una herramienta de software para cuantificar la expresión de isoformas y las proporciones de empalme de exones a partir de datos de RNA-seq de forma precisa y sólida.

Evaluación de cuantificación y expresión diferencial Editar

  • CompcodeR Simulación de datos RNAseq, análisis de expresión diferencial y comparación de rendimiento de métodos de expresión diferencial.
  • QUERIDA Análisis de expresión diferencial basado en datos de RNA-seq - Online.
  • ADECUADO Evaluación de potencia completa para expresión diferencial utilizando RNA-seq.
  • ARN en el BANCO recursos computacionales y empíricos para la evaluación comparativa de los métodos de cuantificación y expresión diferencial de RNAseq.
  • rnaseqcomp Varios puntos de referencia cuantitativos y visualizados para tuberías de cuantificación de RNA-seq. Las cuantificaciones de dos condiciones para genes, transcripciones, uniones o exones por cada tubería con metainformación nessasery deben organizarse en matrices numéricas para continuar con la evaluación.

Soluciones multiherramientas Editar

  • DEBUTANTE es una interfaz web / canalización que permite comparar los resultados de genes expresados ​​significativamente de diferentes herramientas. Actualmente están disponibles tres algoritmos: edgeR, DESeq y bayseq.
  • SARTools Una tubería R basada en DESeq2 y EdgeR para un análisis diferencial completo de datos de secuencia de ARN.

Expresión de elemento transponible Editar

  • TeXP es una tubería de cuantificación de elementos transponibles que deconvoluciona la transcripción generalizada de la transcripción autónoma de los elementos LINE-1. [64]

Soluciones comerciales Editar

  • ActiveSite de Cofactor Genomics
  • Avadis NGS (actualmente Strand NGS)
  • BaseSpace de Illumina
  • Bio armario una plataforma integrada para el análisis de datos epigenómicos y transcriptómicos.
  • BBrowser una plataforma para analizar datos transcriptómicos unicelulares públicos e internos
  • Banco de trabajo de CLC Genomics
  • DNASTAR
  • ES DECIR
  • Genedata
  • GeneSpring GX
  • Genevestigator por Nebion (la versión básica es gratuita para investigadores académicos).
  • geospiza
  • Hélice dorada
  • Biomics de Maverix
  • NextGENe
  • OmicsOffice
  • Partek Flow Análisis completo de una sola celda dentro de una interfaz intuitiva.
  • Qlucore. Fácil de usar para análisis y visualización. Importación de archivos BAM con un botón.

Soluciones de código abierto (gratuitas) Editar

  • ArrayExpressHTS es un paquete de bioconductores que permite el preprocesamiento, la evaluación de la calidad y la estimación de la expresión de conjuntos de datos de RNA-Seq. Se puede ejecutar de forma remota en la nube del Instituto Europeo de Bioinformática o localmente. El paquete hace uso de varias herramientas: ShortRead (control de calidad), Bowtie, TopHat o BWA (alineación con un genoma de referencia), formato SAMtools, Cufflinks o MMSEQ (estimación de expresión).
  • BioJupies es una plataforma basada en web que proporciona una solución completa de análisis de RNA-seq, desde un servicio de alineación gratuito hasta un informe completo de análisis de datos entregado como un Jupyter Notebook interactivo.
  • BioQueue es un motor de cola basado en la web diseñado preferentemente para mejorar la eficiencia y solidez de la ejecución del trabajo en la investigación bioinformática mediante la estimación de los recursos del sistema requeridos por un determinado trabajo. Al mismo tiempo, BioQueue también tiene como objetivo promover la accesibilidad y reproducibilidad del análisis de datos en la investigación biomédica. Implementado por Python 2.7, BioQueue puede funcionar tanto en sistemas compatibles con POSIX (Linux, Solaris, OS X, etc.) como en Windows. Ver también. [sesenta y cinco]
  • Armario biológico es un paquete integrado que permite el análisis de conjuntos de datos ChIP-Seq y RNA-Seq utilizando una GUI fácil de usar basada en la web. Para RNA-Seq Biowardrobe realiza mapeo, control de calidad, estimación RPKM y análisis de expresión diferencial entre muestras (grupos de muestras). Los resultados del análisis de expresión diferencial se pueden integrar con los datos de ChIP-Seq para construir perfiles de densidad de etiquetas promedio y mapas de calor. El paquete hace uso de varias herramientas de código abierto, incluidas STAR y DESeq. Ver también. [66]
  • Chipster es un software de análisis fácil de usar para datos de alto rendimiento. Contiene más de 350 herramientas de análisis para secuenciación de próxima generación (NGS), microarrays, proteómica y datos de secuencia. Los usuarios pueden guardar y compartir flujos de trabajo de análisis automático y visualizar datos de forma interactiva utilizando un navegador de genoma integrado y muchas otras visualizaciones.
  • DEWE (Ejecutor de flujo de trabajo de expresión diferencial) es una aplicación de escritorio de código abierto que proporciona una GUI fácil de usar para ejecutar fácilmente análisis de expresión diferencial en datos RNA-Seq. Actualmente, DEWE proporciona dos flujos de trabajo de análisis de expresión diferencial: bibliotecas HISAT2, StringTie y Ballgown y Bowtie2, StringTie y R (Ballgown y edgeR). Funciona en Linux, Windows y Mac OS X.
  • easyRNASeq Calcula la cobertura de lecturas cortas de alto rendimiento contra un genoma de referencia y lo resume por característica de interés (por ejemplo, exón, gen, transcripción). Los datos se pueden normalizar como 'RPKM' o por el paquete 'DESeq' o 'edgeR'.
  • ExpressionPlot
  • FASTGenomics es una plataforma en línea para compartir datos y análisis de secuenciación de ARN unicelular mediante flujos de trabajo reproducibles. Los datos de expresión genética se pueden compartir cumpliendo los estándares europeos de protección de datos (GDPR). FASTGenomics permite al usuario cargar sus propios datos y generar flujos de trabajo personalizados y reproducibles para la exploración y el análisis de datos de expresión génica (Scholz et al. 2018).
  • FX FX es una herramienta de análisis de expresión de genes Frendly RNA-Seq para el usuario, potenciada por el concepto de computación en la nube. Con FX, simplemente puede cargar sus datos FASTQ sin procesar de RNA-Seq en la nube y dejar que la informática se encargue de realizar el análisis pesado.
  • Galaxia: Galaxy es una plataforma de banco de trabajo de propósito general para biología computacional.
  • Contador GENE es una tubería de Perl para análisis de expresión génica diferencial de RNA-Seq. Gene-counter realiza alineaciones con CASHX, Bowtie, BWA u otro alineador de salida SAM. La expresión génica diferencial se ejecuta con tres paquetes opcionales (NBPSeq, edgeR y DESeq) utilizando métodos de distribución binomial negativa. Los resultados se almacenan en una base de datos MySQL para hacer posibles análisis adicionales.
  • GenePattern ofrece soluciones integradas para el análisis de RNA-Seq (Broad Institute).
  • GeneProf Canalizaciones de análisis de libre acceso y fácil uso para experimentos de RNA-seq y ChIP-seq.
  • VERDE es una plataforma web interactiva para reprocesar y volver a analizar datos GEO RNA-seq. GREIN es impulsado por la canalización computacional de back-end para el procesamiento uniforme de datos RNA-seq y la gran cantidad (& gt5,800) de conjuntos de datos ya procesados. Las interfaces fáciles de usar de front-end brindan una gran cantidad de opciones de análisis de usuario que incluyen subconfiguración y descarga de datos procesados, visualización interactiva, análisis de poder estadístico, construcción de firmas de expresión genética diferencial y su caracterización funcional integral, análisis de conectividad con datos LINCS L1000, etc.
  • GT-FAR es una tubería de secuencia de ARN que realiza QC de secuencia de ARN, alineación, cuantificación libre de referencia y llamada de variantes de empalme. Filtra, recorta y alinea secuencialmente las lecturas de los modelos de genes y predice y valida nuevas uniones de empalme, después de lo cual cuantifica la expresión de cada gen, exón y unión de empalme conocida / novedosa y llamada de variante.
  • Visor de múltiples experimentos (MeV) es adecuado para realizar análisis, minería de datos y visualización de datos genómicos a gran escala. Los módulos MeV incluyen una variedad de algoritmos para ejecutar tareas como agrupamiento y clasificación, prueba t de Student, análisis de enriquecimiento de conjuntos de genes o análisis de significancia. MeV se ejecuta en Java.
  • NGSUtils es un conjunto de herramientas de software para trabajar con conjuntos de datos de secuenciación de próxima generación.
  • Carril-ARN Análisis escalable de cobertura y empalme de RNA-seq.
  • RAP RNA-Seq Analysis Pipeline, una nueva aplicación web NGS basada en la nube.
  • RSEQtools "RSEQtools consiste en un conjunto de módulos que realizan tareas comunes como calcular valores de expresión génica, generar pistas de señales de lecturas mapeadas y segmentar esa señal en regiones transcritas activamente. Además de la anonimización que ofrece este formato, también facilita el desacoplamiento de la alineación de las lecturas de los análisis posteriores ".
  • RobiNA proporciona una interfaz gráfica de usuario para manejar los paquetes de R / BioConductor. RobiNA proporciona un paquete que instala automáticamente todas las herramientas externas necesarias (marcos de R / Bioconductor y Bowtie).Esta herramienta ofrece una diversidad de métodos de control de calidad y la posibilidad de producir muchas tablas y gráficos que proporcionan resultados detallados para la expresión diferencial. Además, los resultados se pueden visualizar y manipular con MapMan y PageMan. RobiNA se ejecuta en la versión 6 de Java.
  • RseqFlow es una tubería de análisis de RNA-Seq que ofrece una implementación expresa de pasos de análisis para conjuntos de datos de secuenciación de RNA. Puede realizar un control de calidad (QC) antes y después del mapeo para secuenciar datos, calcular niveles de expresión para lecturas mapeadas de forma única, identificar genes expresados ​​diferencialmente y convertir formatos de archivo para facilitar la visualización.
  • INTELIGENTE maneja datos de RNA-Seq mapeados y realiza esencialmente la manipulación de datos (selección / exclusión de lecturas, agrupamiento y análisis de expresión diferencial) y visualización (información de lectura, distribución, comparación con datos epigenómicos de ChIP-Seq). Puede ser ejecutado en cualquier computadora portátil por una persona sin conocimientos de computadora. Una interfaz gráfica de usuario amigable facilita la operación de las herramientas.
  • Taberna es un sistema de gestión de flujo de trabajo de código abierto e independiente del dominio: un conjunto de herramientas que se utilizan para diseñar y ejecutar flujos de trabajo científicos y ayudar a la experimentación in silico.
  • TCW es un banco de trabajo computacional de transcriptomas.
  • TRAPLINA una tubería estandarizada y automatizada para el análisis, la evaluación y la anotación de datos de secuenciación de ARN.
  • VienaNGS Una caja de herramientas para construir tuberías de análisis de secuenciación eficientes de próxima generación.
  • wapRNA Esta es una aplicación gratuita basada en la web para el procesamiento de datos RNA-Seq de alto rendimiento (wapRNA) de plataformas de secuenciación de próxima generación (NGS), como Genome Analyzer de Illumina Inc. (Solexa) y SOLiD of Applied Biosystems (SOLiD) . wapRNA proporciona una herramienta integrada para la secuencia de RNA, se refiere al uso de tecnologías de secuenciación de alto rendimiento para secuenciar cDNA con el fin de obtener información sobre el contenido de RNA de una muestra.

Herramientas generales Editar

  • Paquete de herramientas de análisis de empalme alternativo (ASATP) El paquete de herramientas de análisis de empalme alternativo (ASATP) incluye una serie de juegos de herramientas para analizar eventos de empalme alternativo, que podrían usarse para detectar y visualizar eventos de empalme alternativo, verificar cambios de ORF, evaluar regulaciones de empalme alternativo y realizar análisis estadístico.
  • Asperfil es un conjunto de programas para extraer, cuantificar y comparar eventos de empalme alternativo (AS) a partir de datos de RNA-seq.
  • AStalavista El servidor web AStalavista extrae y muestra eventos de empalme alternativo (AS) de una anotación genómica determinada de las coordenadas del gen exón-intrón. Al comparar todas las transcripciones dadas, AStalavista detecta las variaciones en su estructura de empalme e identifica todos los eventos de AS (como omisión de exón, donante alternativo, etc.) asignando a cada uno de ellos un código de AS.
  • CLASE 2 Anotación variante de empalme precisa y eficiente a partir de lecturas de RNA-seq.
  • Gemelos / Gemelos
  • DEXseq Inferencia del uso diferencial de exones en RNA-Seq.
  • Diceseq Modelado estadístico de la dinámica de empalme de isoformas a partir de datos de series de tiempo de RNA-seq.
  • EBChangepoint Un modelo empírico de punto de cambio de Bayes para identificar empalmes alternativos 3 ′ y 5 ′ mediante RNA-Seq.
  • Eoulsan Un marco versátil dedicado al análisis de datos de secuenciación de alto rendimiento. Permite análisis automatizado (mapeo, recuento y análisis diferencial con DESeq2).
  • GESS para la detección de novo de sitios de eventos de omisión de exón a partir de lecturas de secuencia de ARN sin procesar.
  • Cortador de hojas un conjunto de métodos novedosos que permiten la identificación y cuantificación de eventos de empalme alternativos nuevos y existentes al centrarse en las escisiones de intrones.
  • LIMONES[67] Una herramienta para la identificación de uniones de empalme en transcriptomas de organismos que carecen de genomas de referencia.
  • MAJIQ. Modelado de la cuantificación de inclusión de uniones alternativas.
  • ALFOMBRILLAS Análisis multivariado de empalme de transcripciones (MATS).
  • MISO cuantifica el nivel de expresión de variantes de empalme a partir de datos de RNA-Seq y es capaz de reconocer exones / isoformas regulados diferencialmente en diferentes muestras. MISO utiliza un método probabilístico (inferencia bayesiana) para calcular la probabilidad del origen de las lecturas.
  • Carril-ARN Análisis escalable de cobertura y empalme de RNA-seq.
  • RPASuite[68] RPASuite (Conjunto de análisis de procesamiento de ARN) es una tubería computacional para identificar transcripciones procesadas de manera diferencial y coherente utilizando datos de secuencia de ARN obtenidos de múltiples tejidos o líneas celulares.
  • RSVP RSVP es un paquete de software para la predicción de isoformas alternativas de genes que codifican proteínas, basado tanto en la evidencia del ADN genómico como en las lecturas alineadas de la secuencia de ARN. El método se basa en el uso de gráficos ORF, que son más generales que los gráficos de empalme utilizados en el ensamblaje de transcripciones tradicionales.
  • SAJR calcula el número de lecturas que confirma la inclusión o exclusión del segmento (parte del gen entre dos sitios de empalme más cercanos) y luego modela estos recuentos mediante GLM con distribución cuasibinomial para tener en cuenta la variabilidad biológica.
  • SGSeq Un paquete R para la predicción de novo de eventos de empalme.
  • SplAdder Identificación, cuantificación y prueba de eventos de empalme alternativos a partir de datos de RNA-Seq.
  • Empalme Predicción de nuevos eventos de empalme alternativo a partir de datos de RNA-Seq. También incluye herramientas gráficas para visualizar gráficos de empalmes. [69] [70]
  • EmpalmeJumper un enfoque basado en la clasificación para llamar uniones de empalme a partir de datos de RNA-seq.
  • EmpalmePie es una tubería para analizar empalmes no secuenciales y de varios pasos. SplicePie contiene tres pasos de análisis principales: analizar el orden de empalme por muestra, buscar eventos de empalme recursivo por muestra y resumir los eventos de empalme recursivos previstos para todas las muestras analizadas (se recomienda usar más muestras para una mayor confiabilidad). Los dos primeros pasos se realizan individualmente en cada muestra y el último paso analiza la superposición en todas las muestras. Sin embargo, el análisis también se puede ejecutar en una muestra.
  • EmpalmePlot es una herramienta para visualizar empalmes alternativos y los efectos del empalme de loci de rasgos cuantitativos (sQTL) a partir de datos de RNA-seq. Proporciona una interfaz de línea de comandos simple para dibujar gráficos de sashimi, gráficos de colmena y gráficos de estructura de eventos de empalme alternativos de archivos .bam, .gtf y .vcf.
  • Máquina de montaje Un paquete R para la clasificación de empalmes alternativos y la predicción del potencial de codificación a partir de datos de RNA-seq.
  • EmpalmeSEQ SpliceViewer es una aplicación Java que permite a los investigadores investigar patrones de empalme de ARNm alternativos en datos de estudios de secuenciación de ARNm de alto rendimiento. Las lecturas de secuencia se asignan a gráficos de empalme que cuantifican de manera inequívoca el nivel de inclusión de cada exón y unión de empalme. A continuación, se recorren los gráficos para predecir las isoformas de proteínas que probablemente resulten de las lecturas del exón y la unión de empalme observadas. Las anotaciones UniProt se asignan a cada isoforma de proteína para identificar los posibles impactos funcionales del empalme alternativo.
  • Empalme Trampa[71] es una herramienta estadística para la cuantificación de las proporciones de inclusión de exones a partir de datos de RNA-seq.
  • Empalme Express - un paquete de software para análisis de empalmes alternativos utilizando datos de secuenciación de próxima generación.
  • SUPPA Esta herramienta genera diferentes eventos de Empalme Alternativo (AS) y calcula el valor de PSI ("Porcentaje de Empalme In") para cada evento aprovechando la cuantificación de la abundancia de transcripciones de múltiples muestras.
  • SwitchSeq identifica cambios extremos en el empalme (eventos de cambio).
  • Rastrillo identificación de uniones de empalme genuinas.
  • Vista verdadera Un algoritmo de autoaprendizaje para la detección de uniones de empalme utilizando RNA-seq.
  • Vastas herramientas Un conjunto de herramientas para perfilar eventos de empalme alternativos en datos RNA-Seq.

Análisis de retención de intrones Editar

  • IRcall / IRclassifier IRcall es una herramienta computacional para la detección de eventos IR a partir de datos de RNA-Seq. IRclassifier es un enfoque basado en aprendizaje automático supervisado para la detección de eventos IR a partir de datos RNA-Seq.

Uso diferencial de isoformas / transcripciones Editar

  • IsoformSwitchAnalyzeR IsoformSwitchAnalyzeR es un paquete R que permite la identificación estadística de interruptores de isoformas con consecuencias funcionales predichas donde las consecuencias de interés pueden elegirse de una lista larga pero incluye ganancia / pérdida de dominios de proteínas, cambios de péptidos señal en la sensibilidad de NMD. [72] IsoformSwitchAnalyzeR está diseñado para el análisis posterior de datos de cualquier herramienta de cuantificación de isoformas / transcripciones completas, pero es compatible directamente con Cufflinks / Cuffdiff, RSEM Kallisto y Salmon.
  • DRIMSeq Un paquete R que utiliza modelado lineal generalizado (GLM) para identificar cambios de isoformas a partir de datos de recuento de isoformas estimados. [73]
  • BayesDRIMSeq Un paquete R que contiene una implementación bayesiana de DRIMSeq. [74]
  • Gemelos / Gemelos Herramienta de análisis diferencial y cuantificación de isoforma / transcripción completa que, entre otras cosas, prueba los cambios en el uso de la isoforma que pertenece a la misma transcripción primaria (que comparte un TSS) mediante una prueba t unilateral basada en la métrica asintótica de Jensen-Shannon. [55]
  • rSeqNP Un paquete de R que implementa un enfoque no paramétrico para probar la expresión diferencial y el empalme de los datos de RNA-Seq. [75]
  • Aislador Herramienta de análisis diferencial y cuantificación de isoformas / transcripciones completas que analiza todas las muestras en un experimento al unísono utilizando un modelo jerárquico bayesiano simple. Puede identificar el uso de isoformas diferenciales probando la probabilidad de empalme monótono. [76]

Los arreglos del genoma resultantes de enfermedades como el cáncer pueden producir modificaciones genéticas aberrantes como fusiones o translocaciones. La identificación de estas modificaciones juega un papel importante en los estudios de carcinogénesis. [77]

  • Arriba[78] es un algoritmo de detección de fusión basado en el alineador STAR [46] RNA-Seq. Es el ganador del DREAM Challenge sobre detección de fusión. [79] Arriba también puede detectar sitios de integración viral, duplicaciones internas en tándem, duplicaciones de exones completos, ARN circulares, eventos de secuestro de potenciadores que involucran loci de receptores de células T / inmunoglobulinas y puntos de ruptura en intrones o regiones intergénicas.
  • Belerofontes
  • BreakDancer
  • BreakFusion
  • QuimeraScan
  • EBARDenovo
  • EricScript
  • MÁS PROFUNDO es un algoritmo estadístico de detección de fusión. [80] DEEPEST también puede detectar ARN circulares.
  • Desactivar DeFuse es un paquete de software para el descubrimiento de la fusión de genes utilizando datos de RNA-Seq.
  • FusionAnalyser FusionAnalyser utiliza el mapeo de lecturas emparejadas a diferentes genes (lecturas Bridge).
  • FusionCatcher FusionCatcher busca genes de fusión somática nuevos / conocidos, translocaciones y quimeras en los datos de RNA-seq (lecturas de extremos emparejados trenzados / no trenzados de las plataformas Illumina NGS) de muestras enfermas.
  • FusionHunter identifica transcripciones de fusión sin depender de anotaciones ya conocidas. Utiliza Bowtie como primer alineador y lecturas de extremos emparejados.
  • FusionMap FusionMap es un alineador de fusión que alinea las lecturas que abarcan las uniones de fusión directamente con el genoma sin conocimiento previo de las posibles regiones de fusión. Detecta y caracteriza las uniones de fusión con una resolución de pares de bases. FusionMap se puede aplicar para detectar uniones de fusión en conjuntos de datos de extremo único y emparejado de estudios de gDNA-Seq o RNA-Seq.
  • FusionSeq
  • JAFFA se basa en la idea de comparar un transcriptoma con un transcriptoma de referencia en lugar de un enfoque centrado en el genoma como otros buscadores de fusión.
  • MapSplice[81]
  • nFuse
  • Oncomine Navegador de expresión génica NGS RNA-Seq.
  • PRADA
  • SOAPFuse detecta transcripciones de fusión a partir de datos de RNA-Seq de extremos emparejados humanos. Supera a otras cinco herramientas similares en rendimiento de cálculo y detección de fusión utilizando datos tanto reales como simulados. [82]
  • SOAPfusion
  • TopHat-Fusion se basa en la versión TopHat y fue desarrollado para manejar lecturas resultantes de genes de fusión. No requiere datos previos sobre genes conocidos y usa Bowtie para alinear lecturas continuas.
  • ViralFusionSeq es una herramienta de secuenciación de alto rendimiento (HTS) para descubrir eventos de integración viral y reconstruir transcripciones de fusión con una resolución de base única.
  • ViReMa (Viral Recombination Mapper) detecta e informa eventos de recombinación o fusión en y entre el virus y los genomas del huésped utilizando conjuntos de datos de secuenciación profunda. [83]
  • CNVseq detecta variaciones en el número de copias apoyadas en un modelo estadístico derivado de la hibridación genómica comparativa de matrices. La alineación de secuencias se realiza mediante BLAT, los cálculos se ejecutan mediante módulos R y está completamente automatizado con Perl.

Secuenciación unicelular. La metodología tradicional de RNA-Seq se conoce comúnmente como "RNA-Seq a granel", en este caso el RNA se extrae de un grupo de células o tejidos, no de la célula individual como ocurre en los métodos de una sola célula. Algunas herramientas disponibles para bulk RNA-Seq también se aplican al análisis unicelular, sin embargo para afrontar la especificidad de esta técnica se desarrollaron nuevos algoritmos.

  • CEL-Seq[84] RNA-Seq unicelular mediante amplificación lineal multiplexada.
  • Drop-Seq[85] Perfiles de expresión de células individuales en todo el genoma altamente paralelos utilizando gotitas de nanolitros. Secuenciación del transcriptoma de células individuales in situ, es decir, sin disociar las células.
  • Oscopio: un canal estadístico para identificar genes oscilatorios en experimentos no sincronizados de secuencia de ARN de una sola célula.
  • ESCAFANDRA AUTÓNOMA[86] Extracción de relaciones de linaje y modelado de cambios dinámicos asociados con la diferenciación celular de múltiples linajes.
  • scLVM[87] scLVM es un marco de modelado para datos de secuencia de ARN de una sola célula que se puede utilizar para diseccionar la heterogeneidad observada en diferentes fuentes, lo que permite la corrección de fuentes de variación confusas.
  • scM y ampT-Seq Secuenciación unicelular en paralelo.
  • Esfinge[88] SPHINX es un enfoque de agrupamiento híbrido que logra una alta eficiencia de agrupamiento mediante la utilización de características de "composición" y "similitud" de la secuencia de consulta durante el proceso de agrupamiento. SPHINX puede analizar secuencias en conjuntos de datos metagenómicos tan rápidamente como los enfoques basados ​​en la composición, pero sin embargo tiene la precisión y especificidad de los algoritmos basados ​​en similitudes.
  • Trazador[89] Reconstrucción de receptores de células T emparejados a partir de lecturas de RNA-Seq de una sola célula.
  • VDJRompecabezas[90] La reconstrucción del receptor de células T a partir de lecturas de RNA-Seq unicelulares y vincula el clonotipo con el fenotipo funcional y el transcriptoma de células individuales.

Paquetes integrados Editar

  • Monóculo Expresión diferencial y análisis de series de tiempo para experimentos de RNA-Seq y qPCR de una sola célula.
  • SCANPY[91] Implementación escalable basada en Python para preprocesamiento, visualización, agrupamiento, inferencia de trayectoria y pruebas de expresión diferencial.
  • SCell análisis integrado de datos de secuencia de ARN de una sola célula.
  • Seurat[92] Paquete R diseñado para control de calidad, análisis y exploración de datos de secuencia de ARN de una sola célula.
  • Sincell un paquete de R / Bioconductor para la evaluación estadística de jerarquías de estado de célula a partir de RNA-seq.
  • SINCERA[93] Una canalización para el análisis de perfiles de secuenciación de ARN de una sola célula.

Control de calidad y filtrado de genes Editar

  • Celolina Una tubería para el mapeo y la evaluación de la calidad de datos de secuencia de ARN de una sola célula.
  • OEFinder Una interfaz de usuario para identificar y visualizar efectos de ordenación en datos de secuencia de ARN de una sola célula.
  • SinQC Un método y una herramienta para controlar la calidad de los datos de RNA-seq de una sola célula.

Normalización Editar

  • LO ESENCIAL Comprender los cambios en la expresión génica a nivel unicelular.
  • GRM Normalización y reducción de ruido para experimentos de secuencia de ARN de una sola célula.

Reducción de dimensión Editar

Edición de expresión diferencial

  • BPSC Un paquete R BPSC para el ajuste de modelos y análisis de expresión diferencial de RNA-seq de una sola célula.
  • MÁSTIL un marco estadístico flexible para evaluar los cambios transcripcionales y caracterizar la heterogeneidad en los datos de secuenciación de ARN de una sola célula.
  • SCDE Caracterización de la heterogeneidad transcripcional a través del análisis de sobredispersión de rutas y conjuntos de genes.

Visualización Editar

Estos simuladores generan en silico lee y son herramientas útiles para comparar y probar la eficiencia de los algoritmos desarrollados para manejar datos de RNA-Seq. Además, algunos de ellos permiten analizar y modelar protocolos RNA-Seq.

  • Simulador de cervezas está formateado a datos de ratón o humanos, y las lecturas de los extremos emparejados se secuencian en la plataforma Illumina. Beers genera lecturas a partir de un conjunto de modelos genéticos que provienen de diferentes orígenes de anotaciones publicadas. Algunos genes se eligen al azar y luego se introducen deliberadamente errores (como indeles, cambios de base y colas de baja calidad), seguidos de la construcción de uniones de empalme novedosas.
  • compcodeR Simulación de datos RNAseq, análisis de expresión diferencial y comparación de rendimiento de métodos de expresión diferencial.
  • CuReSim un simulador de lectura personalizado.
  • Simulador de flujo implementa una simulación de canalización por computadora para imitar un experimento de RNA-Seq. Todos los pasos de los componentes que influyen en la RNA-Seq se tienen en cuenta (transcripción inversa, fragmentación, ligación del adaptador, amplificación por PCR, segregación y secuenciación en gel) en la simulación. Estos pasos presentan atributos experimentales que se pueden medir y se capturan los sesgos experimentales aproximados. Flux Simulator permite unir cada uno de estos pasos como módulos para analizar diferentes tipos de protocolos.
  • PBSIM PacBio lee el simulador - hacia el ensamblaje exacto del genoma.
  • Poliéster Este paquete de bioconductores se puede utilizar para simular lecturas de RNA-seq de experimentos de expresión diferencial con réplicas. A continuación, las lecturas se pueden alinear y utilizar para realizar comparaciones de métodos para la expresión diferencial.
  • Lecturas aleatorias Genera lecturas sintéticas a partir de un genoma con un modelo de error de Illumina o PacBio. Las lecturas pueden estar emparejadas o desemparejadas, con longitud y tamaño de inserción arbitrarios, salida en fasta o fastq, RandomReads tiene una amplia selección de opciones para tasas de mutación, con configuraciones individuales para sustitución, eliminación, inserción y N tasas y distribuciones de longitud, anotaciones lee con su ubicación de inicio y parada genómica original, no mutada. RandomReads no varía los niveles de expresión y, por lo tanto, no está diseñado para simular experimentos de RNA-seq, sino para probar la sensibilidad y especificidad de los alineadores de RNA-seq con intrones de novo. Incluye una herramienta para calificar y generar curvas ROC a partir de archivos sam resultantes. De código abierto, escrito en Java puro, es compatible con todas las plataformas sin recopilación ni otras dependencias. Distribuido con BBMap.
  • rlsim es un paquete de software para simular la preparación de bibliotecas de RNA-seq con estimación de parámetros.
  • rnaseqbenchmark Un punto de referencia para las tuberías de cuantificación de RNA-seq.
  • rnaseqcomp Puntos de referencia para tuberías de cuantificación de RNA-seq.
  • Simulador de lectura RSEM RSEM proporciona a los usuarios el programa ‘‘ rsem-simulate-reads ’para simular datos de RNA-Seq basados ​​en parámetros aprendidos de conjuntos de datos reales.
  • RNASeqReadSimulator contiene un conjunto de scripts Python simples, controlados por línea de comandos. Genera niveles de expresión aleatorios de transcripciones (final simple o emparejado), simula igualmente lecturas con un patrón de sesgo posicional específico y genera errores aleatorios a partir de plataformas de secuenciación.
  • Simulador de secuencia de ARN RSS toma archivos de alineación SAM de datos RNA-Seq y simula conjuntos de datos RNA-Seq dispersos, de múltiples réplicas, diferenciales y sin cadena.
  • SimSeq Un enfoque no paramétrico para la simulación de conjuntos de datos de secuencias de ARN.
  • WGsim Wgsim es una pequeña herramienta para simular secuencias de lectura de un genoma de referencia. Es capaz de simular genomas diploides con SNP y polimorfismos de inserción / deleción (INDEL) y simular lecturas con errores de secuenciación de sustitución uniformes. No genera errores de secuenciación de INDEL, pero esto se puede compensar en parte simulando polimorfismos de INDEL.

El transcriptoma es la población total de ARN expresados ​​en una célula o grupo de células, incluidos los ARN no codificantes y codificantes de proteínas. Hay dos tipos de enfoques para ensamblar transcriptomas. Los métodos guiados por el genoma utilizan un genoma de referencia (si es posible, un genoma terminado y de alta calidad) como plantilla para alinear y ensamblar lecturas en transcripciones. Los métodos independientes del genoma no requieren un genoma de referencia y normalmente se utilizan cuando no hay un genoma disponible. En este caso, las lecturas se ensamblan directamente en las transcripciones.


Referencias

Pepke, S., Wold, B. y Mortazavi, A. Nat. Métodos 6, S22-S32 (2009).

Griffith, M. y col. Nat. Métodos 7, 843–847 (2010).

Ameur, A. et al. Genome Biol. 11, R34 (2010).

Au, K.F. et al. Ácidos nucleicos Res. 38, 4570–4578 (2010).

De Bona, F. et al. Bioinformática 24, i174 – i180 (2008).

Trapnell, C., Pachter, L. & amp Salzberg, S.L. Bioinformática 25, 1105–1111 (2009).

Wu, T.D. y Nacu, S. Bioinformática 26, 873–881 (2010).

Guttman, M. y col. Nat. Biotechnol. 28, 503–510 (2010).

Trapnell, C. y col. Nat. Biotechnol. 28, 511–515 (2010).

Li, B. y col. Bioinformática 26, 493–500 (2010).

Li, J., Jiang, H. y Wong, W.H. Genome Biol. 11, R50 (2010).

Krawitz, P. et al. Bioinformática 26, 722–729 (2010).

Cartwright, R.A. Mol. Biol. Evol. 26, 473–480 (2009).

Degner, J.F. et al. Bioinformática 25, 3207–3212 (2009).

Birzele, F. et al. Ácidos nucleicos Res. 38, 3999–4010 (2010).

Simpson, J.T. et al. Genome Res. 19, 1117–1123 (2009).

Flicek, P. y Birney, E. Nat. Métodos 6 (Supl.), S6 – S12 (2009).

Birol, I. et al. Bioinformática 25, 2872–2877 (2009).

Slater, G.S. y Birney, E. Bioinformática BMC 6, 31 (2005).

Li, H. y Durbin, R. Bioinformática 25, 1754–1760 (2009).

Hubbard, T.J. et al. Ácidos nucleicos Res. 37, D690-D697 (2009).

Kent, W.J. Genome Res. 12, 656–664 (2002).

Hsu, F. y col. Bioinformática 22, 1036–1046 (2006).

Pruitt, K.D., Tatusova, T. y Maglott, D.R. Ácidos nucleicos Res. 35, D61-D65 (2007).

Thierry-Mieg, D. y Thierry-Mieg, J. Genome Biol. 7 (Supl.), 11-14 (2006).

Melamud, E. y Moult, J. Ácidos nucleicos Res. 37, 4873–4886 (2009).

Nagalakshmi, U. et al. Ciencias 320, 1344–1349 (2008).

Jackman, S.D. y Birol, I. Genome Biol. 11, 202 (2010).

Sheth, N. y col. Ácidos nucleicos Res. 34, 3955–3967 (2006).

Rhead, B. y col. Ácidos nucleicos Res. 38 Problema de la base de datos, D613 – D619 (2010).

Koscielny, G. et al. Genómica 93, 213–220 (2009).

Trapnell, C. & amp Salzberg, S.L. Nat. Biotechnol. 27, 455–457 (2009).


3 RESULTADOS

Implementación y tiempo de ejecución: los componentes principales de FusionHunter se implementaron en C y C ++. Se utilizaron scripts de Perl para envolver diferentes partes en una tubería. En la versión actual de FusionHunter, requerimos que los usuarios instalen Bowtie, que está disponible gratuitamente. Para una muestra de 30 millones de lecturas, se necesitan de 1 a 2 h para alinear las lecturas con Bowtie y de 0,5 a 1 h para los procesos posteriores, con computadoras de 16 núcleos.

Au et al. (2010) conjuntos de datos: ejecutamos FusionHunter en la muestra de ARN-seq de tejido cerebral humano normal de Au et al. (2010), que sirve como control. FusionHunter no informó ningún evento de fusión.

Berger et al. (2010) conjuntos de datos: Berger et al. (2010) validó 11 fusiones de genes novedosos mediante RT-PCR de diez muestras de melanoma. Descargamos las lecturas de RNA-seq sin procesar de estas muestras utilizadas en su estudio de NCBI y ejecutamos FusionHunter en estos conjuntos de datos. FusionHunter predijo 11 fusiones y todas fueron validadas por Berger et al. (2010). Esto muestra que las predicciones de fusión de FusionHunter son confiables. Los detalles de los resultados se encuentran en el Suplemento. Además, también predijimos 13 eventos de lectura y cinco de ellos se superpusieron con 12 lecturas previstas en Berger. et al. (2010). No realizamos una comparación detallada para las lecturas, porque Berger et al. (2010) no validó las predicciones de lectura completa.


Introducción

Los CircRNA se descubrieron hace más de dos décadas como un grupo especial de transcripciones de ARN con estructuras circulares 1, 2, 3, 4, 5. Los avances recientes en las tecnologías de secuenciación de alto rendimiento y los protocolos experimentales permiten un perfil profundo imparcial del paisaje circRNA de una manera en todo el genoma, lo que lleva al redescubrimiento de miles de circRNA en eucariotas 6,7,8,9 y arqueas 10. Los CircRNA se expresan y regulan ampliamente en organismos como humanos, ratones, ratas, moscas de la fruta y C. elegans 11,12,13,14,15. Los CircRNA se generan mediante un empalme alternativo, donde un donante de empalme descendente se une covalentemente a un aceptor de empalme ascendente, formando una unión de empalme inverso característica (BSJ) (Fig. 1a). Los CircRNA pueden originarse a partir de transcripciones multi-exónicas, transcripciones exónicas únicas, transcripciones no caracterizadas e incluso genes de fusión 16. Se han observado eventos de procesamiento de ARN alternativo en circRNA, incluida la omisión de exón, la retención de intrones y el corte y empalme alternativo 13,17,18. La gran diversidad de isoformas, la estricta regulación de la expresión y la profunda conservación evolutiva sugieren colectivamente las posibles funcionalidades de los circRNA. Se ha propuesto que los circRNAs podrían ejercer sus funciones por varios medios, incluido el señuelo de miRNA y proteínas de unión a RNA (RPB) 19,20. Aunque los mecanismos detallados todavía están bajo escrutinio, la desregulación de los circRNAs se ha relacionado con enfermedades como el Alzheimer y la leucemia 16,21. Además, debido a la excepcional estabilidad bioquímica que les confiere su forma circular, los circRNA circulantes también están enriquecidos en exosomas y, por tanto, pueden servir como un biomarcador prometedor para el diagnóstico del cáncer 22.

Pipeline computacional de perfiles de circRNA.

(a) Un ejemplo de circRNA (coloreado en naranja) se originó a partir de un locus génico multi-exónico (cuadrados negros). La barra vertical roja en el circRNA marca el BSJ. (B) Flujo de trabajo esquemático de acfs, los óvalos denotan procesos para la identificación del ARNcirc de fusión, los recuadros punteados denotan entrada opcional. (C) Determinación del BSJ usando circ_NEIL3 como ejemplo. La lectura de soporte de BSJ se puede dividir de tres maneras (de color naranja) debido a la similitud de secuencia en los sitios de empalme. Las secuencias de exones se muestran en mayúsculas y las secuencias de intrones en minúsculas. La resistencia del empalme se estima para cada uno de los posibles sitios de empalme utilizando el modelo maxEnt. Se predice que un patrón de partición (línea de trazos rojos) será generado por la maquinaria de empalme y se informa como el BSJ.

Es fundamental identificar y cuantificar con precisión los circRNA en muestras de interés para que podamos obtener más conocimientos sobre la dinámica de expresión y las funciones biológicas de los circRNA. Se han desarrollado muchos métodos para detectar circRNAs utilizando datos de RNA-Seq (Tabla 1), pero aún quedan cinco desafíos por abordar. En primer lugar, las BSJ características deben identificarse en todo el genoma de una manera no sesgada. Varias herramientas, como CIRCexplorer 23, KNIFE 24 y MapSplice2 25, se basan en la anotación genética a priori y solo verifican posibles BSJ que constan de exones conocidos (Tabla 1). A pesar de la ventaja de estos métodos guiados por referencia en los que el espacio de búsqueda se reduce en gran medida desde el genoma hasta los exones anotados, no son capaces de detectar circRNA que contienen exones no anotados o sitios de empalme o aquellos que se originan a partir de loci de genes no anotados. Por ejemplo, los sitios de empalme de los circRNA bien conocidos circSRY 2 y circCDR1as 26 no se anotan en las transcripciones de ARN lineal y, por lo tanto, estos circRNA no se informarán mediante métodos guiados por referencia. En segundo lugar, se debe analizar la autenticidad de los BSJ predichos. Varias herramientas, incluidas CIRCexplorer 23, circRNA_Finder 27, CIRI 28 y find_circ 11, informan de un BSJ candidato si se encuentra un motivo de empalme canónico, como “GU-AG” (Tabla 1). En consecuencia, muchos De buena fe Se descartarán los sitios de empalme de la composición 29 de dinucleótidos no canónicos. Además, los sitios de corte y empalme no están determinados únicamente por estas cuatro bases, sino por secuencias mucho más largas 30. Dada la complejidad de las señales de empalme, está claro que el descubrimiento de circRNA se beneficiará de un algoritmo de identificación completo de BSJ. En tercer lugar, la cuantificación precisa de la abundancia es un requisito previo para un estudio detallado de la regulación y las funciones potenciales de los circRNA. Aunque la abundancia de circRNA podría medirse contando el número de lecturas consistentes con BSJ, muchos De buena fe Es posible que las lecturas BSJ no se identifiquen durante la alineación inicial debido a las restricciones de los alineadores de lectura. Como solución, la realineación a las referencias BSJ predichas puede ayudar a mejorar la precisión de la cuantificación. Además, varias herramientas de última generación solo aceptan lecturas de extremo emparejado como entrada, lo que restringe severamente sus aplicaciones (Tabla 1). Por último, y lo que es más importante, ninguna de las herramientas actuales permite la detección de circRNA de fusión, que se ha demostrado que tiene un papel en enfermedades como la generación de resistencia a los fármacos en la leucemia 16.

Para abordar todos los desafíos antes mencionados, presentamos acfs (aexacto CircRNA Finder suite) para de novo identificación y cuantificación de circRNA. Demostramos que acfs es altamente preciso, tiene un FDR muy bajo y puede manejar datos tanto de un solo extremo (SE) como de pares (PE). Utilizando un conjunto de conjuntos de datos simulados y dos conjuntos de datos publicados adicionales, demostramos que los acfs exhiben el mejor rendimiento en comparación con otras herramientas de última generación. Además, entre miles de circRNA identificados en muestras de leucemia 16,31, un subconjunto de ellos mostró un patrón de expresión distintivo y podría servir como biomarcadores de diagnóstico. Creemos que la identificación precisa y la cuantificación de la expresión de los circRNA, según lo habilitado por acfs, arrojarán luz sobre una mayor comprensión de la biogénesis, la regulación y las funciones de los circRNA.


Materiales y métodos

Esquema del enfoque general

SOAPfuse busca dos tipos de lecturas (span-reads y junc-reads Figura 1a) para identificar las transcripciones de fusión. Las lecturas de extremos emparejados que se asignan a dos genes diferentes (un par de genes) se definen como lecturas de extensión, y las lecturas que cubren los sitios de unión se denominan lecturas de unión. Las lecturas de extensión se utilizan para identificar pares de genes candidatos, y las lecturas de unión se utilizan para caracterizar los sitios de unión exactos con una resolución de base única. Las lecturas de intervalo y las lecturas conjuntas duplicadas se eliminan antes de calcular el número de lecturas de apoyo (Figura 6a). SOAPfuse contiene nueve pasos en su canalización (archivo adicional 10) y se puede dividir en cuatro partes (Figura 1b): (i) leer alineación (pasos S01 a S03) (ii) identificar pares de genes candidatos (pasos S04 y S05) ( iii) detección de fusiones predichas (pasos S06 y S07) y (iv) fusiones de filtrado (pasos S08 y S09). Una descripción detallada del algoritmo se encuentra en el archivo adicional 3.

Filtrado básico de pares de genes candidatos en SOAPfuse. (a) Las lecturas de tramo y las lecturas conjuntas duplicadas se eliminan antes de calcular el número de lecturas de apoyo y solo se retiene una lectura duplicada. (B) Genes C y D son adyacentes y comparten dos exones: el exón 4 y el exón 5 de Gene C superposición con el exón 1 y el exón 2 de Gene D, respectivamente. SOAPfuse excluye las lecturas de extensión de los exones superpuestos. (C) El par de genes M y N tiene regiones con secuencias homogéneas / similares y las lecturas de estas regiones se filtran.

Leer alineación

SOAPfuse inicialmente alinea las lecturas de los extremos emparejados con la secuencia del genoma de referencia humano (hg19) utilizando SOAP2 [30] (SOAP-2.21 paso S01 en el archivo adicional 10). Dividimos las lecturas en tres tipos de acuerdo con los resultados de alineación de lectura: PE-S01, SE-S01 y UM-S01, donde PE significa resultado mapeado de extremos emparejados, SE para resultado mapeado de un solo extremo y UM para lectura no mapeada. Las lecturas de PE-S01 indican que las lecturas de los extremos emparejados se asignan al genoma con los tamaños de inserción adecuados (& lt10.000 pb). SE-S01 contiene lecturas de extremos emparejados en las que solo uno de los dos extremos se asigna al genoma de referencia, y lecturas de extremos emparejados que indican un fragmento con un tamaño de inserción anormal o una orientación asignada. Todas las lecturas no asignadas se guardan en UM-S01 con formato FASTA. PE-S01 se utiliza para evaluar el tamaño de la plaquita (archivo adicional 3). A continuación, SOAPfuse alinea las lecturas de UM-S01 con las transcripciones anotadas (paso de liberación de Ensembl S02 en el archivo adicional 10) y genera SE-S02 y UM-S02. Para filtrar las lecturas no mapeadas causadas por indeles pequeños, las lecturas UM-S02 se realinean a las transcripciones anotadas usando BWA [35] (el número máximo de extensiones de espacio de BWA-0.5.9 es 5), y las lecturas restantes no mapeadas se denominan filtradas y no mapeadas (FUM ).

Recortar y realinear lecturas de forma iterativa

Los últimos protocolos para la preparación de bibliotecas NGS RNA-Seq pueden generar lecturas de extremos emparejados con un tamaño de inserción más corto que la longitud total de ambas lecturas (con los extremos 3 'de ambas lecturas superpuestas). Las lecturas de los extremos emparejados con los extremos 3 'superpuestos pueden provenir de las regiones de unión que contienen los sitios de unión y estas lecturas de los extremos emparejados no se asignan a la referencia si las regiones superpuestas cubren los sitios de unión. Estas lecturas son componentes de FUM generados en el paso S02 (archivo adicional 10) y no pueden convertirse en lecturas de intervalo, lo que reducirá la capacidad de detección de fusión. SOAPfuse estima si el número de estas lecturas de extremos emparejados con extremos 3 'superpuestos excede el umbral (20% del total de lecturas por defecto). En caso afirmativo, o si el usuario habilita una operación de recorte accesible en el archivo de configuración, SOAPfuse recortará y realineará iterativamente las lecturas FUM a las transcripciones anotadas (Figura 7, paso S03 en el archivo adicional 10). La longitud de las lecturas después del recorte debe ser de al menos 30 nucleótidos (parámetro predeterminado en SOAPfuse). Las lecturas recortadas que se pueden asignar a las transcripciones anotadas se almacenan en SE-S03 (archivo adicional 3). Se utilizaron dos pasos para finalizar la operación de recorte y realineación: primero, las lecturas de FUM se recortaron progresivamente de cinco bases desde el extremo 3 'y se asignaron nuevamente a las transcripciones anotadas hasta que se encontró una coincidencia en segundo lugar, utilizando la misma estrategia, recortamos el resto FUM lee desde el extremo 5 '. Todas las lecturas de extremo emparejado mapeadas de estos dos pasos se fusionaron (paso S04 en el archivo adicional 10).

Recortar y realinear las lecturas de los extremos emparejados en las que ambos extremos de 3 'se superponen entre sí. Se muestra una secuencia de unión con el sitio de unión señalado con un punto amarillo. La región azul es de Gene A, y el naranja es de Gene B. La lectura del extremo emparejado con extremos de 3 'superpuestos (línea negra gruesa) no se puede asignar a Gene A y Gene B, como se lee en el sitio de la unión. Se obtiene una serie de lecturas recortadas (línea gruesa gris) recortando iterativamente 5 nucleótidos (nts) cada vez desde los extremos 3 'hasta que las lecturas pudieran mapear a Gene A y Gene B. En este ejemplo, el final 1 de una lectura de extremo emparejado requiere dos ciclos de recorte para lograr una alineación exitosa, mientras que el final 2 necesita cinco ciclos.

Identificación de pares de genes candidatos

De todas las lecturas alineadas de manera discordante, SOAPfuse busca span-reads para admitir pares de genes candidatos (paso S05 en el archivo adicional 10). Para detectar los pares de genes candidatos se utilizaron tanto las lecturas de intervalo que se asignaron de forma única a la referencia (genoma humano y transcripciones anotadas) como las lecturas recortadas que tienen múltiples aciertos. Los aciertos máximos para cada lectura de intervalo es un parámetro en el archivo de configuración. Para garantizar la detección precisa de los pares de genes de fusión, SOAPfuse impone varios filtros en la lista de pares de genes candidatos predichos (archivo adicional 3), como excluir pares de genes de las mismas familias de genes y pares con regiones de exón superpuestas u homogéneas (Figura 6b).

Determinación de los genes ascendentes y descendentes en los eventos de fusión

Después de obtener los pares de genes candidatos, se determinaron los genes aguas arriba y aguas abajo de la fusión basándose en la información de la alineación de lectura de extensión contra la referencia. En el proceso de secuenciación de extremos emparejados, los fragmentos se secuencian desde los bordes bilaterales hasta la parte media: un extremo comienza desde el extremo 3 'del fragmento, mientras que el otro extremo comienza desde el extremo 3' de la secuencia complementaria de emparejamiento de bases. del fragmento (Figura 8a). Esta información se utiliza para definir los genes ascendentes y descendentes en una transcripción de fusión.

Determinación de genes ascendentes y descendentes en eventos de fusión. (a) Se muestra un fragmento de secuenciación de extremos emparejados con su fragmento complementario. Las lecturas de pares (lee 'a' y 'b') se muestran con su dirección de secuenciación (de 5 'a 3', señaladas por flechas en las lecturas). La lectura 'a' se genera a partir del fragmento en sí, mientras que la lectura 'b' proviene del fragmento complementario. La orientación de secuenciación es desde los bordes bilaterales hasta la mitad del fragmento, por lo que las lecturas de los extremos emparejados se generan cara a cara. (antes de Cristo) Diferentes clasificaciones de span-read (lea 'a' y 'b') soportan diferentes genes ascendentes y descendentes. El gen alineado por lecturas en la orientación más debe ser el gen corriente arriba. En (b), lea 'a' se alinea con Gene A en una orientación plus. Según la secuenciación de pares de extremos que se muestra en (a), Gene A debe ser el gen ascendente y Gene B debe ser el gen descendente. En (c), lea 'b' se alinea con Gene B en una orientación plus. Entonces, Gene B es un gen ascendente y Gene A es un gen descendente.

Una lectura de intervalo (el extremo emparejado lee 'a' y 'b') admite un par de genes candidatos (Gene A y Gene B). Según el número de serie ('1' o '2') y la orientación mapeada ('+' o '-') de las lecturas del extremo emparejado (lea 'a' y 'b'), hay 16 combinaciones, pero solo 4 son racionales. Estas cuatro combinaciones admiten dos tipos de fusiones en las que los genes ascendentes y descendentes son diferentes (archivo adicional 11. Tabla S12). La regla de juicio es: el gen alineado por lecturas en la orientación más debe ser el gen corriente arriba. Aquí, suponemos que leer mapas 'a' para Gene A y leer mapas 'b' para Gene B (Figura 8b, c). En la Figura 8b, lea 'a' se alinea con Gene A (transcripciones anotadas) en la orientación más, por lo que Gene A debe ser el gen aguas arriba, mientras que en la Figura 8c, lea 'b' se alinea con Gene B en la orientación más, entonces Gene B debe ser el gen aguas arriba. De acuerdo con esta regla, SOAPfuse define los genes ascendentes y descendentes en los eventos de fusión.

Obteniendo las regiones fusionadas

Antes de definir las regiones fusionadas en las que pueden ubicarse los sitios de unión, obtuvimos una secuencia de transcripción no redundante de la transcripción (es) de cada gen anotado (archivo adicional 3). Se utilizaron dos métodos para definir las regiones fusionadas en pares de genes. En el primer método, SOAPfuse divide en dos cada lectura de FUM y genera dos segmentos isométricos, cada uno de los cuales se denomina lectura medio sin asignar (paso de lectura de HUM S06 en el archivo adicional 10). Las lecturas de HUM se alinean con los pares de genes candidatos con SOAP2. Una lectura de unión genuina (junc-read) debe tener al menos una lectura de HUM que no cubra el sitio de unión y podría mapear a un gen del par.Según la lectura de HUM mapeada, SOAPfuse extiende una longitud de lectura de HUM desde la posición mapeada en transcripciones no redundantes para definir la región fusionada en la que podría estar ubicado el sitio de unión (Figura 9a). Para las lecturas de HUM con múltiples aciertos, se tienen en cuenta todas las ubicaciones de los aciertos. Las lecturas originales de las lecturas HUM asignadas se denominan lecturas útiles no asignadas (lectura UUM).

Obtención de regiones fusionadas mediante dos métodos. Una secuencia de unión en una transcripción de fusión de un par de genes, Gene A y Gene B, en azul y naranja, respectivamente, se muestra. El sitio de unión se muestra como puntos redondos amarillos en la secuencia de fusión. (a) Se muestran dos lecturas no mapeadas (lecturas conjuntas candidatas) alrededor de la secuencia de fusión. Cada lectura se divide en dos lecturas HUM isométricas: una HUM puede mapear a un gen del par, mientras que la otra no puede mapear al gen ya que cubre el sitio de unión (punto redondo amarillo). Desde la ubicación de la lectura de HUM mapeada, SOAPfuse extiende una longitud de lectura de HUM para obtener la región fusionada, en la que se encuentra el sitio de unión (triángulo amarillo). (B) Se muestra el mapeo de lectura de extensión al par de genes. Finalizar 1 mapas para Gene A (con posición MP1) y terminar 2 mapas para Gene B (con posición MP2). A partir de las posiciones mapeadas de ambos extremos, SOAPfuse determina la región fusionada potencial según los tamaños de las plaquitas (INS), la desviación estándar de los tamaños de las plaquitas (Dakota del Sur) y la longitud de las lecturas (RL1 y RL2 para ambos extremos, respectivamente) y extiende las bases flanqueantes adecuadas para obtener la región fusionada.

SOAPfuse también utiliza span-reads para detectar las regiones fusionadas en pares de genes candidatos (paso S07-a en el archivo adicional 10). Las lecturas de extensión, las lecturas de los extremos emparejados que respaldan los pares de genes de fusión candidatos, se derivan de las transcripciones fusionadas y los sitios de unión a menudo se encuentran en regiones de las transcripciones fusionadas entre ambos extremos de las lecturas de extensión. Para los genes aguas arriba y aguas abajo, podemos extender una región con una longitud igual al tamaño del inserto (evaluado en el paso S01) desde la posición mapeada de cada lectura del tramo final 3 'para estimar la región fusionada que cubre el sitio de unión (Figura 9b). Cada par de genes siempre está respaldado por al menos dos lecturas de extensión, correspondientes a varias regiones fusionadas que pueden tener superposiciones entre sí. Supusimos que el final 1 de una lectura de intervalo mapeado a la posición MP1 en Gene A, y el final 2 de la lectura de intervalo asignada a la posición MP2 en Gene B. Las longitudes de los extremos 1 y 2 de las lecturas de tramo son RL1 y RL2, respectivamente. El promedio de tamaños de plaquita (EN S) y su desviación estándar (Dakota del Sur) se evalúan en el paso S01. Las regiones fusionadas se estimaron mediante los siguientes intervalos:

Los intervalos de las regiones fusionadas para los genes aguas arriba son:

Y los intervalos de regiones fusionadas para los genes posteriores son:

En la fórmula anterior, una región flanqueante con una longitud de FLB se consideró porque a veces unas pocas bases del extremo 3 'de una lectura de tramo cubren los sitios de unión en la alineación permitida por desajustes.

SOAPfuse combinó las regiones fusionadas determinadas por los dos métodos anteriores para detectar los sitios de unión utilizando el algoritmo de agotamiento parcial como se describe a continuación.

Construcción de biblioteca de secuencias de unión de fusión con algoritmo de agotamiento parcial

Para simplificar la explicación del algoritmo, llamamos a las regiones fusionadas determinadas por los dos métodos anteriores como regiones fusionadas 1 y regiones fusionadas 2, respectivamente. La región fusionada 1, definida por las lecturas de HUM mapeadas, es una región pequeña que cubre los sitios de unión con una longitud menor que una lectura de NGS. La región fusionada 2 es una región grande definida por los tamaños de inserción de la biblioteca NGS, que siempre son mucho más largos que las lecturas de HUM. Generalmente, la región fusionada 1 es más útil que la región fusionada 2 para definir los sitios de unión.

Sin embargo, no todas las lecturas de HUM mapeadas son de lecturas junc genuinas. A veces, una lectura no mapeada de un gen determinado no mapea este gen como resultado de más desajustes de los permitidos por SOAP2. Las lecturas no mapeadas como esta no son lecturas junc y después de la bisección en dos lecturas HUM, una de las lecturas HUM podría mapearse en el gen original, lo que da como resultado regiones fusionadas espúreas. La región fusionada 2 implica alineaciones de dos extremos de un intervalo leído simultáneamente, que también se filtran por varios criterios efectivos (consulte la sección "Obtención de pares de genes candidatos"). SOAPfuse combina las regiones fusionadas 1 y 2 para definir de manera eficiente los sitios de unión. SOAPfuse clasifica la región fusionada 2 en dos tipos de subregiones: las partes superpuestas entre las regiones fusionadas 1 y 2 se denominan región creíble, mientras que las otras partes de la región fusionada 2 se denominan región potencial (Figura 10a).

Construyendo la biblioteca de secuencias de unión de fusión usando un algoritmo de agotamiento parcial. Una secuencia de unión en una transcripción de fusión de un par de genes, Gene A y Gene B en azul y naranja, respectivamente, se muestra. El sitio de unión se muestra como puntos redondos amarillos en el segmento de fusión y como triángulos amarillos en el par de genes. (a) Se muestran las regiones fusionadas 1 y 2 de dos métodos diferentes y la región fusionada 2 se divide en regiones creíbles y regiones potenciales con las coordenadas de cada subregión etiquetadas en fuente roja. Un sitio de unión putativo aguas arriba (U I) se selecciona de la región fusionada 2 en Gene A, y un sitio de unión putativo aguas abajo (D j) se selecciona de la región fusionada 2 en Gene B. (B) Para cada U I y D j, SOAPfuse genera la secuencia de unión de fusión candidata mediante la creación de conexiones por pares entre U I y D j. U I y D j no debe ubicarse en regiones potenciales al mismo tiempo.

Para construir la biblioteca de secuencias de unión de fusión, cubrimos la región fusionada 2 de cada par de genes con 'mosaicos' que están separados por un nucleótido y finalmente generamos la biblioteca de unión de fusión candidata mediante la creación de todas las conexiones por pares entre estos mosaicos (Figura 10b). Para eliminar los falsos positivos en la biblioteca de secuencias de unión, solo las secuencias de unión en las que al menos uno de los dos sitios de unión en un par de genes se encuentra en la región creíble se seleccionaron para análisis adicionales. SOAPfuse llevó a cabo este algoritmo de agotamiento parcial para reducir el tamaño de la biblioteca de unión putativa y retener las secuencias de unión genuinas tanto como sea posible.

Detección de sitios de unión en transcripciones de fusión.

Para identificar los sitios de unión de las transcripciones de fusión, asignamos las lecturas útiles sin asignar (las lecturas de UUM, consulte la sección 'Obtención de las regiones fusionadas') a la biblioteca de secuencias de unión de fusión putativa para buscar las lecturas de unión (paso S07-b en el archivo adicional 10). Requerimos que una fusión candidata sea compatible con múltiples lecturas de tramo, lecturas de unión y otros criterios (paso S08 en Archivo adicional 10 Archivo adicional 3). Para excluir los eventos de fusión de FP, eliminamos los pares de genes de fusión candidatos iniciales que se cerraban entre sí y que tenían regiones homogéneas / superpuestas alrededor de los sitios de unión (Figura 6c paso S09 en el archivo adicional 10). SOAPfuse no solo informa fusiones de alta confianza, sino que también proporciona las secuencias de unión predichas para futuras validaciones experimentales de RT-PCR. También se crean figuras SVG, que muestran las alineaciones de las lecturas de apoyo en las secuencias de unión y el nivel de expresión de los pares de genes (por ejemplo, archivo adicional 12).

Preparación de conjuntos de datos simulados

Se generaron datos de RNA-Seq simulados para evaluar la tasa de FN y FP de SOAPfuse. Generamos 150 transcripciones de fusión simuladas en dos pasos basados ​​en genes humanos anotados. El primer paso implicó la selección aleatoria de pares de genes candidatos con varios criterios, como controlar la distancia entre los genes emparejados y evitar los pares de genes de las familias de genes. El segundo paso implicó la selección aleatoria de transcripciones y sitios de unión en los bordes del exón o en el medio de los exones. Utilizando el simulador de lectura corta proporcionado por MAQ [31], generamos lecturas de extremos emparejados a nueve profundidad de secuenciación (de 5 a 200 veces) para simular diferentes niveles de expresión de las transcripciones de fusión. Se utilizaron lecturas de extremos emparejados de células madre embrionarias humanas H1 como datos de fondo. Los detalles del trabajo de simulación se pueden encontrar en el archivo adicional 3.

Preparación de ARN total de líneas celulares de cáncer de vejiga

Se adquirieron dos líneas celulares de cáncer de vejiga (5637 y T24) de la American Type Culture Collection (Manassas, VA, EE. UU.). Se cultivaron en medio RPMI 1640 (Invitrogen, Grand Island, NY, EE. UU.) Que contenía suero bovino fetal al 10% (Sigma, Saint Louis, MO, EE. UU.). Los ARN totales se prepararon utilizando Trizol (Invitrogen) de acuerdo con las instrucciones del fabricante. Fueron tratados con DNasa I libre de ARNasa para eliminar el ADN residual. La calidad de los ARN totales se evaluó mediante un bioanalizador Agilent 2100.

Construcción de la biblioteca de cDNA para RNA-Seq

Las bibliotecas de ADNc se construyeron como se describe en estudios anteriores [36, 37]. Brevemente, se utilizaron perlas (Invitrogen) con oligo (dT) para aislar el ARNm de poli (A) de los ARN totales. Para evitar el sesgo de cebado en el proceso de síntesis de ADNc, el ARNm se fragmentó antes de la síntesis de ADNc. A continuación, se fragmentó el ARNm purificado en tampón de fragmentación a temperatura elevada. Usando estos fragmentos cortos como plantillas, se usaron cebadores hexámeros aleatorios para sintetizar el ADNc de la primera hebra. El ADNc de la segunda hebra se sintetizó utilizando tampón, dNTP, ARNasa H y ADN polimerasa I. Se purificaron fragmentos cortos de ADNc bicatenario con un kit de extracción QIAquick PCR (Qiagen, Hilden, Alemania) y luego se sometieron a un proceso de reparación final y al adición de una sola base de 'adenina'. A continuación, los fragmentos cortos se ligaron a adaptadores de secuenciación de Illumina. Los fragmentos de ADNc de un tamaño seleccionado se purificaron en gel y se amplificaron mediante PCR. En total, construimos una biblioteca de transcriptomas de extremos emparejados para cada línea celular y las secuenciamos en la plataforma Illumina HiSeq2000. Ambas bibliotecas de extremos emparejados se secuenciaron a una longitud de lectura de 90 pb con tamaños de inserto que variaban de 150 a 200 pb. Los datos de RNA-Seq de las dos líneas celulares de cáncer de vejiga se han enviado al archivo de lectura de secuencias de NCBI (SRA) y están disponibles con el número de acceso [SRA052960].

Validación de fusión por RT-PCR

Los ARN totales digeridos de las líneas celulares de cáncer de vejiga se sometieron a transcripción inversa a ADNc para su validación utilizando cebadores de transcriptasa inversa (Invitrogen) y oligo-d (t) (TaKaRa, Dalian, China). Luego, las transcripciones de fusión se validaron mediante amplificación por RT-PCR seguida de secuenciación de Sanger. Para la amplificación por RT-PCR, los cebadores se diseñaron usando Primer (versión 5.0) y todas las secuencias de cebadores se pueden encontrar en la Tabla S11 en el archivo adicional 8. Realizamos las amplificaciones por RT-PCR usando TaKaRa Taq ™ Hot Start Version y realizamos reacciones en volúmenes de 20 μl con 2 μl de tampón de PCR 10 × (Mg 2+ Plus), 2 μl de mezcla de dNTP (cada 2,5 mM), 2 μl de cebadores (cada 10 μM), 0,5 μl de TaKaRa Taq HS (5 U / μl), 20 ng de cDNA y hasta 20 μl usando ddH2O. El programa del termociclador utilizado fue el siguiente: (i) 95 ° C durante 4 minutos, (ii) 95 ° C durante 40 segundos, (iii) 55 ° C a 62 ° C durante 30 segundos, (iv) 72 ° C durante 45 segundos, (v) los pasos 2 a 4 se repiten 35 veces y (vi) 72ºC durante 10 minutos. Los productos de la amplificación por RT-PCR se analizaron en un gel de agarosa al 2% para asegurarse de que no se amplificaran bandas inesperadas. Los productos de RT-PCR purificados se secuenciaron en direcciones directas e inversas con el kit ABI PRISM Big Dye Terminator Cycle Sequencing Ready Reaction (versión 3) y ABI PRISM 3730 Genetic Analyzer (Applied Biosystems, Foster City, CA, EE. UU.). Los cromatogramas fueron generados por Chromas (versión 2.22), y luego fueron analizados por BLAT (alineación genómica en línea en UCSC Genome Browser [38]).


Control de calidad y para

Control de calidad (Control de calidad) es extremadamente importante. Como dice el viejo adagio: ¡Basura dentro basura fuera! Si hay algo que quitar de este documento, que sea eso. Realizar comprobaciones de control de calidad ayudará a garantizar que sus resultados sean fiables y reproducibles.

Vale la pena señalar que existe una gran variedad de herramientas de código abierto que se pueden utilizar para evaluar la calidad de sus datos, por lo que no hay razón para reinventar la rueda. Tenga esto en cuenta, pero también tenga en cuenta que hay muchas ruedas per se, y necesitará saber cuál usar y cuándo. En la siguiente sección, cubriremos diferentes controles de control de calidad que se pueden aplicar en diferentes etapas de su análisis de RNA-seq. Estas recomendaciones se basan en algunas herramientas que emplea nuestra tubería de mejores prácticas RNA-seq.

Pre-alineación y para

Antes de sacar conclusiones biológicas, es importante realizar comprobaciones de control de calidad para asegurarse de que no haya signos de errores de secuenciación, sesgos en sus datos u otras fuentes de contaminación. Los secuenciadores modernos de alto rendimiento generan millones de lecturas por ejecución y, en el mundo real, pueden surgir problemas.

La idea general es evaluar la calidad de sus lecturas antes y después de retirar el adaptador y comprobar si hay diferentes fuentes de contaminación antes de proceder a la alineación. Estas son algunas de las herramientas que usamos y recomendamos.

FastQC: Para evaluar la calidad de secuenciación de sus datos, recomendamos ejecutar FastQC antes y después del recorte del adaptador. FastQC genera un conjunto de estadísticas básicas para identificar problemas que pueden surgir durante la secuenciación o la preparación de la biblioteca. FastQC resumirá las métricas de CC por base y por lectura, como los puntajes de calidad y el contenido de GC (idealmente, este gráfico debe tener una distribución normal sin formas de bimodalidad). También resumirá la distribución de longitudes de secuencia e informará la presencia de secuencias de adaptadores, que es una de las razones por las que lo ejecutamos después de eliminar los adaptadores.

Pantalla FastQ y Kraken: Durante el proceso de recolección de muestras a la preparación de la biblioteca, existe el riesgo de introducir fuentes de ADN deseadas. FastQ Screen compara sus datos de secuenciación con un conjunto de genomas de referencia diferentes para determinar si hay contaminación. Le permite al usuario ver si la composición de su biblioteca coincide con lo que espera. Si sus datos tienen altos niveles de contaminación humana, de ratón, de hongos o bacteriana, FastQ Screen se lo dirá. FastQ Screen le dirá qué porcentaje de su biblioteca se alinea con diferentes genomas de referencia.

Si hay altos niveles de contaminación microbiana, Kraken proporcionará una estimación de la composición taxonómica. Kraken se puede utilizar junto con Krona para producir informes interactivos.

Nota: Debido a los altos niveles de homología entre organismos, puede haber una pequeña parte de sus lecturas que se alineen con un genoma de referencia inesperado. Nuevamente, este debería ser un porcentaje mínimo de sus lecturas.

Post-alineación y para

Nuevamente, hay muchas herramientas disponibles para evaluar la calidad de la alineación posterior de sus datos y, como se indicó anteriormente, no es necesario reinventar la rueda. Consulte la tabla a continuación para obtener un conjunto generalizado de pautas para diferentes métricas de control de calidad pre / post.

Preseq: Preseq se puede utilizar para estimar la complejidad de una biblioteca para cada una de sus muestras. Si la tasa de duplicación es muy alta, la complejidad general de la biblioteca será baja. La baja complejidad de la biblioteca podría indicar un problema con la preparación de la biblioteca o la preparación de la muestra (muestras FFPE) donde se amplificó en exceso muy poco ARN de entrada o la muestra puede degradarse.

Picard CollectRNAseqMetrics: Picard tiene un subcomando particularmente útil llamado CollectRNAseqMetrics que informa el número y el porcentaje de lecturas que se alinean con varias regiones: como las regiones codificadoras, intrónicas, UTR, intergénicas y ribosómicas. Esto es particularmente útil ya que esperaría que una biblioteca construida con ploy (A) -selection tenga un alto porcentaje de lecturas que se asignan a regiones de codificación. Picard CollectRNAseqMetrics también informará la uniformidad de cobertura en todos los genes, lo que es útil para determinar si una muestra tiene un sesgo de 3 '(observado en bibliotecas que contienen ARN degradado).

RSeQC: Este es otro paquete de particularidad útil que se adapta a los datos de RNA-seq. El paquete se compone de más de 20 submódulos que se pueden usar para hacer cosas como calcular el tamaño promedio de la inserción entre lecturas de extremos emparejados (que es útil para la carga GEO), anotar el porcentaje de lecturas que abarcan uniones de empalme conocidas o novedosas, y convierta un archivo BAM en un archivo BigWig normalizado.

Directrices generales de control de calidad y párrafo

A continuación, se incluye un conjunto de pautas generalizadas para diferentes métricas de control de calidad. Algunas de estas métricas variarán de genoma a genoma dependiendo de la calidad del ensamblaje y la anotación, pero eso se ha tenido en cuenta para nuestro conjunto de genomas de referencia admitidos.


¿Cómo podría identificar si los datos de RNA-seq dados son un extremo emparejado o un extremo único? - Biología

RNA-Seq para la planta modelo (Arabidopsis thaliana)

Introducción y programas

Arabidopsis thaliana es una pequeña planta con flores que se utiliza como sistema modelo en la investigación de la biología vegetal. Ayudó a los investigadores a desarrollar conocimientos básicos sobre los procesos moleculares, bioquímicos y genéticos de las plantas. Existe una gran cantidad de conocimiento e información sobre la genómica de Arabidopsis (secuencia del genoma, transcriptoma, marcadores genéticos, etc.) y, por lo tanto, podría usarse como un sistema ideal para desarrollar un análisis fundamental de ARN-seq de plantas antes de aventurarse en el mundo de la transcriptómica de especies no modelo. En este tutorial utilizaremos el conjunto de datos RNAseq de los botones florales de A. thaliana y el estudio se publicó en "Frontiers in Plant Science" (https://www.frontiersin.org/articles/10.3389/fpls.2019.00763/full) . Este estudio tuvo como objetivo comprender el papel funcional de los hidrolizados de monoacilglicerol lipasa (MAGL) que se sabe que producen ácidos grasos libres y glicerol. La enzima está bien estudiada en el reino animal, pero se sabe poco sobre su función en las plantas. Este estudio involucra la expresión ectópica (EE) de BnaC.MAGL8.a en Arabidopsis para explorar su función biológica potencial. Observaron que esta expresión ectópica provoca esterilidad masculina al afectar el desarrollo de pólenes. Para desarrollar su comprensión molecular en torno al proceso, llevaron a cabo estudios de RNAseq en los botones florales. En este estudio se utilizaron un total de 6 conjuntos de datos RNAseq que representan 3 réplicas biológicas cada uno para WT y BnaC.MAGL8.a.Los perfiles de ARN se archivan en el SRA, y la metainformación de cada uno se puede ver a través del SRA ID: SRR8428904, SRR8428905, SRR8428906, SRR8428907, SRR8428908, SRR8428909 (https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP178230).

Sequence Read Archive, o SRA, es una base de datos disponible públicamente que contiene secuencias leídas de una variedad de experimentos. Los científicos que deseen que sus secuencias de lectura estén presentes en la SRA envían un informe que contiene las secuencias de lectura, los detalles experimentales y cualquier otro metadato accesorio.

Nuestros datos, SRR8428904, SRR8428905, SRR8428906, SRR8428907, SRR8428908, SRR8428909 provienen de EE1, EE2, EE3, WT1, WT2 y WT3 respectivamente. Nuestro objetivo es identificar genes que se expresan diferencialmente entre las condiciones de muestra de WT y EE. Tenemos 3 réplicas para cada condición WT1, WT2, WT3 y EE1, EE2, EE3 para condiciones de expresión ectópica y de tipo salvaje, respectivamente.Finalmente crearemos una red topológica visual de genes con perfiles de expresión similares.

Puede conectarse a Xanadu a través de SSH, que lo dirigirá a su directorio de inicio

Su directorio de inicio contiene 2 TB de almacenamiento y no contaminará las capacidades de otros usuarios en el clúster.

El flujo de trabajo se puede clonar en el directorio apropiado usando el comando de terminal:

Luego cambie el directorio al ARN-Seq-Model-Organism-Arabidopsis-thaliana / carpeta, donde puede ver la siguiente estructura de carpetas:

El tutorial está dividido en secciones para que puedas seguirlo fácilmente.

Accediendo a los datos usando sra-toolkit

Sabemos que el SRA contiene las secuencias de lectura y la metainformación accesoria de los experimentos. En lugar de descargar datos experimentales a través de un navegador, podemos usar la función "fastq-dump" de sratoolkit para volcar directamente los datos leídos sin procesar en el directorio de terminal actual. Echemos un vistazo a esta función (se espera que haya leído el tutorial de Xanadu y esté familiarizado con la carga de módulos):

Para cargar el módulo y verificar las opciones, simplemente escriba fastq-dump una vez que cargue el módulo en la ventana del terminal.

El cual te mostrará las siguientes opciones que tiene:

Para nuestras necesidades, simplemente usaremos los números de acceso para descargar nuestros datos experimentales en nuestro directorio. Conocemos nuestros números de acceso, así que escribamos un script de shell para recuperar nuestras lecturas sin procesar. Hay una variedad de editores de texto disponibles en Xanadu. Mi editor de texto preferido es "nano". Por lo tanto, usaremos nano para escribir nuestro script de shell.

El script slurm completo se llama data_dump.sh y se puede encontrar en raw_data / carpeta.

Como medida de precaución, incluya siempre su directorio temporal en el entorno. Si bien no todos los programas requieren un directorio temporal para funcionar, se necesita mucho menos tiempo para incluir el nuestro en el entorno que esperar un error. Después de escribir nuestro script, presionamos CTRL + X para salir, 'y', y luego ingresamos para guardar.

Ahora que tenemos nuestro script guardado, lo enviamos a los nodos de cálculo con el siguiente comando:

Ahora esperamos hasta recibir un correo electrónico de que nuestro proceso ha finalizado.

Echemos un vistazo a uno de nuestros archivos:

Vemos que para nuestras primeras tres ejecuciones tenemos información sobre la lectura muestreada, incluida su longitud, seguida de la lectura de nucleótidos y luego un signo "+". El signo "+" marca el comienzo de las puntuaciones correspondientes para cada nucleótido leído para la secuencia de nucleótidos que precede al signo "+".

Control de calidad mediante hoz

Sickle realiza el control de calidad de los datos de lectura corta de un solo extremo y un extremo emparejado de illumina mediante una ventana deslizante. A medida que la ventana se desliza a lo largo del archivo fastq, se calcula la puntuación media de todas las lecturas contenidas en la ventana. Si la puntuación media de la ventana cae por debajo de un umbral establecido, la hoz determina las lecturas responsables y las elimina de la ejecución. Después de visitar las páginas de SRA para obtener nuestros datos, vemos que nuestros datos son lecturas de un solo extremo. Averigüemos qué puede hacer la hoz con estos:

Tenemos secuencias de un solo extremo.

La calidad puede ser cualquier puntuación de 0 a 40. El valor predeterminado de 20 es demasiado bajo para un análisis sólido. Queremos seleccionar solo lecturas con una calidad de 25 o mejor y una longitud de lectura mínima aceptable de 45 bps después del recorte. La longitud de lectura de 45 pb garantizará un mapeo único de las lecturas en todo el genoma. Por último, debemos conocer el tipo de puntuación. Si bien el tipo de calidad no aparece en las páginas de SRA, la mayoría de las lecturas de SRA utilizan el tipo de calidad "sanger". A menos que se indique explícitamente, intente ejecutar la hoz utilizando las cualidades de sanger.

Juntemos todo esto para nuestro script de hoz usando nuestros archivos fastq descargados:

El script slurm completo se llama sickle_run.sh y se puede encontrar en trimmed_reads / carpeta.

Es útil ver cómo ha cambiado la calidad de los datos después de usar la hoz. Para hacer esto, usaremos las versiones de línea de comandos de fastqc y MultiQC. Estos dos programas simplemente crean informes de la calidad promedio de nuestras lecturas recortadas, con algunos gráficos. No hay forma de ver un menú de ayuda para estos programas en la línea de comandos. Sin embargo, su uso es bastante simple, simplemente ejecutamos "fastqc & lttrimmed_fastq & gt" o "multiqc -f -n trimmed trimmed". ¡No se preocupe demasiado por las opciones de MultiQC! Escribamos nuestro guión:

El script slurm completo trimmed_fastqc.sh se puede encontrar en rimmed_fastqc / carpeta.

fastqc creará los archivos "trimmed_file_fastqc.html". Para echarle un vistazo a uno, necesitamos mover todos nuestros archivos "trimmed_file_fastqc.html" a un solo directorio, y luego hacer una copia segura de esa carpeta en nuestro directorio local. ¡Entonces, podemos abrir nuestros archivos!

Este script también creará un directorio "trimmed_data". Miremos dentro de ese directorio:

Echemos un vistazo al formato de archivo de fastqc y multiqc. Al cargar el archivo fastqc, aparecerá esta pantalla:

Hay algunas estadísticas básicas que se explican por sí mismas.

Esta pantalla es simplemente un diagrama de caja y bigotes de nuestros puntajes de calidad por par de bases. Nuestro siguiente índice son las puntuaciones de calidad por secuencia:

Este índice es simplemente el número total de pares de bases (eje y) que tienen una puntuación de calidad determinada (eje x). Esta gráfica es discontinua y discreta, y si calcula la suma de Riemann, el resultado es el número total de pares de bases presentes en todas las lecturas.

El último índice en el que vamos a mirar es el índice "Secuencias sobrerrepresentadas": Esta es simplemente una lista de secuencias que aparecen desproporcionadamente en nuestro archivo de lecturas. El archivo de lecturas en realidad incluye las secuencias del cebador por esta razón exacta. Cuando fastqc calcula una secuencia que aparece muchas veces más allá de la distribución esperada, puede verificar las secuencias del cebador en el archivo de lecturas para determinar si la secuencia es un cebador. Si la secuencia no es un cebador, el resultado se devolverá como "No Hit". Las secuencias que se devuelven como "No Hit" son muy probablemente genes altamente expresados.

Vemos que nuestro archivo multiqc tiene los mismos índices que nuestros archivos fastqc, pero es simplemente la media de todas las estadísticas en nuestros archivos fastqc:

Alinear lecturas a un genoma usando HISAT2

Como puede ver, simplemente ingresamos nuestros archivos de genoma de referencia y el prefijo deseado para nuestros archivos .ht2. Ahora, afortunadamente para nosotros, Xanadu tiene muchos genomas indexados que podemos usar. Para ver si hay un hisat2 Arabidopsis thaliana genoma indexado tenemos que mirar la página de bases de datos de Xanadu. Vemos que nuestro genoma indexado deseado está en la ubicación / isg / shared /bases / alignerIndex / plant / Arabidopsis / thaliana / Athaliana_HISAT2 /. Ahora estamos listos para alinear nuestras lecturas usando hisat2 (para hisat2, el script se escribirá primero con una explicación de las opciones después).

El script slurm completo hisat2_run.sh se puede encontrar en el cartografía/ directorio.

Puede ejecutar esto usando sbatch hisat2_run.sh

Una vez que se ha completado el mapeo, la estructura del archivo es la siguiente:

Cuando HISAT2 complete su ejecución, resumirá cada una de sus alineaciones y se escribirá en el archivo de error estándar, que se puede encontrar en la misma carpeta una vez que se complete la ejecución.

Echemos un vistazo a un archivo SAM:

Todas las líneas que comienzan con un símbolo "@" nos dicen algo sobre los cromosomas o nuestra entrada. Por ejemplo, "@SQ SN: Chr1 LN: 30427671" nos dice que tenemos una secuencia (@SQ) cuyo nombre de secuencia es Chr1 (SN: Chr1), por último la secuencia tiene una longitud de 30427671bp (LN: 30427671). Quizás se esté preguntando qué significa la primera línea. ¡Es bastante sencillo! La primera línea es simplemente el encabezado (@HD) que indica que el archivo no está clasificado (SO: sin clasificar). La segunda columna de la primera línea es algo así como una variable ficticia, pero significa "número de versión". Por último tenemos la línea "@PG", que, en orden, realiza un seguimiento del software utilizado para escribir el archivo (ID: hisat2), el nombre del programa utilizado para alinear las lecturas (PN: hisat2), la versión del programa utilizado (VN: 2.1.0) y, por último, la entrada del usuario que inició el proceso (escrito en la forma que lee el programa, no en el que lo escribimos).

La parte de alineación del archivo SAM es mucho más sencilla y puede entenderse leyendo la guía de formato de salida SAM vinculada al comienzo de este tutorial.

Debido a la densidad del archivo sam, se comprime a binario para crear un archivo más fácilmente manejable para su manipulación por programas futuros. Convertimos el archivo sam a bam con el siguiente comando y lo clasificamos de modo que las alineaciones se enumeren en el orden en que aparecen los genes en el genoma. Para hacer esto usamos el software samtools:

Realmente solo estamos interesados ​​en ordenar nuestros archivos SAM.

La función de clasificación convierte los archivos SAM a BAM automáticamente. Por lo tanto, podemos eliminar la mayoría de estas opciones y hacer un simple "samtools sort -o & ltoutput.bam & gt & ltinupt.sam & gt. Vamos a escribir nuestro script:

El script slurm completo sam_sort_bam.sh se puede encontrar en cartografía/ directorio.

Ensamblaje de transcripción guiada por referencia

Stringtie es un ensamblador rápido y altamente eficiente de alineaciones de RNA-Seq en transcripciones potenciales. Se puede ejecutar en 3 modos diferentes.

  1. Guiado exclusivamente por referencia: En este modo, stringtie cuantifica la expresión de transcripciones conocidas únicamente.
  2. Modo de descubrimiento de transcripciones guiadas por referencias: cuantifique las transcripciones conocidas y detecte las nuevas.
  3. Modo de novo: detecta y reúne transcripciones.

Ejecutaremos stringtie usando la opción 2 que incluye los pasos 7, 8 y 9 del flujo de trabajo. En el primer paso de este proceso, stringtie junto con el archivo bam de muestra y el archivo gtf de referencia generan un archivo gtf correspondiente a la muestra. Este archivo gtf tiene información sobre los niveles de expresión de las transcripciones, exones y otras características junto con las transcripciones nuevas. La sintaxis del comando es

stringtie -p 4 -l etiqueta -G Reference.gtf -o sample.gtf sample.bam

Una vez que hayamos ejecutado este comando en todas nuestras seis muestras (WT1, WT2, WT3, EE1, EE2 y EE3) tendremos 6 archivos gtf, cada uno correspondiente a una de las muestras que contiene valores de expresión de características. Tener 6 archivos gtf diferentes no es una ventaja, ya que cada uno puede contener la misma transcripción novedosa pero etiquetada de manera diferente. Idealmente, nos gustaría fusionar estos archivos 6 gtf junto con el GTF de referencia para lograr los siguientes objetivos

  • Las transcripciones redundantes en las muestras deben representarse una vez
  • Las transcripciones conocidas deben contener sus ID de genes estables (asignados en Ensembl)

El comando que usaremos para lograr esto es stringtie --merge y la sintaxis es

listOfSampleGTFs.txt : Este es un archivo de texto con una lista de gtfs generada a partir de las muestras en el paso anterior.

ls -1 ath * / *. gtf & gt & gt sample_assembly_gtf_list.txt

El comando anterior es generar listOfSampleGTFs.txt que se utilizará en el comando stringtie --merge. El GTF combinado se puede comparar con el GTF de referencia para obtener algunas estadísticas sobre stringtie_merged.gtf. El conjunto de comandos anterior se puede juntar en un script como se muestra a continuación,

El script completo se llama stringtie_gft.sh y se puede encontrar en el vestido de bola / carpeta.

Ahora examinemos las salidas generadas a partir de este script. Como se discutió anteriormente en el primer paso, stringtie genera un archivo gtf para cada muestra con detalles de cobertura, FPKM, TPM y otra información sobre las transcripciones basadas en el archivo bam de muestra.

Ahora echemos un vistazo al archivo GTF combinado stringtie_merged.gtf del paso anterior:

Este es nuestro nuevo archivo GTF de referencia que usaremos para cuantificar la expresión de diferentes genes y transcripciones. Si miramos más de cerca podemos ver que el archivo tiene información de características diferentes pero excluye información de cobertura, TPM y FPKM. Así queremos que sea para utilizarlo como referencia en análisis posteriores. También tenga en cuenta que las dos primeras transcripciones han conocido ENSEMBL transcrip-id, gene_name y ref_gene_id, sin embargo, falta en la transcripción 3. Esto se debe a que representa una nueva transcripción identificada en el estudio.

Antes de continuar, echemos un vistazo a las estadísticas de comparación de GFF. El archivo que estamos buscando es gffcompare.stats, y el contenido se explica por sí mismo. Se pueden explorar otros archivos gffcompare.annotated.gtf, gffcompare.loci, gffcompare.stats, gffcompare.stringtie_merged.gtf.refmap, gffcompare.stringtie_merged.gtf.tmap, gffcompare.tracking de la comparación para tener una comprensión más profunda de las diferencias.

Ahora sigamos adelante y hagamos la cuantificación de la transcripción usando stringtie.

Cuantificación de transcripciones con StringTie

En este paso usaremos el archivo stringtie_merged.gtf como referencia y mediremos la expresión de exones, transcripciones y otras características presentes en el archivo gtf. La sintaxis del comando que ejecutaremos es,

Podemos componer un script basado en el comando anterior para ejecutar todas nuestras muestras.

El script slurm completo es stringtie.sh se puede encontrar en vestido de bola / carpeta.

Los siguientes archivos se generarán a partir del comando anterior

Descripción de los archivos anteriores

Echemos un vistazo al archivo .counts de salida de stringtie que usaremos en Ballgown:

Análisis de expresión diferencial usando Ballgown

Ahora cargamos RStudio con privilegios de administrador (de lo contrario, ¡no podrá instalar paquetes!).

Para comenzar debemos descargar y cargar los paquetes adecuados:

Ahora necesitamos establecer nuestro directorio de trabajo en el directorio que contiene nuestra carpeta "ballgown". Para mi, esto es:

Debería ver la carpeta "ballgown" después del comando list.files ().

Echemos un vistazo a la función del vestido de gala:

Debido a la estructura de nuestro directorio ballgown, podemos usar dataDir = "ballgown", samplePattern = "athaliana", measure = "FPKM" y pData = some_type_of_phenotype_matrix.

Queremos que todos los objetos de nuestros argumentos estén en el mismo orden en que están presentes en el directorio ballgown. Por lo tanto, queremos que nuestra matriz pheno_df tenga dos columnas: la primera columna son las muestras tal como aparecen en el directorio ballgown, y la segunda es la condición de cada muestra en la columna anterior (EE o WT). Veamos el orden de nuestros archivos de muestra:

Ahora construimos una matriz de fenotipo de 6x2 con la primera columna en orden de nuestras muestras y la segunda con el fenotipo de cada muestra:

Ahora podemos crear nuestro objeto de vestido de gala:

El objeto ballgown bg almacena los valores de fpkm correspondientes a los genes. Antes de calcular el pliegue de cambios en la expresión génica, podemos explorar la expresión de genes en las muestras y también verificar la varianza en el conjunto de datos e intentar identificar cualquier factor de confusión. En el primer paso, se creará una variable gene_expression que contiene el valor de fpkm de los genes y luego se trazará un diagrama de caja de los valores de fpkm de todas las muestras.

El diagrama de caja a continuación ofrece una descripción general de la expresión de los valores de fpkm de diferentes genes en diferentes muestras. Hemos transformado log10 los valores para visualizarlo mejor y agregamos 1 gene_expression + 1 para evitar errores si los valores de fpkm son 0.


En el siguiente paso, realizaremos el análisis de componentes principales (PCA) con los 500 genes principales con mayor varianza. El PCA es una buena forma de identificar los factores responsables de la variación en su muestra. En una situación ideal, nos gustaría ver que PC1 (Componente principal 1 o el componente con mayor varianza) agrupe nuestras muestras (réplicas) según el tratamiento. Si la agrupación se debe a cualquier otro factor, como la fuente de material, el día del experimento, etc., indicará que existen factores de confusión que afectan la expresión génica. Tenemos que modelar estos factores en nuestro análisis.


PC1 (eje x) del gráfico no separa claramente las muestras de la condición (WT y EE), pero PC2 (eje Y) sí. Esto significa que la segunda fuente más importante de variación en nuestras muestras es el tratamiento. Como investigador, si nos encontramos con una situación de este tipo, intentaremos identificar el factor o factores responsables del PC1.

Para realizar el análisis de expresión diferencial usamos la función "stattest" de ballgown. Echémosle un vistazo:

Vemos que podemos determinar qué transcripciones y genes se expresan diferencialmente entre las condiciones, junto con los cambios de veces de cada gen expresado diferencialmente medido en FPKM con el siguiente código:

Echemos un vistazo a este objeto. Se enumeran los cambios en la expresión en todos los genes, junto con su ID, cambio de veces (aumento porcentual), valor p y valor q. Es una buena idea transformar foldchange (fc) log2, ya que es fácil entender los valores de foldchange. Un valor negativo indicará una regulación a la baja y un valor positivo como regulación al alza de genes entre las condiciones.

Ahora permite filtrar el resultado de la expresión diferencial según el valor p y el cambio de pliegue. Para este estudio, consideraremos genes con p & lt0.1 y que muestran cambios de expresión de más de 1,5 veces como genes de interés para nosotros. En la escala log2, esto es 0.584 log2 (1.5) = 0.584. Por tanto, cualquier gen con p & lt0.1 y log2fc menor de -0,584 y mayor de 0,584 es significativo. Escribiremos este resultado en un archivo .csv para nuestros registros.

Así que tenemos 388 genes que muestran una expresión diferencial en las condiciones de nuestra muestra.

Anotación genética con BiomaRt

En esta sección, nuestro objetivo es realizar una anotación funcional de genes expresados ​​diferencialmente identificados en nuestro análisis. Estos genes se almacenan en el objeto g_sign y usaremos la herramienta biomart disponible en bases de datos públicas para extraer información usando paquetes R. Las funcionalidades que se muestran a continuación son aplicables a la mayoría de las bases de datos de dominio público siempre que sean compatibles con Biomart. Antes de entrar en R studio, entendamos algunas características clave de la base de datos Ensembl, la que usaremos para nuestra anotación. Es importante desarrollar un conocimiento sobre las bases de datos, ya que esto ayudará a extraer datos de la base de datos correcta. Ensembl tiene 6 subdominios diferentes

  1. Bacterias: bacteria.ensembl.org
  2. Hongos: fungi.ensembl.org
  3. Metazoa: metazoan.ensembl.org
  4. Plantas: plants.ensembl.org
  5. Protistas: protists.ensembl.org
  6. Vertebrados: ensembl.org

Para obtener datos, tenemos que vincularnos a la base de datos adecuada. En nuestro caso usaremos plants.ensembl.org.

Ahora veamos algunos detalles sobre el paquete R biomaRt. Hay 3 funciones principales asociadas con este paquete:

  1. listFilters: enumera los filtros disponibles
  2. listAttributes: enumera los atributos disponibles
  3. getBM: realiza la consulta real y devuelve un data.frame

Mientras usamos biomaRt, tenemos que tomar las siguientes decisiones

  1. Base de datos denominada host (para nosotros es plants.ensembl.org)
  2. Biomart
  3. conjunto de datos
  4. filtros (por ejemplo, cromosoma, andamio, tipo de gen, tipo de transcripción, fenotipo, etc.)
  5. Atributos (Esto refleja los atributos del filtro que nos interesan, por ejemplo, ID estable de genes, inicio de genes, final de genes, términos de GO, dominio de proteínas y familias, etc.)

Comencemos, y primero queremos identificar qué Biomart usar de plants.ensembl.org

Redes topológicas usando Cytoscape

Cytoscape es un programa de escritorio que crea redes de datos topológicas visuales. Para visualizar nuestros genes regulados diferencialmente en una red en Cytoscape, seguiremos los siguientes pasos

  1. Cargar archivo de red
  2. Diseñe la red
  3. Cargar datos de expresión
  4. Examinar los atributos de los nodos

En este ENLACE hay disponibles diapositivas detalladas y un tutorial.Iniciemos Cytoscape y la aplicación se iniciará con la siguiente pantalla.
Eche un vistazo a las diferentes pestañas y menús y familiarícese con ellos. Se puede cargar una red en Cytoscape usando la función de importación ubicada en el menú de archivo como se muestra en la imagen a continuación. Se puede importar una red desde un archivo (como lo vamos a hacer), url o desde una base de datos pública. Importe el archivo de red TAIR10 TairPP_refined.txt usando la opción file & gtimport & gtNetwork from FIle. Se mostrará la siguiente tabla. La tabla mostrará diferentes columnas del archivo de red. En esto tenemos que especificar qué columna representa la proteína A (nodo fuente) y qué columna representa la proteína B (nodo objetivo) de la intercalación proteína-proteína de tipo A - & gt B.

Una vez importados, se pueden probar diferentes diseños enumerados en la pestaña de diseño de Cytoscape. Una vez que haya elegido un diseño apropiado y luego importe los datos de expresión diferencial almacenados en un archivo csv o txt usando icon.

Una vez cargados los genes con expresión diferencial, seleccione la pestaña "Estilo y elija el" Color de relleno ". Debajo del color de relleno, elija el valor de la columna en" fc "(cambio de pliegue del archivo csv) y configure el tipo de mapeo en" mapeo continuo ". Puede hacer doble clic en el panel de color para establecer los colores de su elección y puede establecer boudries.

Esto destacará los nodos basados ​​en el valor de fc para la proteína presente en genes expresados ​​diferencialmente y en la lista de redes.

Si bien nuestro trabajo puede haber parecido terminado después de crear la visualización, ¡la imagen en sí no es de mucha utilidad para otros científicos! Sin embargo, todos los archivos csv que creamos son. Un científico puede tener interés en un gen en particular que estudiamos. Con nuestra salida de resultados de expresión diferencial, ella podrá determinar cómo variaba el comportamiento del gen según el fenotipo. Quizás quiera comenzar a investigar si un gen codifica un factor de transcripción de otro. Puede consultar nuestro archivo de grupos de genes completos y ver si los dos genes pertenecen al mismo grupo (¡ya que la activación de uno activará al otro!). Puede estar interesada en el comportamiento total de un grupo al activar o suprimir otro grupo. Ella puede determinar su base y los grupos objetivo localizando los genes en nuestro archivo completo de grupos, extraer todos los genes de esos grupos y luego explorar qué tan descendente puede ser el efecto de cada grupo utilizando el grado de relación csv. La bioinformática es un campo colaborativo. Siempre dependemos del trabajo de los demás para resolver las cuestiones que más nos apasionan. Debido a esto, es importante profundizar siempre en su propio análisis y crear datos tan legibles y prácticos como sea posible. No solo porque no desea que otro científico se pierda en sus archivos, ¡sino que deben ser legibles por una computadora! A veces, puede haber sentido como si estuviéramos cayendo por la madriguera del conejo en este tutorial. Sin embargo, la información que recopilamos es fácil e inmediatamente útil para que la utilicen otros científicos. ¡Felicitaciones por terminar este tutorial con éxito!


2.9 Anotación: agregar nombres de genes

Nuestra tabla de resultados solo usa ID de genes Ensembl, pero los nombres de los genes pueden ser más informativos. BioconductorLos paquetes de anotaciones ayudan a mapear varios esquemas de identificación entre sí.

Cargamos el AnotaciónDbi paquete y el paquete de anotaciones org.Hs.eg.db:

Este es el paquete de anotaciones de organismos ("org") para Homo sapiens ("Hs"), organizado como un paquete de base de datos AnnotationDbi ("db"), utilizando Entrez Gene IDs ("eg") como clave principal. Para obtener una lista de todos los tipos de claves disponibles, use:

Ahora los resultados tienen los identificadores de genes externos deseados: