Assessment of methods for predicting eukaryotic promoter sequences

Jiménez Oviedo, Byron; Arroyo Hernández, Jorge; Solano-González, Stefany

Assessment of methods for predicting eukaryotic promoter sequences

dc.contributor.author	Jiménez Oviedo, Byron
dc.contributor.author	Arroyo Hernández, Jorge
dc.contributor.author	Solano-González, Stefany
dc.date.accessioned	2024-01-30T20:12:54Z
dc.date.available	2024-01-30T20:12:54Z
dc.date.issued	2023
dc.description.abstract	Identifying promoters is challenging due to their short sequences, low conservation, and complex regulation. Historically, this was done through slow and expensive experimental methods. Efficient pattern recognition and statistical approaches have revolutionized this process, offering a faster and more cost-effective solution. Accurate promoter identification is vital for experimental biologists and biotech applications, enabling precise gene expression regulation. This document evaluates traditional machine learning methods (SVM, MLP, LDA, PSFN and denseNet) for promoter recognition, confirming their suitability. Our methodology consisted of using a partition of 80 to 20 percent for data training and analysis, respectively. The former was used to optimize the parameters at a k-fold with k = 10 by cross-validation; after optimization, the parameters were used to analyze the 20 percent of data. The F1 metric score is a positive predictive value that calculates the precision and sensitivity. Therefore, our findings align with [2] as the F1 metric score was above 85% in SVM and both PSFN methods, affirming them as the most reliable options for promoter prediction. The objective was to find a method that accurately validates the prediction of promoters and non-promoters by a comparison of methods. To achieve this, we incorporated sequences from humans, which are validated with these characteristics, to apply this workflow to sequences from other organisms in the future.	es_ES
dc.description.abstract	Identificar promotores es un desafío debido a sus secuencias cortas, baja conservación y regulación compleja. Históricamente, esto se hacía mediante métodos experimentales lentos y costosos. El reconocimiento de patrones eficiente y los enfoques estadísticos han revolucionado este proceso, ofreciendo una solución más rápida y rentable. La identificación precisa del promotor es vital para los biólogos experimentales y las aplicaciones biotecnológicas, ya que permite una regulación precisa de la expresión genética. Este documento evalúa los métodos tradicionales de aprendizaje automático (SVM, MLP, LDA, PSFN y denseNet) para el reconocimiento de promotores, confirmando su idoneidad. Nuestra metodología consistió en utilizar una partición del 80 al 20 por ciento para el entrenamiento y análisis de datos, respectivamente. El primero se utilizó para optimizar los parámetros en k veces con k = 10 mediante validación cruzada; Después de la optimización, los parámetros se utilizaron para analizar el 20 por ciento de los datos. La puntuación de la métrica F1 es un valor predictivo positivo que calcula la precisión y la sensibilidad. Por lo tanto, nuestros hallazgos se alinean con [2] ya que la puntuación de la métrica F1 estuvo por encima del 85% en SVM y en ambos métodos PSFN, afirmándolos como las opciones más confiables para la predicción del promotor. El objetivo era encontrar un método que valide con precisión la predicción de promotores y no promotores mediante una comparación de métodos. Para lograrlo, incorporamos secuencias de humanos, que estén validadas con estas características, para aplicar este flujo de trabajo a secuencias de otros organismos en el futuro.	es_ES
dc.description.procedence	Escuela de Ciencias Biológicas	es_ES
dc.description.procedence	Escuela de Matemática	es_ES
dc.description.sponsorship	Universidad Nacional, Costa Rica	es_ES
dc.identifier.doi	10.1109/BIP60195.2023.10379217
dc.identifier.uri	http://hdl.handle.net/11056/27199
dc.language.iso	eng	es_ES
dc.publisher	IEEE	es_ES
dc.rights	Acceso embargado	es_ES
dc.rights.uri	http://creativecommons.org/publicdomain/zero/1.0/	*
dc.source	IEEE 5th International Conference on BioInspired Processing (BIP), San Carlos, Alajuela, Costa Rica, 2023, pp. 1-5	es_ES
dc.subject	TATA	es_ES
dc.subject	EUCARYOTE	es_ES
dc.subject	PREDICTIVE METHODS	es_ES
dc.subject	MACHINE LEARNING	es_ES
dc.subject	PROMOTER IDENTIFICATION	es_ES
dc.subject	ORGANISMOS	es_ES
dc.title	Assessment of methods for predicting eukaryotic promoter sequences	es_ES
dc.type	http://purl.org/coar/resource_type/c_6501	es_ES

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: 1.d.1.pdf
Tamaño:: 490.32 KB
Formato:: Adobe Portable Document Format
Descripción:

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 919 B
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Artículos científicos