Bespa: biblioteca de funciones para la exploracion sintactica de patrones en biosecuencias.

Proyecto: Investigación

Detalles del proyecto

Descripción

La investigacion en biosecuencias, aDN y proteinas es en la actualidad un tema de primera importancia; esto se refleja, por ejemplo, en el ritmo de crecimiento de GenBank, que es una de las mas conocidas e importantes bases de datos de informacion genetica. En 1990, GenBank almacenaba casi 40.000 secuencias[GB2010a], la version actual que es la 178.0, liberada el 15 de junio de 2010 contiene mas de 120 millones de secuencias [GB2010b]. analizar y extraer conocimiento util de esta inmensa cantidad de datos es un reto que requiere del uso de metodos computacionales y este es el objetivo de la Bioinformatica. aun con la gran cantidad de recursos humanos, computacionales y economicos que se han venido dedicando a la bioinformatica, y con los avances que diariamente se consiguen en este campo, persiste el hecho de que hay muchas incognitas por resolver y por lo tanto hay todavia mucho espacio para explorar tecnicas computacionales y aplicarlas a los diversos problemas que desde la biologia y la medicina se plantean. El grupo Destino, viene colaborando con el grupo de Microbiologia y Biotecnologia ambiental de la Universidad del Valle en el estudio del los Potyviruses, aplicando tecnicas de reconocimiento de patrones a las secuencias que constituyen sus genomas y a las proteinas que de ellos se producen, con el fin de aportar al conocimiento de este virus vegetal e indirectamente al control de las enfermedades que produce (por ejemplo el mosaico del frijol, el tabaco y otras plantas). Dentro de esta iniciativa, se hace necesario ir desarrollando en forma organizada las herramientas computacionales que sirven para detectar informacion util desde el punto de vista biologico a partir de secuencias de nucleotidos o de amino acidos. La disponibilidad de estos desarrollos computacionales, facilita su aplicacion a problemas especificos en bioinformatica y ofrece una plataforma solida sobre la cual ir abordando problemas de complejidad creciente. El reto de entender la estructura y la funcion de una secuencia (llamemosla a) se suele abordar mediante una estrategia evolutiva: si se detecta una secuencia (B) muy parecida a a cuya estructura y/o funcion es conocida, se puede suponer que esa estructura y/o funcion tambien son las de la secuencia desconocida a, ya que la secuencia conocida y la desconocida pueden tener un ancestro evolutivo comun que explique su similitud. Este esquema, aunque con excepciones, funciona cuando se tiene informacion previa sobre la cual apoyarse. Sin embargo, esto no ocurre siempre, en algunos casos se desconoce la estructura o funcion de un segmento particular y entonces deben utilizarse metodos diferentes para explorarlo, estos deben ser metodos que no procedan por comparacion contra algo conocido si no que extraigan similitudes directamente de las cadenas desconocidas, en forma no supervisada, para proveer patrones que eventualmente puedan tener significado biologico o que permitan ahora si relacionar estas cadenas con otras previamente conocidas. Estos metodos incluyen la construccion de histogramas, n-gramas, metodos de clustering y redes neuronales de aprendizaje no supervisado. Estos son los metodos que se propone utilizar en el presente proyecto para luego aplicarlos al estudio del extremo 5' de los genomas de Potyviruses, el cual es un extremo menos estudiado que el extremo 3' y para el cual se aspira a recolectar informacion significativa que ayude a comprender mejor su funcionamiento.
EstadoFinalizado
Fecha de inicio/Fecha fin11/01/1116/12/11

Estado del Proyecto

  • Terminado