Project Details
Description
Resumen La riqueza de las matemáticas permite relacionarse con otras áreas del conocimiento para diseñar y lograr soluciones a problemas socioeconómicos complejos. Estos problemas habitualmente solucionables a través de la identificación de las interacciones de los agentes y, por ende, de la identificación de los datos, requieren del uso de estructuras transdisciplinares que permitan aproximarse a las soluciones de problemas que afectan la cotidianidad de las sociedades. El análisis topológico de datos es un método que usa herramientas de la topología algebraica y la geometría para el análisis de datos a gran escala, así como para clasificar conjuntos de datos complicados y de alta dimensión en grupos distintos. La interacción global de las redes socioeconómicas implica una gran cantidad de datos complejos, que pueden ser analizados con estas metodologías y las cuales ayudan a descubrir patrones y relaciones particulares en los datos y a su vez comprender la estructura de las redes. La idea de eso es buscar atributos que permitan comprender la relación entre los objetos topológicos y geométricos construidos a partir de los datos utilizando diversas características para identificar anomalías que puede ir desde las actividades delictivas y corruptas que atentan contra los recursos públicos y privados, hasta la asignación adecuada de recursos escasos para procesos de financiación masiva o para la atención de catástrofes, pandemias o infodemias. Planteamiento del Problema La proliferación de datos ha creado una mayor complejidad para el entendimiento de las interacciones entre agentes en diferentes redes socioeconómicas. La diversidad de los datos, así como sus características hacen cada vez más difícil identificar su veracidad y viabilidad para poder entender los fenómenos socioeconómicos. Sin embargo, al considerar las características topológicas de los datos sumado a algunas medidas de distancia, se pueden identificar relaciones complejas dentro de ellos y obtener mejores resultados para afrontar una problemática que al usar herramientas analíticas estándar, pues estas son habitualmente insuficientes para clasificar de manera precisa los datos. Al existir varias problemáticas socioeconómicas, es necesario integrar una serie de herramientas que permitan aplicar una metodología que identifique las anomalías y, a partir de ese esquema general, ajustarlo a la situación socioeconómica para que sea factible contrarrestar las anomalías. Por esto, problemas como la corrupción, los delitos financieros, el lavado de activos, las crisis financieras, los desastres naturales, las pandemias y, más recientemente, las infodemias tienen características similares que se desprenden de los datos y de las interacciones de los agentes que participan de la red, pero con algunas variaciones son identificables los patrones, pues todos se articulan como un sistema complejo. Para nuestro estudio, nos concentraremos en las interacciones financieras en las que se sospechan actividades de corrupción, delitos financieros y lavado de activos, pues el volumen de operaciones financieras globales realizadas diariamente se ha convertido en un escenario propicio para estos delitos ante de la dificultad de revisar cada una de las interacciones en estas redes. Como ejemplo se pueden encontrar las transferencias internacionales entre diferentes jurisdicciones a nivel global que han sido documentadas por diferentes organizaciones como el International Consortium of Investigative Journalists (https://www.icij.org/). En este contexto, es importante preguntarse ¿cómo detectar estas actividades sospechosas? Para esto, nuestra propuesta consiste en usar herramientas matemáticas y estadísticas que se puedan integrar a la solución de estos problemas socioeconómicos. Justificación Este proyecto aborda varios desafíos. Primero: cómo usar la topología y la geometría para extraer características de los datos. Segundo, cómo a partir de esos datos visualizar adecuadamente las redes socioeconómicas complejas que faciliten la identificación de anomalías y, tercero, cómo a partir de esas anomalías, poder decidir, asignar o reducir los recursos ante eventualidades cada vez más frecuentes en las sociedades como la corrupción y el lavado de activos. Los métodos geométricos y topológicos de este proyecto proporcionan una estructura teórica que identifica la complejidad de los datos y al mismo tiempo facilita la construcción de las redes socioeconómicas. Sin embargo, es necesario mencionar que este proyecto se centra en agendas de investigación complementarias, pues, la primera propone un conjunto de técnicas geométricas y topológicas para extraer características de los datos que permitan construir las redes, mientras la segunda propone diseñar visualizaciones que identifiquen las anomalías y a su vez facilitar la toma de decisiones para afrontarlas y contrarrestarlas. Este proyecto explora las aplicaciones del análisis topológico de datos (TDA) en el campo de las redes socioeconómicas complejas, especialmente abordando el problema de las anomalías y la asignación de recursos para contrarrestarlas. Para esto, se propone una metodología conformada por varios pasos. Primero, se utilizan las herramientas matemáticas para definir una técnica que permita entender la estructura de los datos. En un segundo paso, se propone identificar las características estructurales de diferentes conjuntos de datos de redes socioeconómicas. Tercero, se desarrolla un grupo de modelos para construir una forma de identificar las anomalías en conjuntos de datos disconexos y divergentes; modelos que se probarán a través de experimentos en varios conjuntos de datos de redes socioeconómicas. Finalmente, se desarrolla un algoritmo que busca facilitar las decisiones que asignen los recursos para contrarrestar las anomalías, lo cual puede reducir el impacto que estas tienen en situaciones cotidianas. Para esto, se emplearán simulaciones con varias herramientas y lenguajes computacionales, desarrollando los códigos o los procesos correspondientes. En el Plan de Trabajo se mencionan las herramientas de software que se esperan utilizar. Los enfoques desarrollados en este proyecto buscan integrarse con programas académicos cada vez más inter y transdisciplinares, pues estos permitirán atender de manera más oportuna las anomalías en las redes socioeconómicas. La riqueza de las metodologías de la física matemática puede construir nuevas aproximaciones a problemas que no han logrado ser resueltos de manera tradicional y en la que a través de talleres, semilleros y trabajos de grado se logre atraer a diferentes estudiantes de los campos de las ciencias, la ingeniería y la economía para resolver problemas socioeconómicos. Conceptos Generales Espacio topológico. Un espacio topológico es un conjunto de puntos junto con una topología, es decir, una colección de subconjuntos que se denominan conjuntos abiertos (Kalajdzievski, 2015). En este orden, un espacio topológico es de Hausdorff o T2, en la clasificación de Kolmogorov, si dos puntos, en este caso dos nodos, tienen siempre vecindades disjuntas. Esta propiedad de separación es característica de los espacios métricos, y se demuestra notando que si dos puntos i, j son distintos, su distancia no es cero y las vecindades U (discos) con centro en estos puntos y con un radio (positivo) r ≤ ½ d(i,j) son disjuntas. De esta forma, los axiomas propuestos por Hausdorff establecen que a cada punto i le corresponde al menos una vecindad U(i) que contiene al punto i; para dos puntos diferentes i, j hay dos vecindades correspondientes U(i) y U(j) sin puntos en común; si U(i) y V(j) son dos vecindades del mismo punto i, debe existir una vecindad W que sea un subconjunto de ambas; si el punto i se encuentra en U(i), debe existir una vecindad U(j) que sea un subconjunto de U(i) (Hausdorff, 1962; Willard, 1970; Munkres, 2017). De esta forma, un conjunto es abierto intuitivamente si, comenzando desde cualquier punto y yendo en cualquier dirección, es posible moverse un poco permaneciendo todavía dentro del conjunto. Entonces, la noción de un conjunto abierto proporciona una forma de entender la proximidad de los puntos, aunque sin tener explícitamente un concepto de distancia definido en el espacio topológico. Por lo tanto, una vez que se ha definido una topología, se pueden introducir propiedades como la continuidad, la conexión y la cercanía (Snášel, Nowakováa, Xhafa, & Barolli, 2017). Análisis topológico de datos: ¿Cómo determinar el conjunto de datos proveniente de alguna fuente que permiten obtener conclusiones útiles, si tenemos datos de varios tipos que se producen cada segundo? Actualmente el volumen de datos disponible en muchos contextos socioeconónicos es demasiado grande y a menudo con mucho más “ruido” que en el pasado, pues es común que haya información faltante que afecta su uso directo (Carlsson, 2009; Cohen-Steiner, Edelsbrunner, & Harer, 2007). Por esta razón, el análisis topológico de datos (TDA) ayuda a organizar y simplificar los grandes conjuntos de datos. Sin embargo, los datos se alojan en diferentes lugares y crean una complejidad que hace más difícil la identificación de anomalías. Por lo tanto, el TDA a través de la topología y con la ayuda adicional de la geometría y el aprendizaje automático proporciona un enfoque para inferir información cualitativa y cuantitativa sobre la estructura de los datos (Carlsson, 2009; Wasserman L., 2018). El factor principal para la identificación de anomalías en redes socioeconómicas complejas es identificar una estructura estable que facilite la comprensión de los datos y para esto, la agrupación en clústeres permite la división de los datos en clases coherentes y, en algunos casos, a través de la agrupación jerárquica, define una estructura que ayuda a identificar y clasificar las colecciones de datos. Puesto que un dato en sí mismo no refleja las características grupales del conjunto de datos estudiados, la forma particular como están distribuidos los datos hace parte de la complejidad estructural del problema y es útil para determinar la mejor opción disponible para usar y clasificar las fuentes de datos (ver Figura 1). Figura 1. Forma y red de los datos. a. Tipos de formas de datos. b. Estructura de red para un conjunto de datos. Por esta razón, si los datos no tienen una estructura de red predeterminada tratamos los datos como puntos aleatorios y construimos una red para definir algunas medidas apropiadas para diferentes conjuntos que permitan identificar y caracterizar de mejor manera las características de estos. Aspectos como la distancia, la centralidad y la densidad son importantes para el estudio de estas redes, por ejemplo una noción de distancia refleja que tan similares pueden ser un par de conjuntos de datos (nodos) y permite determinar un criterio de clasificación o agrupación para conjuntos de nodos (Figura 1b). Redes complejas: La ciencia de redes permite identificar a partir de las interacciones entre los agentes involucrados, los procesos y características estructurales y dinámicas que se dan al interior de un sistema complejo, convirtiéndose en una herramienta indispensable para analizar las redes (Latora, Nicosia, & Russo, 2017). Las interacciones entre agentes son fundamentales para identificar aquellos agentes centralizadores, pero también los caminos y ciclos que se presentan habitualmente en las anomalías de las redes socioeconómicas, así como en la definición de comunidades y pequeñas redes al interior de extensos grupos de interacciones que facilitan el entendimiento de un sistema desde una perspectiva macro escalar hasta una perspectiva micro escalar. Es decir, las redes socioeconómicas son sistemas compuestos por un gran número de unidades dinámicas altamente interconectadas en los que surgen comportamientos colectivos que definen su estructura, pero que a su vez permiten la aparición de anomalías (Boccaletti, Latora, Moreno, Chavez, & Hwang, 2006). La definición de una red compleja se basa en un grafo G que está representado por un conjunto de nodos N y un conjunto de interacciones (o vínculos) E que conectan pares de nodos. Si dos nodos están conectados serán adyacentes y sus interacciones serán incidentes ente sí, pero al elevar estas interacciones a un sistema que consiste en múltiples niveles, que pueden tener diferentes tipos de interacciones, se pueden agregar “caras” n-dimensionales o capas a las interacciones unidimensionales entre dos nodos. Esto da origen a redes multicapa y desde el punto de vista topológico a complejos simpliciales que se pueden estudiar directamente con las herramientas clásicas de la homología simplicial adaptadas al contexto de estas redes. Adicionalmente la densidad de estas conexiones entre “nodos” o de la confluencia de estas “caras” puede estudiarse con nociones de curvatura propias de la geometría diferencial discreta.
Status | Finished |
---|---|
Effective start/end date | 01/02/22 → 31/01/23 |
Project Status
- Finished
Project funding
- Internal
- Pontificia Universidad Javeriana