La ciencia de datos implica el estudio de datos estructurados y no estructurados, la preparación de datos para el análisis, incluye la limpieza, el tratamiento, la agregación y la manipulación de datos para realizar análisis avanzados. La ciencia de datos se considera un método nuevo y prometedor que se utiliza para recopilar y analizar información en disciplinas científicas diferentes. Con este punto de partida hemos recurrido a la colaboración de Juan Carlos Canchano, especialista de la UNI, para que nos trate sobre esta temática.
Ciencia de Datos: ¿Qué es y cuáles son sus aplicaciones?
En los últimos años, esta disciplina tecnológica ha cobrado mayor relevancia en las empresas que se tomaron en serio la transformación digital.
(americasistemas.com.pe. Lima, Perú – 22 de setiembre 2021) A pesar de la adopción y aceptación generalizadas, el uso de tecnologías basadas en la ciencia de datos en la investigación global continúa permaneciendo en crecimiento. En este contexto, los científicos de datos analizan los resultados para descubrir patrones y permitir que las empresas obtengan conocimientos y tomen las mejores decisiones.
La ciencia de datos también implica a las ciencias estadísticas, a las probabilidades, a la informática y, sobre todo, al conocimiento del conjunto de datos que será analizado.
El objetivo de esta ciencia es ayudarnos a comprender los patrones de variación en los datos como: tasas de crecimiento macroeconómico, volúmenes de información, fuga de clientes en una empresa, mortalidad en una población; en general toda variable que se pueda medir. Para hacer eso, frecuentemente se utilizan modelos, los modelos son aproximaciones y nunca explicarán hasta el último detalle. En ciencia de datos, se trabaja con modelos estadísticos/probabilísticos para ayudar a comprender el cambio. Para dar un ejemplo podemos mencionar la variación del tipo de cambio del dólar, la mayor parte de la variación de variables exhibe algunas características que son predecibles y algunas que son impredecibles.
Los modelos estadísticos describen tanto lo predecible como lo impredecible en algún sistema, más que eso, permitirán segmentar la variación observada en componentes predecibles e impredecibles, y no solo de una manera categórica, sino en una forma matemática exacta que puede, con gran precisión, ser descrita como científica.
Ciencia y Minería de datos
La ciencia de datos tiene tres ramas. La primera es la Big Data, aquí se procesan grandes volúmenes de datos. La segunda es la minería de datos, cuyo propósito es encontrar patrones que antes eran desconocidos. Finalmente, la visualización de datos, cuyo propósito es promover una comprensión clara de la información mediante una presentación adecuada de los datos.
Los términos “Ciencia de datos” y “Minería de datos” en muchas ocasiones, se utilizan indistintamente, y el primero ha tenido un gran crecimiento, a medida que varios individuos y organizaciones intentan capitalizar el auge actual que aborda esto. En un alto nivel, la ciencia de datos es un conjunto de principios fundamentales que guían la extracción de conocimiento a partir de los datos. Por otro lado, la minería de datos es la extracción de conocimiento de datos, a través de tecnologías que incorporan estos principios. Como frase o término, “ciencia de datos” a menudo se aplica de manera más amplia que el uso tradicional de “minería de datos”, pero las técnicas de minería de datos proporcionan algunas de las muestras más claras de las bases de la ciencia de datos. Esto porque, la minería de datos se utiliza para la gestión general de las relaciones con los clientes, pudiéndose utilizar para analizar su comportamiento, para gestionar el desgaste y maximizar el valor esperado por el cliente.
En el sector financiero se utiliza la minería de datos para la calificación crediticia y la frecuencia de cobros, en operaciones a través de detección de fraudes y gestión de los colaboradores en las organizaciones. Principales minoristas desde Walmart hasta Amazon aplican la minería de datos en todas sus empresas, los usos se realizan desde el marketing hasta la gestión de la cadena de suministro. Muchas empresas se han diferenciado competitivamente con la ciencia de datos, a veces hasta el grado de convertirse en empresas de minería de datos, esto con la finalidad de conocer y entender cómo piensan los consumidores, sus preferencias y su comportamiento, pudiendo predecir las necesidades que tendrán.
Con este fin, contienen toda la información relevante y necesaria del cliente para una gestión exitosa, y así poder ofrecer los bienes y servicios necesarios y esperados por los clientes habituales y potenciales de la organización que utiliza minería de datos.
Who is who: Juan Carlos Canchano Vizcarra, autor del presente artículo es especialista en Ciencia de Datos de las canteras de la Escuela de Ingeniería de Sistemas de la UNI y también miembro del PMI Lima Perú Chapter con certificaciones en Ciencia de Datos, Analítica de datos y en Dirección de Proyectos.