Big Data para la medición de la economía del Internet
En la última década, hubo importantes avances en conectividad a Internet que están llevando a un aumento sostenido de la demanda de bienes y servicios provistos en línea. Sin embargo, a pesar de la relevancia de estas actividades, se conoce poco sobre la dinámica de las actividades empresariales en Internet.
En el marco del proyecto “Big Data para la medición de la Economía Digital” implementado por la CEPAL, se está desarrollando un ejercicio de medición que apunta a generar más información sobre la composición empresarial de la economía de Internet en Brasil, Chile, Colombia y México, a partir del uso de datos web obtenidos con técnicas de Big Data y su combinación con registros administrativos provenientes de fuentes oficiales. Entre las instituciones que se encuentran participando del proyecto se encuentran el Instituto Nacional de Estadística de Chile (INE), el Instituto Brasileño de Geografía y Estadística (IBGE), el Departamento Administrativo Nacional de Estadística de Colombia (DANE), el Instituto Nacional de Estadística y Geografía de México (INEGI), el Centro de Estudios sobre Tecnologías de la Información y la Comunicación del NIC.br (CETIC.br), el NIC Chile y el NIC Colombia.
El objetivo de este proyecto es profundizar el conocimiento y la comprensión de la dinámica de las empresas en Internet y cuantificar su importancia en la economía, a fin de generar información útil para la formulación de políticas públicas.
Big Data y huella digital
Hoy en día la mayoría de la información está disponible en formato digital y más de la mitad de la población mundial es usuaria de Internet, la interacción humana produce una huella digital importante sobre la economía y la sociedad. En pocos años, los grandes datos (Big Data) han posibilitado estudios sociales y económicos en áreas tradicionalmente escasas en información, con la posibilidad de hacer predicciones con un 80-90 % de precisión. De esta forma, la huella digital tiene el potencial de generar datos e información útil para el diseño de políticas basadas en evidencia.
En las regiones en desarrollo como en América Latina y el Caribe, los datos empíricos son notoriamente escasos, especialmente en ámbitos nuevos y emergentes como la economía digital. La principal limitación para producción de información es la restricción de recursos. Esto, podría ser subsanado por la abundancia de datos que la sociedad produce en el ámbito digital. Por lo tanto, este estudio se propone aprovechar la huella digital para monitorear aspectos relacionados con la economía digital.
El uso de fuentes no tradicionales de información, como el Big Data, enfrenta diversos desafíos metodológicos, técnicos y de recursos. Los datos orgánicos provienen de distintas fuentes y se encuentran en distintos formatos: redes sociales, contenidos de sitios web, transacciones electrónicas, datos de registros telefónicos móviles, geolocalización (GPS), entre otros. Esto implica distintas aproximaciones para recopilar, procesar, analizar y visualizar la información.
Este estudio se basa en el uso de datos disponibles en la web y que fueron capturados a través de técnicas como el web crawling y web scraping, además del uso de APIs (Application Programming Interface). Posteriormente, se realizó un proceso de limpieza, que representó cerca del 80% de la carga de trabajo relacionada con el uso de esto tipo de información.
Para la delimitación de los ámbitos de interés, él estudio se focalizó por analizar temas de interés de política pública y en los cuales a su vez los datos son escasos. Asimismo, dado que existe un interés emergente tanto en la medición de aspectos de la economía digital como en cuestiones de género, el estudio tuvo como el objetivo de desagregar la información obtenida por esta variable. De esta forma, se analizaron datos provenientes de plataformas digitales que cubren varios países bajo un mismo modelo de negocio. Esto aseguró la comparabilidad de los datos y facilitó su recolección, particularmente debido al contexto cultural, lingüístico y geográfico común. Finalmente, los ámbitos de estudio fueron:
- Mercado laboral y habilidades digitales
- Precios de productos tecnológicos
- Comercio electrónico
- Crowdfunding y criptomonedas
- Conectividad de banda ancha
- Redes sociales: aspectos demográficos e interés en los Objetivos de Desarrollo Sostenible
Como se señaló el uso de la huella digital para generar indicadores que apoyen el diseño de políticas públicas enfrenta varios desafíos. Dar sentido a los datos es en sí un desafió, además de la necesidad de recursos tecnológicos para la captura y el procesamiento de los datos. Sin embargo, la mayor complejidad se asocia con la convergencia entre habilidades computacionales, conocimiento estadístico y aplicación sustantiva. En la práctica cuestiones de representatividad, generalización, armonización, definición de variables y calidad de datos se convierten rápidamente en las principales preocupaciones de la innovación y la ciencia de datos.
Para explorar los resultados del proyecto, sigue: dashboards.unite.un.org/public/hub/stream/ECLAC