A clean, modern workspace with a laptop displaying code and data visualizations related to tourist arrival predictions.
A clean, modern workspace with a laptop displaying code and data visualizations related to tourist arrival predictions.

Predecir la llegada de turistas internacionales a Chile y al mundo no es solo un ejercicio estadístico, sino una herramienta estratégica fundamental para el desarrollo económico, territorial y social del país. En un contexto global caracterizado por una alta incertidumbre —pandemias, crisis políticas, fluctuaciones cambiarias y efectos del cambio climático—, disponer de modelos capaces de anticipar el comportamiento del turismo resulta clave para fortalecer la planificación, reducir la improvisación y promover una toma de decisiones basada en evidencia.

Los pronósticos confiables generan beneficios para una amplia diversidad de actores. En el ámbito público, instituciones como SERNATUR, la Subsecretaría de Turismo y los gobiernos regionales pueden diseñar políticas de promoción internacional, programas de inversión y estrategias de diversificación de mercados respaldadas por información empírica. Asimismo, organismos como los ministerios de Economía, Transporte y Obras Públicas pueden utilizar estos resultados para planificar infraestructura, optimizar la conectividad y evaluar impactos territoriales. En el sector privado, aerolíneas, hoteles, agencias de viaje y operadores turísticos pueden ajustar precios, anticipar la demanda, optimizar la asignación de recursos y prepararse frente a temporadas altas o bajas. Finalmente, desde una perspectiva académica, estos modelos aportan evidencia relevante sobre los factores socioeconómicos, institucionales y culturales que influyen en la elección de Chile como destino turístico.

Esta tesis responde a dicha necesidad mediante un enfoque moderno basado en técnicas de machine learning, específicamente a través de los modelos Random Forest y XGBoost. Ambos algoritmos, basados en métodos de ensamble de árboles de decisión, destacan por su capacidad para modelar relaciones no lineales, manejar grandes volúmenes de información y capturar interacciones complejas entre variables, manteniendo al mismo tiempo un alto nivel de robustez y desempeño predictivo. Su aplicación permite obtener estimaciones precisas y estables, incluso en contextos marcados por alta volatilidad y heterogeneidad entre países emisores.

Para la implementación de estos modelos, se construyó una base de datos amplia y multidimensional que integra variables macroeconómicas (PIB, tipo de cambio, IPC, precio del cobre), sociales y estructurales (distancia geográfica, idioma común, religión compartida, acuerdos diplomáticos), contextuales (índice de terrorismo, nivel de corrupción CPI, inversión en I+D) y digitales (búsquedas en Google Trends e interacciones en redes sociales —scaled interactions—). Este enfoque permite capturar la interacción entre economía, cultura, percepción y tecnología, proporcionando una visión integral de los determinantes de la demanda turística internacional hacia Chile.

El valor de la predicción de flujos turísticos radica en su capacidad para transformar datos heterogéneos en conocimiento estratégico. A partir de estimaciones confiables, es posible anticipar aumentos o caídas en la demanda, redireccionar campañas promocionales, fortalecer destinos emergentes y planificar necesidades de infraestructura. Por ejemplo, un incremento proyectado en el interés digital por viajar a Chile puede orientar acciones inmediatas de marketing internacional, mientras variaciones en el tipo de cambio pueden ser aprovechadas para focalizar estrategias en mercados regionales.

Asimismo, la predicción contribuye a construir un sector turístico más resiliente y sostenible, al permitir una mejor preparación frente a escenarios de crisis sanitaria, inestabilidad económica o eventos climáticos extremos. En este sentido, la incorporación de modelos como Random Forest y XGBoost al análisis del turismo representa un avance hacia una gestión basada en datos, donde la analítica y la inteligencia artificial se convierten en herramientas centrales para el desarrollo territorial.

En conclusión, anticipar la llegada de turistas mediante modelos de machine learning como Random Forest y XGBoost no solo mejora la precisión de las estimaciones, sino que también amplía el acceso a información estratégica para los distintos actores del ecosistema turístico chileno. Este enfoque contribuye a posicionar a Chile como un referente regional en analítica turística, capaz de transformar la incertidumbre del entorno global en una ventaja competitiva sostenible y orientada al futuro.

METRICAS DE ERROR

La evaluación de los modelos predictivos se realizará mediante un conjunto de métricas estándar ampliamente utilizadas en la literatura para medir la precisión en problemas de regresión. En particular, se considerarán los siguientes indicadores:

El MAE (Error Absoluto Medio) mide el promedio de las diferencias absolutas entre los valores observados y los valores pronosticados. Su principal ventaja es su interpretación directa, ya que se expresa en las mismas unidades de la variable dependiente. Un MAE bajo indica una menor desviación promedio entre las predicciones y los valores reales.

El RMSE (Raíz del Error Cuadrático Medio) también cuantifica la diferencia entre valores reales y predichos, pero penaliza con mayor intensidad los errores grandes al elevarlos al cuadrado antes de promediarlos. Un RMSE bajo refleja una alta precisión del modelo, mientras que una diferencia significativa entre RMSE y MAE puede indicar la presencia de errores extremos u outliers.

El R² (coeficiente de determinación) mide la proporción de la variabilidad total de la llegada de turistas que es explicada por el modelo. Valores cercanos a 1 indican un alto poder explicativo, mientras que valores bajos sugieren una capacidad limitada del modelo para capturar la dinámica del fenómeno analizado.

Para ambos modelos —Random Forest y XGBoost— las métricas se calcularán utilizando una validación cruzada con división temporal (time series split), asegurando que los datos de prueba correspondan a períodos posteriores a los datos de entrenamiento. Esta estrategia permite replicar condiciones reales de predicción futura y evita el sesgo que podría introducir una validación aleatoria en un contexto de series de tiempo.

Asimismo, se aplicarán técnicas de ajuste de hiperparámetros, como búsqueda en malla (grid search) o búsqueda aleatoria (randomized search), con el objetivo de optimizar el desempeño predictivo de los modelos en función de las métricas definidas.

Preguntas frecuentes

¿Qué datos usamos?

Utilizamos datos históricos de turismo y variables económicas relevantes.

¿Cómo se preparan los datos?

Limpiamos, normalizamos y transformamos los datos para mejorar la precisión del modelo.

¿Qué modelos se incluyen?

Mostramos cuatro modelos distintos, desde regresión hasta redes neuronales, con sus códigos y resultados.

¿Cómo evaluamos el modelo?

Usamos métricas como MAE y RMSE para medir la precisión de las predicciones.

¿Puedo ver el código?

Sí, cada modelo tiene su sección con el código detallado y explicado.