Métodos de Investigación
Protocolos de evaluación, métricas espaciales y estándares de reproducibilidad usados en la investigación de gamificación adaptativa
Visión General
La evaluación rigurosa de sistemas de gamificación adaptativa requiere tanto métodos estadísticos espaciales como pruebas de estrés a nivel de sistema. Los métodos aquí descritos conforman el kit central de evaluación utilizado en la investigación basada en GAME.
El principio rector es la reproducibilidad: toda métrica debe ser computable a partir de un log de entrada fijo y producir resultados idénticos en cada ejecución.
Análisis Espacial: Getis-Ord Gi*
Getis-Ord Gi* es un estadístico de autocorrelación espacial utilizado para identificar zonas calientes y frías en datos de participación geográfica.
En el contexto de la ciencia ciudadana, identifica:
- zonas calientes — áreas con agrupamiento estadísticamente significativo de alta participación
- zonas frías — áreas con agrupamiento estadísticamente significativo de baja participación
Esta métrica es central para la evaluación de equidad espacial. Antes y después de aplicar estrategias de incentivos orientadas a la equidad, se calcula Getis-Ord Gi* sobre la superficie de densidad de participación para medir si las zonas subrepresentadas han mejorado su cobertura.
Un desplazamiento estadísticamente significativo de las zonas frías hacia la neutralidad (z-score aproximándose a cero) constituye evidencia de una intervención de equidad efectiva.
Solapamiento de Participación: Índice de Jaccard
El índice de similitud de Jaccard mide el solapamiento entre dos conjuntos de áreas geográficas participantes en periodos o condiciones de estrategia distintos.
Para un conjunto dado de tareas o celdas espaciales:
- Jaccard = 1,0 — huella de participación idéntica
- Jaccard = 0,0 — sin solapamiento (conjuntos de participación completamente disjuntos)
Esta métrica se usa para evaluar cuánto cambia la diversidad de participantes entre condiciones de control y tratamiento. Un índice de Jaccard bajo entre la línea base y las condiciones gamificadas indica que el mecanismo de incentivos ha atraído una población de participantes significativamente diferente.
Análisis de Desplazamiento de Centroide
El desplazamiento del centroide de participación mide el cambio geográfico del centro medio de participación entre dos condiciones o ventanas temporales.
El centroide de un conjunto de eventos de participación se calcula como la latitud/longitud media ponderada por el conteo de eventos. El desplazamiento se mide entonces como la distancia geodésica entre centroides.
Esta métrica complementa a Getis-Ord Gi* proporcionando un resumen escalar único del cambio espacial direccional — útil al comparar múltiples configuraciones de estrategia.
Pruebas de Estrés del Sistema
Las propiedades deterministas de GAME se validan mediante pruebas de carga y concurrencia basadas en protocolo.
Protocolo de Pruebas de Carga
- Herramienta: Locust (pruebas de carga distribuidas en Python)
- Escenarios: envíos de scores concurrentes, actualizaciones simultáneas de wallet, evaluaciones paralelas de estrategias
- Métricas: tiempo de respuesta (p50, p95, p99), tasa de error, throughput (solicitudes/segundo)
- Umbral: el sistema debe sostener 500 usuarios concurrentes con tiempo de respuesta p95 inferior a 400ms y cero anomalías de scoring
Verificación de Corrección bajo Concurrencia
Más allá del rendimiento, la corrección bajo concurrencia se valida mediante:
- inyección de N eventos de score simultáneos para el mismo jugador
- verificación de que el balance final de wallet coincide exactamente con la suma de todos los eventos válidos
- confirmación de ausencia de créditos duplicados o deducciones fantasma
Cualquier discrepancia constituye una anomalía de scoring y falla la prueba de determinismo.
Estándares de Reproducibilidad
Todas las evaluaciones siguen un protocolo de reproducibilidad fijo:
- Control de semilla — cualquier muestreo aleatorio utiliza semillas fijas documentadas en la sección de métodos
- Conjuntos de datos congelados — los conjuntos de datos de evaluación se versionan y archivan antes del análisis
- Instantáneas de estrategia — las configuraciones de estrategia se serializan y archivan junto con los resultados
- Re-cómputo basado en log — los resultados deben ser re-derivables únicamente a partir del log de eventos brutos
Este protocolo garantiza que terceros puedan reproducir los resultados publicados de forma independiente.
Publicaciones Relacionadas
- Borge et al. (2025). Stress-Testing Citizen Science Platforms Under High Concurrent Load. SpliTech 2025.
- Vergara-Borge (2025). Gamifying Engagement in Spatial Crowdsourcing: A Deterministic Approach. Systems.