El desafío de elegir el número de clústeres a partir de métodos participativos y conocimiento local

El desafío de elegir el número de clústeres a partir de métodos participativos y conocimiento local

El análisis clúster es ampliamente conocido en las ciencias de datos como una metodología no supervisada que permite agrupar observaciones. La conformación de los grupos se realiza por medio de medidas de distancias o similaridades, y se espera que dentro de los grupos conformados las observaciones sean muy parecidas, mientras que de un grupo a otro se espera que sean diferentes. El equipo de Big Data del CIAT, quienes trabajan con datos y métodos de análisis de información para mejorar las decisiones en el agro, utilizó esta metodología en Honduras, en la región de Copán y Choluteca, con el propósito de identificar sitios con condiciones climáticas y de suelos similares utilizando datos públicos de Worldclim y algunos mapas de suelo digitales generados anteriormente para la región.

El propósito fue identificar zonas con potencial productivo similar, lo que en un futuro les permitiría  a los agricultores, hacer uso óptimo de cultivos y variedades, elegir fechas adecuadas de siembra y transferir tecnologías; dicho enfoque en el que se involucran datos de clima y suelo, también es conocido como zonificación. Todo esto fue posible gracias al proyecto Centroamérica Resiliente (ResCA) implementado entre CIAT y The Nature Conservancy (TNC).

Para quienes están familiarizados con el análisis clúster, seguramente han enfrentado el desafío de elegir el número de clúster a formar y pese a que existen varios métodos como el índice de Davies–Bouldin, Silhouette, BIC, entre otros, muchas veces el criterio termina decidiendo una cantidad pequeña o muy elevada. Finalmente es el propio analista que debe evaluar con el apoyo de expertos la decisión más acertada entre un rango de posibilidades. El caso de Honduras no fue ajeno a lo que usualmente pasa al implementar el análisis clúster, ya que fue necesario tomar la misma decisión, por lo tanto se diseñó una estrategia en la que se pretende que el conocimiento local de técnicos, agrónomos, agricultores e investigadores ayudara a tomar la decisión más acertada.

Dicha estrategia se basó en el desarrollo de un taller en el que se reunieron las personas que contribuirían a la evaluación de estos resultados. Posteriormente, con el grupo se implementó un protocolo con los siguientes pasos:

  1. Socialización de conceptos: en este punto se pretende cuestionar a los participantes sobre la definición de zonificación, las variables que son involucradas y la utilidad en la agricultura. En lo último de esta sección, se hace un recuento general de cada uno de los puntos tratados.
  2. Los participantes construyen su propia zonificación: se construyeron grupos y a cada uno se les entregó un mapa con los límites de la localidad que se estaba evaluando, luego se les pidió que dividieran el mapa en zonas que consideren similares, posteriormente se entrega un formulario donde deben reportar el número de grupos que seleccionaron y las variables que tuvieron en cuenta para realizar la zonificación (ver figura 1).
  3. Los participantes evalúan los resultados sugeridos por el análisis clúster: se entrega a cada grupo tres posibilidades de clustering de acuerdo a los resultados ya obtenidos, cada posibilidad se diferencia entre el número de clúster (o zonas) seleccionado, comenzando con uno muy pequeño usualmente cercano a tres y dos posibilidades más con mayores cantidades. Adicionalmente se entrega un reporte con una descripción general a partir de rangos y frecuencias para caracterizar cada uno de los resultados, dicho reporte fue realizado en Tableu (Copan y Choluteca). Por último los participantes deciden cuál de las tres opciones es la que más se aproxima a la realidad de la zona.

Figura 1. Zonificación de clima y suelos en la localidad de Copán Honduras, por parte de participantes de diversas profesiones que representan el conocimiento local (Julio 2018).

Al analizar los resultados que se obtuvieron de dicha actividad, tanto en Choluteca como Copán, se observó coincidencias entre algunas zonas encontradas por el análisis clúster y las delimitadas por los participantes en el segundo paso del protocolo; también se identificó que las variables que reconocen más las personas locales son: la temperatura, la precipitación y el tipo de suelo. Los participantes, tanto de Choluteca como Copán, decidieron que cinco era un número de clúster adecuado, ya que según las descripciones de las zonas conformadas, cinco permite diferenciar los distintos ambientes de la región sin excederse en número de clústeres (ver figura 2).

Figure 2. Zonificación de clima y suelos en la localidad de Copán y Choluteca Honduras utilizando análisis cluster y definiendo la cantidad de grupos a partir de conocimiento local (Julio 2018).

Finalmente, se concluyó que la participación de los representantes de la región en las decisiones tomadas en el análisis de datos a través de actividades participativas, fue de vital importancia para generar resultados satisfactorios que sean consistentes con la realidad, logrando un balance entre el conocimiento local y la información que revelan los datos con los métodos de análisis. Se espera que este ejercicio sea aplicado más adelante para nuevas localidades.

Contacto:

Hugo Andrés Dorado B., Estadístico ([email protected])