Elaboración de base de datos de fotografías de granos de...

84
Página 1 Elaboración de base de datos de fotografías de granos de café seco con diferentes defectos físicos, caracterizados con métodos estándar de PDI y clasificación. AUTORES JUAN CAMILO BORRERO BECERRA CAMILO ANTHOLYN DIAZ MOLANO DIRECTOR GERARDO ALCIDES MUÑOZ QUIÑONES UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS FACULTAD DE INGENIERIA PROYECTO CURRICULAR DE INGENIERIA ELECTRÓNICA COLOMBIA, BOGOTÁ 2016

Transcript of Elaboración de base de datos de fotografías de granos de...

Page 1: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 1

Elaboración de base de datos de fotografías de granos de café seco con diferentes defectos físicos, caracterizados

con métodos estándar de PDI y clasificación.

AUTORES

JUAN CAMILO BORRERO BECERRA

CAMILO ANTHOLYN DIAZ MOLANO

DIRECTOR

GERARDO ALCIDES MUÑOZ QUIÑONES

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS FACULTAD DE INGENIERIA

PROYECTO CURRICULAR DE INGENIERIA

ELECTRÓNICA

COLOMBIA, BOGOTÁ

2016

Page 2: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 2

Elaboración de base de datos de fotografías de granos de café seco con diferentes defectos físicos, caracterizado

con métodos estándar de PDI y clasificación.

AUTORES

JUAN CAMILO BORRERO BECERRA COD. 20091005018

CAMILO ANTHOLYN DIAZ MOLANO COD. 20091005030

DIRECTOR

GERARDO ALCIDES MUÑOZ QUIÑONES

PROYECTO DE GRADO

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS FACULTAD DE INGENIERIA

PROYECTO CURRICULAR DE INGENIERIA ELECTRÓNICA COLOMBIA, BOGOTÁ

2016

Page 3: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 3

Agradecimientos En este trabajo agradecemos a nuestros padres y familiares por brindarnos un apoyo constante, tanto moralmente como con su tiempo y ayuda para lograr el objetivo de trazar un fututo mejor y ser orgullo para ellos y toda la familia. Agradecemos también a la Universidad Distrital Francisco José de Caldas por formarnos como ingenieros electrónicos. De igual manera a nuestro profesor y director Gerardo Muñoz quien nos guio en el desarrollo del trabajo. A nuestro profesor Rodrigo Herrera por las enseñanzas en el área y también su constante guía en el desarrollo del trabajo. Así mismo a nuestra profesora Lorena Flores por su incondicional colaboración en el estudio de fotografía y la guía para el correcto desarrollo de la captura de imágenes. Y de manera muy especial a Diana Gabriela Alzate por el apoyo y ayuda incondicionales en el desarrollo de todo el proyecto. Gracias…

Page 4: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 4

Resumen

Se desarrolló un sistema de procesamiento digital de imágenes para la clasificación de granos de café seco, en 5 tipos, dependiendo de sus defectos físicos. Para la caracterización de la forma, el color y la textura de un grano de café, se extrajeron 63 características conocidas en la literatura, y se propusieron algunas características más. Usando la correlación, se redujeron las características con las cuales se evaluaron cuatro técnicas de clasificación: Perceptrón multicapa, Bayesiano, Maquina de soporte vectorial y árbol de decisión J48. Con el clasificador Perceptrón multicapa se obtuvo el mejor resultado con un error de clasificación del 5,48%. Palabras clave: caracterización, café, defectos, segmentación, imágenes, clasificación.

Page 5: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 5

Introducción El procesamiento digital de imágenes (PDI) es un proceso de almacenamiento, transmisión y representación de la información, de imágenes digitales por medio de un computador. Su interés se basa en dos aspectos: en mejorar la información contenida en una imagen para la interpretación humana y en el tratamiento de los datos de una escena para la percepción autónoma por una máquina. Este proyecto pretende generar una base de datos de fotografías con los principales defectos de los granos de café seco1, en un ambiente controlado, que permita elaborar un sistema PDI para posteriormente identificar el defecto de cada grano, y que con ayuda de un operario calificado pueda agilizarse este proceso. Hoy en día, Colombia es uno de los mayores productores de café del mundo, debido a la alta calidad y exquisito sabor de este grano que se cultiva en gran parte del país; pocos conocen el proceso que es llevado a cabo por los caficultores, las empresas comercializadoras y las trilladoras de este producto para que sea de gran calidad. El café colombiano es de los mejores del mundo; no solo por los beneficios ambientales que nos regala nuestro país, si no también, porque este sufre un proceso de clasificación para que solo sean exportados y/o trillados los granos que se encuentren en excelentes condiciones físicas, ya que sus defectos se ven reflejados tanto en el sabor, como en el aroma de esta valorada bebida colombiana. La clasificación de granos de café seco es una tarea esencial para la elaboración de café Premium como los que caracterizan a nuestro país, además de esto también depende el precio al que se vende, ya que solo son exportados y trillados los granos en excelentes condiciones físicas para la fabricación de este café. Actualmente este proceso de clasificación se realiza manualmente, por un operario calificado, siendo el “cuello de botella” de todo el proceso del café, ya que en la mayoría de las zonas cafeteras Colombianas las grandes cosechas se dan en una o dos épocas del año, según la región2, con duración de pocas semanas, por lo que los 11.7 millones de sacos de 60Kg de café producidos al año se venden en estas semanas [1], generando gran congestión, en las comercializadoras y en las trilladoras, donde las filas para vender la cosecha le puede costar un día entero de trabajo a un caficultor. Por lo tanto, este proyecto pretende generar, las bases necesarias para que en un futuro se pueda desarrollar un sistema capaz de colaborar con este proceso, lo que posiblemente tendrá un impacto positivo en la calidad final del producto y además acelerará el proceso. Generando una base de datos de fotografías de los problemas físicos de granos de café, clasificados por un experto y caracterizados mediante una serie de algoritmos de procesamiento digital de imágenes, que permitan extraer las características necesarias para hacer una clasificación de las fotografías de los granos, en 4 de los defectos más comunes presentes en Colombia. En este trabajo

1 Café seco hace referencia a los granos de café después del proceso de beneficio: Pelado, lavado, secado de

los granos y trillado. 2 En el sur del Huila, de donde proceden las muestras utilizadas en este trabajo, las cosechas se dan en una o

dos épocas del año.

Page 6: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 6

se implementaran características que han sido utilizadas en la literatura, a las cuales nos referimos como características teóricas y además en paralelo se pondrán a prueba una serie de características propuestas para evaluar su validez a la hora de clasificar. Los sistemas de PID en la actualidad se han convertido en una buena solución para los problemas agrícolas. Ejemplos de estas aplicaciones son: la recolección de tomates [2], manzanas [3], naranjas [4], tomates-cereza [5]; así como la clasificación de papas [6], olivas [7], brócoli [8], nueces de pistacho [9] y manzanas [10]. A lo largo de los últimos años, en la industria cafetera se han realizado algunos aportes en el área de procesamiento digital de imágenes, se ha investigado y elaborado algunos trabajos acerca de esto, el más significativo [11] es un proyecto que se centra en la evaluación de las características físicas de los granos de café a través de un modelo de clasificación automática de defectos. El modelo utiliza un paso de segmentación que discrimina el fondo de la imagen del grano de café con un algoritmo de seguimiento contornos, y con ayuda de un CGLCM3 para extraer las características de textura del grano y una máquina de vectores de soporte para la tarea de clasificación, se logra clasificar con una precisión de 86%. También se ha trabajado con procesos más sencillos pero menos discriminativos únicamente con la utilización del color, en este trabajo [12] se utiliza la técnica de umbralización multinivel, en busca de dar solución a la baja y mediana producción de las fincas cafeteras. Otro de los mecanismos utilizados en trabajos anteriores, es la comparación de imágenes, siendo este método mucho menos discriminativo que los demás, ya que solo es capaz de decir si un grano es aceptado o rechazado [13], este proceso consiste en la clasificación de los granos de café comparando con una imagen patrón. Hace uso de la información que aporta los histogramas como característica principal. Cabe resaltar que para realizar las pruebas se utilizaron imágenes tomadas por los autores. Por último, se ha trabajado la clasificación del grano de café cereza4 por etapas de maduración [14]. Con la ayuda del modelo de clasificación bayesiano, se lograron identificar los granos de café en varios grados de maduración. Se seleccionaron como características datos en espacios de color RGB y HSI. Con el fin de llevar a cabo el sistema de PDI, se elaborará una de base de datos de fotografías de granos de café seco, con granos tanto defectuosos como granos en excelentes condiciones físicas, típicos de nuestro país, para luego caracterizarlos con algunos métodos usados en la literatura y con otros propuestos y así realizar una clasificación. Empezando por acondicionar un ambiente capaz de controlar tanto la iluminación como de ofrecer un fondo homogéneo para realizar la toma de fotografías; luego clasificar las fotografías en cada defecto físico por parte de un experto en el tema; y realizar un preprocesamiento de las imágenes que permita segmentarlas, para eliminar la información irrelevante del fondo en la caracterización de las mismas. El siguiente paso es hacer un estudio del estado del arte de las mejores características de las imágenes, que permitan la realización de un clasificador de granos de café; para luego implementar algoritmos que nos permitan extraer las características seleccionadas; por ultimo hacer un estudio con el objetivo de elegir el mejor modelo de clasificación en base a las características extraídas de las imágenes y evaluar el sistema utilizando el modelo de validación cruzada.

3 Matriz de co-ocurrencia de niveles de gris. 4 Café cereza hace referencia al fruto del café recién cosechado, sin ningún tipo de proceso posterior.

Page 7: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 7

En el mercado actual solo existe un tipo de dispositivo electrónico capaz de hacer la clasificación de los granos de café seco, este dispositivo lo hace con ayuda de más de 1500 sensores de color y se utiliza para clasificar diferentes tipos de granos, como el arroz, el trigo o el café, en dos tipos, bueno o malo, no es muy popular debido a sus altísimos costos, de más de 80.000 dólares (CCD Grains Color Sorter Machine (6SXZ-126)) y su baja eficiencia, por eso esta clasificación normalmente es echa por una o varias personas capacitadas en la diferenciación de los granos. Por esto se pensó en la viabilidad de este proyecto. En cuanto a limitaciones para este proyecto, se destaca la obtención de los granos de café en los 14 defectos reconocidos por la Federación Nacional de Cafeteros de Colombia, ya que algunos de ellos son poco comunes debido a las nuevas técnicas de beneficio implementadas en la actualidad; por otra parte, el gran parecido que presentan algunos granos de café con defectos distintos. Dentro de este contexto y en la sección 1, se brindará una introducción sobre las generalidades del café en cuanto a las etapas de desarrollo del fruto y el café como bebida. Así mismo, el café Colombiano con su proceso de producción y beneficio, la calidad y la clasificación de granos de café según sus defectos; todo lo cual nos servirá como referente teórico para el presente trabajo. Se describirán brevemente también, las etapas principales de un sistema de procesamiento digital de imágenes; adquisición y adecuación de las imágenes, procesado de las imágenes, caracterización y clasificadores. En la sección 2, se mostrará cómo se hizo la captura de imágenes y de dónde provienen los granos de café. En la sección 3, se podrá apreciar los modelos teóricos de Preprocesado de la imagen que se probaron y por último el modelo heurístico que cumplió con las necesidades de segmentación. En la sección 4, se dará a conocer las características tanto teóricas como propuestas que se implementaron en el trabajo, además de su forma de obtención. En la sección 5, se exponen los resultado tras aplicar un algoritmo de selección de características que nos brindó las más apropiadas para hacer la clasificación con el menor costo computacional. En la sección 6 se ofrecerá el análisis y la interpretación detallada de resultados. Se sintetizan los datos relevantes, las observaciones y los hallazgos. En la sección 7, se encontraran las conclusiones en las cuales se describe qué problema se quería resolver, qué problemas se presentan para resolverlo, los logros que se obtuvieron con este proyecto de tesis, conclusiones generales y por último, qué es lo que se deja para investigaciones futuras.

Page 8: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 8

Lista de Tablas Tabla 1.1: Ejemplo: Clase “Buenos”. ..................................................................................................... 41

Tabla 1.2: Ejemplo: Clase “Malos”. ....................................................................................................... 41

Tabla 1.3: Ejemplo: Clase “Buenos” procesado. ................................................................................... 41

Tabla 1.4: Ejemplo: Clase “Malos” procesado. ..................................................................................... 41

Tabla 1.5: Matriz de confusión simple. ................................................................................................. 46

Tabla 1.6: Matriz de confusion. ............................................................................................................ 46

Tabla 6.1: Matriz de confusión. Clasificador perceptrón multicapa sobre características teóricas. .... 73

Tabla 6.2: Indicadores de desempeño. Clasificador perceptrón multicapa sobre características teóricas. ................................................................................................................................................. 73

Tabla 6.3: Matriz de confusión. Clasificador perceptrón multicapa sobre características propuestas.74

Tabla 6.4: Indicadores de desempeño. Clasificador perceptrón multicapa sobre características propuestas. ........................................................................................................................................... 74

Tabla 6.5: Matriz de confusión. Clasificador SMV sobre características teóricas. ............................... 74

Tabla 6.6: Indicadores de desempeño. Clasificador SMV sobre características teóricas. .................... 75

Tabla 6.7: Matriz de confusión. Clasificador SMV sobre características propuestas. .......................... 75

Tabla 6.8: Indicadores de desempeño. Clasificador SMV sobre características propuestas. ............... 76

Tabla 6.9: Matriz de confusión. Clasificador bayesiano sobre características teóricas. ...................... 76

Tabla 6.10: Indicadores de desempeño. Clasificador bayesiano sobre características teóricas. ......... 76

Tabla 6.11: Matriz de confusión. Clasificador bayesiano sobre características propuestas. ............... 77

Tabla 6.12: Indicadores de desempeño. Clasificador bayesiano sobre características propuestas. .... 77

Tabla 6.13: Matriz de confusión. Clasificador J48 sobre características teóricas. ............................... 78

Tabla 6.14: Indicadores de desempeño. Clasificador J48 sobre características teóricas. .................... 78

Tabla 6.15: Matriz de confusión. Clasificador J48 sobre características propuestas. .......................... 78

Tabla 6.16: Indicadores de desempeño. Clasificador J48 sobre características propuestas. ............... 79

Page 9: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 9

Lista de Figuras Figura 1.1: Planta de café, en cosecha.................................................................................................. 14

Figura1.2: Desarrollo del grano de café. ............................................................................................... 15

Figura 1.3: Zonas cafeteras en Colombia. ............................................................................................. 17

Figura: 1.4 paisaje cafetero. ................................................................................................................. 18

Figura: 1.5 Selección manual del café. ................................................................................................. 18

Figura 1.6: Fotografía de grano de café Negro total o parcial. ............................................................. 20

Figura 1.7: Fotografía de grano de café Cardenillo. ............................................................................. 20

Figura 1.8: Fotografía de grano de café Vinagre o parcialmente vinagre. ........................................... 21

Cristalizado ............................................................................................................................................ 21

Figura 1.9: Fotografía de grano de café Cristalizado. ........................................................................... 21

Figura 1.10: Fotografía de grano de café Decolorado veteado. ........................................................... 22

Figura 1.11: Fotografía de grano de café Decolorado reposado. ......................................................... 22

Figura 1.12: Fotografía de grano de café Decolorado ámbar o mantequillo. ...................................... 23

Figura 1.13: Fotografía de grano de café Decolorado sobresecado. .................................................... 23

Figura 1.14: Fotografía de grano de café Mordido o cortado. ............................................................. 24

Figura 1.15: Fotografía de grano de café Picados con insectos. ........................................................... 24

Figura 1.16: Fotografía de grano de café Averanado o arrugado. ........................................................ 25

Figura 1.17: Fotografía de grano de café Inmaduro y/o paloteado. .................................................... 25

Figura 1.18: Fotografía de grano de café Aplastado. ............................................................................ 26

Figura 1.19: Fotografía de grano de café Flojo. .................................................................................... 26

Figura 1.20: Matriz MF y MC del método Roberts. .............................................................................. 28

Figura 1.21: Matriz MF y MC del método Sobel. .................................................................................. 29

Figura 1.22: Matriz MF y MC del método Prewitt. ............................................................................... 29

Figura 1.23: Modelo RGB. ..................................................................................................................... 31

Figura 1.24: Modelo HSV. ..................................................................................................................... 32

Figura 1.25: Modelo CIElab. .................................................................................................................. 33

Figura 1.26: Modelo de red neuronal con perceptrón multicapa. ....................................................... 43

Figura 1.27: Ejemplo de vectores de soporte en una SMV................................................................... 44

Figura 1.28: Ejemplo de Árbol de decisión J48. .................................................................................... 45

Page 10: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 10

Figura 2.1: Esquema del sistema de adquisición de imágenes. ............................................................ 48

Figura 3.1: (a) Grano de café tipo 0 de muestra. (b) imagen segmentada. .......................................... 48

Figura 3.2: (a) Grano de café tipo 6 de muestra. (b) imagen segmentada. .......................................... 49

Figura 3.3: (a) Imagen de luminancia de grano de café tipo 6 de muestra. (b) Imagen de luminancia de grano de café tipo 0 de muestra. ..................................................................................................... 49

Figura 3.4: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Sobel, con nivel de umbralización por método de Otsu (nivel 0.254). (b) Equivalente de imagen de grano de café tipo 0 de muestra (nivel 0.235). .......................................... 50

Figura 3.5: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Sobel, con nivel de umbralización 0.254/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.235/2. ............................. 50

Figura 3.6: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Sobel, con nivel de umbralización (1+0.254)/2 Imagen de grano de café tipo 6 de muestra. (b)Equivalente de imagen de grano de café tipo 0 de muestra (1+0.235)/2. ....................... 51

Figura 3.7: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Prewitt, con nivel de umbralización por método de otsu (nivel 0.251). (b) Equivalente de imagen de grano de café tipo 0 de muestra (nivel 0.235). .......................................... 52

Figura 3.8: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Prewitt, con nivel de umbralización 0.251/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.235/2. ............................. 52

Figura 3.9: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Prewitt, con nivel de umbralización (1+0.251)/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra (1+0.235)/2. ................. 52

Figura 3.10: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Roberts, con nivel de umbralización por método de otsu (nivel 0.211). (b) Equivalente de imagen de grano de café tipo 0 de muestra (nivel 0.203). .......................................... 53

Figura 3.11: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Roberts, con nivel de umbralización 0.211/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.203/2. ............................. 53

Figura 3.12: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Roberts, con nivel de umbralización (1+0.211)/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra (1+0.203)/2. ................. 54

Figura 3.13: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Canny, con nivel de umbralización nivel 0.0188. (b) Equivalente de imagen de grano de café tipo 0 de muestra nivel 0.0189. ..................................................................................... 54

Figura 3.14: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Roberts, con nivel de umbralización 0.0188/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.0189/2. ........................... 55

Figura 3.15: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Roberts, con nivel de umbralización (1+0.0188)/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra (1+0.0189)/2. ............ 55

Page 11: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 11

Figura 3.16: Imágenes resultantes de aplicar las restas entre las componentes RGB de la imagen de muestra. (a) Resta componentes RG (b) Resta componentes RB (c) Resta componentes GB (d) promedio de las componentes. ............................................................................................................ 57

Figura 3.17: Componentes de la imagen de muestra 3.16(a) componente R (b) Componente G (c) Componente B (d) promedio de las componentes. .............................................................................. 58

Figura 3.18: Orientaciones de Pseudogradiente para el píxel p. .......................................................... 58

Figura 3.19: Pseudogradiente de la imagen de luminancia. ................................................................. 59

Figura 3.20: (a) Gradiente sobel imagen luminancia (b) Pseudogradiente – Gradiente Sobel. ........... 59

Figura 3.21: (a) Pseudogradiente sobre imagen RG (b) Pseudogradiente sobre imagen RB (c) Pseudogradiente sobre imagen GB. ...................................................................................................... 60

Figura 3.22: Variación iluminación modificada. ................................................................................... 61

Figura 3.23: Variaciones combinadas. .................................................................................................. 61

Figura 3.24: Imagen promedio por zonas. ............................................................................................ 62

Figura 3.25: Resta variaciones combinadas y promedio pro zonas. ..................................................... 62

Figura 3.26: Ampliación sobre la figura 3.23. ....................................................................................... 63

Figura 3.27: (a) Etiquetas de los píxeles vecinos a p. (b) Etiquetas secundarias de los píxeles vecinos a p. ........................................................................................................................................................... 63

Figura 3.28: Resultado de aplicar el proceso de tendencias. ............................................................... 64

Figura 3.29: Ampliación sobre la figura 3.27. ....................................................................................... 64

Figura 3.30: (a) Imagen binaria del grano. (b) Grano segmentado. ..................................................... 65

Figura 4.1: Modelo de características propuestas. Xmax, Ymax y Zmax. ............................................. 66

Figura 4.2: Modelo de características propuestas. Límite superior e inferior para la dimensión z. .... 66

Figura 4.3: Densidad inferior para la dimensión Z. ............................................................................... 67

Figura 4.4: Densidad superior para la dimensión Z. ............................................................................. 67

Figura 4.5: Densidad intermedia para la dimensión Z. ......................................................................... 68

Figura 4.6: Ejemplo de Vecforma, inicio de la gráfica. ......................................................................... 68

Figura 4.7: Gráfica de Vecforma. .......................................................................................................... 69

Figura 4.8: Borde aproximado del grano de café. ................................................................................ 69

Figura 4.9: Gráfica de Vecreferencia. ................................................................................................... 70

Figura 4.10: Gráfica de Vecderivada. .................................................................................................... 70

Figura 6.1: Gráfica curvas ROC para características teóricas................................................................ 79

Figura 6.2: Gráfica curvas ROC para característica propuestas. ........................................................... 80

Page 12: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 12

Tabla de contenido Resumen ................................................................................................................................................. 3

Introducción ............................................................................................................................................ 5

Lista de Tablas ......................................................................................................................................... 8

Lista de Figuras ........................................................................................................................................ 9

Tabla de contenido ............................................................................................................................... 12

1. Marco Teórico ................................................................................................................................... 14

1.1. El café ......................................................................................................................................... 14

1.1.1. Generalidades ...................................................................................................................... 14

1.1.2. Etapas de desarrollo del fruto ............................................................................................. 14

1.1.3. El café como bebida ............................................................................................................. 15

1.1.4. El café colombiano ............................................................................................................... 16

1.1.5 Proceso de producción y beneficio del café ......................................................................... 17

1.1.6 Calidad del café ..................................................................................................................... 19

1.2. Clasificación de granos de café según sus defectos ................................................................... 19

1.3. Etapas de un sistema de procesamiento digital de imágenes ................................................... 27

1.4. Modelos de color ........................................................................................................................ 30

1.5. Características ............................................................................................................................ 33

1.5.1 Características de color ......................................................................................................... 33

1.5.2 Características de forma ....................................................................................................... 35

1.5.3 Características de textura ..................................................................................................... 36

1.6. Clasificadores .............................................................................................................................. 39

1.7 Indicadores de desempeño y matriz de confusión...................................................................... 46

2. Captura de imágenes ........................................................................................................................ 46

2.1 Selección de los granos ............................................................................................................... 46

2.2 Sistema de adquisición de imágenes ........................................................................................... 47

3. Segmentación .................................................................................................................................... 48

3.1 Resultados obtenidos métodos teóricos de detección de bordes .............................................. 50

3.2 Método heurístico utilizado para la segmentación ..................................................................... 56

4. Estudio de características propuestas .............................................................................................. 65

Page 13: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 13

4.1 Características de color ............................................................................................................ 65

4.2 Características de forma .......................................................................................................... 68

5. Selección de características .............................................................................................................. 71

6. Clasificación y resultados .................................................................................................................. 73

7. Conclusiones ..................................................................................................................................... 80

8. Bibliografía ........................................................................................................................................ 82

Page 14: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 14

1. Marco Teórico

1.1. El café

1.1.1. Generalidades

En relación con el café, cabe precisar que, pertenece a la gran familia de las Rubiaceas, compuesta por 500 géneros y más de 6.000 especies, la mayoría de estas especies son de origen tropical. De todos los géneros que constituyen las Rubiaceas, el género Coffea, al cual pertenece el café es el de mayor importancia económica. [15]. Las plantas de café en cuanto a su porte van desde pequeños arbustos hasta árboles de gran tamaño. Figura 1.1 Se caracterizan por su madera dura y densa, sus Inflorescencias son pareadas, sus flores hermafroditas, de corolas blancas o ligeramente rosadas. El estilo puede ser largo y además sobresale de la corola. El fruto se clasifica como una drupa globular u ovoide de pecíolo corto, tiene una longitud de 10 a 15 mm y un diámetro de 11,5 a 14,5 mm y se le denomina cereza. Está formado por dos semillas; y estas presentan una grieta muy peculiar, la cual se conoce como la “sutura coffeanum [16].

Figura 1.1: Planta de café, en cosecha.

1.1.2. Etapas de desarrollo del fruto

Como etapas de desarrollo del fruto del café se pueden considerar cinco etapas, a saber [17]:

Page 15: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 15

Primera etapa: Se inicia con la fertilización del óvulo. El crecimiento del ovario es lento, caracterizándose esta etapa por poco crecimiento en tamaño y peso del fruto. Tiene una duración de 7 semanas, después de la florescencia. Segunda etapa: En esta etapa se evidencia un crecimiento acelerado del fruto en peso y volumen, con altos requerimientos de agua. Si se presenta poca hidratación, hay secamiento, caída y presencia de granos negros. También es denominada como la etapa de formación del grano lechoso. Dura 10 semanas, después de la florescencia. Tercera etapa: El fruto crece muy poco. En esta etapa el fruto necesita nutrientes: la almendra se endurece, la escasez de agua hace que el fruto no termine de formarse bien y se produce el grano conocido como averanado. Tiene una duración de 9 semanas, después de la florescencia. Cuarta etapa: El endospermo llena el grano entero y es la época de maduración o cambio de color del fruto. Tiene una duración de 6 semanas, después de la florescencia. Quinta etapa: Esta etapa es posterior al momento ideal de recolección; aquí, el fruto se sobremadura tornándose de un color violeta oscuro y finalmente se seca, perdiendo peso generalmente. Ver figura 1.2.

Figura1.2: Desarrollo del grano de café.

Desde el inicio de la floración hasta la maduración, el desarrollo del fruto tarda en promedio en Colombia entre 32 y 34 semanas, dependiendo de la variedad y de la oferta ambiental donde se encuentre el cultivo.

1.1.3. El café como bebida

En páginas dedicadas al café desde la Federación Nacional de Cafeteros de Colombia, se argumenta que esta bebida es una de las pocas que en el mundo han llegado a ser tan populares y altamente apreciadas como una taza de café de alta calidad bien preparada. Los conocedores coinciden en que esta bebida está en capacidad de ofrecer un sabor y experiencias complejas que van más allá de ser una simple bebida estimulante o que satisface la sed. Su exquisito aroma y sabor ofrecen una variada gama de sensaciones que reconfortan el estado físico y espiritual de quienes lo consumen [18]. Asimismo, se reconoce que detrás de una taza de café, sea cual sea su presentación, hay una historia familiar y un enorme trabajo. El café es un producto singular, con su propia historia, que además,

Page 16: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 16

requiere de condiciones de cultivo especiales y un manejo y procesamiento del grano que requieren gran dedicación. Parece perfectamente claro que, no sólo la historia y sus condiciones de producción hacen del café un producto representativo; es mucho más que una simple bebida. De él dependen millones de productores en el mundo en vías de desarrollo, y sobre él convergen millones de personas, alrededor del mundo, que han contribuido a crear diferentes preparaciones que explotan los diversos atributos de esta bebida. Muy al contrario de lo que pasaba desde hace unos años, el café también ha demostrado tener propiedades positivas para la salud y se ha convertido en una fuente nueva de posibilidades y razones para consumirlo.

1.1.4. El café colombiano

Según la Federación Nacional de Cafeteros, el “café de Colombia¨, es la denominación que se le otorga al café 100% arábico producido en las regiones cafeteras de Colombia, delimitadas entre la latitud Norte 1° a 11°15, Longitud Oeste 72° a 78° y rangos específicos de altitud que pueden estar entre los 800 y los 2.000 metros sobre el nivel del mar (m.s.n.m.). Este emerge de la particular combinación de diversos factores de la tierra colombiana como: la latitud, altitud y suelos; además, del origen botánico de la especie, variedades de café producidas, el clima caracterizado por el doble paso de la Zona de Convergencia Intertropical, la cambiante topografía, la luminosidad, las temperaturas, la adecuada cantidad y distribución de las lluvias y unas prácticas culturales que incorporan procesos de recolección selectiva y de transformación del fruto mediante su beneficio, lavado y secado. Estos factores, de manera conjunta, encauzan la producción de un café sobresaliente, suave, de taza limpia con acidez relativamente alta, cuerpo balanceado, aroma pronunciado y un perfil sensorial de excelente calidad. [19]. Paralelamente a esto, la costumbre tradicional de la recolección selectiva del Café de Colombia, el beneficio o post cosecha por la vía húmeda; como también, el proceso de secado y su posterior clasificación mediante la trilla, garantizan la óptima calidad del producto. El Café de Colombia es reconocido como un café sobresaliente, no sólo por su combinación y balance de atributos de calidad, sino por la organización de los productores colombianos de café, dentro de la Federación Nacional de Cafeteros, como la entidad que los agremia para unir esfuerzos y desarrollar los instrumentos de respaldo al producto desde el árbol a la taza. Detrás del producto “Café de Colombia”, se han unido también los dueños de marcas que son conscientes de la importancia del origen del café no sólo desde el punto de vista de su calidad sino desde el punto de vista social y ambiental. Para Colombia el café es uno de los principales renglones de la economía, hecho que se evidencia en las más de 560 mil familias que a lo largo de la zona cafetera (cultivada) abarca aproximadamente 960 hectáreas, ubicadas en los valles interandinos, desde el extremo sur hasta el extremo norte de Colombia que se dedican a su cultivo y procesamiento. En su gran mayoría los cafeteros colombianos viven en pequeñas fincas cuyos cultivos de café, en promedio, no superan las 2 hectáreas. Solamente algo más del 5% de los productores colombianos de café tienen plantaciones de un tamaño superior a

Page 17: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 17

las 5 hectáreas. La reducida dimensión de sus cultivos ha permitido mantener una vocación esencialmente familiar en la industria cafetera colombiana. Como se observa en el siguiente mapa, las zonas cafeteras en Colombia, cuentan con plantaciones significativas en 16 departamentos de nuestro país, donde operan Comités Departamentales de Cafeteros. Figura: 1.3. [20]. .

Figura 1.3: Zonas cafeteras en Colombia.

En definitiva, en cuanto a los valores de la gente del café en Colombia, además de su trabajo arduo y honesto, se reconoce el esfuerzo y dedicación permanentes para una cultura de la calidad, estrechando vínculos entre tradición familiar y la modernidad; estos valores los vemos reflejados tanto en el personaje Juan Valdez como en todas las personas que viven y trabajan en la región cafetera que han jugado un papel importante en el dinamismo y desarrollo de la caficultura colombiana. Las familias cafeteras en Colombia, unidas por sus principios de participación democrática, solidaridad, compromiso, búsqueda del bien común y desarrollo sostenible, que han pasado de generación en generación, conforman un capital social y estratégico y un modelo de paz para Colombia muy representativo en esta época. [20].

1.1.5 Proceso de producción y beneficio del café

El origen volcánico de nuestros suelos y las alturas en las que se produce el café en Colombia, le otorgan atributos adicionales al café. El café colombiano es suave, de taza limpia, con acidez y cuerpo medio/alto, y aroma pronunciado y completo.

Page 18: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 18

Figura: 1.4 paisaje cafetero.

También cabe decir que, el café colombiano es cuidadosamente seleccionado por los productores, desde el momento en que se escoge una variedad de café arábico y se siembra en su finca. Para poder hacer la selección adecuada, se cuentan con la investigación científica de Cenicafé y el apoyo del Servicio de Extensión de sus Comités Departamentales de Cafeteros. Gracias a este apoyo se llevan a los pequeños productores las mejores técnicas para tener cultivos sanos y productivos. [21]. En tiempos de cosecha los caficultores colombianos, recolectan solamente los granos maduros, como lo observamos en la figura: 1.5 [22], porque ellos saben que mezclar granos maduros con aquellos en diferentes estados de desarrollo genera problemas significativos a la calidad del café; también realizan procesos de pos cosecha (conocidos localmente como beneficio) en sus fincas, donde se lleva a cabo la selección adicional, eliminando los granos defectuosos. En estos procesos se despulpa, se lava y se seca el café de acuerdo con los estándares asociados con el Café de Colombia. Luego el café es trillado y seleccionado nuevamente para obtener el café verde, materia prima para la tostión de café; para su exportación el café se analiza y se cata nuevamente, antes de permitir su comercialización en los mercados internacionales.

Figura: 1.5 Selección manual del café.

Page 19: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 19

1.1.6 Calidad del café

Un factor clave en la calidad del Café de Colombia es el balance entre sus diferentes atributos y características como: taza limpia5, con acidez y cuerpo medio/alto, aroma pronunciado y completo. Estas cualidades se pueden obtener al sembrar las especies y variedades adecuadas para un entorno caracterizado por zonas tropicales de alta montaña con tipos de suelos y clima particulares, y realizando procedimientos adecuados en el cultivo, la recolección del grano y en los procesos de post cosecha. Las características especiales de calidad empiezan con la selección del material vegetal y genético adecuado. Por esta razón, en Colombia únicamente se cultiva café 100% de la especie Arábica y variedades o mezclas de la misma especie que se adaptan a los entornos específicos de la geografía colombiana. Las principales variedades de café arábigo que se siembran en Colombia son: Típica, Borbón, Caturra y las Variedades Colombia, Castillo y Tabi estas tres últimas resistentes a la enfermedad de la roya. La selección del material vegetal es responsabilidad de Cenicafé, uno de los centros de investigación en café más desarrollados del mundo. En resumen, factores asociados como la temperatura, la cercanía a la línea ecuatorial y el micro clima son condiciones que favorecen al cultivo del café de alta calidad. Así mismo, otro elemento clave en la calidad del café es el factor humano. Gracias a la entrega de los caficultores y la presencia de la Federación Nacional de Cafeteros en Colombia se ha desarrollado un sistema de respaldo al producto con los diversos controles de calidad que se apoyan en el desarrollo de una cultura cafetera de calidad [23].

1.2. Clasificación de granos de café según sus defectos

El café al ser cultivado, así como también, en los procesos de beneficio, de almacenamiento y transporte se pueden generar varios defectos en el grano, que se detectan por su apariencia física y también en la calidad de la bebida. Pero Colombia ha sobresalido en el mundo en la conservación y fidelidad de sus clientes por entregar al mercado un producto que es sinónimo de buena calidad. Su frescura, mantenimiento y preservación en el tiempo, es un factor diferenciador y de alta competitividad frente a otros países productores de café. Los atributos sensoriales que el consumidor final percibe en una taza de café colombiano son determinados por las características intrínsecas del grano inherentes a la especie, variedad y al esfuerzo diario de las familias cafeteras que se esmeran día a día en la ejecución efectiva de los procesos de recolección, beneficio y selección del grano. [21]. Los diferentes tipos de defectos de café verde se pueden identificar en las imágenes de las figuras: 1.6 a 1.19 [21].

5 Hace referencia a la pureza del café.

Page 20: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 20

Negro total o parcial

Figura 1.6: Fotografía de grano de café Negro total o parcial.

Se reconoce por: un grano con coloración del pardo al negro, encogido, arrugado, cara plana hundida y hendidura muy abierta. Este defecto es debido a falta de agua durante el desarrollo del fruto, fermentaciones prolongadas, cerezas sobremaduras recogidas del suelo y malos secados o re humedecimientos. Figura: 1.6 [21]. Cardenillo

Figura 1.7: Fotografía de grano de café Cardenillo.

Se caracteriza por: grano atacado por hongos, recubierto de polvillo amarillo o amarillo rojizo. Causado por fermentaciones prolongadas, Interrupciones largas del proceso de secado y almacenamiento húmedo del producto. Figura: 1.7 [21].

Page 21: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 21

Vinagre o parcialmente vinagre

Figura 1.8: Fotografía de grano de café Vinagre o parcialmente vinagre.

Se evidencia por: un grano con coloración del crema al carmelita oscuro, hendidura sin tegumentos, película plateada puede tender a coloraciones pardo rojizas. Ocasionado por retrasos entre la recolección y el despulpado; fermentaciones demasiado prolongadas, uso de aguas sucias y almacenamiento húmedo del café. Figura: 1.8 [21]. Cristalizado

Figura 1.9: Fotografía de grano de café Cristalizado.

Page 22: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 22

Se reconoce por: granos de color gris azuloso; frágil y quebradizo a causa de altas temperaturas en el secado (más de 50°C). Figura: 1.9 [21]. Decolorado veteado

Figura 1.10: Fotografía de grano de café Decolorado veteado.

Se determina por: un grano con vetas blancas; a causa de rehumedecimiento después del proceso de secado. Figura: 1.10 [21]. Decolorado reposado

Figura 1.11: Fotografía de grano de café Decolorado reposado.

Page 23: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 23

Se caracteriza por: un grano con alteraciones en su color normal, presenta colores que van desde el blanqueado, crema, amarillo hasta el carmelita. Debido a almacenamiento prolongado y malas condiciones de almacenamiento. Figura: 1.11 [21]. Decolorado ámbar o mantequillo

Figura 1.12: Fotografía de grano de café Decolorado ámbar o mantequillo.

Es un grano de color amarillo traslúcido a causa de deficiencia de hierro en el suelo. Figura: 1.12 [21]. Decolorado sobresecado

Figura 1.13: Fotografía de grano de café Decolorado sobresecado.

Page 24: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 24

Grano de color ámbar o ligeramente amarillento, debido a demasiado tiempo o temperatura en el secado. Figura: 1.13 [21]. Mordido o cortado

Figura 1.14: Fotografía de grano de café Mordido o cortado.

Se caracteriza por: un grano con una herida o cortada y oxidada, por un despulpado con máquina mal ajustada o camisa defectuosa y recolección de cerezas verdes. Figura: 1.14 [21]. Picados con insectos

Figura 1.15: Fotografía de grano de café Picados con insectos.

Page 25: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 25

Grano con pequeños orificios a causa del ataque de insectos como el gorgojo y la broca. Figura: 1.15 [21].

Averanado o arrugado

Figura 1.16: Fotografía de grano de café Averanado o arrugado.

Se reconoce en un grano con estrías, por el desarrollo pobre del cafeto por sequía y debilidad del cafeto por falta de fertilizantes. Figura: 1.16 [21]. Inmaduro y/o paloteado

Figura 1.17: Fotografía de grano de café Inmaduro y/o paloteado.

Page 26: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 26

Caracterizado por: un grano de color verdoso o gris claro, la cutícula no desprende, superficie marchita, tamaño menor que el normal. En este grupo se incluye el grano del paloteo. Se debe a recolección de granos verdes o pintones.-inmaduro, cultivo en zonas marginales, falta de Abono y roya –sequía. Figura: 1.17 [21]. Aplastado

Figura 1.18: Fotografía de grano de café Aplastado.

Un grano aplanado con fracturas parciales, por ser pisado durante el proceso de secado y trilla de café humedecido. Figura: 1.18 [21]. Flojo

Figura 1.19: Fotografía de grano de café Flojo.

Es un grano de color gris oscuro y blando, debido a falta de secamiento. Figura: 1.19 [21].

Page 27: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 27

1.3. Etapas de un sistema de procesamiento digital de imágenes

La adquisición de las imágenes es el primer paso cuando se quiere implementar un sistema PDI. Esto se hace por medio de una cámara, preferiblemente digital, que pueda tomar fotos sin ningún tipo de filtro, suele usarse el formato RAW6 para este tipo de fotografías. El sistema de adquisición comprende además de la cámara, un equipo de iluminación y un fondo. Para obtener una buena imagen, es necesario poseer una iluminación que se acomode a las necesidades del sistema. Una iluminación inapropiada puede alterar las características obtenidas de la imagen. Al controlar el fondo se procurando resaltar el objeto de interés.

Preprocesado de las imágenes

Después de obtener la imagen digital, se inicia el preprocesamiento de la imagen. El objetivo del preprocesamiento es mejorar la imagen, principalmente filtrando el ruido. Dentro del procesado de las imágenes se encuentran procesos importantes que se mencionan a continuación.

Segmentación

Es una etapa muy importante en un sistema PDI, consiste en la separación de los objetos presentes en la imagen. La salida del proceso de segmentación son los datos de ubicación de los píxeles tanto del contorno del objeto en estudio como de toda la zona donde está ubicado.

Detección de bordes

En una imagen los bordes de un objeto se pueden identificar como cambios bruscos en las tonalidades y/o iluminación, estos cambios por lo general son distintos a lo largo del contorno de los objetos dado que pueden haber regiones en la imagen que posean más iluminación, y también puede que el mismo objeto tenga cambios de tonalidades a lo largo de él. Para la identificación de bordes en la imagen de un objeto se utiliza comúnmente una imagen a escala de grises, de la imagen original y teniendo en cuenta lo dicho anteriormente, “la mayoría de las técnicas para detectar bordes emplean operadores locales, basados en distintas aproximaciones discretas de la primera y segunda derivada” [24]. Dado que una imagen es un objeto bidimensional, la operación utilizada para hallar las variaciones en la magnitud de los píxeles de la imagen es el gradiente, este es un vector compuesto por las derivadas parciales a lo largo de cada dimensión, dicho esto y teniendo en cuenta que las imágenes son

6 RAW hace referencia al formato de fotografías en bruto, es decir que contiene la totalidad de los datos de la

imagen tal y como ha sido captada la cámara.

Page 28: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 28

elementos discretos, el vector gradiente para la imagen f(x,y) se define en la ecuación 1.1. Teniendo en cuenta los datos aportados por las ecuaciones 1.2 y 1.3. [24].

∇𝑓(𝑥, 𝑦) =

[ 𝐷𝑓(𝑥, 𝑦)

𝜕𝑥𝐷𝑓(𝑥, 𝑦)

𝜕𝑦 ]

(1.1)

𝐷𝑓(𝑥, 𝑦)

𝜕𝑥= 𝑓(𝑥, 𝑦) − 𝑓(𝑥 − 1, 𝑦) (1.2)

𝐷𝑓(𝑥, 𝑦)

𝜕𝑦= 𝑓(𝑥, 𝑦) − 𝑓(𝑥, 𝑦 − 1) (1.3)

Dado que por lo general se desea trabajar la información de las variaciones de la intensidad en las 2 dimensiones se acostumbra trabajar con la magnitud del gradiente dada por la ecuación 1.4. [24].

MAG[∇𝑓(𝑥, 𝑦)] = √(𝐷𝑓(𝑥, 𝑦)

𝜕𝑥)

2

+ (𝐷𝑓(𝑥, 𝑦)

𝜕𝑦)

2

(1.4)

En algunas ocasiones también se hace uso del ángulo de las variaciones expresados en la ecuación 1.5. [24].

𝛽 = 𝑎𝑟𝑐𝑡𝑎𝑔

𝐷𝑓(𝑥, 𝑦)

𝜕𝑥𝐷𝑓(𝑥, 𝑦)

𝜕𝑦

(1.5)

En la literatura se pueden encontrar distintas aproximaciones al vector gradiente, que es construido por medio de la convolución de la imagen con una matriz 3x3, esta matriz es distinta para las 2 componentes del vector gradiente (MF para el gradiente de las filas y MC para el gradiente de las columnas), así que para los métodos de aproximación de gradiente Roberts, Prewitt y Sobel el gradiente se muestra en la ecuación 1.6. En el método Roberts las matrices usadas en la convolución se observan en la figura 1.20. Para el método Sobel las matrices son las de la figura 1.21 y para el método Prewitt son las de la figura 1.22. [24].

∇𝑓(𝑥, 𝑦) = [𝑓(𝑥, 𝑦) ∗ 𝑀𝐹

𝑓(𝑥, 𝑦) ∗ 𝑀𝐶] (1.6)

MF MC

Figura 1.20: Matriz MF y MC del método Roberts.

-1 0 0

0 1 0

0 0 0

0 0 0

0 0 1

0 -1 0

Page 29: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 29

MF MC

1/4 0 -1/4

2 0 -2

1/4 0 -1/4

Figura 1.21: Matriz MF y MC del método Sobel.

MF MC

1/3 0 -1/3

1 0 -1

1/3 0 -1/3

Figura 1.22: Matriz MF y MC del método Prewitt.

En la práctica, el método Roberts tiene más sensibilidad para las variaciones diagonales pero es más sensible al ruido. El método Prewitt tiene mayor inmunidad al ruido al igual que el Sobel y la diferencia entre estos dos últimos es baja [24]. Operador Canny El operador Canny es un algoritmo para la detección de bordes que consiste en 4 etapas: [25]. 1. Filtrado: Se aplica un filtro gaussiano con media 0 y con desviación estándar ρ a la imagen de

entrada para eliminar el ruido que pueda presentar la imagen, se debe tener cuidado al elegir el valor de ρ ya que afectaría la calidad de la imagen en cuanto a que los bordes del objeto se perderían.

2. Gradiente: El gradiente se obtiene como esta descrito en la ecuación 1.1, a partir de este se obtiene la imagen de la magnitud del gradiente por medio de la ecuación 1.4 y la imagen de la dirección con la ecuación 1.5

3. Adelgazamiento: Se definen 4 direcciones respecto a la horizontal: 0º, 45º, 90º y 135º, y se

aproximan los valores de la imagen de la dirección a estos, acto seguido se realiza un barrido en la imagen de la magnitud del gradiente en la que se busca si hay algún píxel que posea una magnitud inferior a la del vecino que tenga la misma dirección del gradiente de dicho píxel, si es este el caso se modifica el valor en la imagen de magnitud de este píxel a 0.

4. Detección del borde: Se umbraliza con un nivel superior así se hallan los bordes fuertes, y a partir

de estos se buscan los píxeles vecinos que tengan la dirección del gradiente igual a los píxeles del borde fuerte, se van conectando a este sucesivamente siempre y cuando su magnitud sea superior al límite menor de umbralización.

-1/4 2 -1/4

0 1 0

1/4 2 1/4

-1/3 1 -1/3

0 1 0

1/3 1 1/3

Page 30: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 30

Método de umbralización Otsu Este método de umbralización suele utilizarse cuando los píxeles del objeto tienen un gran parecido y además el fondo de la imagen es uniforme. Fue creado por Nobuyuki Otsu en 1979 haciendo un análisis estadístico sobre los niveles de gris de la imagen [26]. Según este método, el umbral óptimo de una imagen se obtiene cuando se alcanza el máximo de la expresión de la ecuación 1.7, se definió como la varianza entre clases7 [26].

𝑉 = 𝑆𝑃1(µ1 − µ)2 + 𝑆𝑃2(µ2 − µ)2 (1.7) En esta expresión SP1 es la suma de las probabilidades de los niveles de grises que pertenecen al objeto 1. µ1 es el promedio de nivel de gris del objeto 1 y µ es el promedio de nivel de gris de toda la imagen. SP2 y µ2 son sus equivalentes para el objeto 2. Con esta expresión se busca el nivel de gris con el cual V sea máximo y se dice que este es el umbral óptimo. Con este umbral se garantiza que la diferencia de los niveles de gris dentro de las clases sea la menor posible y también que la diferencia entre los niveles de grises de las clases sea la más alta [26].

Caracterización

A partir de las imágenes segmentadas se pueden extraer ciertas características propias del objeto en estudio [27]. En base a estas características se crea un vector modelo el cual es usado como entrada en los distintos modelos de clasificación. Las características de un objeto en una imagen pueden ser externas o internas [28]. Las características externas aportan información del contorno de la imagen, lo que se traduce en información de la forma; por ejemplo el área del objeto, su perímetro o su redondez. Las características internas son las que se extraen de la zona interna al contorno del objeto de estudio, a partir de allí se pueden extraer características tanto de color como de textura. Las principales características de color son estadísticas, como la media, la varianza o la desviación estándar y se extraen de los histogramas creados en base a diferentes modelos de color. En cuanto a textura, existen varias características a extraer pero las más utilizadas se basada en la matriz de coocurrencia de niveles de gris, donde se puede extraer características estadísticas que aportan información de la rugosidad o suavidad de las imágenes, entre otras. [29].

1.5. Modelos de color

7 Las clases, en la segmentación, hacen referencia a los objetos presentes en la imagen que se quiere

diferenciar. Para este caso el fondo es una clase y el objeto es otra.

Page 31: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 31

El color es una medida del espectro electromagnético, basado en la visión humana. El espacio de color más representativo es el modelo RGB o rojo, verde y azul, por sus siglas en inglés. Este espacio es la base para la creación de otras formas de representación del color a otros espacios de tres dimensiones. Cada color es un punto en un espacio de color determinado, y la diferencia entre dos colores se considera como la distancia entre ellos [30]. El color es la principal característica para identificar los defectos de los granos de café [13], por eso, esta característica es la que cuenta con más datos. Para la caracterización del color se usaron cuatro espacios de representación del color: RGB, HSV, CIElab y CIEh. Cada uno de estos modelos, describe el color usando tres componentes.

Modelo de color RGB

En este espacio el color se especifica por medio de sus componentes roja, verde y azul [31]. Cada componente espectral se ubica en una dimensión de un sistema cartesiano tridimensional. Formalmente el dominio de cada componente es [0,1], sin embargo es común encontrar sistemas en los que este dominio es [0, 255] en pasos de una unidad para representar cada componente de color en un byte. Cualquier color es producto de la combinación de los valores de estas componentes. En este modelo los colores primarios nacen de los vértices del cubo que conforma dicho espacio, a excepción del negro ubicado en (0, 0, 0) y del blanco ubicado en (1, 1, 1). Ver figura 1.5. La escala de grises en este espacio está ubicada en una línea recta con intersecciones en los vértices blanco y negro. Por lo general las cámaras fotográficas utilizan el formato RGB, sin embargo este espacio de color presenta un inconveniente respecto a la información de la luminosidad de los colores, ya que esta depende del valor que obtengan las 3 componentes, esta información suele ser de gran importancia en el procesamiento de imágenes.

Figura 1.23: Modelo RGB.

Page 32: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 32

Modelo de color HSV

A diferencia del espacio de color RGB en el que sus componentes corresponden a las componentes rectangulares del espacio cartesiano tridimensional, el modelo de color HSV maneja sus componentes en coordenadas cilíndricas. El tono (H) recae sobre el ángulo de estas coordenadas, y su dominio son los 360°, este hace referencia a la longitud de onda dominante del color [31]. La saturación hace referencia al nivel de pureza que posee el color y corresponde al eje horizontal de las coordenadas cilíndricas. La pureza indica cuanta luz blanca esta mesclada con el tono, de esta forma cuando un color tiene saturación de 100% quiere decir que dicho color no posee luz blanca mesclada con él. Por otra parte cuando la saturación es del 0% se obtiene la escala de grises sin importar el valor de H. La componente vertical (V) es conocida como valor, que representa la intensidad de luz que se percibe del color. Cuando la saturación es del 0% la magnitud que posea “valor” indica si el color es negro (V=0%), blanco (v=100%) o cualquier nivel de gris intermedio. Una de las ventajas que presenta este espacio de color respecto al RGB es precisamente que posee una componente asociada a la luminosidad del color.

Figura 1.24: Modelo HSV.

Modelo de color CIElab

Este modelo, a diferencia de los anteriores, parte de la teoría de los colores oponentes [32] para definir las componentes del espacio de color. Esta teoría afirma que un color en particular no puede ser descrito como rojo y también como verde; de la misma manera ocurre para los colores azul y amarillo [33].

Page 33: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 33

Por lo anterior, en el espacio de color CIElab la componente a* describe la cantidad de rojo (valores positivos) o de verde (valores negativos) que posee un color en particular, y de forma similar la componente b* indica la cantidad de amarillo o azul. El dominio de estas componentes acostumbra ser (127, -128) para facilitar su manejo computacional. Cada una de estas componentes tiene asociado un eje en el plano cartesiano tridimensional, y perpendicular a estas 2 se ubica la componente l*, que al igual que en el espacio de color HSV, este hace referencia a la intensidad luminosa del color, su dominio es (0, 100).

Figura 1.25: Modelo CIElab.

1.6. Características Para caracterizar los granos de café, se hicieron medidas de color, forma, y textura. Las características se obtuvieron al aplicar cada uno de los métodos de extracción de características, en todas las imágenes de los granos de café.

1.6.1 Características de color

El color es la principal característica para identificar los defectos de los granos de café [13]; por eso, esta característica es la que cuenta con más datos. Para la caracterización del color, se usaron cuatro espacios de representación del color: RGB, HSV, CIElab y CIEh. Cada uno de estos modelos describe el color usando tres componentes. De cada una de estas componentes fue necesario hallar un histograma, el cual muestra la distribución de la probabilidad de los niveles de intensidad, siendo esta la base para la extracción de las características. Para cada imagen de grano de café, se obtuvieron 4 características en cada una de las componentes de los 4 espacios de color: la media, la desviación estándar, la asimetría y la energía; ya

Page 34: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 34

que estas provén la información de la similitud de colores entre las imágenes, lo cual resulta siendo muy útil a la hora de identificar cada imagen [39] [40].

Se define la probabilidad del histograma 𝑃(𝑔) en la ecuación 1.8. [40].

𝑃(𝑔) =𝑁(𝑔)

𝑀 (1.8)

Donde M, es el número de píxeles en la imagen y N (g), es el número de píxeles con el nivel de intensidad de gris g.

Media

Esta característica representa el promedio de los valores de color en cada imagen, dándonos información general del brillo de cada imagen; una con alto brillo tendrá una alta media y una con bajo brillo tendrá una media baja. [40]. Se obtiene con la ecuación 1.9 donde l es el número máximo de niveles de intensidad, en este caso 255 debido a que las imágenes se trabajaron en 8 bits.

𝑀𝑒𝑑𝑖𝑎 = 𝑔 ̅ = ∑ 𝑔𝑃(𝑔)

𝑙=255

𝑔=0

(1.9)

Desviación estándar

Es un promedio de las desviaciones individuales de cada observación, con respecto a la media de una distribución. Así, la desviación estándar mide el grado de dispersión o variabilidad del color en cada imagen; brindándonos también, información acerca del contraste de la imagen [41]. Se obtiene con la ecuación 1.10.

𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝜎 = √1

𝑀∑ (𝑔 − �̅�)2𝑃(𝑔)

𝑙=255

𝑔=0

2

(1.10)

Asimetría

Esta característica se entiende como el grado de asimetría en la distribución del color de cada imagen, siendo positivo si los datos están acotados al lado derecho del histograma y negativo si se encuentran acotados al lado izquierdo [40]. Se obtiene con la ecuación 1.11.

Page 35: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 35

𝐴𝑠𝑖𝑚𝑒𝑡𝑟í𝑎 =1

𝜎𝑔3 ∑ (𝑔 − �̅�)3𝑃(𝑔)

𝑙=255

𝑔=0

(1.11)

Energía

La medida de la energía representando la distribución del color a lo largo de toda la imagen, tiene un valor máximo de 1 para una imagen con niveles de intensidad constantes, y se vuelve cada vez menor a medida que los valores de píxel se distribuyen en más niveles de intensidad; esta característica por definición es normalizada, es decir, va de 0 a 1 y se calcula con la ecuación 1.12. [40].

𝐸𝑛𝑒𝑟𝑔í𝑎 = ∑ (𝑃(𝑔))2

𝑙=255

𝑔=0

(1.12)

1.6.2 Características de forma

La forma de los granos de café, luego de ser descerezados o descascarados es ovalada. En una imagen de un grano de café, solo se tiene información de una de las caras del grano, con base en esta vista se obtiene su figura sobre un plano cartesiano. A partir de allí, se extraen los parámetros que nos permitan conocer las características de la forma de cada grano de café.

Perímetro

El perímetro se calcula fácilmente, sumando los píxeles del contorno. Si se tienen las coordenadas de todos los puntos, se puede calcular el perímetro usando la ecuación 1.13; obteniendo un valor más aproximado.

𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑟𝑜 = ∑ √(𝑥𝑘+1 − 𝑥𝑘)2 − (𝑦𝑘+1 − 𝑦𝑘)2

𝑁

𝑘=0

(1.13)

Perímetro convexo

El perímetro convexo se calcula utilizando igualmente la ecuación 1.13, pero esta vez se aplica a una imagen convexa del grano.

Área

Page 36: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 36

El área es la suma de los píxeles del objeto que aparecen en la imagen. Se obtiene con la ecuación 1.14 donde, Iij corresponde al valor de intensidad de una imagen binaria. En una imagen binaria Iij = 0 cuando el píxel no es parte del objeto y Iij = 1 cuando si lo es.

Á𝑟𝑒𝑎 = ∑ ∑ 𝐼𝑖𝑗 = 1𝑗𝑖

(1.14)

Área convexa

El área convexa se calcula con la ayuda de la ecuación 1.14, pero esta vez se aplica a una imagen convexa del grano.

Relación de redondez La sensibilidad al redondeo es un parámetro que mide el grado de parecido de un determinado objeto a un círculo. Generalmente se mide como la relación entre el cuadrado del perímetro y el área [41]. La forma más común de medirla es usando la ecuación 1.15.

𝑅 =𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑟𝑜2

4. 𝜋. Á𝑟𝑒𝑎 (1.15)

Anomalías del contorno

Esta característica nos permite medir las anomalías a lo largo del contorno de un determinado objeto, siendo útil para encontrar ciertos defectos presentes en el contorno del grano [41]. Se calcula utilizando la ecuación 1.16.

𝐻 =𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑟𝑜2

𝑃𝑒𝑟𝑖𝑚𝑒𝑡𝑟𝑜𝐶𝑜𝑛𝑣𝑒𝑥𝑜2 (1.16)

1.6.3 Características de textura

Usando características de textura se espera obtener características de las rugosidades o de las partes lisas de cada grano. Un método de extracción de características de textura, es el análisis estadístico, usando la matriz de coocurrencia. La matriz de coocurrencia aporta información de la distribución y las posiciones de los píxeles que tienen iguales, o muy parecidos valores de intensidad [29] [42]. Para este trabajo se utilizó una matriz de coocurrencia con orientación horizontal (0°) y con un píxel de distancia. Para la notación de las siguientes ecuaciones se debe tener en cuenta que las siguientes expresiones y las ecuaciones 1.17 a 1.23. [29]. 𝑁𝑔 Es el número de distintos niveles de gris en la imagen.

Page 37: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 37

𝑝(𝑖, 𝑗)Representa el dato en la posición i, j de la matriz de coocurrencia. 𝑝𝑥(𝑖) Representa el dato en las posiciones i de la matriz marginal de probabilidad, sumando las columnas de p (i, j). HX y HY son las entropías de 𝑝𝑥 𝑦 𝑝𝑦 respectivamente.

𝑝𝑥(𝑖) = ∑𝑃(𝑖, 𝑗) (1.17)

𝑁𝑔

𝑗=1

∑ 𝑦 ∑ 𝑗𝑖 Representan ∑ 𝑦 ∑ 𝑁𝑔𝑗=0

𝑁𝑔𝑖=0 respectivamente.

Además se deben tener en cuenta siguientes expresiones: [29]

𝑝𝑦(𝑗) = ∑𝑝(𝑖, 𝑗) (1.18)

𝑁𝑔

𝑖=1

𝑝𝑥+𝑦(𝑘) = ∑∑𝑝(𝑖, 𝑗), 𝑖 + 𝑗 = 𝑘 (1.19)

𝑁𝑔

𝑗=1

𝑁𝑔

𝑖=1

𝑝𝑥−𝑦(𝑘) = ∑∑𝑝(𝑖, 𝑗), |𝑖 − 𝑗| = 𝑘 (1.20)

𝑁𝑔

𝑗=1

𝑁𝑔

𝑖=1

𝐻𝑋𝑌 = −∑∑𝑝(𝑖, 𝑗)log (𝑝(𝑖, 𝑗) (1.21)

𝑗𝑖

𝐻𝑋𝑌1 = −∑∑𝑝(𝑖, 𝑗)log (𝑝𝑥(𝑖)𝑝𝑦(𝑗))

𝑗𝑖

(1.22)

𝐻𝑋𝑌2 = −∑∑𝑝𝑥(𝑖)𝑝𝑦(𝑗)log (𝑝𝑥(𝑖)𝑝𝑦(𝑗))

𝑗𝑖

(1.23)

Entropía Esta característica mide desorden o la aleatoriedad de una imagen. Esta dada por la ecuación 1.24. [29]. La entropía es grande cuando la imagen no es uniforme y muchos elementos de la matriz de coocurrencia tienen valores muy pequeños. Texturas complejas tienden a tener alta entropía y esta característica es inversamente proporcional a la uniformidad [43].

𝐸𝑛𝑡𝑟𝑜𝑝í𝑎 = −∑∑𝑝(𝑖, 𝑗)log (𝑝(𝑖, 𝑗))

𝑖𝑖

(1.24)

Uniformidad Esta característica mide la uniformidad de la textura, lo que da una idea de la suavidad en esta, teniendo en cuenta la repetición de pares de píxeles detectando así, desordenes en las texturas. Se calcula con la ecuación 1.25. [29]. La uniformidad alcanza un valor máximo igual a uno. Los altos valores de uniformidad ocurren cuando la distribución de niveles de gris tiene una forma constante o periódica. La uniformidad tiene un rango normalizado, es decir su valor máximo es 1 y mínimo 0 [43].

Page 38: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 38

𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑖𝑑𝑎𝑑 = ∑∑(𝑝(𝑖, 𝑗))2

𝑖𝑖

(1.25)

Contraste Esta característica mide la frecuencia espacial de una imagen. Se calcula con la ecuación 1.26. [29]. Es la diferencia entre los valores más altos y los más bajos de un conjunto contiguo de píxeles. Mide la cantidad de variaciones locales presentes en la imagen. Una imagen de bajo contraste presenta valores altos alrededor de la diagonal principal de la matriz de coocurrencia y frecuencias espaciales bajas. En una textura de características suaves y uniformes su contraste será bajo, mientras que si presenta un aspecto rugoso o irregular su contraste presentará un alto valor [43].

𝐶𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒 = ∑ 𝑛2

𝑁𝑔−1

𝑛=0

{ ∑ ∑𝑝(𝑖, 𝑗)

𝑁𝑔

𝑗=1

𝑁𝑔

𝑁𝑖=1

} (1.26)

|𝑖 − 𝑗| = 𝑛 Correlación La correlación de la textura, es una medida de dependencias lineales de los niveles de gris de la imagen. Matemáticamente la correlación para la matriz de coocurrencia, está definida con la ecuación 1.27. [29]. Los valores de correlación varían entre −1 y 1. LA correlación aumenta cuando la varianza es baja, es decir, que los elementos de la matriz no se encuentran muy alejados de la diagonal principal [43].

𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 =∑ ∑ (𝑖, 𝑗)𝑝(𝑖, 𝑗) − 𝜇𝑥𝜇𝑦𝑗𝑖

𝜎𝑥𝜎𝑦 (1.27)

Homogeneidad Local Esta característica mide la regularidad de la imagen. Se mide con la ecuación 1.28. [29]. Es sensible a la presencia de elementos cerca de la diagonal principal de la matriz de coocurrencia. Tiene un valor máximo cuando todos los elementos en la imagen son iguales. El contraste y la homogeneidad son inversamente proporcionales. La homogeneidad disminuye si contraste aumenta mientras que la energía se mantiene constante [43].

𝐻𝑜𝑚𝑜𝑔𝑒𝑛𝑒𝑖𝑑𝑎𝑑 𝑙𝑜𝑐𝑎𝑙 = ∑∑𝐼

1 + (𝑖 − 𝑗)2𝑝(𝑖, 𝑗) (1.28)

𝑗𝑖

Varianza Esta característica es una medida de la dispersión de los niveles de gris respecto a su media, tiene una fuerte relación con la desviación estándar. Se calcula con la ecuación 1.29. [29]. La varianza aumenta cuando los valores de nivel de gris se alejan respecto a su media. [43].

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = ∑∑(𝑖 − 𝜇)2𝑝(𝑖, 𝑗)

𝑗𝑖

(1.29)

Page 39: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 39

El resto de características de textura son secundarias y derivadas de las anteriores. Se listan a continuación, ecuaciones 1.30 a 1.35. [43]: Suma de promedios

∑ 𝑖𝑝𝑥+𝑦(𝑖)

2𝑁𝑔

𝑖=2

(1.30)

Suma de varianzas

∑(𝑖 − 𝑠𝑢𝑚𝑎_𝑒𝑛𝑡𝑟𝑜𝑝í𝑎𝑠)2𝑝𝑥+𝑦(𝑖)

2𝑁𝑔

𝑖=2

(1.31)

Suma de entropías

𝑠𝑢𝑚𝑎_𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎𝑠 = − ∑ 𝑝𝑥+𝑦(𝑖)log (𝑝𝑥+𝑦(𝑖))

2𝑁𝑔

𝑖=2

(1.32)

Diferencia de varianzas

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑝𝑥−𝑦 (1.33)

Diferencia de entropías

− ∑ 𝑝𝑥−𝑦(𝑖)log (𝑝𝑥−𝑦(𝑖))

𝑁𝑔−1

𝑖=0

(1.34)

Información de medidas de correlación

𝐻𝑋𝑌 − 𝐻𝑋𝑌1

max (𝐻𝑋,𝐻𝑌) (4.28) √1 − 𝑒(−2(𝐻𝑋𝑌2−𝐻𝑋𝑌)) 2

(1.35)

1.7. Clasificadores

Los clasificadores son una serie de algoritmos aplicados sobre un conjunto de datos que describen diferentes clases con el fin de separarlas. Existen dos tipos de clasificadores, no supervisados y supervisados, se diferencian en que el primero trata de descubrir las clases a las que pertenecen los datos basándose en las características que estos describen, mientras que el segundo enfoca la clasificación sabiendo las clases a las que pertenecen los datos, esto último se conoce como entrenamiento o aprendizaje. Son una parte importante en este estudio ya que con ayuda de ellos se evalúa que tan buenas son las características que se están extrayendo de las fotografías para la clasificación de los defectos. Se utilizan 4 modelos diferentes, cada uno con especialidades propias, que permitirán evaluar las características extraídas bajo diferentes perspectivas.

Page 40: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 40

Clasificador Bayesiano

Este clasificador se basa en la fórmula de Naïvi Bayes, ver ecuación 1.36, en la que 𝑃(𝑀𝑖) es la

probabilidad inicial de que una muestra pertenezca a cierta clase y 𝑃(𝑉𝑗|𝑀𝑖) es la probabilidad por

atributo8 de muestra de que dicha muestra pertenezca a cierta clase. En la formula el operador

𝑀𝐴𝑋𝑖=1𝐿 significa que una muestra pertenece a una clase k si la probabilidad de que pertenezca a esta

clase es mayor que la probabilidad que pertenezca a las demás, por lo que cada clase posee unos valores representativos que se calculan en base a los valores que tomen los atributos de las muestras. Cuando se desea conocer a que clase pertenece una muestra de prueba, se multiplican algunos de los valores representativos de cada clase según el valor de los atributos de la muestra de prueba. De esta forma la muestra de prueba pertenecerá a la clase a la que el valor de esta multiplicación sea mayor. [34]

𝐶𝑙𝑎𝑠𝑒 = 𝑀𝐴𝑋𝑖=1𝐿 [𝑃(𝑀𝑖) ∗ ∏𝑃(𝑉𝑗|𝑀𝑖)

𝑛

𝑗=1

] (1.36)

Los valores representativos para cada clase se construyen en base a las muestras que se usen para entrenar el clasificador como se describe a continuación: 1. Se calcula la probabilidad inicial de una muestra y su pertenencia una clase. La probabilidad inicial

está basada en la relación que hay entre el número de muestras por cada clase y el total de las muestras usadas durante el entrenamiento. Así que, por ejemplo, en una base de datos regular hay 10 clases con igual número de muestras, la probabilidad inicial de que una muestra de prueba pertenezca a cada una de las clases es de 0.1.

2. Para cada clase se halla una tabla de probabilidad en base a los valores que toman los atributos de las muestras pertenecientes a esa clase. En esta tabla, en las filas se ubican los atributos de las muestras y en las columnas los posibles valores que puedan tomar estos atributos. Cada celda de esta tabla contiene el número de veces que el valor de un atributo está comprendido en un rango en específico. Seguido se le suma una unidad a todas las celdas para evitar que alguna posean valor 0 (esto es importante para el proceso final) y por último, se normalizan en base al número de muestras que posee cada clase para el entrenamiento incrementado en 1 (ya que se sumó una unidad a todas las celdas).

Con esta matriz se puede aplicar la fórmula de Bayes, ya que esta fórmula consiste en multiplicar las probabilidades que hay en esta matriz según los valores de los atributos de la muestra de prueba, se toman las probabilidades de cada atributo en base al valor de la muestra de prueba, estos se multiplican entre sí, como también con la probabilidad inicial, este valor es la probabilidad de que esa muestra pertenezca a cada clase [34]. Si por ejemplo se quisiera clasificar las imágenes de granos de café seco en 2 clases: buenos y malos; y para esto se hiciera uso de 2 atributos cuyos valores están comprendidos en 2 rangos (rango 1 para el intervalo [0, 0.5] y rango 2 para el intervalo (0.5, 1]). Para este caso el clasificador de Bayes se construiría de la siguiente forma:

8 En el contexto de los clasificadores, los atributos son las características propias de cada muestra. En este caso

un atributo es, por ejemplo, el área del grano.

Page 41: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 41

1. Suponiendo que se posee una base de datos regular entonces la probabilidad inicial de cada clase

es de 0.5. 2. A partir de, por ejemplo, 10 muestras de entrenamiento se obtienen 2 matrices que pueden ser

como las de la tabla 1.1 y 1.2. Tabla 1.1: Ejemplo: Clase “Buenos”.

Rango 1 Rango 2

Atributo 1 2 3

Atributo 2 5 0 Tabla 1.2: Ejemplo: Clase “Malos”.

Rango 1 Rango 2

Atributo 1 1 4

Atributo 2 3 2

Al sumarle 1 a cada casilla y normalizar (dividir por 6) se obtienen las tablas 1.3 y 1.4.

Tabla 1.3: Ejemplo: Clase “Buenos” procesado.

Rango 1 Rango 2

Atributo 1 0.5 0.66

Atributo 2 1 0.16

Tabla 1.4: Ejemplo: Clase “Malos” procesado.

Rango 1 Rango 2

Atributo 1 0.33 0.83

Atributo 2 0.66 0.5

Con estas 2 tablas se puede aplicar la ecuación 1.8 para realizar la clasificación. Si por ejemplo se posee una muestra para validación con estas características: atributo 1= 0.7; atributo 2= 0.1 entonces aplicando la ecuación 1.8 se obtienen las siguientes probabilidades de que esta muestra pertenezca a las clases:

𝐶𝑙𝑎𝑠𝑒 𝐵𝑢𝑒𝑛𝑜𝑠 = 0.5 ∗ 0.66 ∗ 1 = 0.33 𝐶𝑙𝑎𝑠𝑒 𝑀𝑎𝑙𝑜𝑠 = 0.5 ∗ 0.83 ∗ 0.66 = 0.27

En estas ecuaciones el primer factor (0.5 en ambas) corresponde a la probabilidad inicial. El segundo factor es la probabilidad por el atributo 1 en base a su valor (como el valor del atributo 1 es 0.7, este está comprendido en el rango 2 pro lo que la probabilidad que aporta es 0.66 para la clase “Buenos” y 0.83 para la clase “Malos”). El tercer factor es la probabilidad por el atributo 2 en base a su valor. En este caso según el clasificador de Bayes la muestra pertenece a la clase “Buenos” ya que esta es la que tiene la probabilidad más alta.

Clasificador de perceptrón multicapa

Este tipo de red neuronal está conformado por múltiples capas de neuronas, en las que la salida de una neurona es la entrada de todas las neuronas de la siguiente capa, ver figura 1.37. Este tipo de red neuronal es ampliamente usada para el reconocimiento de patrones [35].

Page 42: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 42

Las redes neuronales necesitan ser entrenadas para que estas ajusten algunos de sus parámetros internos de tal forma que se obtenga una respuesta satisfactoria, estas características son los pesos sinápticos de cada entrada de todas las neuronas que componen la red neuronal. En este sistema solo se conocen los valores del vector de entrada y por supuesto los del vector de salida compuesto por los valores que obtienen las salidas de las neuronas de la última capa, por lo que el valor que tengan las salidas de cualquiera de las neuronas que conforman la red oculta es desconocido en todo momento. Ante esta situación se han desarrollado métodos de entrenamiento que permiten ajustar los pesos sinápticos de las neuronas ocultas con el fin de minimizar el error obtenido en la capa de salida. Uno de los métodos comúnmente utilizados es el de propagación hacia atrás [35]. Este método consiste en ajustar los pesos sinápticos de toda la red neuronal empezando con los de la última capa, y en base a este ajuste se hace los de la capa anterior sucesivamente hasta llegar a la capa de entrada. El error que presenta la capa de salida de la red neuronal está dado por la ecuación 1.37. En la que k es la muestra que se está evaluando, e es el error que presenta la neurona i y N son el número de neuronas de la etapa de salida [35].

𝐸(𝑘) =1

2∑𝑒𝑖

2

𝑁

𝑖=1

(1.37)

Dado que en la capa de salida se conoce los valores que obtienen las neuronas, los pesos sinápticos se modifican directamente a partir del error calculado anteriormente de acuerdo a la ecuación 1.38. En la que 𝛥𝑃𝑖𝑗(𝑘) es la variacion del peso de la neurona i de la capa j según lo obtenido por la muestra k,

n es el factor de entrenamiento, 𝑒𝑖(𝑘) es el error que la neurona i dada la muestra k, 𝐹´𝑖(𝑘) es la derivada de la funcion de activacion de la neurona evaluada para la muestra k, y 𝑋(𝑘) es el vector de entrada de la muestra k [35].

𝛥𝑃𝑖𝑗(𝑘) = −𝑛 ∗ 𝑒𝑖(𝑘) ∗ 𝐹´𝑖(𝑘) ∗ 𝑋(𝑘) (1.38)

Para las neuronas que componen las capas ocultas de la red esta expresión no es válida, puesto que no se conoce el error de sus salidas directas, por lo que para ajustar los pesos sinápticos de estas neuronas se usa la ecuación 1.39. En la que el subíndice s indica que se está haciendo uso de todas las neuronas siguientes a la capa j [35].

𝛥𝑃𝑖𝑗(𝑘) = −𝑛 ∗ 𝐹´𝑖(𝑘) ∗ ∑𝑒𝑠(𝑘) ∗ 𝐹´𝑠(𝑘)

𝑠

∗ 𝛥𝑃𝑖𝑠(𝑘) ∗ 𝑋(𝑘) (1.39)

Con estas 2 expresiones se modifican los pesos sinápticos de todas las neuronas de la red, este proceso se realiza iterativamente el número de veces que el desarrollador considere conveniente (la mayoría de los casos) o cuando se considere que el sistema ha convergido. Por otra parte también es necesario ajustar el valor del factor de entrenamiento n presente en las 2 ecuaciones anteriores, de este depende la velocidad (con velocidad se refiere al número de iteraciones utilizadas durante el entrenamiento) con la que puede converger el sistema, sin embargo si el factor n es muy grande el error obtenido en el sistema puede fácilmente caer en un mínimo local lo cual es obviamente no deseado [35].

Page 43: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 43

Figura 1.26: Modelo de red neuronal con perceptrón multicapa.

Clasificador de Maquina de soporte vectorial

Este clasificador (SMV) recontruye el conjunto de entrenamiento de n dimensiones en un espacio de n+1 dimensiones, y es en este espacio que se define un hiperplano que separe de manera óptima todas las clases de estos puntos para así poder definir los subespecies que son dominio de cada clase. De esta forma cuando se desea saber a qué clase pertenece una muestra, se le asigna la clase a la que pertenece el subespacio en el que se encuentra la muestra. Se considera como separación optima la máxima distancia entre el límite que indica el hiperplano y las muestras, para todas las clases más cercanas a este [36]. Figura 1.10. Existen diversos algoritmos para realizar el entrenamiento de un SMV, para realizar este entrenamiento se suele usar la programación numérica cuadrática (GP) ya que la separación optima debe ser entre todas las clases. Uno de estos algoritmos es el SMO (optimización del mínimo secuencial), este, al igual que otros métodos (Chunking, Osuna) usa los multiplicadores de LaGrange para dar solución a la GP, sin embargo el SMO resuelve la GP por pequeños pedazos, es decir, crea pequeñas GP a partir de la original y da solución a cada una de estas usando 2 multiplicadores de LaGrange [36]. Es gracias a este método de resolver la GP que el SMO es un algoritmo de entrenamiento rápido y con carga computacional menor que algunos otros, por lo que es ampliamente utilizado para el entrenamiento de las SMV [36].

Page 44: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 44

Figura 1.27: Ejemplo de vectores de soporte en una SMV.

Clasificador de árbol de decisión J48

Este clasificador es en realidad el mismo algoritmo de licencia abierta c4.5 [37] implementado en la herramienta Weka para minería de datos, el cual también es un software libre. El c4.5 es un algoritmo que desarrolla un árbol de decisión usando la entropía de la información aportada por las muestras usadas durante el entrenamiento. Para decidir la jerarquía de los atributos en el árbol de decisión, este algoritmo identifica el atributo que posea mayor ganancia y proporción de ganancia, estos dos valores están relacionados con la entropía que se obtendría en cada caso. El primer paso es calcular la entropía que poseen los atributos. En la ecuación 1.40 H es la entropía del atributo A, n es el número de clases, T es el total de las muestras usadas en el entrenamiento y Ni es el número de muestras (de entrenamiento) que tiene la clase i [37].

𝐻𝐴 = ∑−𝑁𝑖

𝑇𝑙𝑜𝑔2 (

𝑁𝑖

𝑇) (1.40)

𝑛

𝑖=1

El siguiente paso es calcular la entropía que poseerían los conjuntos de las ramificaciones que se formarían por este atributo, esto se calcula en la ecuación 1.41 donde 𝑁𝑅 es el numero de muestras asociadas a cada conjunto, Ki es el número de muestras (de entrenamiento) de la clase i que pertenecen al conjunto de la ramificación R. V es el numero valores que puede tomar el atributo que es igual al número de ramificaciones [37].

𝐻𝐶𝐴 = ∑𝑁𝑅

𝑇∑−

𝐾𝑖

𝑁𝑅𝑙𝑜𝑔2(

𝐾𝑖

𝑁𝑅 )

𝑛

𝑖=1

𝑉

𝑅=1 (1.41)

Page 45: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 45

Con estas 2 entropías se puede hallar la ganancia, para calcular la proporción de ganancia es necesario hacer un cálculo intermedio denominado información de la división que se muestra en la ecuación 1.42 y 1.43 [37].

𝐺𝐴 = 𝐻𝐴 − 𝐻𝐶𝐴 (1.42)

𝐼𝐷 = ∑ −𝑁𝑅

𝑇𝑙𝑜𝑔2 (

𝑁𝑅

𝑇) (1.43)

𝑉

𝑅=1

El atributo inicial del árbol de decisión será el que posea el valor más grande de ganancia y de proporción de ganancia, para la elección de los atributos que le seguirán a las ramificaciones, ver figura 1.11. Este proceso se repetirá para cada una de estas, por lo que las ramas del árbol de decisión pueden ser de distintos tamaños y con diferente orden de atributos [37].

Figura 1.28: Ejemplo de Árbol de decisión J48.

Validación cruzada

Este es un método usado comúnmente para evaluar el desempeño de clasificadores como los que se han mencionado anteriormente. Un proceso de clasificación necesita de una base de datos con la cual se pueda hacer el entrenamiento y la validación de dicho sistema. Para evaluar el nivel predictivo que tendrá el clasificador es necesario dividir las muestras de la base de datos en 2 conjuntos, y cada uno de estos será usado independientemente para los 2 procesos. El problema que conlleva la situación anterior es que los resultados que se obtienen dependen de las muestras usadas en el entrenamiento y en la validación. Si se divide la base de datos en otros conjuntos en los que las muestras que componen cada conjunto sean distintas a la evaluación anterior, los resultados obtenidos la mayoría de las veces serán distintos. La validación cruzada consiste en partir de la misma base de datos, generar cierto número de conjuntos (usualmente llamados “folds”) con los cuales se entrena y evalúa el desempeño del clasificador. En este caso se usaron 10 folds por lo que se generaron 10 conjuntos y se realizaron 10 clasificaciones usando 9 conjuntos para el entrenamiento y variando el conjunto de validación en cada una de ellas. El resultado final de este proceso será la media de los valores obtenidos en cada una de las validaciones. [38]

Page 46: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 46

1.8 Indicadores de desempeño y matriz de confusión

Matriz de confusión

El análisis y la presentación de los resultados de cada clasificador se hacen con base en la matriz de confusión, la cual nos indica algunos indicadores de desempeño de los mismos. Es una matriz cuadrada con tamaño igual al número de tipos. En las columnas se presentan los tipos reales y en las filas se presentan los tipos que asignó el clasificador. En la Tabla 1.5 se muestra una matriz de confusión para un clasificador de dos tipos.

Tabla 1.5: Matriz de confusión simple.

Tipo(1) Real Tipo(2)Real

Tipo(1) Clasificada

Tipo(2) Clasificada

La matriz de confusión también se puede presentar como se muestra en la tabla 1.6. Donde VP son los verdaderos positivos, es decir, las imágenes que el clasificador clasificó con éxito, VN o verdadero negativo, representa las imágenes que se rechazaron correctamente, FP o falsos positivos y los FN o falsos negativos, son falsas alarmas, es decir, que el clasificador adjudicó la imagen a una clase a la que no pertenecía [44].

Tabla 1.6: Matriz de confusion.

VERDADERO FALSO

VERDADERO VP FP

FALSO FN VN

Con base en esta matriz se obtienen los siguientes indicadores de desempeño: Proporción de verdaderos positivos Efectividad 𝑃𝑉𝑃 = 𝑉𝑃/(𝑉𝑃 + 𝐹𝑁) Proporción de falsos negativos Error positivo 𝑃𝐹𝑁 = 𝐹𝑁/(𝑉𝑃 + 𝐹𝑁) Proporción de verdaderos negativos Especificidad 𝑃𝑉𝑁 = 𝑉𝑁/(𝑉𝑁 + 𝐹𝑃) Proporción de falsos positivos Error negativo 𝑃𝐹𝑃 = 𝐹𝑃/(𝑉𝑁 + 𝐹𝑃) Valor predictivo positivo Precisión 𝑉𝑃𝑃 = 𝑉𝑃/(𝑉𝑃 + 𝐹𝑃) Valor predictivo negativo 𝑃𝐹𝑁 = 𝑉𝑁/(𝑉𝑁 + 𝐹𝑁)

2. Captura de imágenes

2.1 Selección de los granos

Los granos de café utilizados en el trabajo, provienen del sur del departamento del Huila y se obtuvieron con la colaboración de la cooperativa de caficultores, CADEFIHUILA; se extrajeron de una

Page 47: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 47

muestra de una semana de clasificación manual por parte de la cooperativa, en la determinación del factor de calidad del café que allí se compra. Se validó la clasificación de estos granos con ayuda del Ingeniero Agrónomo Guillermo Borrero, quien tiene más de 30 años de experiencia trabajando en la Federación Nacional de Cafeteros de Colombia. De esta recolección se seleccionaron 4 de los defectos más comunes de la región: Negro total o parcial Vinagre o parcialmente vinagre Decolorado reposado Aplastado

2.2 Sistema de adquisición de imágenes

El sistema de adquisición de imágenes que se implementó consta de una cámara fotográfica Nikon D7100 y dos lámparas de luz blanca, ver figura 2.1. Las imágenes almacenadas son la vista superior de los granos de café, puestos individualmente sobre un fondo blanco e iluminado con luz blanca difuminada mediante dos lámparas de 180W de potencia. Se tomaron entre 20 y 50 imágenes de cada tipo de defecto de grano de café. Para la iluminación, la luz de las lámparas no se orientó directamente sobre los granos, sino que, se difuminó usando una sombrilla con recubrimiento reflejante. A pesar de la sombrilla, se crearon brillos sobre el grano. Al alejar las lámparas se disminuía el brillo pero la luz no era suficiente haciendo las imágenes oscuras y creando sombras fuertes. A una distancia de 80cm, entre las lámparas y el grano se obtuvieron imágenes sin mucho brillo y con luz homogénea. El fondo era de cartulinas color blanco. Este color, se escogió para producir alto contraste entre el grano y el fondo y facilitar la segmentación. La base de datos de imágenes que se generó cuenta con 340 imágenes de 11 de los 14 tipos de defectos de granos de café, reconocidos por la Federación Nacional de Cafeteros, además de los granos en buenas condiciones físicas. Las imágenes están almacenadas en formato NEF (equivalente a formato RAW en cámaras Nikon), con una resolución de 6000x4000 píxeles y 12 bits por píxel en cada canal, para un total de 36 bits, velocidad de ISO de 200, punto focal f/11, tiempo de exposición 1/100s y distancia focal de 105mm [45]. Adicional a esta captura, se debieron recortar las imágenes debido a su gran tamaño que podría ocasionar un costo computacional exagerado; además de que se quitó parte del fondo ya que el grano no ocupaba toda la imagen. Teniendo así, una base de datos final con imágenes de 720x720 píxeles.

Page 48: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 48

Figura 2.1: Esquema del sistema de adquisición de imágenes.

3. Segmentación El proceso de segmentación en este trabajo no fue posible de realizar directamente con algunas de las herramientas teóricas, como lo es la detección de bordes, considerando que los resultados obtenidos de su aplicación directa no fueron los deseados. Más adelante, se evidenciará la necesidad de un procesamiento adicional para mejorar dichos resultados. Fue posible implementar un algoritmo para la segmentación con resultados como los de la figura 3.1 y 3.2, que se explicara en la sección 3.2.

Figura 3.1: (a) Grano de café tipo 0 de muestra. (b) imagen segmentada.

(a) (b)

Page 49: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 49

Figura 3.2: (a) Grano de café tipo 6 de muestra. (b) imagen segmentada.

Esta imagen segmentada, se obtuvo con un algoritmo heurístico, diseñado con el fin realizar este proceso de segmentación para todas las imágenes de forma automática y sin supervisión; fue necesaria la construcción de dicho algoritmo ya que los algoritmos que nos propone la teoría no nos ofrecían un resultado satisfactorio para todas las imágenes. El método teórico implementado para la segmentación es el de detección de bordes, éste se aplicó en la imagen de luminancia, ver figura 3.3, ya que esta es, la que aporta la mayor información del contraste que hay entre el grano y el fondo.

Figura 3.3: (a) Imagen de luminancia de grano de café tipo 6 de muestra. (b) Imagen de luminancia de grano de café tipo 0

de muestra.

Se puede observar que hay una gran diferencia entre la iluminación del fondo de la imagen y la del grano, en base a esto, como medida inicial, se descartó el uso de métodos de detección de bordes muy sensibles como Canny y Roberts, ya que estos son más sensibles para la detección de bordes pero también son más sensibles al ruido. Por lo anterior, se consideró que el método Sobel era el más apropiado por tener mayor inmunidad al ruido que los 2 anteriores.

(a) (b)

(a) (b)

Page 50: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 50

3.1 Resultados obtenidos métodos teóricos de detección de bordes

Método Sobel

Se iniciaron las pruebas con el método Sobel de detección de bordes, con un umbral hallado con ayuda del método de Otsu en cada imagen. El resultado se aprecia en la figura 3.4. Al no haber claridad en el borde detectado, se probaron otros niveles de umbralización, ver figura 3.5 y 3.6, obteniendo también malos resultados.

Figura 3.4: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Sobel, con nivel de umbralización por método de Otsu (nivel 0.254). (b) Equivalente de imagen de grano de café tipo 0 de

muestra (nivel 0.235).

Figura 3.5: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes

Sobel, con nivel de umbralización 0.254/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.235/2.

(b) (a)

(a) (b)

Page 51: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 51

Figura 3.6: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Sobel, con nivel de umbralización (1+0.254)/2 Imagen de grano de café tipo 6 de muestra. (b)Equivalente de imagen de

grano de café tipo 0 de muestra (1+0.235)/2.

En las figuras 3.5 y 3.6 se observa que no hay claridad en el borde del grano; ya sea porque el ruido aumentó considerablemente (figura 3.5) o porque aparecen menos secciones del borde del grano (figura 3.6). Por lo que se concluye que este método por sí solo, no es suficiente para detectar de forma adecuada el borde del grano de este tipo de imágenes; siendo así, es necesario un procesamiento adicional para que posiblemente mejoren los resultados. Algunos de los otros métodos teóricos para detección de bordes, fueron probados y se obtuvieron respuestas muy similares para niveles de umbralización por Otsu y también por método de ensayo y error. Sus resultados se pueden ver de la figura 3.7 a la 3.15.

Método Prewitt

(a) (b)

(a) (b)

Page 52: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 52

Figura 3.7: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Prewitt, con nivel de umbralización por método de otsu (nivel 0.251). (b) Equivalente de imagen de grano de café tipo 0 de

muestra (nivel 0.235).

Figura 3.8: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes

Prewitt, con nivel de umbralización 0.251/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.235/2.

Figura 3.9: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Prewitt, con nivel de umbralización (1+0.251)/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de

grano de café tipo 0 de muestra (1+0.235)/2.

Método Roberts

(a) (b)

(a) (b)

Page 53: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 53

Figura 3.10: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes

Roberts, con nivel de umbralización por método de otsu (nivel 0.211). (b) Equivalente de imagen de grano de café tipo 0 de muestra (nivel 0.203).

Figura 3.11: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes

Roberts, con nivel de umbralización 0.211/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.203/2.

(a) (b)

(a) (b)

Page 54: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 54

Figura 3.12: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes Roberts, con nivel de umbralización (1+0.211)/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de

grano de café tipo 0 de muestra (1+0.203)/2.

Método Canny

Figura 3.13: (a) Imagen de grano de café tipo 6 de muestra, resultante de la aplicación del modelo de detección de bordes Canny, con nivel de umbralización nivel 0.0188. (b) Equivalente de imagen de grano de café tipo 0 de muestra nivel 0.0189.

(a) (b)

(a) (b)

Page 55: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 55

Figura 3.14: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes

Roberts, con nivel de umbralización 0.0188/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra 0.0189/2.

Figura 3.15: (a) Imagen de grano de café tipo 0 de muestra, resultante de la aplicación del modelo de detección de bordes

Roberts, con nivel de umbralización (1+0.0188)/2 Imagen de grano de café tipo 6 de muestra. (b) Equivalente de imagen de grano de café tipo 0 de muestra (1+0.0189)/2.

La respuesta de los métodos Sobel, Prewitt y Rorberts es muy parecida, en los 3 métodos no se obtiene el borde completo del grano y si se disminuye el nivel de umbralización; aumenta bastante el ruido sin una mejoría aceptable del borde del grano. Por otra parte, el método de Canny ofrece un resultado notoriamente distinto al de los 3 anteriores, pero con el mismo problema.

(a) (b)

(a) (b)

Page 56: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 56

3.2 Método heurístico utilizado para la segmentación

Este proceso de segmentación, inicia con la creación de 4 imágenes a partir de la imagen de entrada (RGB), ver figura 3.16, estas imágenes corresponden a las restas entre la componente roja y verde de la imagen, la roja y la azul, y verde y azul; también, se crea una imagen que representa de manera aproximada la iluminación de la imagen original, al hacer el promedio de las 3 componentes RGB.

(a) (b)

Page 57: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 57

Figura 3.16: Imágenes resultantes de aplicar las restas entre las componentes RGB de la imagen de muestra. (a) Resta

componentes RG (b) Resta componentes RB (c) Resta componentes GB (d) promedio de las componentes.

Las imágenes correspondientes a las componentes R, G y B se muestran en la figura 3.17, y también se incluye nuevamente la imagen de luminancia para apreciar mejor sus similitudes y diferencias.

(c) (d)

(a) (b)

Page 58: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 58

Figura 3.17: Componentes de la imagen de muestra 3.16(a) componente R (b) Componente G (c) Componente B (d)

promedio de las componentes.

A cada una de estas imágenes, se les crea una imagen que represente sus variaciones de intensidad. Utilizando la ecuación 3.1 que usa los píxeles con las orientaciones mostradas en la figura 3.18.

A B C

D p E

F G H Figura 3.18: Orientaciones de Pseudogradiente para el píxel p.

La función del pseudogradiente propuesto, relaciona los píxeles nombrados en la cuadricula anterior de la siguiente forma:

𝑃𝑔𝑟𝑎𝑑𝑖𝑒𝑛𝑡𝑒(𝑝) = 𝑎𝑏𝑠(𝐷 − 𝐸) + 𝑎𝑏𝑠(𝐵 − 𝐺) + 𝑎𝑏𝑠(𝐴 − 𝐻) + 𝑎𝑏𝑠(𝐹 − 𝐶) (3.1) Con este método, se pretende dar independencia a las variaciones que se presentan en los distintos ejes, al relacionarlas por medio de sumas de valor absoluto; esto no ocurre con los operadores para gradiente teóricos como el Sobel o Prewitt, ya que estos, se relacionan por medio de la convolución. El resultado de aplicar esta función propuesta a la imagen de iluminancia se muestra en la figura 3.18. Como referencia se toma el gradiente con operador Sobel y se hace la resta entre estos para ver sus diferencias, ver figura 3.19 y 3.20.

(c) (d)

Page 59: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 59

Figura 3.19: Pseudogradiente de la imagen de luminancia.

Figura 3.20: (a) Gradiente sobel imagen luminancia (b) Pseudogradiente – Gradiente Sobel.

A simple vista no se percibe diferencia; pero en la imagen de la resta entre la función propuesta y el gradiente Sobel (normalizados), se puede observar que el gradiente Sobel, toma valores mayores (zonas oscuras) en las regiones en las que las variaciones locales tienden a tener dirección diagonal. En la figura 3.21, se muestran las imágenes resultantes de aplicar la función heurística descrita anteriormente en las imágenes de las diferencias RG, RB y GB. En adelante, nos referiremos al resultado de esta función como “variación”.

(a) (b)

Page 60: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 60

Figura 3.21: (a) Pseudogradiente sobre imagen RG (b) Pseudogradiente sobre imagen RB (c) Pseudogradiente sobre imagen

GB.

A la imagen de la variación de la luminosidad, se le multiplicó el inverso de la imagen de la luminosidad, con el fin de atenuar las variaciones en las zonas en que la luminosidad sea alta y amplificarlas en las zonas de baja luminosidad, ver figura 3.22. Esto se hace, porque en las zonas de mayor luminosidad los cambios de color son los que se perciben con más claridad, en cambio en las zonas con baja luminosidad los cambios de color casi no son perceptibles.

(a) (b)

(c)

Page 61: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 61

Figura 3.22: Variación iluminación modificada.

Como se puede observar, las pequeñas variaciones de luminosidad presentes en el fondo fueron en su mayoría eliminadas, y el contraste general de la imagen aumentó. Luego, se hace un proceso de normalización a la imagen de la figura 3.22 y a las de las variaciones de las diferencias RG, RB y GB con el fin de combinarlas; esta combinación se hace promediando las 3 imágenes de las variaciones de colores, y este promedio se multiplica con la imagen de la variación de la luminosidad modificada, esto se observa en la figura 3.23.

Figura 3.23: Variaciones combinadas.

Se puede apreciar, que la magnitud de las variaciones que están en la región del borde del grano aumentó respecto a las variaciones presentes al interior del grano; esto se debe a que hay pocas

Page 62: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 62

variaciones bruscas en el interior del grano, comparadas con la diferencia de color entre el fondo y la región del borde del grano. En la figura 3.23, se puede apreciar que en ciertas regiones alrededor de lo que debería ser el borde del grano, que es el perímetro que posee una variación de gran magnitud, aparecen unas manchas que no pertenecen a dicho borde y afectarían el resultado de la segmentación. Para eliminar estos elementos no deseados se construyó una imagen promedio, que se muestra en la figura 3.24.

Figura 3.24: Imagen promedio por zonas.

La imagen promedio, es en realidad el promedio por zonas de la imagen; para minimizar los cambios bruscos entre las zonas vecinas se calcula también el promedio en las zonas intermedias con el mismo tamaño, el mejor resultado se obtuvo con 100 zonas. Enseguida, se hace la resta entre la imagen de las variaciones combinadas y esta imagen de los promedios por zonas, y del resultado de esta resta los valores inferiores a 0 serán eliminados (su valor se cambiara por 0). Así que, en la imagen resultante, figura 3.25 sólo permanecerán las variaciones que posean una magnitud considerable respecto a sus locales.

Figura 3.25: Resta variaciones combinadas y promedio pro zonas.

Page 63: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 63

Aun así, después de este proceso, en algunos casos estas manchas no son eliminadas en su totalidad, como lo es en el caso de la figura 3.26.

Figura 3.26: Ampliación sobre la figura 3.23.

En la imagen de la figura 3.26 se observa, que el objeto deseado posee una magnitud similar a la de algunas de las zonas del perímetro del grano; por lo que si se umbralizara esta imagen habría que hacerlo con un umbral que permitiera pasar estos objetos, con el fin de obtener todo el contorno del grano sin interrupciones, y esto alteraría la forma del borde que se pudiera obtener. Para poder resaltar los píxeles del contorno del grano y así poder diferenciarlos de los objetos no deseados, se realiza el proceso de análisis de tendencias. El objetivo de este proceso, es el de incrementar la magnitud de los píxeles que se encuentren situados entre 2 píxeles que posean una magnitud considerable, es por esto, que se crean 4 posibles relaciones entre píxeles que se muestran en la figura 3.27.

Figura 3.27: (a) Etiquetas de los píxeles vecinos a p. (b) Etiquetas secundarias de los píxeles vecinos a p.

Se busca el máximo entre los píxeles A1, B1, C1 y D1. Y si por ejemplo, el máximo se encontró en uno de los píxeles marcados con A1 y además, este máximo es superior al umbral deseado (se obtuvo el mejor resultado con un umbral del 10%); entonces, se busca el máximo entre los píxeles A2, y si el máximo entre estos es también mayor al umbral deseado, se hace el promedio entre los dos y ese valor es escrito en el píxel P. Al aplicar este proceso se tiene un resultado como el de la figura 3.28.

A1 A1 A1

B1 A1 B2

B1 B1 P B2 B2

B1 A2 B2

A2 A2 A2

C1 C1 D2 D2

C1 C1 D2 D2

P

D1 D1 C2 C2

D1 D1 C2 C2

Page 64: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 64

Figura 3.28: Resultado de aplicar el proceso de tendencias.

Se propuso este proceso para resaltar el contorno del grano, en lugar de usar la función de dilatación, porque si se dilata la imagen también se incrementaría el valor de los píxeles de los objetos no deseados; ya que estos se encuentran cerca del contorno del grano, en cambio con este método, es más probable que se dilaten los píxeles del contorno y no los de los objetos no deseados. El efecto de este proceso, sobre el objeto no deseado se muestra en la figura 3.29.

Figura 3.29: Ampliación sobre la figura 3.27.

Page 65: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 65

Como se puede observar, solo 2 píxeles del objeto no deseado fueron incrementados, es un error del proceso; pero se considera que el efecto global fue beneficioso, ya que como se puede observar a simple vista, la magnitud del contorno del grano aumentó en promedio. Después de este proceso, se transforma a binaria la imagen resultante con un umbral del 10% del valor máximo, se rellena el objeto encontrado y si aplica un filtro promediador para suavizar el contorno. En algunas imágenes, aparecen pequeños objetos aislados, que son descartados seleccionando el objeto que tenga el mayor tamaño en la imagen. La imagen binaria que representa la segmentación del grano se muestra en la figura 3.30 (a). Y finalmente, la imagen del grano segmentado se muestra en la figura 3.30 (b).

Figura 3.30: (a) Imagen binaria del grano. (b) Grano segmentado.

4. Estudio de características propuestas Se propusieron algunas características nuevas para su implementación en los 4 modelos de clasificación, con el fin de verificar si estas pueden ser útiles para la clasificación de los defectos del café. La descripción y el método de extracción se presentan a continuación.

4.1 Características de color

Las características propuestas para el análisis de color, son construidas a partir de un histograma de 3 dimensiones. Se parte de la idea de que elaborar un histograma, en el cual se tenga en cuenta las 3 componentes de los espacios de color, puede tener más información sobre la imagen que los histogramas para cada una de las componentes. Por consiguiente, el histograma construido es una matriz 3D, a la que cada dimensión le corresponde una componente del espacio de color, y cada celda de la matriz contiene el número de píxeles que la imagen posee con el valor de las 3 componentes, a la que corresponde la celda. Dado que los sistemas son binarios y su unidad básica es el byte, cada componente de color posee un rango de [0,255], por lo que la matriz posee un tamaño de 256x256x256 casillas [48]. A partir de esta matriz, se pueden hallar las siguientes características:

Page 66: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 66

1. Tres características que corresponden a los valores de cada componente del espacio de color, de la celda (Cmax) que tenga el máximo número de píxeles asociados. En la figura 4.1, estas características corresponden a Xmax, Ymax y Zmax.

Figura 4.1: Modelo de características propuestas. Xmax, Ymax y Zmax.

2. Para cada componente del espacio de color se hallan 2 características, límite superior e

inferior, que corresponde a las ubicaciones de la celdas más lejanas respecto a Cmax, en las que se hallaron asociadas un número de píxeles considerable, (en nuestro caso tomamos como referencia el 10% de Cmax). Al ser hallados estos límites para cada componente de color, entonces, la exploración de estas celdas consiste en hacer un barrido a lo largo de la dimensión a la que corresponde el espacio del color; analizado y buscando estas celdas límites en cada plano. En la figura 4.2, se observan los límites superior e inferior para la dimensión Z.

Figura 4.2: Modelo de características propuestas. Límite superior e inferior para la dimensión z.

Page 67: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 67

3. Densidad inferior: es una característica para cada componente de color, que corresponde al número de celdas (que tengan asociadas un número de píxeles considerable) que hay en entre el plano en el que está ubicado Cmax y el plano ubicado en el límite inferior en la componente del espacio de color, a la que pertenece la característica. En la imagen de la figura 4.3, se muestra la densidad inferior para la dimensión Z.

Figura 4.3: Densidad inferior para la dimensión Z.

4. Densidad superior: Es lo opuesto a la densidad inferior, es decir, se cuentan las celdas (que tengan asociadas un número de píxeles considerable) que hay entre el plano que está ubicado Cmax y el plano ubicado en el límite superior de la componente del espacio de color, a la que pertenece la característica. En la imagen de la figura 4.4, aparece la densidad superior para la dimensión Z.

Figura 4.4: Densidad superior para la dimensión Z.

Page 68: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 68

5. Densidad intermedia: cuenta el número de celdas que tengan asociadas un número de píxeles considerable que hay en el plano en el que se encuentra Cmax, manteniendo fija la posición de la componente del espacio de color, a la que pertenece la característica. En la imagen de la figura 4.5 se muestra la densidad intermedia para la dimensión Z.

Figura 4.5: Densidad intermedia para la dimensión Z.

4.2 Características de forma

Las características propuestas para el análisis de forma, son construidas a través de un vector que describe la forma del grano. Este vector se crea con la imagen del borde del grano, cada celda del vector contiene la distancia euclidiana que hay entre el centro del grano y cada píxel de su borde; por lo que el vector contiene la información de los cambios en la forma del borde del grano. A este vector, se le da el nombre de Vecforma. Para imagen de muestra figura 4.6 se obtiene el vector Vecforma de la figura 4.7.

Figura 4.6: Ejemplo de Vecforma, inicio de la gráfica.

Page 69: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 69

Figura 4.7: Gráfica de Vecforma.

La forma de la gráfica se ajusta a las variaciones en la distancia radial del grano. Aunque en teoría con el vector Vecforma se posee toda la información acerca de la forma del grano, este no es suficiente para identificar formas particulares que poseen algunos granos; de ahí que, se construyó uno que también representa la forma de manera aproximada (midiendo la distancia entre el centro y el borde) , es de manera aproximada, porque se hace un tratamiento a la imagen del borde del grano, que consiste en minimizar los cambios bruscos de forma; este proceso se realizó a través de la transformada de radón. Este vector se nombró Vecreferencia. El borde aproximado del grano en la figura 4.8.

Figura 4.8: Borde aproximado del grano de café.

Page 70: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 70

Vector referencia construido en base al borde aproximado. Se aprecia en la figura 4.9

Figura 4.9: Gráfica de Vecreferencia.

A partir de los 2 vectores mencionados, se creó otro vector que corresponde a la fórmula: (Vecforma - Vecreferencia)/Vecreferencia. Con este vector se busca tener una información más clara, de las variaciones de forma del grano a un nivel local, con el fin de identificar huecos en los bordes. En este caso, se deriva y se obtienen las características. Este vector se nombró Vecderivada, se muestra en la figura 4.10.

Figura 4.10: Gráfica de Vecderivada.

En el vector Vecderivada, se puede apreciar que hay una derivada negativa de gran amplitud en la zona en la que se encuentra el hueco del grano de la figura 4.8.

Page 71: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 71

A partir de estos 3 vectores (Vecforma, Vecreferencia y Vecderivada), se obtuvieron las siguientes características para cada uno de los vectores construidos: 1. Promedio. 2. La relación amplitud promedio, es la diferencia entre el máximo global y mínimo global. Esta

relación, con el fin de poseer información de cambios muy brusco en la forma del grano; se consideró que este tipo de característica podría ser útil para detectar los granos partidos.

3. Relación RMS promedio, con la que se quiere obtener una medida general de las irregularidades del contorno del grano.

5. Selección de características El número de características teóricas extraídas fue 63 y el de propuestas 90; siendo estos valores bastante grandes. Hay varias razones para reducir el número de características al mínimo. Muchas características aumentaría la complejidad computacional, tanto en la etapa de caracterización como en la clasificación. También, muchas veces dos características pueden aportar información adecuada para la clasificación cuando se utilizan por separado, pero si son altamente correlacionadas la ganancia es poca al utilizarlas juntas. [46]. La selección de características es el proceso mediante el cual se escogen las mejores características de un conjunto dado, de tal forma, que se reduzca el número de características; pero al mismo tiempo se conserve la información discriminante. Si se logra obtener un conjunto de características adecuado, se simplifica el diseño del clasificador. En base a esto, se utilizó uno de los modelos más populares para la selección de características; este es el de Correlación basado en la selección de subconjuntos de características. Este algoritmo, evalúa un subconjunto de características considerando la habilidad predictiva individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan baja intercorrelación. [46]. El algoritmo arrojó un total de 18 características teóricas seleccionadas. Listadas a continuación. Color 1. Media, componente H (HSV). 2. RMS, componente H (HSV). 3. Energía, componente H (HSV). 4. Media, componente S (HSV). 5. Asimetría, componente S (HSV). 6. Media, componente L (CIElab). 7. Media, componente A (CIElab). 8. RMS, componente A (CIElab). 9. Asimetría, componente A (CIElab). 10. Media, componente C (CIEh). 11. Media, componente H (CIEh). 12. RMS, componente H (CIEh). 13. Asimetría, componente h (CIEh).

Page 72: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 72

14. Asimetría, componente G (RGB). 15. Media, componente B (RGB). Forma 16. Relación de redondez. 17. Anomalías del contorno. Textura 18. Diferencia de varianza.

Y un total de 27 características propuestas. Listadas a continuación.

Propuestos

1. Límite superior, componente H (HSV) 2. Límite inferior, componente H (HSV) 3. Máximo, componente S (HSV) 4. Límite superior, componente S (HSV) 5. Límite inferior, componente S (HSV) 6. Máximo, componente V (HSV) 7. Límite superior, componente L (Cielab) 8. Límite inferior, componente L (Cielab) 9. Máximo, componente A (Cielab) 10. Límite superior, componente A (Cielab) 11. Límite inferior, componente A (Cielab) 12. Límite inferior, componente B (Cielab) 13. Máximo, componente C (Cieh) 14. Límite superior, componente C (Cieh) 15. Límite inferior, componente C (Cieh) 16. Máximo, componente H (Cieh) 17. Límite inferior, componente H (Cieh) 18. Máximo, componente B (RGB) 19. Límite superior, componente B (RGB) 20. Densidad superior, componente B (RGB) Forma 21. Perímetro 22. Relación amplitud promedio del vector forma 23. Relación amplitud promedio del vector derivada 24. Relación RMS promedio del vector derivada Textura 25. Contraste 26. Entropía 27. Diferencia de Varianzas

Page 73: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 73

6. Clasificación y resultados

Clasificador Perceptrón Multicapa – Características Teóricas

En la tabla 6.1, se muestra la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación perceptrón multicapa; sobre la base de datos de 164 imágenes, utilizando las características sacadas de la teoría. Como se puede ver, se obtiene una muy buena clasificación en todos los defectos. Se observa que, solo 7 de las imágenes fueron mal clasificadas y estas están repartidas entre todos los defectos y el tipo bueno equitativamente; la tasa de acierto fue de más del 94.5%.

Tabla 6.1: Matriz de confusión. Clasificador perceptrón multicapa sobre características teóricas.

Clasificado como -->

Bueno Negro Vinagre Decolorado R.

Aplastado

Bueno 19 0 1 1 0

Negro 0 36 1 0 0

Vinagre 0 1 49 1 2

Decolorado R. 0 0 0 29 0

Aplastado 0 0 2 0 22

La tabla 6.2, presenta los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador perceptrón multicapa, tiene efectividad por encima del 90% en todos los tipos. Pero tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 96%en todos los tipos. En cuanto al error, tiene menor error negativo que positivo. Y la precisión en todos los tipos también es superior al 96%.

Tabla 6.2: Indicadores de desempeño. Clasificador perceptrón multicapa sobre características teóricas.

Bueno(0) Negro(1) Vinagre(3) Decolorado

R.(6) Aplastado

(13)

PVP 0.905 0.973 0.924 1 0.917

PFN 0.095 0.027 0.075 0 0.833

PVN 1 0.992 0.964 0.985 0.986

PFP 0 0.008 0.036 0.015 0.014

VPP 1 0.973 0.924 0.935 0.917

VPN 0.986 0.992 0.964 1 0.986

Clasificador Perceptrón Multicapa – Características Propuestas

En la tabla 6.3, se aprecia la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación perceptrón multicapa, sobre la base de datos de 164 imágenes; utilizando las características propuestas. Como se puede apreciar, se obtiene aceptable clasificación en todos los defectos. Se observa que 21 de las imágenes fueron mal clasificadas, la mayoría de errores ocurrieron

Page 74: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 74

sobre los granos de tipo aplastados, bajo las características propuestas la tasa de acierto bajo a cerca de 86.5%.

Tabla 6.3: Matriz de confusión. Clasificador perceptrón multicapa sobre características propuestas.

Clasificado como -->

Bueno Negro Vinagre Decolorado

R. Aplastado

Bueno 16 0 0 0 5

Negro 0 36 1 0 0

Vinagre 1 2 47 1 2

Decolorado R. 0 0 1 27 1

Aplastado 2 0 4 2 16

La tabla 6.4, aparecen los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador perceptrón multicapa, tiene efectividad por encima del 75% en todos los tipos excepto el aplastado en el cual fue de 66%. Pero tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 94% en todos los tipos. En cuanto al error, tiene mayor error positivo que negativo. Y la precisión en el tipo aplastado es de apenas 66%, mientras que para los demás tipos supera el 84%.

Tabla 6.4: Indicadores de desempeño. Clasificador perceptrón multicapa sobre características propuestas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.761 0.972 0.886 0.931 0.666

PFN 0.238 0.027 0.113 0.068 0.333

PVN 0.979 0.984 0.945 0.977 0.942

PFP 0.020 0.015 0.054 0.022 0.057

VPP 0.842 0.947 0.886 0.900 0.666

VPN 0.965 0.992 0.945 0.985 0.942

Clasificador Maquina de soporte vectorial – Características Teóricas

En la tabla 6.5, se muestra la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación SMV; sobre la base de datos de 164 imágenes, utilizando las características sacadas de la teoría. Como se puede ver, se obtiene una muy buena clasificación en todos los defectos. Solo 11 de las imágenes fueron mal clasificadas y estas están repartidas entre todos los defectos y el tipo bueno equitativamente; la tasa de acierto fue de más del 93.2%.

Tabla 6.5: Matriz de confusión. Clasificador SMV sobre características teóricas.

Clasificado como -->

Bueno Negro Vinagre Decolorado R.

Aplastado

Bueno 20 0 0 1 0

Negro 0 37 0 0 0

Vinagre 1 1 48 1 2

Decolorado R. 0 0 0 29 0

Aplastado 2 0 2 1 19

Page 75: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 75

La tabla 6.6, se aprecian los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador SMV, tiene efectividad de más del 90% en todos los tipos menos en el aplastado que solo llego al 79%. Tiene buenos resultados en cuanto a la especificidad, ya que los valores superan el 97% en todos los tipos. En cuanto al error, tiene menor error negativo que positivo. Y la precisión está por encima del 90% en todos los tipos menos el bueno, el cual solo alcanzó 86%

Tabla 6.6: Indicadores de desempeño. Clasificador SMV sobre características teóricas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.952 1 0.906 1 0.792

PFN 0.047 0 0.094 0 0.208

PVN 0.979 0.992 0.982 0.978 0.986

PFP 0.021 0.008 0.018 0.022 0.014

VPP 0.869 0.974 0.960 0.906 0.905

VPN 0.993 1 0.956 1 0.965

Clasificador Maquina de soporte vectorial – Características Propuestas

En la tabla 6.7, se presenta la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación SMV, sobre la base de datos de 164 imágenes; utilizando las características propuestas. Como se puede apreciar, se obtiene una muy buena clasificación en todos los defectos. Se observa que 16 de las imágenes fueron mal clasificadas, la mayoría de errores ocurrieron sobre los granos de tipo aplastados, bajo las características propuestas la tasa de acierto bajo a cerca de 90.2% pero sigue siendo un buen porcentaje para este trabajo.

Tabla 6.7: Matriz de confusión. Clasificador SMV sobre características propuestas.

Clasificado como -->

Bueno Negro Vinagre Decolorado R.

Aplastado

Bueno 19 0 0 0 2

Negro 0 36 1 0 0

Vinagre 1 1 48 1 2

Decolorado R. 0 0 0 28 1

Aplastado 3 0 3 1 17

La tabla 6.8, muestra los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador SMV, tiene efectividad por encima del 90% en todos los tipos menos en el aplastado que es de solo el 68%. Tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 96%en todos los tipos. En cuanto al error, tiene menor error negativo que positivo. Y la precisión en todos los tipos es superior al 92% excepto en el tipo aplastado y bueno quienes tienen 75% y 82% respectivamente.

Page 76: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 76

Tabla 6.8: Indicadores de desempeño. Clasificador SMV sobre características propuestas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.904 0.972 0.905 0.965 0.681

PFN 0.095 0.027 0.094 0.034 0.318

PVN 0.972 0.992 0.963 0.985 0.964

PFP 0.027 0.007 0.036 0.014 0.035

VPP 0.826 0.972 0.923 0.933 0.750

VPN 0.985 0.992 0.955 0.992 0.951

Clasificador Bayesiano – Características Teóricas

En la tabla 6.9, aparece la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación bayesiano; sobre la base de datos de 164 imágenes, utilizando las características sacadas de la teoría. Se obtiene una buena clasificación en todos los defectos. Se observa que, solo 14 de las imágenes fueron mal clasificadas y estas están repartidas entre todos los defectos y el tipo bueno equitativamente; la tasa de acierto fue de más del 91.4%.

Tabla 6.9: Matriz de confusión. Clasificador bayesiano sobre características teóricas.

Clasificado como -->

Bueno Negro Vinagre Decolorado

R. Aplastado

Bueno 18 0 0 0 3

Negro 3 36 0 0 0

Vinagre 0 1 48 1 3

Decolorado R. 0 0 0 29 0

Aplastado 1 0 3 1 19

La tabla 6.10, muestra los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador bayesiano, tiene efectividad por encima del 80% en todos los tipos y del 100% para el decolorado reposado. Tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 95%en todos los tipos. En cuanto al error, tiene menor error negativo que positivo excepto para el tipo decolorado reposado. Y la precisión en todos los tipos es superior al 92% menos en el aplastado que es del 76%.

Tabla 6.10: Indicadores de desempeño. Clasificador bayesiano sobre características teóricas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.857 0.923 0.906 1 0.792

PFN 0.143 0.077 0.094 0 0.208

PVN 0.993 0.992 0.963 0.985 0.957

PFP 0.007 0.008 0.036 0.015 0.042

VPP 0.947 0.973 0.923 0.935 0.760

VPN 0.979 0.977 0.955 1 0.964

Page 77: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 77

Clasificador Bayesiano – Características Propuestas

En la tabla 6.11, se presenta la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación bayesiano, sobre la base de datos de 164 imágenes; utilizando las características propuestas. Como se puede apreciar, se obtiene una buena clasificación en todos los defectos. Se observa que 21 de las imágenes fueron mal clasificadas, la mayoría de errores ocurrieron sobre los granos de tipo aplastados, bajo las características propuestas la tasa de acierto bajo a cerca de 87.1%.

Tabla 6.11: Matriz de confusión. Clasificador bayesiano sobre características propuestas.

Clasificado como -->

Bueno Negro Vinagre Decolorado R.

Aplastado

Bueno 17 0 0 0 4

Negro 0 35 2 0 0

Vinagre 1 1 47 0 4

Decolorado R. 0 0 0 25 4

Aplastado 2 0 1 2 19

La tabla 6.12, muestra los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador bayesiano, tiene efectividad por encima del 80% aproximadamente en todos los tipos. Pero tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 92% aproximadamente en todos los tipos. En cuanto al error, tiene menor error negativo que positivo. Y la precisión en todos los tipos es superior al 93% excepto en el tipo aplastado y bueno que tienen 61% y 85% respectivamente.

Tabla 6.12: Indicadores de desempeño. Clasificador bayesiano sobre características propuestas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.809 0.945 0.886 0.862 0.791

PFN 0.190 0.054 0.113 0.137 0.208

PVN 0.979 0.992 0.972 0.985 0.914

PFP 0.020 0.007 0.027 0.014 0.085

VPP 0.850 0.972 0.940 0.925 0.612

VPN 0.972 0.984 0.947 0.970 0.962

Clasificador de árbol J48 – Características Teóricas

En la tabla 6.13, se aprecia la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación de árbol de decisión J48; sobre la base de datos de 164 imágenes, utilizando las características sacadas de la teoría. Como se puede ver, se obtiene una aceptable clasificación en todos los defectos. Se observa que, 25 de las imágenes fueron mal clasificadas y estas están especialmente en el tipo bueno; la tasa de acierto fue de más del 84.7%.

Page 78: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 78

Tabla 6.13: Matriz de confusión. Clasificador J48 sobre características teóricas.

Clasificado como -->

Bueno Negro Vinagre Decolorado R.

Aplastado

Bueno 18 0 0 0 3

Negro 0 36 1 0 0

Vinagre 0 2 44 2 5

Decolorado R. 1 0 1 25 2

Aplastado 3 0 5 0 16

La tabla 6.14, muestra los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador de árbol de decisión J48, tiene efectividad por encima del 83% en todos los tipos, excepto el aplastado que solo tiene 66%. Tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 92% en todos los tipos. En cuanto al error, tiene menor error negativo que positivo. La precisión del tipo aplastado es de tan solo 61%, y para el tipo bueno de 81%, para los demás están entre el 86 y el 94%.

Tabla 6.14: Indicadores de desempeño. Clasificador J48 sobre características teóricas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.857 0.973 0.830 0.893 0.666

PFN 0.143 0.027 0.169 0.107 0.333

PVN 0.972 0.984 0.937 0.985 0.928

PFP 0.028 0.016 0.063 0.015 0.071

VPP 0.818 0.947 0.863 0.926 0.615

VPN 0.979 0.992 0.920 0.978 0.942

Clasificador de árbol J48 – Características Propuestas

En la tabla 6.15, se muestra la matriz de confusión para el mejor clasificador, utilizando el modelo de clasificación de árbol de decisión J48, sobre la base de datos de 164 imágenes; utilizando las características propuestas. Como se puede apreciar, se obtiene una regular clasificación en todos los defectos especialmente en el tipo aplastado que solo clasifico bien 10 de sus imágenes. Se observa que 37 de las imágenes fueron mal clasificadas, la mayoría de errores ocurrieron sobre los granos de tipo aplastados, bajo las características propuestas la tasa de acierto bajo a cerca de 77.4%.

Tabla 6.15: Matriz de confusión. Clasificador J48 sobre características propuestas.

Clasificado como -->

Bueno Negro Vinagre Decolorado R.

Aplastado

Bueno 14 0 0 1 6

Negro 0 36 1 0 0

Vinagre 1 4 42 2 4

Decolorado R. 0 0 0 25 4

Aplastado 4 0 7 3 10

Page 79: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 79

La tabla 6.16, presenta los indicadores de desempeño obtenidos con base en la matriz de confusión, se puede concluir que el clasificador de árbol de decisión J48, tiene poca efectividad cerca del 41% en el tipo aplastado y 66% en el tipo bueno, para los demás tipos la efectividad mejora a más del 80% aproximadamente. Tiene mejores resultados en cuanto a la especificidad, ya que los valores superan el 90% en todos los tipos. Tiene menor error negativo que positivo. Y la precisión es baja en el tipo aplastado, del 41% y para los demás entre el 73 y el 90%.

Tabla 6.16: Indicadores de desempeño. Clasificador J48 sobre características propuestas.

Bueno(0) Negro(1) Vinagre(3) Decolorado R.(6)

Aplastado (13)

PVP 0.666 0.972 0.792 0.862 0.416

PFN 0.333 0.027 0.207 0.137 0.583

PVN 0.965 0.968 0.927 0.955 0.900

PFP 0,034 0.031 0.072 0.044 0.100

VPP 0.736 0.900 0.840 0.806 0.416

VPN 0.951 0.991 0.903 0.969 0.900

Curvas ROC – Características teóricas

En la figura 6.19, se graficaron las curvas ROC para los cuatro modelos de clasificación. Este modelo muestra la relación entre las imágenes de los tipos que se clasificaron correctamente y las imágenes que se le adjudicaron a un tipo al que no pertenecían, es decir PVP vs PFP. El mejor modelo de clasificación según el análisis con curvas ROC es la que tenga mayor área bajo la curva y el que tiene menor desempeño es el que más se acerque a una recta imaginaria a 45° [47]. Por lo tanto, el mejor clasificador para las características teóricas es el del perceptrón multicapa, con un área de 0.997, seguido por el clasificador Bayesiano, con un área similar de 0.987, el siguiente es el clasificador SMV con un área de 0.974 y el clasificador con menor área en las curvas ROC, es el de árbol de decisión J48, cuya área es 0.915.

Figura 6.1: Gráfica curvas ROC para características teóricas.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Pro

po

rció

n d

e V

erd

ader

os

Po

siti

vos

Proporción de Falsos Positivos

Curvas ROC - Características Teóricas

SMV

Bayesiano

Perceptrón M.

J48

Page 80: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 80

Curvas ROC – Características Propuestas

En la figura 6.20, se graficaron las curvas ROC para los cuatro modelos de clasificación propuestos. El mejor clasificador para estas características es el bayesiano, con un área de 0.977, seguido por el clasificador que utiliza perceptrón multicapa, con un área de 0.970, el siguiente es el clasificador SMV con un área de 0.962 y el clasificador con menor área en las curvas ROC, es el de árbol de decisión J48, cuya área es 0.873.

Figura 6.2: Gráfica curvas ROC para característica propuestas.

7. Conclusiones

El punto de mayor trascendencia dentro de este trabajo es el referente a la posibilidad de agilizar la clasificación de los granos de café seco; este proceso se lleva a cabo en comercializadores y trilladoras de café, en donde la posibilidad de aumentar su eficiencia sería de mucha utilidad tanto para aumentar la producción como para mejorar la calidad final del café. La captura de imágenes es un proceso de gran importancia para el proyecto, ya que de ello depende los resultados a la hora de evaluar que tan buenas son las características para la clasificación que en este se trabajan; es muy importante contar con un fondo que brinde un alto contraste entre los granos de café y él mismo, y una iluminación que evite al máximo las sombras y los altos brillos. Estos defectos se evitan con la ubicación de fuentes de luz difuminada y puestas a una distancia considerable. Para caracterizar los defectos de los granos de café, se utilizaron características de color, forma y textura. Obteniendo 63 características por métodos teóricos; de estas características 44 son de color, 13 de textura y 6 de forma. Usando un algoritmo de selección se redujo el conjunto a 18 características teóricas. Las características seleccionadas corresponden a 15 características de color, 2 de textura y 1 de forma. Las características de color son las que aportan mayor información, no solo en la clasificación manual, sino también, en aplicaciones computacionales donde se pueden obtener valores exactos. Las

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Pro

po

rció

n d

e V

erd

ader

os

Po

siti

vos

Proporción de Falsos Positivos

Curvas ROC - Características Propuestas

SMV

Bayesiano

Perceptrón M.

J48

Page 81: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 81

características de forma y textura son menos importantes para los 4 tipos de defectos seleccionados, aunque también, deben dar información importante. Estas características serán de más ayuda en trabajos posteriores, donde se desee clasificar más tipos de defectos. Las características de color seleccionadas, contienen información de los 4 espacios de color, indicando la importancia de aplicarlos todos. El conjunto de las 18 características teóricas seleccionadas, se utilizó como entrada a 4 técnicas de clasificación diferentes. De las 4 técnicas, se obtuvo el menor error con el clasificador de Perceptrón multicapa, aproximadamente del 5.5 %. Con el clasificador SMV aumentó el error de clasificación, aproximadamente al 7%. Usando el modelo bayesiano el error aumento más, cerca del 9% y por último con el modelo de árbol de decisión J48, el error fue de 15% aproximadamente. El clasificador con perceptrón multicapa, tiene mejor desempeño según las dos técnicas utilizadas para la comparación de los clasificadores como son: índices de desempeño usando la matriz de confusión y las curvas ROC. Con base en los índices de desempeño obtenidos con la matriz de confusión; el clasificador presenta mayor efectividad, especificidad y precisión, además de menor error. Y analizando los clasificadores con las curvas ROC, el clasificador exhibe mayor compromiso entre efectividad y especificidad. Para la caracterización propuesta, se plantean 90 características propuestas por los autores, también de forma, textura y color. Al realizar la selección de características, el algoritmo arrojó 27 características, de estas fueron: 20 de color, 4 de forma y 3 de textura. Se aplicaron los 4 modelos de clasificación; obteniendo el menor error en este caso, con el modelo SVM donde fue de aproximadamente del 10%, seguido por el bayesiano con aproximadamente 12%, luego el modelo del perceptrón multicapa, con cerca de 13% y por último el calificador de árbol de decisión J48, con aproximadamente 23%. En la clasificación con características propuestas, el mejor modelo en las curvas ROC fue el bayesiano, seguido muy de cerca por el SVM. El modelo teórico tiene un buen índice de clasificación al compararlo con otros trabajos de la misma área y el propuesto no está muy alejado, comprobando que estas características también pueden ser útiles a la hora de clasificar estas imágenes. El estudio espera que elaborando una base de datos, con fotografías de los principales defectos físicos de los granos de café en Colombia y desarrollar un sistema completo que permitiera realizar la clasificación de los granos a partir de sus características extraídas mediante procesamiento digital de imágenes; pueda aportar en algo a la producción y comercialización de este producto. Para un trabajo futuro se propone la integración del resto de defectos de café para complementar el sistema. También se propone la implementación de un dispositivo capaz de colaborar con este proceso. Es necesario hacer el muestreo riguroso de los granos de café para poder construir la base de datos.

Page 82: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 82

8. Bibliografía [1] Federación Nacional de Cafeteros, «Federación Nacional de Cafeteros,» 2014. [En línea]. Available: http://www.federaciondecafeteros.org/particulares/es/sala_de_prensa/detalle/produccion_de_cafe_de_colombia_llego_a_117_millones_de_sacos_en_los_ultimos/. [Último acceso: 17 agosto 2015]. [2]Hayashi S, Sakaue O, Kanuma T. Study on tomato harvesting robot. International symposium on fruit, nut and vegetable production engineering, 5. Davis, California (Estados Unidos). September 3-10. 1997. [3] Bulanon D, Kataoka T, Ota Y, Hiroma T. A machine Vision System for the Apple Harvesting Robot. Agricultural Engineering International: the CIGR Journal of Scientific Research and Development. Manuscript PM 01 006. Vol.III. [4] Recce M, Taylor J, Plebe A, Tropiano G. Visión and neural control for an orange harvesting robot. Deparment of Anatomy and Developemental Biology.University College London, London, UK. 1998. [5] Kondo N, Nishitsuji Y, Ling P,Ting K. Visual feedback guided Robotic Cherry Tomato Harvesting. Transactions of the ASAE. Vol. 39(6):2331-2338. 1996. [6] Guizard C, Gravoueille J, Crochon M. Automating potato sorting system using color machine vision. In: Sensoral 98 Colloque international sur les capteurs de qualité des produits agro alimentaires. Montpellier. 24-27 février 1998. Cemagref Editions, antony. pag. 185-197. 1998. [7] Molto E, Blasco J, Escuderos V, García J, Díaz R, Blasco M. Automatic inspection of olives using computer vision. In: Sensoral 98 Colloque international sur les capteurs de qualité des produits agro-alimentaries, Montpellier, 24-27 février 1998. [8] Qiu W, Shearer S. Maturity assessment of broccoli using the discrete fourier transform. Transactions of the ASAE. Vol. 35(6). 2057-2062. 1993. [9] Ghazanfari A, Irudayaraj J, Kusalik A, Romaniuk M. Machine Vision Grading of Pistachio Nuts Using Fourier Descriptors. J. Agric. Engng Res. 68, 247-252. 1997. [10] Paulus I, Busscher R, Schrevens E. Use of image analysis to human quality classification of aples. J. Agric. Engng Res. 68, 341-353. 1997. [11] Rayner H. Montes Condori y Juan H. Chuctaya Humari y Christian E. Portugal-Zambrano y Juan C. Gutierrez-Caceres. (2014). Automatic classification of physical defects in green coffee beans using CGLCM and SVM. En Latin American Computing Conference (CLEI). Perú: Universidad Nacional de San Agust´ın Arequipa. [12] I.Ruge, A. Pinzon, D. Moreno. (2011). Sistema de selección electrónico de café excelso basado en el color mediante procesamiento de imágenes. En Tecnura Vol. 16 No. 34. Bogotá Colombia: Universidad de Cundinamarca. [13] Díaz J.(2013). Diseño de un sistema de selección de café mediante la caracterización de imágenes. En ENGI Revista electrónica de la facultad de ingeniería. Universidad de Cundinamarca – Fusagasugá. [14] J. Palacio, M. Carvajal, D. Agudelo. (2011). Reconocimiento de granos de café empleando técnicas estadísticas de clasificación. En revista politécnica ISSN 1900-2351, Año 7, Número 12.(0). Medellín – Colombia. [15] BRIDSON, D., VERDCOURT, B. Coffea. In Flora of Tropical East Africa - Rubiaceae (Part 2). ed. RM Polhill, 703-727. A.A. Balkema, Rotterdam. 1988. [16] DAVIS, A.P.; GOVAERTS, R.; BRIDSON, D.M.; STOFFELEN, P. An annotated taxonomic conspectus of the genus Coffea (Rubiaceae). Bot Jour Linnean Society 152: 465-512. 2006.

Page 83: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 83

[17] ARCILA P., J.; JARAMILLO R., A. Relación entre la humedad del suelo y la floración y el desarrollo del fruto del cafeto. Chinchiná: CENICAFÉ, 2003. 6 p. (Avances Técnicos No. 311). [18] Federación Nacional de Cafeteros, «Federación Nacional de Cafeteros,» 2010. [En línea]. Available: http://www.cafedecolombia.com/particulares/es/sobre_el_cafe/. [Último acceso: 20 Abril 2016]. [19] Federación Nacional de Cafeteros, «Federación Nacional de Cafeteros,» 2014. [En línea]. Available: http://www.federaciondecafeteros.org/particulares/es/nuestro_cafe/el_cafe_de_colombia/. [Último acceso: 20 Abril 2016]. [20] Federación Nacional de Cafeteros, «Federación Nacional de Cafeteros,» 2010. [En línea]. Available: http://www.cafedecolombia.com/particulares/es/la_tierra_del_cafe/la_gente_del_cafe/. [Último acceso: 20 Abril 2016]. [21] FNC-Cenicafé, Manual del cafetero colombiano, LEGIS, 2013. [22] Federación Nacional de Cafeteros, «Federación Nacional de Cafeteros,» 2014. [En línea]. Available: http://www.federaciondecafeteros.org/particulares/es/nuestro_cafe/el_cafe_de_colombia/. [Último acceso: 20 Abril 2016]. [23] Federación Nacional de Cafeteros, «Federación Nacional de Cafeteros,» 2010. [En línea]. Available: http://www.cafedecolombia.com/particulares/es/el_cafe_de_colombia/un_cafe_sobresaliente/. [Último acceso: 20 Abril 2016]. [24] Universidad de Jaen, Detección de bordes en una imagen, España 2005. [25] J. V. Rebaza, Detección de bordes mediante el algoritmo de Canny, Trujillo: Universidad Nacional de Trujillo. 2014. [26] Segmentación por Umbralización - Método Otsu, Quilmes: Universidad Nacional de Quilmes , 2005. [27] Jayas D, Paliwal J, Visen N. Multilayer neural network for image analysis of agricultural products. J. Agric. Engng Res. 77(2), 119-128. 2000. [28] Pavlisdis T. Algorithms for shape analysis of contours and waveforms. IEEE Transactions on pattern analysis and machine intelligence. 2(4), 301-312. 1980. [29] R. M. Haralick, K. Shanmugam and I. Dinstein, "Textural Features for Image Classification," in IEEE Transactions on Systems, Man, and Cybernetics, vol. SMC-3, no. 6, pp. 610-621, Nov. 1973. [30] Gonzalez, R. C. , and Woods, P., Digital Image Processing, Addison Wesley, 2002. [31] Gonzales R, Woods R. Tratamniento Digital de imágenes. Addison-Wesley/díaz de Santos. 1996. [32] Prado A., Camas J., Laredo L. Sensopercepción del color. Medigraphic. 82(2):101-110 ; 2008. [33] Hunter Labs (1996). "Hunter Lab Color Scale". Insight on Color 8 9 (August 1-15, 1996). Reston, VA, USA: Hunter Associates Laboratories. [34] Duda R, Hart P, Stork D. Pattern Classification. John Wiley and Sons. USA. 1998. [35] J. A. M. Sanchez, Sistema de detección de intrusos en redes de comunicaciones utilizando redes neuronales, Choluca: Universidad de las Américas Puebla, 2004. [36]Platt J. Fast Training of Support Vector Machines using Sequential Minimal Optimization. Microsoft Research. Redmond. 2000. [37] Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. [38] Joanneum F., Cross-Validation Explained, Institute for Genomics and Bioinformatics, 2006. [39] N. Keen, Color Moments, University of Edingurgh, 10 febrero 2005. [40] S. Sergyan, "Color histogram features based image classification in content-based image retrieval

Page 84: Elaboración de base de datos de fotografías de granos de ...repository.udistrital.edu.co/bitstream/11349/3824/10/Trabajo de... · con métodos estándar de PDI y clasificación.

Página 84

[41] J. Zunic, Shape descriptors for image analysis, 2010. University of Exeter, Mathematical Institue SANU, Kneza Mihaila 36, Belgrade, Serbia. [42] Gonzalez, R. C., and Woods, P., Digital Image Processing, Addison Wesley, 2002. [43] D. Gadkari, Image quality analysis using glcm by dhanashree gadkari B.S.E.E. University of Pune, 2000. [44] Confusion Matrix, Department of Computer Science, University of Regina. [45] Nikon Europe B.V. «Ficha técnica Nikon D7100, » [En línea]. Available: http://www.nikon.es/es_ES/product/digital-cameras/slr/consumer/d7100#tech_specs. [Último acceso: 14 Enero 2016]. [46] Hall MA. Correlation-based Feature Selection for Machine Learning. PhD Thesis. University of Waikato, Department of Computer Science, Hamilton, New Zealand; 1998. [47] ROC graph, Department of Computer Science, University of Regina.