La detección de redes terciarias sobre imágenes satelitales con su respectiva georreferenciación requiere usar un enfoque de segmentación semántica, el cual requiere de clasificar cada píxel de la imagen y por lo cual se considera la técnica de
computer vision más compleja de desarrollar.
Existen diferentes redes y arquitecturas que se han planteado para resolver este problema, sin embargo existe una arquitectura que se destaca sobre las demás debido a que logra solucionar los principales retos que las redes neuronales convolucionales tradicionales enfrentan para realizar esta tarea.
La red U-Net es la más usada en el campo de la segmentación semántica, debido a que a diferencia de otros algoritmos CNN, la red U-Net asume una relación temporal y espacial entre pixeles y características, teniendo en cuenta que un píxel aleatorio puede no representar nada, pero tomado con sus vecinos, puede representar un objeto. Además, esta red combina características de diferentes regiones espaciales de la imagen y le permite localizar con mayor precisión las regiones de interés, y es una arquitectura desarrollada bajo código abierto (licencia MIT) que permite usar la red y realizar modificaciones sin restricción.
La red U-Net consta de 2 partes, la primera parte es una
red neuronal convolucional "clásica" que escanea la imagen, extrae patrones de ella y los combina en funciones de alta resolución. La segunda parte usa esta información extraída para recrear una
imagen binaria completa con coherencia temporal y espacial. El resultado es una imagen de salida completa que solo contiene 0 y 1 que delimitan el fondo respecto del objeto que queremos discernir.
Fuente:
U-Net Image Segmentation