¿Ha oído hablar alguna vez de Espoo, Finlandia? Si no es finlandés, quizá no. Es una ciudad de 314.000 habitantes en el sur de Finlandia, quizá más famosa internacionalmente por la Universidad Aalto.

Pero, si eres un investigador que trabaja en aprendizaje profundo basado en modelos LiDAR 3D, puede que estés a punto de conocer íntimamente la ciudad, o al menos 10 km2 de ella.

Esto se debe a la reciente publicación del conjunto de datos Extended Classification of LiDAR for AI Recognition, también conocido como ECLAIR.

Relleno ECLAIR

ECLAIR es un conjunto de datos de código abierto que cubre un área contigua de más de 10 km2de Espoo (Finlandia) y que consta de más de 500 millones de puntos capturados por LiDAR de gran precisión y largo alcance.

Captada desde el aire por helicóptero utilizando Heliscope, la captura de datos se centró en las líneas de transmisión eléctrica, que por consiguiente dan forma a la red de nubes de puntos. El conjunto de datos se ha enriquecido con anotaciones semánticas puntuales. En resumen, ECLAIR es un gemelo digital de alta fidelidad y rico en datos de la red de tendido eléctrico de la zona objetivo.

Nunca hay suficientes ECLAIR

Cualquiera que tenga un mínimo interés en la inteligencia artificial (IA) se habrá maravillado ante el alcance y la velocidad de los avances de los últimos años, en los que empresas como Chat GPT y LaMDA se han convertido en palabras de moda, cuando no en nombres conocidos.

Sin embargo, estos avances se han limitado en gran medida al campo de los grandes modelos lingüísticos (LLM) y su éxito se ha debido en gran medida a la gran variedad de extensos conjuntos de datos disponibles para que la comunidad investigadora se entrene con ellos.

Cuando se trata de datos visuales y espaciales en 3D -específicamente LiDAR 3D- no se dispone de conjuntos de datos tan extensos. Por ejemplo, el conjunto de datos CommonCrawl utilizado por el modelo LLaMA (LLM de Meta) abarca aproximadamente 6 petabytes. En cambio, el conjunto de datos DALES, que incluye 40 escenas LiDAR aéreas en un área de 10 km2, sólo ocupa unos pocos gigabytes. 

No se trata de criticar conjuntos de datos como DALES, que ha sido una herramienta inestimable para la comunidad investigadora, sino de señalar la disparidad entre lo que está a disposición de los investigadores de la comunidad LLM y los que trabajan con LiDAR 3D. Esto es comprensible hasta cierto punto: es costoso y laborioso llevar a cabo un escaneado aéreo, e incluso el escaneado terrestre es más costoso que ensamblar conjuntos de datos puramente basados en el lenguaje. En el futuro, la recopilación de datos mediante vehículos aéreos no tripulados (UAV/drones) puede ayudar a reducir el coste de la adquisición de datos, pero hoy en día el hecho sigue siendo: hay una escasez de datos disponibles en comparación con otros campos del aprendizaje profundo.

Para que la investigación y la innovación continúen y se aceleren, se necesitan más conjuntos de datos y más ricos.

Por qué el mundo necesita más ECLAIR

¿Por qué es importante? La comprensión de escenas 3D en exteriores es esencial para muchas aplicaciones de visión por ordenador, desde la conducción autónoma a la robótica, pasando por la realidad aumentada y virtual. En Sharper Shape, utilizamos estos datos para impulsar avances en la inspección de líneas eléctricas y la gestión de servicios públicos. Igualmente, los planificadores urbanos que desarrollan infraestructuras como carreteras y puentes podrían aplicar enfoques similares, o incluso utilizar nubes de puntos detalladas y anotadas de edificios para identificar las estructuras existentes, comprender la densidad urbana y planificar nuevos desarrollos en consecuencia.

Un paso más allá en el futuro, cabe imaginar que las autoridades puedan utilizar estos conjuntos de datos para comprender y desarrollar la resistencia de las infraestructuras críticas ante catástrofes naturales como inundaciones e incendios forestales, o para reforzar los esfuerzos de conservación con un conocimiento más granular de la vegetación y los espacios verdes urbanos.

Del mismo modo, conjuntos de datos como ECLAIR podrían integrarse con dispositivos de Internet de las cosas (IoT) y sistemas de gestión urbana para optimizar las funciones y servicios de la ciudad, desde el tráfico hasta la recogida de basuras. La "ciudad inteligente" es un concepto tentador desde hace algunos años, pero es la IA entrenada en grandes conjuntos de datos la que puede hacerlo realidad.

En el contexto de la densificación urbana y la necesidad de mitigar los riesgos del cambio climático y adaptarse a ellos, los modelos de aprendizaje profundo aplicados a estos conjuntos de datos LiDAR 3D aéreos ofrecen numerosas posibilidades. Estas herramientas pueden ser aún más potentes si se combinan con conjuntos de datos complementarios, como LiDAR 3D capturados en tierra e imágenes aéreas por satélite.

Todos estos casos de uso dependen del desarrollo de herramientas de IA que puedan generalizarse con precisión a escenarios del mundo real. Esto, a su vez, depende de la disponibilidad de conjuntos de datos amplios y ricos que puedan utilizarse para experimentar y entrenar modelos innovadores de aprendizaje profundo.

Si eso le parece abstracto, piense en el 10 de junio de 2001, con el lanzamiento de Google Earth. Recuerde el entusiasmo con el que se acogió el programa, el asombro de poder explorar un modelo preciso de todo el mundo con un PC normal. En teoría, la tecnología LiDAR 3D podría mejorar ese modelo y convertirlo en un gemelo digital del mundo en 3D, rico en anotaciones, que crearía una caja de arena y herramientas para investigadores, desarrolladores y exploradores por igual. Pero hoy podemos empezar por Espoo (Finlandia).

El conjunto de datos ECLAIR puede consultarse en GitHub aquí [LINK]. Más información en el artículo: ECLAIR: A High-Fidelity Aerial LiDAR Dataset for Semantic Segmentation en el sitio web de Sharper Shape.

Por Anand Umashankar, Director Técnico, Sharper Shape