O novo modelo de base de dados da IBM Research e da Agência Espacial Europeia combina insights de imagens de satélites para fornecer uma compreensão intuitiva do nosso planeta
Que informações um modelo de IA precisaria para realmente entender nosso planeta? Essa foi a pergunta que pesquisadores da IBM Research, Agência Espacial Europeia (ESA), KP Labs, Centro de Supercomputação de Jülich (JSC) e Agência Espacial Alemã (DLR) buscaram responder este ano, como parte de uma iniciativa liderada pela ESA para melhorar o acesso a modelos fundacionais na comunidade de observação da Terra.
Por isso, IBM e ESA lançaram o TerraMind, um novo modelo de observação da Terra que o grupo disponibilizou em código aberto na plataforma Hugging Face. Ele foi pré-treinado no TerraMesh, o maior conjunto de dados geoespaciais disponível, criado pelos pesquisadores como parte do projeto TerraMind.
Um líder em desempenho de modelos geoespaciais
O TerraMind possui uma arquitetura única de codificador-decodificador baseada em transformadores simétricos, projetada para trabalhar com entradas baseadas em pixels, tokens e sequências, e aprender correlações entre diferentes modalidades. Apesar de ter sido treinado com 500 bilhões de tokens, o TerraMind é um modelo pequeno e leve, usando 10 vezes menos recursos computacionais do que modelos padrão para cada modalidade. Isso significa que os usuários podem implantá-lo em larga escala a um custo mais baixo, reduzindo também o consumo de energia durante a inferência.
“Para mim, o que diferencia o TerraMind é sua capacidade de ir além do simples processamento de observações da Terra com algoritmos de visão computacional. Ele desenvolve uma compreensão intuitiva dos dados geoespaciais e do nosso planeta. Atualmente, o TerraMind é o modelo fundacional de IA com melhor desempenho para observação da Terra, de acordo com benchmarks bem estabelecidos na comunidade”,
disse Juan Bernabé-Moreno, diretor da IBM Research no Reino Unido e Irlanda e líder de Descoberta Acelerada da IBM para clima e sustentabilidade.
Em uma avaliação feita pela ESA, o TerraMind foi comparado com 12 modelos fundacionais populares de observação da Terra no PANGAEA, um benchmark padrão da comunidade, para medir o desempenho do modelo em tarefas do mundo real, como classificação de cobertura do solo, detecção de mudanças, monitoramento ambiental e análise multissensorial e multitemporal. O benchmark mostrou que o TerraMind superou outros modelos nessas tarefas por uma margem de 8% ou mais.
“O TerraMind combina insights de diversas modalidades de dados de treinamento para aumentar a precisão de seus resultados. A capacidade de trazer intuitivamente informações contextuais e gerar cenários inéditos é um passo crucial para liberar o valor dos dados da ESA. Em comparação com modelos concorrentes, ele pode oferecer uma compreensão mais profunda da Terra para pesquisadores e empresas”,
disse Simonetta Cheli, diretora dos Programas de Observação da Terra da ESA e chefe do ESRIN.
Na prática: nove milhões de pontos de dados, nove modalidades diferentes
Durante a criação do conjunto de dados, os pesquisadores incluíram dados de todos os biomas, tipos de uso e cobertura da terra e regiões, permitindo que o modelo fosse aplicável a qualquer caso de uso em todo o mundo, com viés mínimo.
O conjunto de dados inclui 9 milhões de amostras distribuídas globalmente, alinhadas espaço-temporalmente, abrangendo nove modalidades principais de dados – incluindo observações feitas por sensores em satélites, geomorfologia da superfície terrestre, características da superfície importantes para a vida (como vegetação e uso do solo) e elementos básicos para descrever locais e características (latitude, longitude e descrições textuais simples).
Autoajuste para criar dados artificiais
Do ponto de vista técnico, o TerraMind é inovador mesmo além do domínio da observação da Terra. Ele é o primeiro modelo gerativo multi-modal “any-to-any” para observação da Terra. Isso significa que ele pode auto-gerar dados de treinamento adicionais a partir de outras modalidades — uma técnica que os pesquisadores da IBM denominaram “Thinking-in-Modalities” (TiM) tuning. O TiM é uma abordagem nova para modelos de visão computacional, semelhante ao “chain-of-thought” nos modelos de linguagem. Evidências empíricas demonstram que o ajuste TiM pode melhorar o desempenho do modelo além do ajuste fino tradicional.
“O ajuste TiM aumenta a eficiência dos dados ao auto-gerar dados de treinamento adicionais relevantes para o problema — por exemplo, ao instruir o modelo a ‘pensar’ sobre cobertura do solo ao mapear corpos d’água. Essa inovação pode liberar uma precisão sem precedentes ao especializar o TerraMind para casos de uso específicos,”
disse Johannes Jakubik, cientista de pesquisa da IBM baseado em Zurique.
Construindo sobre uma base sólida
Aplicar técnicas de IA e aprendizado de máquina a dados relacionados à Terra, incluindo padrões de uso do solo e dados de satélites, não é novidade. Modelos fundacionais geoespaciais existentes, como aqueles desenvolvidos pela IBM e NASA, permitem que cientistas interpretem esses dados — ajudando-os em aplicações como agricultura de precisão, gestão de desastres naturais, monitoramento ambiental (de água, calor e secas), planejamento urbano e regional, monitoramento de infraestrutura crítica, florestas e biodiversidade, entre outros.
No entanto, esses modelos existentes às vezes processam dados de fontes que não conseguem capturar toda a complexidade das condições do nosso planeta. Embora satélites orbitem a Terra e forneçam dados contínuos, eles revisitam a mesma localização a cada cinco dias. Isso é suficiente para prever tendências climáticas de longo prazo, mas para eventos de curto prazo, como incêndios florestais e inundações, cada dia conta, e os pesquisadores precisam dos dados mais recentes para usar modelos de IA para prever riscos.
Para resolver esse desafio, os pesquisadores da IBM combinaram seu conhecimento técnico em preparação de dados e construção de modelos fundacionais com os valiosos dados de observação da Terra da ESA e sua expertise em avaliação de modelos, desenvolvendo um novo modelo de IA multi-modal para observação da Terra. O treinamento foi realizado usando a infraestrutura e a experiência do Centro de Supercomputação de Jülich. Outros parceiros também contribuíram para o desenvolvimento geral do modelo, conduzindo experimentos de escalonamento e preparando aplicações de downscaling.
Um esforço contínuo
O TerraMind faz parte do esforço da IBM para usar tecnologia de IA para explorar e proteger nosso planeta. Atualmente, governos, empresas e instituições públicas estão usando os modelos Prithvi (IBM-NASA) e modelos especializados Granite (IBM) para examinar mudanças em padrões de desastres, biodiversidade e uso do solo, bem como para detectar e prever padrões climáticos severos. Especialistas da NASA também participaram da validação do TerraMind, como parte da iniciativa de Ciência Aberta da NASA. Todos os modelos geoespaciais podem ser encontrados na Hugging Face e no IBM Geospatial Studio.
Versões ajustadas do TerraMind para resposta a desastres e outros casos de uso de alto impacto serão adicionadas ao repositório IBM Granite Geospatial no próximo mês, para permitir que comunidades e empresas aproveitem o poder dessa nova geração de análises de observação da Terra.
“Com a ciência da observação da Terra, tecnologia e colaboração internacional, estamos desbloqueando todo o potencial dos dados espaciais para proteger nosso planeta. Este projeto é um exemplo perfeito de como a comunidade científica, grandes empresas de tecnologia e especialistas podem colaborar para aproveitar essa tecnologia em benefício das ciências da Terra. A magia acontece quando especialistas em dados de observação da Terra, aprendizado de máquina, ciência de dados e engenharia de HPC se unem”,
disse Nicolas Longepe, cientista de dados da ESA.
Destaques da última edição: