Bolsa de TT-IV em Mineração de Dados

Level 4-Technical Training Fellowship in Data Mining

Nº: 2615

Área de conhecimento: Ciência da Computação

Field of knowledge: Computer science

Nº do processo FAPESP: 2017/24086-2

FAPESP process: 2017/24086-2

Título do projeto: Gerenciamento de metadados de grandes volumes de dados de sensoriamento remoto

Project title: Management of metadata from remote sensing big data

Área de atuação: Mineração de Dados, Processamento de Imagens, Sensoriamento Remoto

Working area: Data Mining, Image Processing, Remote Sensing

Quantidade de vagas: 1

Number of places: 1

Início: 01/03/2019

Start: 2019-03-01

Pesquisador principal: Thales Sehn Körting

Principal investigator: Thales Sehn Körting

Unidade/Instituição: Divisão de Processamento de Imagens (INPE)

Unit/Instituition: Divisão de Processamento de Imagens (INPE)

Data limite para inscrições: 15/02/2019

Deadline for submissions: 2019-02-15

Publicado em: 30/01/2019

Publishing date: 2019-01-30

Localização: Av. dos Astronautas, 1758, São José dos Campos

Locale: Av. dos Astronautas, 1758, São José dos Campos

E-mail para inscrições: thales.korting@inpe.br

E-mail for proposal submission: thales.korting@inpe.br

  • Resumo Summary

    Um dos serviços disponibilizados gratuitamente pelo INPE para a comunidade científica é o catálogo de imagens de sensoriamento remoto (também chamadas de imagens de satélite). Este catálogo contém um volume de aproximadamente 120 TB de dados (imagens em formato GeoTIFF), e está em constante crescimento, em virtude dos satélites capturarem novas imagens diariamente. Por exemplo, o satélite CBERS-2B, enquanto operacional, trabalhava com uma taxa de geração de dados de 120 megapixels por minuto.

    Selecionando a região de São Paulo, capital, uma consulta no catálogo de imagens do INPE apresenta um total de 640 imagens da mesma região, obtidas desde meados de 1980. Considerando que cada imagem possui aproximadamente 7000 linhas por 7000 colunas, e ocupa em disco (em média) um total de 50 MB, isto representa um total de 32 GB de dados com potencial para mapeamento da mesma região, desde 1980 até os dias atuais. Para exemplificar, isto equivale a 8 mil músicas em formato MP3 (cada uma com 3.5 MB em média) ou ainda a 40 mil documentos de texto de tamanho médio 800 KB. No entanto, este volume de dados nem sempre é aproveitado de maneira integral. Em geral, os pesquisadores realizam buscas nos catálogos de imagens de satélite para fazer o download de cenas de interesse. Os critérios utilizados para a busca, na maior parte dos casos, são baseados em localização da imagem e tipo de sensor. Nenhum catálogo de imagens de satélite inclui parâmetros de busca mais sofisticados, como nos mecanismos de busca de imagens da internet (exemplo http://images.google.com/), que incluem o conteúdo presente nas imagens. No caso de sensoriamento remoto, um exemplo de buscas seria: encontre imagens de satélite que contenham áreas de vegetação, rios ou lagos, e poucas nuvens. Ou ainda: encontre imagens de satélite da Amazônia com áreas de desmatamento maiores que áreas de floresta. Assim, este projeto visa produzir uma metodologia de geração de metadados para imagens de satélite baseada em conteúdo, por meio de operações básicas de processamento de imagens, aliadas a técnicas de mineração de dados e gerenciamento de grandes volumes de dados.

    A free service provided by the Brazil's National Institute for Space Research (INPE) is the remote sensing images catalog. This catalog contains approximately 120 TB of data (images in GeoTIFF format), and keeps growing, because satellites keep observing the Earth's surface. For example, the CBERS-2B satellite, when it was working, produced 120 megapixels per minute. If we select the region of São Paulo city, Brazil, a search in the catalog will return about 640 available images, starting from 1980. Considering that each image has approximately 7000 lines x 7000 columns, occupying at least 50 MB in disk, the full result is equal to 32 GB of potential data for remote sensing applications. In terms of data volume, this is equal to 8.000 MP3 music files, or 40.000 text documents. However, this information is not fully used, because in general researchers look for certain images in the catalog, download them and do not use the others. The search keys in image catalogs are usually location and sensor , although modern search tools (like in http://images.google.com/) are not available in the context of remote sensing. Such modern tools include the content of the images, or relation between possible targets. In this case, a more sophisticated search could be: find remote sensing images with vegetation, lakes and without clouds. A second example could be: find remote sensing images in Amazonia with more deforestation than forest. Summarizing, this project aims to produce a methodology to compute metadata from remote sensing images to allow this kind of searching tools, based on image content. Such content could be explored using basic image processing techniques, coupled with data mining and database management tools and algorithms.