Bolsa de PD em Ciência de Dados

Post-doctoral fellowship in Data Science

Nº: 1560

Área de conhecimento: Astronomia

Field of knowledge: Astronomy

Nº do processo FAPESP: 2011/51680-6

FAPESP process: 2011/51680-6

Título do projeto: Aprendizado de Máquina e Astronomia: Aplicações nos Levantamentos J/S-PLUS e J-PAS

Project title: Machine Learning and Astronomy: Applications to the J/S-PLUS and J-PAS Surveys

Área de atuação: Ciência de Dados

Working area: Data Science

Pesquisador responsável: Claudia Lucia Mendes de Oliveira

Principal investigator: Claudia Lucia Mendes de Oliveira

Unidade/Instituição: Instituto de Astronomia, Geofísica e Ciências Atmosféricas / USP

Unit/Instituition: Instituto de Astronomia, Geofísica e Ciências Atmosféricas / USP

Data limite para inscrições: 08/07/2017

Deadline for submissions: 2017-07-08

Publicado em: 10/05/2017

Publishing date: 2017-05-10

Localização: R. do Matão, 1226 - Butantã, São Paulo - SP, 05508-090

Locale: R. do Matão, 1226 - Butantã, São Paulo - SP, 05508-090

E-mail para inscrições: jrgodoy@usp.br

E-mail for proposal submission: jrgodoy@usp.br

  • Resumo Summary

    A Física Javalambre do Universo em Aceleração (J-PAS) e seus levantamentos associados J-PLUS e S-PLUS estão entre os levantamentos mais promissores para os próximos anos. Estes projetos são um esforço combinado entre instituições brasileiras e espanholas, com o S-PLUS sendo coordenado pelo IAG-USP e com contribuições de várias outras instituições brasileiras. Em contraste com vários levantamentos anteriores, os quais usaram somente poucos filtros de banda larga, estes levantamentos adicionaram diversos filtros de banda estreita que podem melhor caracterizar o espectro dos objetos observados.

    O levantamento S-PLUS é de especial interesse para a Astronomia brasileira, visto que mapeará regiões do hemisfério sul nunca antes observadas, em 12 bandas. Neste contexto, onde uma abundância de novos dados se tornará disponível, técnicas de Aprendizado de Máquina (ML) podem ajudar a processar novos dados de forma mais adequada. Tipicamente, problemas ML consistem em estimar as relações de dependência entre uma variável alvo e um conjunto de medidas chamadas classes. Muitos problemas fundamentais em Astronomia podem ser formulados como problemas ML.

    Embora existam trabalhos que aplicaram métodos ML a estes dados astronômicos, as características dos levantamentos J-PAS/J-PLUS/S-PLUS nos possibilitam a aplicação de métodos muito diferentes e mais complexos. Com dúzias de filtros de banda estreita, J-PAS amostrará o espectro dos objetos com muito mais detalhe do que os levantamentos prévios. Mesmo J-PLUS e S-PLUS, que contêm somente 7 filtros de banda estreita e 5 bandas largas, já possuem mais informação detalhada do que levantamentos prévios.

    Este projeto explorará pelo menos três tarefas fundamentais que podem ser vistas como problemas ML: separação estrela-galáxia (e possivelmente quasar), classificação de tipo de galáxia e separação quasar-estrela. Estas tarefas podem beneficiar-se de dados adicionais dos levantamentos estudados e são passos necessários para estudar fenômenos mais complexos. Além disso, podemos usar também técnicas de ML para criar dados eficientemente classificados para o hemisfério sul. Implementações de todos os métodos desenvolvidos serão disponíveis livremente.

    Projetos possíveis onde aplicar ML:

    Classificação galáxia / estrela
    A separação estrela/galáxia é um problema encontrado em levantamentos fotométricos grandes. Embora isto possa parecer um problema simples de se resolver no Universo próximo (e brilhante), onde características morfológicas podem ser usadas, em magnitudes mais fracas estrelas e galáxias podem parecer como fontes pontuais. O objetivo deste projeto é melhorar a separação estrela-galáxia em levantamentos multi-banda tais como S-PLUS/J-PLUS e J-PAS.

    Muitos trabalhos usam informação reduzida presente em catálogos astronômicos. Estes estão usualmente sob a forma de média e desvio-padrão das magnitudes em cada banda. Assim, características podem ser manualmente computadas a fim de melhorar resultados. Diagramas cor-cor, por exemplo, têm sido empregados em estudos prévios para discriminar estrelas e galáxias usando WISE e dados 2MASS. Outros estudos têm empregado Deep Learning para executar esta tarefa diretamente a partir de imagens ópticas. A construção de modelos que interagem com o conhecimento astronômico pode melhorar a performance e revelar informação valiosa sobre os objetos e fenômenos observados. Planejamos aplicar estas técnicas e outras nos levantamentos S-PLUS/J-PLUS/J-PAS.

    Não há atualmente dados classificados para a maioria dos objetos que serão observados por estes levantamentos. Assim, podemos precisar empregar técnicas de aprendizado ativo ou de transferência para iniciar o uso de ML para classificar os objetos observados. Além disso, muitos destes levantamentos contêm diversos filtros de banda estreita além dos filtros de banda larga usados em levantamentos anteriores. Podemos utilizar espectros oriundos de objetos conhecidos para simular a resposta para estes filtros a fim de calibrar nossos modelos. Neste contexto, técnicas envolvendo a regularização ou seleção de característica tornam-se relevantes. Nem todos os filtros serão úteis para a tarefa de classificação estrela-galáxia e a determinação de quais são úteis em diferentes magnitudes pode ser uma contribuição relevante.

    Classificação estrela / quasar
    Para muitas aplicações em Astronomia, é muito interessante identificar grandes números de quasares (por exemplo, estudar a evolução da função luminosidade) e também os quasares mais brilhantes no céu (para usá-los como um farol para estudos do meio interestelar). O esforço planejado aqui não é apenas para usar o aprendizado de máquina na busca por novos quasares em levantamentos multi-banda como S-PLUS/J-PLUS/J-PAS, mas também para tentar recuperar objetos puntuais brilhantes saturados e incluí-los no estudo.

    Processamento de imagens será uma parte majoritária neste trabalho, dado que gostaríamos de recuperar as magnitudes de todas as fontes puntuais em saturação nas imagens do S-PLUS a partir das formas e fluxos nas asas. Uma vez recuperadas as magnitudes, o trabalho continuará usando as características extraídas das imagens. É fácil diferenciar estrelas de quasares dado seus espectros muito diferentes, exceto no final tênue da distribuição. Neste caso, quasares também se confundem com galáxias. Aqui, técnicas de aprendizado de máquina podem ajudar.

    A detecção das fontes pontuais mais brilhantes pode explorar métodos de detecção não usuais e inéditos. Dada uma amostra contendo exemplos de somente uma classe (incluindo aqueles muito distantes da média ou não), estes métodos focam identificar se outras amostras vêm da mesma distribuição dos dados de treinamento. Podemos usar isto para separar estrelas de quasares (que são vistos como outliers) e para identificar objetos muito brilhantes (com estrelas e quasares regulares sendo inliers).

    Classificação de galáxias
    Cortesi et al. (em preparação) e Ferrari et al. (em preparação) usaram recentemente dois programas que podem computar parâmetros de forma de galáxias para obter uma tabela com mais de 50 parâmetros paramétricos e não-paramétricos para 600 galáxias observadas com CALIFA. A colaboração CALIFA também publicou uma lista de dúzias de parâmetros para estas mesmas galáxias, não somente a partir de fotometria das galáxias, mas também derivados de espectroscopia. Gostaríamos de explorar estas diversas tabelas de parâmetros derivados da fotometria para estimar a cinemática dos objetos. A amostra deve ser dividida em duas, onde metade seria usada como o conjunto de treinamento e o restante como conjunto de teste.

    Estamos em busca de um pós-doc para desenvolver as tarefas acima, idealmente com formação em Ciências da Computação ou Matemática, mas também PhDs em Astronomia e Física serão bem-vindos para candidatar-se.

    The Javalambre Physics of the Accelerating Universe (J-PAS) survey and its accompanying surveys J-PLUS and S-PLUS are among the most promising surveys for the next few years. These projects are a combined effort between Brazilian and Spanish institutions, with S-PLUS being coordinated by IAG-USP with contributions from several other Brazilian institutions. In contrast to many previous surveys, which used only a few broad band filters, these surveys add several narrow band filters that can better characterize the spectra of observed objects.

    The S-PLUS survey is of special interest to the Brazilian Astronomy, as it will map regions of the southern hemisphere never observed before, in 12 bands. In this context, where an abundance of new data will become available, Machine Learning (ML) techniques may help to process the raw data into a more suitable form. Typically, ML problems consist on estimating dependency relations between a target variable and a set of measurements called features. Many fundamental problems in Astronomy can be formulated as ML problems.

    Although there have been works that applied ML methods to these astronomical data, the characteristics of the J-PAS/J-PLUS/S-PLUS surveys enable us to apply very different and more complex methods. With dozens of narrow band filters, J-PAS will sample the spectra of the objects with much more detail than previous surveys. Even J-PLUS and S-PLUS, which contain only 7 narrow band filters and 5 broad bands, already have more detailed information than previous surveys.

    This project will explore at least three fundamental tasks that can be viewed as ML problems: star-galaxy (and possibly quasar) separation, galaxy type classification and quasar-star separation. These tasks may benefit from the additional data from the studied surveys and are necessary steps to study more complex phenomena. In addition, we may also use ML techniques to create efficiently labeled data for the southern hemisphere. Implementations of all methods developed will be freely available.

    Possible projects where to apply ML:

    Galaxy / star classification

    Star-galaxy separation is a problem encountered in recent large photometric surveys. Although this may seem an easy problem to solve at the nearby (and bright) universe, where morphological features can be used, at fainter magnitudes both stars and galaxies may look like points sources. The objective of this project is to improve star-galaxy separation in multi-band surveys such as S-PLUS/J-PLUS and J-PAS.

    Many works use reduced information present in astronomical catalogues. These are usually in the form of the mean and standard deviation of the magnitudes in each band. Then, features may be manually computed to improve results. Color-color diagrams, for instance, has been used in previous studies to discriminate star and galaxies using WISE and 2MASS data. Other studies have employed Deep Learning to do this task directly from optical images. Building ML models that interact with the astronomical knowledge can improve performance and reveal valuable information about the observed objects and phenomena. We plan to apply these techniques and others in the S-PLUS/J-PLUS/J-PAS surveys.

    There is currently no labeled data for most of the objects that will be observed by these surveys. Thus, we may need to employ active or transfer learning techniques to start using ML to classify the observed objects. Also, both these surveys contain several narrow band filters in addition to the broad band filters used in previous surveys. We may use spectra from known objects to simulate the response to these filters in order to calibrate our models. In this context, techniques involving regularization or feature selection become relevant. Not all narrow band filters will be useful for the star-galaxy classification task and determining which are useful in different magnitudes may be a relevant contribution.

    Star / quasar classification
    For several applications in Astronomy, it is very interesting to identify large numbers of quasars (e.g. to study the evolution of the luminosity function) and also the brightest quasars on the sky (to use them as a beacon for studies of the interstellar medium). The effort planned here is not just to use machine learning for finding new quasars in multi-band surveys such as S-PLUS/J-PLUS/J-PAS but also to attempt to recover bright saturated pointed objects for including in the study.

    Image processing will be a major part of this work, given that we would like to recover the magnitudes of all saturated point sources in the S-PLUS images from the shapes and fluxes in the wings. Once the magnitudes are recovered, the work will continue using the features extracted from the images. It is fairly easy to differentiate stars from quasars given their very different spectra, except in the faint end of the distribution. In that case, quasars also get confused with galaxies. Here it is where machine learning techniques may help.

    The detection of the brightest point sources may exploit outlier detection methods and novelty detection methods. Given a sample containing examples of only one class (including outliers or not), these methods focus on identifying whether other samples come from the same distribution as the training data. We can use this both for separating stars from quasars (which are viewed as outliers) and for identifying very bright objects (with both stars and "regular" quasars being inliers).

    Classification of galaxies
    Cortesi et al. (in preparation) and Ferrari et al. (in preparation) have recently used two programs which can compute shape parameters of galaxies to obtain tables with more than 50 non parametric and parametric parameters for 600 galaxies observed with CALIFA. The CALIFA collaboration themselves also published a list of dozens of parameters for these same galaxies, which are not only from the photometry of the galaxies but also derived from the spectroscopy. We would like to exploit these several tables of parameters derived from the photometry to estimate the kinematics of the objects. The sample should be divided into two, where half will be used as the training set and the remaining as the test set.

    We are looking for a pos-doc to develop the tasks above, ideally with background in Computer Sciences or Mathematics but also Ph.Ds in Astronomy and Physics will be welcome to apply.

    This opportunity is open to candidates of any nationalities. The selected candidate will receive a FAPESP's Post-Doctoral fellowship in the amount of R$ 6.819,30 monthly and a research contingency fund, equivalent to 15% of the annual value of the fellowship which should be spent in items directly related to the research activity.

    More information about the fellowship is at: www.fapesp.br/en/5427.