mais lidos
Engineering
Nubank lança programa de recompensas para hackers éticos em parceria com a BugCrowd dez 1
Data & Analytics
Retreinamento automático para modelos de aprendizado de máquina: dicas e lições aprendidas dez 19
Building Stories
Um jeito Nu de guiar: conheça o Sistema de Marca do Nu mar 17
Carreiras
Reunimos grandes mentes de diversas origens que permitem a discussão e o debate e melhoram a resolução de problemas.
Saiba mais sobre nossas carreiras
Esse post foi revistado por: Luis Moneda, Tiago Magalhães, Jessica Sousa, Cristiano Breuel e Henrique Lopes
Cientistas de Dados (CD) e Engenheiros de Aprendizado de Máquina (EAM) já existem há algum tempo (pelo menos pelos padrões tecnológicos), mas isso não significa que as definições e expectativas específicas para cada função sejam bem acordadas na indústria como um todo.
Longe disso. Muitas vezes as pessoas não têm a certeza de como diferem exatamente e onde se sobrepõem.
Neste post vamos compartilhar nossa visão sobre esse assunto, ou seja, o alcance dessas funções no Nubank.
Como você verá nas próximas seções, existem algumas dimensões a serem analisadas aqui, portanto, há uma resposta curta com os insights mais importantes e uma resposta longa onde explicamos o que acontece com mais detalhes.
Então, como as funções de CD e EAM são diferentes? Onde estão as semelhanças e onde elas diferem?
Resposta curta: É um espectro de habilidades e elas se sobrepõem
Resposta longa: Depende
Depende muito, principalmente do tipo de equipe da qual você faz parte.
Embora possam ser definidas diretrizes gerais para cada função, haverá muitas variações nas atividades típicas do dia a dia de um CD ou EAM no Nubank, principalmente dependendo do tipo de equipe em que trabalham.
As duas distinções mais importantes são geralmente:
Como regra geral, quanto mais experiência uma equipe tiver na aplicação de AM a problemas de negócios, menor será a sobreposição entre cientistas de dados e engenheiros de aprendizado de máquina.
Em equipes de maior maturidade, o foco geralmente muda de implementações ad hoc para soluções escaláveis e econômicas.
A sobreposição CD/AN está presente em todas as equipes. Embora os CDs passem a trabalhar em modelagem mais especializada à medida que a maturidade da equipe cresce, essas duas funções são fundamentais porque conectam o “mundo dos dados” ao “mundo dos negócios”.
Em equipes orientadas para tempo real/streaming, os EAMs estarão mais próximos dos engenheiros de software regulares, pois executarão muitas tarefas semelhantes aqui. Em contraste, os AMEs terão um escopo mais próximo dos engenheiros analíticos (EAs) e engenheiros de dados em equipes onde os modelos são executados em lote ou em trabalhos de longa duração.
O diagrama abaixo mostra o que entendemos serem essas diferenças de equipe. Iremos analisá-las em detalhes nas próximas seções.
Conheça nossas oportunidades
Tipos de equipes
1) Baixa maturidade, foco em tempo real
Tem muita ambiguidade em uma equipe que está trabalhando no seu primeiro modelo em tempo real. Ainda não está claro quais tarefas precisam ser realizadas, e por quem, o que resulta em muitas sobreposições entre funções. Espera-se que todos desempenhem um papel mais “generalista” durante todo o processo.
Pontos-chave
2) Alta maturidade, foco em tempo real
São equipes que já têm experiência na aplicação de modelos em tempo real a alguns problemas de negócios. As pessoas entendem a responsabilidade de cada função e quais são os desafios habituais. O foco muda da implementação para manutenção, otimização e eficiência.
Pontos-chave
3) Baixa maturidade, foco em lote
Equipes focadas em lote sem modelos de AM anteriores geralmente tentarão adaptar suas rotinas de dados (ou seja, fluxos ETL) e/ou gerenciadores de agendamento (por exemplo: cron jobs, airflow) para dar suporte à pontuação em lote. Mais uma vez, deve-se esperar muita sobreposição entre vários papéis.
Pontos-chave
4) Alta maturidade, foco em lote
Uma equipe focada em lotes e de alta maturidade já terá vários modelos em produção e a maioria dos problemas iniciais (implantação, integridade de dados, monitoramento) já terá sido resolvida para modelos individuais, então o foco se volta para escalonamento/eficiência. A sobreposição entre CD/EAM é diminuída.
Pontos-chave
5) Equipes horizontais/de apoio
Existem engenheiros de aprendizado de máquina (raramente, também cientistas de dados) que trabalham em equipes de suporte horizontais. É difícil encaixá-los nas descrições acima, então o que acontece com eles?
Bem, antes de mais nada, o que queremos dizer com equipes horizontais?
No domínio da ciência de dados/aprendizado de máquina, as equipes horizontais são equipes cruzadas que trabalham com várias unidades de negócios ao mesmo tempo, fornecendo suporte e construindo ferramentas e plataformas para uso do resto da empresa.
Recentemente, isso também é conhecido como MLOps (Operações de AM).
Pontos-chave
Descrições de funções sugeridas
Com todas estas especificidades em mente e independentemente do tipo de equipe, ainda existem algumas atividades centrais que estão inequivocamente no âmbito dos Cientistas de Dados e dos Engenheiros de Aprendizado de Máquina, respectivamente.
Cientista de dados: Descrições de funções sugeridas
Deve saber fazer
Pode fazer
Engenheiro de aprendizado de máquina: Descrições de funções sugeridas
Deve saber fazer
Pode fazer
Relacionado
Outras funções
Uma empresa moderna é composta por diversas funções, e claro que não incluímos todas elas nos diagramas. Entre aqueles que podem interagir de alguma forma com CD/EAMs, temos:
Conheça nossas oportunidades