Com modelos generativos de IA, os pesquisadores combinaram dados robóticos de diferentes fontes para ajudar os robôs a aprenderem melhor.
Digamos que você queira treinar um robô para que ele entenda como usar ferramentas e possa aprender rapidamente a fazer reparos em sua casa com um martelo, uma chave inglesa e uma chave de fenda. Para fazer isso, você precisaria de uma enorme quantidade de dados demonstrando o uso da ferramenta.
Os conjuntos de dados robóticos existentes variam amplamente em modalidade – alguns incluem imagens coloridas, enquanto outros são compostos de impressões táteis, por exemplo. Os dados também podem ser coletados em diferentes domínios, como simulação ou demonstrações humanas. E cada conjunto de dados pode capturar uma tarefa e um ambiente únicos.
É difícil incorporar com eficiência dados de tantas fontes em um modelo de aprendizado de máquina; muitos métodos usam apenas um tipo de dados para treinar um robô. Mas os robôs treinados desta forma, com uma quantidade relativamente pequena de dados específicos de tarefas, são muitas vezes incapazes de realizar novas tarefas em ambientes desconhecidos.
Num esforço para treinar melhores robôs multifuncionais, os pesquisadores do MIT desenvolveram uma técnica para combinar múltiplas fontes de dados em domínios, modalidades e tarefas usando um tipo de IA generativa conhecida como modelos de difusão.
Eles treinam um modelo de difusão separado para aprender uma estratégia, ou política, para concluir uma tarefa usando um conjunto de dados específico. Em seguida, eles combinam as políticas aprendidas pelos modelos de difusão em uma política geral que permite que um robô execute múltiplas tarefas em vários ambientes.
Em simulações e experimentos do mundo real, essa abordagem de treinamento permitiu que um robô executasse múltiplas tarefas de uso de ferramentas e se adaptasse a novas tarefas que não via durante o treinamento. O método, conhecido como Composição de Políticas (PoCo), levou a uma melhoria de 20% no desempenho das tarefas quando comparado às técnicas básicas.
“Abordar a heterogeneidade em conjuntos de dados robóticos é como um problema do ovo de galinha. Se quisermos usar muitos dados para treinar políticas gerais de robôs, primeiro precisamos de robôs implementáveis para obter todos esses dados. Acho que aproveitar todos os dados heterogêneos disponíveis , semelhante ao que os pesquisadores fizeram com o ChatGPT, é um passo importante para o campo da robótica”, diz Lirui Wang, estudante de graduação em engenharia elétrica e ciência da computação (EECS) e autor principal de um artigo sobre PoCo.
Os co-autores de Wang incluem Jialiang Zhao, estudante de graduação em engenharia mecânica; Yilun Du, estudante de pós-graduação do EECS; Edward Adelson, professor John e Dorothy Wilson de Ciência da Visão no Departamento de Ciências do Cérebro e Cognitivas e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e o autor sênior Russ Tedrake, professor da Toyota de EECS, Aeronáutica e Astronáutica e Engenharia Mecânica, e membro do CSAIL. A pesquisa será apresentada na Conferência Robotics: Science and Systems.
Combinando conjuntos de dados diferentes
Uma política robótica é um modelo de aprendizado de máquina que recebe informações e as utiliza para executar uma ação. Uma maneira de pensar sobre uma política é como uma estratégia. No caso de um braço robótico, essa estratégia pode ser uma trajetória ou uma série de poses que movem o braço de modo que ele pegue um martelo e o use para martelar um prego.
Os conjuntos de dados usados para aprender políticas robóticas são normalmente pequenos e focados em uma tarefa e ambiente específicos, como embalar itens em caixas em um depósito.
“Cada armazém robótico está gerando terabytes de dados, mas eles pertencem apenas à instalação específica do robô que trabalha nesses pacotes. Não é ideal se você quiser usar todos esses dados para treinar uma máquina geral”, diz Wang.
Os pesquisadores do MIT desenvolveram uma técnica que pode pegar uma série de conjuntos de dados menores, como aqueles coletados em muitos armazéns robóticos, aprender políticas separadas de cada um e combinar as políticas de uma forma que permita que um robô generalize para muitas tarefas.
Eles representam cada política usando um tipo de modelo generativo de IA conhecido como modelo de difusão. Os modelos de difusão, frequentemente usados para geração de imagens, aprendem a criar novas amostras de dados que se assemelham a amostras em um conjunto de dados de treinamento, refinando iterativamente sua saída.
Mas em vez de ensinar um modelo de difusão para gerar imagens, os pesquisadores ensinam-no a gerar uma trajetória para um robô. Eles fazem isso adicionando ruído às trajetórias em um conjunto de dados de treinamento. O modelo de difusão remove gradualmente o ruído e refina sua saída em uma trajetória.
Essa técnica, conhecida como Política de Difusão, foi introduzida anteriormente por pesquisadores do MIT, da Universidade de Columbia e do Toyota Research Institute. PoCo se baseia neste trabalho de Política de Difusão.
A equipe treina cada modelo de difusão com um tipo diferente de conjunto de dados, como um com demonstrações de vídeo humanas e outro obtido a partir da teleoperação de um braço robótico.
Em seguida, os investigadores realizam uma combinação ponderada das políticas individuais aprendidas por todos os modelos de difusão, refinando iterativamente os resultados para que a política combinada satisfaça os objectivos de cada política individual.
Maior que a soma de suas partes
“Um dos benefícios desta abordagem é que podemos combinar políticas para obter o melhor dos dois mundos. Por exemplo, uma política treinada em dados do mundo real pode ser capaz de alcançar mais destreza, enquanto uma política treinada em simulação pode ser capaz para conseguir mais generalização”, diz Wang.
Como as políticas são treinadas separadamente, é possível misturar e combinar políticas de difusão para obter melhores resultados para uma determinada tarefa. Um usuário também pode adicionar dados em uma nova modalidade ou domínio treinando uma Política de Difusão adicional com esse conjunto de dados, em vez de iniciar todo o processo do zero.
Os pesquisadores testaram o PoCo em simulação e em braços robóticos reais que executavam uma variedade de tarefas de ferramentas, como usar um martelo para martelar um prego e virar um objeto com uma espátula. O PoCo levou a uma melhoria de 20% no desempenho das tarefas em comparação com os métodos de referência.
“O mais impressionante foi que quando terminamos de ajustar e visualizar, podemos ver claramente que a trajetória composta parece muito melhor do que qualquer uma delas individualmente”, diz Wang.
No futuro, os pesquisadores querem aplicar esta técnica a tarefas de longo horizonte, onde um robô pegaria uma ferramenta, a usaria e depois mudaria para outra ferramenta. Eles também desejam incorporar conjuntos maiores de dados robóticos para melhorar o desempenho.
“Precisaremos de todos os três tipos de dados para ter sucesso na robótica: dados da Internet, dados de simulação e dados reais de robôs. Como combiná-los de forma eficaz será a questão de um milhão de dólares. PoCo é um passo sólido no caminho certo”, diz Jim Fan, pesquisador sênior da NVIDIA e líder da AI Agents Initiative, que não esteve envolvido neste trabalho.