Rotulando, transformando e estruturando conjuntos de dados de treinamento para aprendizado de máquina

Rotulando, transformando e estruturando conjuntos de dados de treinamento para aprendizado de máquina


O Podcast do O’Reilly Data Show: Alex Ratner sobre como criar e gerenciar dados de treinamento com o Snorkel.

Neste episódio do Data Show, falo com Alex Ratner, líder de projeto do projeto de código aberto Snorkel de Stanford; Ratner também acumulou recentemente uma posição no corpo docente da Universidade de Washington e atualmente está trabalhando em uma empresa de apoio e extensão do projeto Snorkel. Snorkel é uma estrutura para construir e gerenciar dados de treinamento. Com base em nossa pesquisa do início do ano, os dados rotulados continuam sendo um gargalo fundamental para as organizações que criam aplicativos e serviços de aprendizado de máquina.

Ratner foi convidado no podcast há pouco mais de dois anos, quando o Snorkel era um projeto relativamente novo. Desde então, o Snorkel adicionou mais recursos, expandiu-se em casos de uso de visão computacional e agora possui muitos usuários, incluindo Google, Intel, IBM e outras organizações. Junto com seu orientador de tese, Chris Ré, de Stanford, Ratner e seus colaboradores defendem há muito tempo a importância de construir ferramentas voltadas diretamente para ajudar as equipes a criar e gerenciar dados de treinamento. Com o lançamento de hoje do Snorkel versão 0.9, estamos um passo mais perto de ter um framework que permita a criação programática de conjuntos de dados de treinamento.

Continue lendo Rotulando, transformando e estruturando conjuntos de dados de treinamento para aprendizado de máquina.