Críticas

Alunos de graduação em IA lançam modelo de voz de podcast

ai-undergraduates-release-podcast-voice-model

Breve

Dois estudantes universitários com formação limitada em inteligência artificial introduziram um novo modelo de IA capaz de produzir clipes de áudio no estilo podcast semelhantes aos gerados por plataformas avançadas. Os criadores, sediados na Coreia, foram motivados a oferecer mais flexibilidade no controle de voz e opções de roteiro criativo depois de explorar o que era possível no mercado atual.

O setor de síntese de voz continua a se expandir rapidamente, atraindo investimentos significativos à medida que cresce a demanda por vozes artificiais realistas. As startups que estão avançando em IA de vozA ElevenLabs e a PlayAI, por exemplo, já garantiram centenas de milhões de dólares de capital de risco no ano passado.

Por dentro do modelo Dia da Nari Labs

A dupla por trás do projeto, que opera como Laboratórios NariA empresa, que é uma das maiores do mundo, contou com a TPU Research Cloud do Google para alimentar o processo de treinamento de seu modelo, chamado Dia. Eles passaram três meses em pesquisa e desenvolvimento, criando um modelo que possui 1,6 bilhão de parâmetros, o que o torna poderoso para seu tamanho.

O principal ponto forte do Dia é sua capacidade de gerar diálogos a partir de scripts escritos pelo usuário, dando aos indivíduos a opção de ajustar o tom e incorporar pausas naturais, risos ou até mesmo tosses para maior realismo. Os usuários podem fornecer instruções de estilo ou tentar clonar a voz de uma pessoa específica, e o sistema foi projetado para funcionar bem em computadores modernos equipados com modestos 10 GB de VRAM.

As comunidades de desenvolvimento de IA no Hugging Face e no GitHub podem acessar livremente o Dia, e as demonstrações públicas mostraram que ele cria de forma confiável conversas entre duas pessoas sobre praticamente qualquer assunto. Sua replicação e geração de voz estão no mesmo nível dos concorrentes maiores, e o processo de clonagem de voz se destaca por sua facilidade de uso.

Ainda assim, a natureza aberta do Dia apresenta desafios, especialmente em relação ao uso responsável e às preocupações éticas. Embora a Nari avise os usuários para não usarem o modelo de forma indevida para enganar ou fraudar, ela se isenta de responsabilidade por qualquer abuso resultante.

Outra questão não resolvida é o conjunto de dados usado para treinar o Dia, que não foi divulgado. Os observadores especulam que materiais protegidos por direitos autorais podem ter sido incluídos, um método comum, porém controverso, no desenvolvimento dos principais modelos de IA.

O debate continua sobre a legalidade do treinamento de sistemas de IA em dados protegidos por direitos autorais, com alguns afirmando que o uso justo protege essas ações e outros argumentando que as leis existentes as proíbem. Independentemente disso, a Nari Labs planeja expandir os recursos linguísticos do Dia, aprimorar sua plataforma com recursos interativos e, por fim, publicar um aprofundamento técnico explicando o funcionamento interno do modelo.

COMPARTILHAR

Adicionar um comentário

O que está acontecendo com a IA?

Fique à frente com ferramentas diárias de IA, atualizações e insights importantes.

Ouça AIBuzzNow - Escolha sua plataforma

Isso fica melhor no aplicativo

Usamos cookies para melhorar sua experiência em nosso site. Se você continuar a usar este site, presumiremos que está satisfeito com ele.

Login / Registro

Participe da comunidade de IA que está sempre um passo à frente