Mochi 1 da Genmo: Revolucionando a Geração de Vídeo com IA de Código Aberto

A inteligência artificial (IA) tem avançado a passos largos, e uma das áreas mais empolgantes é a geração de vídeo. Recentemente, um novo marco foi alcançado com o lançamento do Mochi 1, um modelo de IA de código aberto desenvolvido pela Genmo. Esta ferramenta está empurrando as fronteiras do que a IA pode realizar na criação de vídeos, apresentando avanços impressionantes na fluidez dos movimentos dos personagens e na capacidade de seguir com precisão os prompts do usuário.

O Que é o Mochi 1 da Genmo?

O Mochi 1 é um modelo de geração de vídeo de código aberto que se destaca por sua capacidade de criar animações suaves e seguir fielmente as instruções fornecidas. Projetado para ser acessível a todos, desde projetos pessoais até aplicações comerciais, o Mochi 1 não é apenas mais um anúncio no campo da IA. A Genmo disponibilizou um playground hospedado gratuitamente onde os usuários podem experimentar o modelo. Além disso, para aqueles que desejam explorar mais a fundo, os pesos do modelo estão disponíveis no Hugging Face.

A Visão da Genmo: Desbloqueando o "Cérebro Direito" da IAG

A Genmo declarou em seu blog que seu objetivo é "desbloquear o cérebro direito" da Inteligência Artificial Geral (IAG). Assim como o lado direito do cérebro humano está associado à criatividade e imaginação, a Genmo busca trazer essas qualidades para a IA. O Mochi 1 é o primeiro passo tangível em direção a essa visão, permitindo que a IA não apenas gere vídeos, mas atue como um simulador de mundo imersivo, capaz de imaginar qualquer coisa, exista ela na realidade ou não.

Ao focar na criatividade, a Genmo visa criar uma IA que possa visualizar novas possibilidades, contar histórias envolventes e dar vida a ideias imaginativas de maneiras anteriormente inatingíveis.

Principais Pontos Fortes do Mochi 1

O Mochi 1 estabelece um novo padrão de excelência para a geração de vídeo de código aberto, competindo de perto com modelos proprietários de ponta. Ele se destaca em duas áreas cruciais onde muitos modelos de geração de vídeo ainda falham: qualidade de movimento e adesão ao prompt.

Adesão Excepcional ao Prompt com o Mochi 1

O Mochi 1 demonstra um alinhamento excepcional com os prompts fornecidos pelos usuários. Isso significa que os vídeos gerados correspondem de perto às instruções, permitindo um controle detalhado sobre elementos como personagens, cenários e ações. Para garantir essa alta precisão, o Mochi 1 foi referenciado usando uma métrica automática, empregando um modelo de linguagem visual avançado, como o Gemini 1.5 Pro da Google, para avaliar a correspondência entre o conteúdo gerado e a descrição do usuário. Em um gráfico de "Adesão ao Prompt" (Prompt Adherence), o Genmo Mochi 1 Preview superou modelos como Open-Sora, Luma Dream Machine e Kling.

Qualidade de Movimento Superior do Mochi 1

A suavidade dos movimentos dos personagens em vídeos gerados por IA tem sido um desafio. O Mochi 1 apresenta melhorias significativas na qualidade do movimento, criando ações fluidas e realistas que aprimoram o realismo geral do conteúdo, tornando-o mais envolvente e visualmente agradável. No quesito "Qualidade de Movimento (Elo Score)", o Genmo Mochi 1 Preview também lidera, superando modelos como RunwayML Gen-3 e Luma Dream Machine.

Dinâmica de Movimento Realista e Simulação de Física no Mochi 1

O Mochi 1 simula física realista, como dinâmica de fluidos (movimento de líquidos), simulação de pelos e cabelos, e ações humanas naturais. Ele produz vídeos a 30 quadros por segundo (FPS), com duração de até 5,4 segundos, mantendo a coerência temporal, o que significa que o movimento flui naturalmente de um quadro para o outro, sem saltos abruptos ou inconsistências. Isso adiciona uma camada de credibilidade que transcende o "vale da estranheza" (uncanny valley), onde visuais gerados por IA se tornam tão realistas que evocam uma resposta emocional positiva do espectador.

Arquitetura Técnica Inovadora do Mochi 1

A performance do Mochi 1 é sustentada por uma arquitetura robusta e inovadora.

Transformador de Difusão Assimétrico (AsymmDiT) do Mochi 1

O Mochi 1 representa um avanço significativo na geração de vídeo de código aberto, apresentando um modelo de difusão de 10 bilhões de parâmetros construído sobre sua nova arquitetura Asymmetric Diffusion Transformer (AsymmDiT). Treinado inteiramente do zero, é o maior modelo generativo de vídeo já lançado abertamente. Sua arquitetura é descrita como simples e hackeável.

Eficiência e o Video VAE (Variational Autoencoder) no Mochi 1

A eficiência é crucial. Juntamente com o Mochi 1, a Genmo está lançando o Video VAE (Variational Autoencoder). Este VAE comprime os vídeos causalmente para um tamanho 128 vezes menor, com compressão espacial de 8x8 e temporal de 6x para um espaço latente de 12 canais. A arquitetura AsymmDiT processa eficientemente os prompts do usuário juntamente com os tokens de vídeo comprimidos, otimizando o processamento de texto e focando a capacidade da rede neural no raciocínio visual. O AsymmDiT atende conjuntamente a tokens de texto e visuais com auto-atenção multimodal e aprende camadas MLP separadas para cada modalidade, de forma similar ao Stable Diffusion 3. No entanto, o fluxo visual do Mochi 1 possui quase 4 vezes mais parâmetros que o fluxo de texto, através de uma dimensão oculta maior.

Gerenciamento de Prompts e Janela de Contexto do Mochi 1

Muitos modelos de difusão modernos usam múltiplos modelos de linguagem pré-treinados para representar os prompts do usuário. Em contraste, o Mochi 1 codifica os prompts com um único modelo de linguagem T5-XXL. Além disso, o Mochi 1 raciocina sobre uma janela de contexto de 44.520 tokens de vídeo com atenção 3D completa. Para localizar cada token, são estendidos embeddings posicionais rotativos (RoPE) aprendíveis para 3 dimensões. A rede aprende de ponta a ponta frequências de mistura para os eixos de espaço e tempo.

Técnicas Avançadas de Design de Modelos de IA no Mochi 1

O Mochi 1 também se beneficia dos mais recentes avanços em design de modelos de IA, como camadas feed-forward SwiGLU, que ajudam o modelo a aprender melhor e mais rápido. Ele utiliza normalização Query-Key (QKNorm) para tornar o treinamento mais estável e Sandwich Normalization para manter as ativações internas sob controle, garantindo que o modelo funcione suavemente e produza resultados de alta qualidade sem instabilidade.

Acessando e Experimentando o Mochi 1

Para os curiosos, a Genmo lançou um playground hospedado gratuitamente onde é possível experimentar o Mochi 1. Se você deseja uma imersão mais técnica, os pesos do modelo estão disponíveis no Hugging Face. A empresa também promete um artigo técnico com todos os detalhes para incentivar o progresso na geração de vídeo.

O Futuro com Mochi 1 HD

A Genmo já anunciou o próximo passo: Mochi 1 HD. Esta versão futura suportará a geração de vídeo em 720p com fidelidade aprimorada e movimento ainda mais suave, abordando casos extremos como distorções em cenas complexas. Espera-se que o Mochi 1 HD seja lançado antes do final do ano.

Limitações Atuais do Mochi 1

Apesar de impressionante, o Mochi 1, em sua versão de pesquisa atual, possui algumas limitações conhecidas. A versão inicial gera vídeos em 480p. Em alguns casos extremos, com movimento excessivo, podem ocorrer pequenas distorções. Além disso, o Mochi 1 é otimizado para estilos fotorrealistas, não apresentando o mesmo desempenho com conteúdo animado. A Genmo também antecipa que a comunidade fará ajustes finos no modelo para adequá-lo a várias preferências estéticas.

Conclusão Sobre o Mochi 1

O lançamento do Mochi 1 pela Genmo é um desenvolvimento significativo no campo da geração de vídeo por IA. Sua natureza de código aberto, combinada com seu desempenho de ponta em adesão a prompts e qualidade de movimento, democratiza o acesso a ferramentas poderosas de criação de vídeo. Com a promessa do Mochi 1 HD e o envolvimento da comunidade, o futuro da geração de vídeo com IA parece cada vez mais criativo, acessível e visualmente impressionante.