A Mira Jovana Wicz usou IA para criar um “projecto com nota máxima”? Teste de um programador: será que tem mesmo qualidade ou é uma promoção exagerada?

CryptoCity

O sistema de memória para IA MemPalace, desenvolvido com a participação de Milla Jovovich, alegou ter obtido pontuação perfeita nos testes e tornou-se viral, mas acabou por ser alvo de acusações da comunidade de que os testes terão envolvido batota e indução em erro nos dados. Testes em ambiente real revelaram que os resultados foram exagerados e há muitos erros; a equipa já admitiu as falhas e está a trabalhar na respetiva correção.

Milla Jovovich cria um AI Memory Palace, atraindo a atenção do público

Ontem (4/7), houve uma grande notícia no meio da IA: a atriz de Hollywood Milla·Jovovich (conhecida por 《Resident Evil》 e 《O Quinto Elemento》), juntamente com o programador Ben Sigman, usando Claude Code, desenvolveu o sistema aberto (open source) de memória para IA “MemPalace”.

De repente, espalhou-se amplamente a ideia de “uma estrela gigante de Hollywood a fazer um projeto perfeito de nota máxima”, e o MemPalace já soma mais de 20k estrelas no GitHub, mas muito rapidamente levantou-se a suspeita por parte da comunidade de programadores: será que há mesmo substância ou é apenas marketing?

Vejamos primeiro qual era a motivação para o surgimento do MemPalace. A documentação oficial afirma que a intenção é resolver a limitação de que, em muitos sistemas de IA, o conteúdo das conversas entre utilizador e IA, os processos de decisão e as discussões da arquitetura normalmente desaparecem após a sessão de trabalho, fazendo com que vários meses de esforço se percam.

Para resolver este problema, o MemPalace utiliza uma arquitetura espacial para armazenar memórias, classificando a informação de forma clara em “alas” que representam pessoal ou projetos, bem como em estruturas de diferentes níveis como corredores, salas e gavetas, preservando o texto original da conversa para pesquisa semântica posterior.

A equipa de desenvolvimento afirma que o MemPalace obteve 100% na métrica de avaliação de memória de longo prazo LongMemEval e, sem chamar quaisquer API externas, alcançou 96,6% de precisão. Além disso, consegue funcionar totalmente no modo local, sem necessidade de subscrever serviços de nuvem, e inclui um suposto sistema de dialeto AAAK capaz de atingir uma compressão sem perdas 30 vezes superior.

Fonte da imagem: GitHub Estrela de cinema de Hollywood Milla Jovovich cria um AI Memory Palace, atraindo a atenção do público

Colegas e a comunidade levantam dúvidas em uníssono; falhas nos métodos de teste e nos materiais de promoção

No entanto, a pontuação perfeita do MemPalace no LongMemEval levou rapidamente à contestação por parte de colegas do setor.

O PenfieldLabs, que também produz sistemas de memória para IA, apontou que a alegação do MemPalace de obter pontuação perfeita no conjunto de dados LoCoMo é matematicamente impossível, porque as respostas padrão desse conjunto de dados já incluem 99 erros.

A análise do PenfieldLabs concluiu que o resultado de 100% do MemPalace provém de definir a quantidade de recuperações para 50 vezes, mas o número máximo de fases de conversa no conjunto de teste é apenas de 32; isto significa que o sistema contorna diretamente a fase de recuperação e entrega todo o conjunto de dados ao modelo de IA para leitura.

Quanto aos 100% no LongMemEval, foi descoberto que a equipa de desenvolvimento tinha-se focado em 3 problemas específicos em que ocorreu erro na fase de desenvolvimento, tendo escrito código de correção dedicado; existe a suspeita de batota direcionada ao conjunto de teste.

Fonte da imagem: Reddit Colega PenfieldLabs aponta que é matematicamente impossível o MemPalace obter pontuação perfeita no conjunto de dados LoCoMo

Testes feitos por utilizadores no GitHub; a avaliação tem elementos que induzem em erro

O utilizador do GitHub hugooconnor comentou, após realizar testes em ambiente real: o MemPalace alega uma taxa de precisão de recuperação de até 96,6%, mas na prática não utiliza de todo a arquitetura do “memory palace” que o MemPalace promove. Segundo o hugooconnor, os testes apenas chamam as funcionalidades predefinidas da base de dados subjacente ChromaDB, sem envolver a lógica de classificação por “alas”, “salas” ou “gavetas” que o projeto destaca.

Após os testes, o hugooconnor descobriu que, quando o sistema realmente ativa a lógica de classificação dedicada desses “memory palaces”, o desempenho de recuperação piora. Por exemplo, no modo de salas, a precisão desce para 89,4%; e ao ativar a tecnologia de compressão AAAK, a precisão cai ainda mais para 84,2%. Em ambos os casos, ficam abaixo do desempenho da base de dados predefinida.

O hugooconnor também criticou o método de teste: o ambiente de testes do MemPalace reduz propositadamente o intervalo de recuperação de cada pergunta para cerca de 50 fases de conversa, o que torna demasiado fácil encontrar respostas num conjunto de dados amostral muito pequeno.

Se o intervalo for alargado para mais de 19.000 fases de conversa em cenários reais, a precisão da pesquisa tradicional por palavras-chave cairia drasticamente para 30%, o que mostra que a forma como o MemPalace testa atualmente encobre o verdadeiro problema de pesquisa difícil.

Fonte da imagem: GitHub Utilizador do GitHub testou na prática; há elementos que induzem em erro na avaliação do MemPalace

Ao mesmo tempo, embora a equipa de desenvolvimento já tenha publicado um comunicado de correção, reconhecendo que a tecnologia AAAK foi de facto validada como compressão com perdas, e se tenha comprometido a ajustar a documentação e o desenho do sistema com base nas críticas severas da comunidade. Ainda assim, a principal documentação de explicação do projeto mantém várias afirmações exageradas sem correção, incluindo alegações de compressão sem perdas 30 vezes superior e aumento de 34% na recuperação, e comparações em gráficos com outros concorrentes também carecem totalmente de fontes e proveniência.

O código-fonte do MemPalace enfrenta vários Bugs

À medida que cada vez mais programadores descarregam para testes, surgiram no GitHub muitos relatórios de Bug relacionados com o código-fonte do MemPalace.

O utilizador cktang88 listou várias falhas graves, incluindo instruções de compressão que não conseguem funcionar e fazem o sistema colapsar, erros na lógica de contagem do número de palavras do resumo, e dados estatísticos imprecisos ao “escavar” salas, além de o servidor carregar todos os dados interpretados na memória em cada chamada, causando um problema sério de consumo de recursos.

Outros problemas apontados incluem ainda o sistema escrever à força os nomes de familiares dos programadores nos ficheiros de configuração predefinidos e existir um limite máximo obrigatório de visualização de 10k registos ao consultar o estado.

Perante estes problemas, a comunidade de código aberto já começou a reparar ativamente. O utilizador adv3nt3 submeteu vários** pedidos de correção****, incluindo correções para os dados estatísticos da extração, remoção de nomes predefinidos de familiares e adiamento do tempo de inicialização do grafo de conhecimento.** A equipa de desenvolvimento também reconheceu posteriormente estes erros, estando a resolver gradualmente os problemas de código através da colaboração da comunidade.

O Vibe Coding da Milla Jovovich é fixe; a abordagem de marketing não

Relativamente a este projeto, um utilizador do Hacker News, darkhanakh, tirou a seguinte conclusão: o MemPalace dá a sensação de OpenClaw, ou seja, manipula resultados de testes de referência (benchmark) de forma artificial para que pareçam perfeitos e, em seguida, embrulha tudo como se fosse um grande avanço para fazer marketing.

Ele considera que a tecnologia subjacente do MemPalace poderá realmente ser interessante, mas dado que o método de teste tem este tipo de falhas, e ainda por cima se anuncia com “a pontuação pública mais alta de sempre”, não é muito apropriado; “no entanto, quanto a saber que a Milla Jovovich está a fazer Vibe Coding, eu acho que continua a ser bastante fixe.”

Leitura adicional:
O AI escreve código e dá problemas! A app “惜食獵人” de produtos com prazo curto das lojas de conveniência explode em questões de segurança, e o GPS em casa está a transmitir completamente a céu aberto

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários