OpenAI lança o LifeSciBench para avaliar IA em tarefas reais de pesquisa, com 750 itens escritos por especialistas em 7 áreas de biologia

De acordo com o anúncio oficial da OpenAI em 20 de junho, a empresa lançou o LifeSciBench, um novo benchmark de avaliação projetado para medir sistemas de IA em tarefas reais de pesquisa científica. O benchmark reúne 750 tarefas escritas por especialistas, abrangendo 7 fluxos de trabalho de pesquisa e 7 domínios de biologia, criadas por 173 pesquisadores com nível de Ph.D., com experiência na indústria de biotecnologia ou farmacêutica.

Mais de 79% das tarefas exigem raciocínio em múltiplas etapas, com média de aproximadamente 4 etapas de raciocínio por pergunta. O benchmark inclui 1.062 anexos reais de dados de pesquisa, como artigos, gráficos, dados de sequenciamento e arquivos estruturais, com foco em capacidades complexas de pesquisa, incluindo integração de evidências, desenho experimental, análise de dados, raciocínio científico e comunicação de pesquisa — em vez de perguntas factuais simples.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários