HyperAI超神经

首页资讯最新论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

Code Generation On Webapp1K React

评估指标

pass@1

评测结果

各个模型在此基准测试上的表现结果

模型名称	pass@1	Paper Title	Repository
claude-3.5-sonnet	0.8808	Insights from Benchmarking Frontier Language Models on Web App Code Generation
deepseek-v2.5	0.834	A Case Study of Web App Coding with OpenAI Reasoning Models
deepseek-coder-v2-instruct	0.7002	Insights from Benchmarking Frontier Language Models on Web App Code Generation
gpt-4o-2024-08-06	0.885	Insights from Benchmarking Frontier Language Models on Web App Code Generation
o1-mini	0.939	A Case Study of Web App Coding with OpenAI Reasoning Models
mistral-large-2	0.7804	Insights from Benchmarking Frontier Language Models on Web App Code Generation
llama-v3p1-405b-instruct	0.302	Insights from Benchmarking Frontier Language Models on Web App Code Generation
o1-preview	0.952	A Case Study of Web App Coding with OpenAI Reasoning Models

0 of 8 row(s) selected.