epoch ai in collaboration with over 60 mathematicians from leading institutions worldwide has introduced frontiermath, a new benchmark designed to evaluate ai systems' capabilities in advanced...
epoch ai与60多位数学家合作推出frontiermath基准,评估ai在高级数学推理中的能力。该基准显示当前ai模型的成功率不足2%,揭示了与专家水平的显著差距。frontiermath包含数百个原创数学问题,旨在解决现有基准的饱和和数据污染问题。尽管该基准有助于评估ai系统,但其对自动可验证答案的关注限制了对现代数学研究的全面评估。