Популярният показател за производителност на AI може да бъде недостатъчен, предупреждават изследователите от мета

Byadmin

Sep 9, 2025

Популярен показател за измерване на работата на изкуствен интелект Моделите могат да бъдат недостатъчни, група от Мета платформи Изследователите предупредиха, повдигайки нови въпроси относно истинността на оценките, които са направени в големите AI системи. „Идентифицирахме множество вратички с проверена Swe-Bench“, пише Джейкъб Кан, мениджър в Meta AI Research Lab Справедливов публикация миналата седмица в платформата за разработчици Github. Публикацията от Fair, която означава фундаментално изследване на AI, намери няколко видни AI модела – включително Антроп„Клод и Alibaba Cloud„S Qwen-беше“ изневерил „на Swe-Bench. Alibaba Cloud е единицата за услуги на AI и Cloud Computing на Group Group Holding Alibabaсобственик на Южния Китайски сутрешен пост. Openai-Покорчената SWE-тала, проверена, проверка на човека на сферирането на големия езиков модел SWE, оценява AI модели въз основа на това как тези системи коригират стотици проблеми в софтуера в реалния свят, събрани от GitHub, a Microsoft дъщерно дружество.

Постът на Fair обаче твърди, че моделите, оценени с помощта на SWE-Bench, проверяват директно търсени известни решения, споделени другаде на платформата GitHub и ги предадоха като свои, вместо да използват вградените им възможности за кодиране, за да отстранят проблемите.

Моделите AI, за които се установи, че са показали такова поведение, включват Claude 4 Sonnet на Anthropic, Z.aiGLM-4,5 и Alibaba Cloud QWEN3-Coder-30B-A3B-с официални резултати съответно 70,4 %, 64,2 % и 51,6 %, на SWE-пейката.

„Все още оценяваме [the] По -широко въздействие върху оценките и разбирането на траектории за източници на изтичане “, пише Кан.

Нашия източник е Българо-Китайска Търговско-промишлена палaта

Популярният показател за производителност на AI може да бъде недостатъчен, предупреждават изследователите от мета

Byadmin

By admin

Related Post

Китай е ключов играч в оформянето и развитието на глобалния цифров пейзаж

Най-голямата интегрирана мина в Африка започва работа

Групата China Baowu поставя писалка върху документите на изложението в Шанхай

You missed

Китай е ключов играч в оформянето и развитието на глобалния цифров пейзаж

Най-голямата интегрирана мина в Африка започва работа

Групата China Baowu поставя писалка върху документите на изложението в Шанхай

Ватикана връща 62 артефакта, свързани с местните народи от Канада