Популярен показател за измерване на работата на изкуствен интелект Моделите могат да бъдат недостатъчни, група от Мета платформи Изследователите предупредиха, повдигайки нови въпроси относно истинността на оценките, които са направени в големите AI системи. „Идентифицирахме множество вратички с проверена Swe-Bench“, пише Джейкъб Кан, мениджър в Meta AI Research Lab Справедливов публикация миналата седмица в платформата за разработчици Github. Публикацията от Fair, която означава фундаментално изследване на AI, намери няколко видни AI модела – включително Антроп„Клод и Alibaba Cloud„S Qwen-беше“ изневерил „на Swe-Bench. Alibaba Cloud е единицата за услуги на AI и Cloud Computing на Group Group Holding Alibabaсобственик на Южния Китайски сутрешен пост. Openai-Покорчената SWE-тала, проверена, проверка на човека на сферирането на големия езиков модел SWE, оценява AI модели въз основа на това как тези системи коригират стотици проблеми в софтуера в реалния свят, събрани от GitHub, a Microsoft дъщерно дружество.
Постът на Fair обаче твърди, че моделите, оценени с помощта на SWE-Bench, проверяват директно търсени известни решения, споделени другаде на платформата GitHub и ги предадоха като свои, вместо да използват вградените им възможности за кодиране, за да отстранят проблемите.
Моделите AI, за които се установи, че са показали такова поведение, включват Claude 4 Sonnet на Anthropic, Z.aiGLM-4,5 и Alibaba Cloud QWEN3-Coder-30B-A3B-с официални резултати съответно 70,4 %, 64,2 % и 51,6 %, на SWE-пейката.
„Все още оценяваме [the] По -широко въздействие върху оценките и разбирането на траектории за източници на изтичане “, пише Кан.
Нашия източник е Българо-Китайска Търговско-промишлена палaта