В продължение на десетилетия разработването на нови лекарства е ограничено от прословутото правило за „двойна десетка“: 10-годишен график, 1 милиард долара разходи и едва 10% успеваемост за пускане на нова терапия на пазара. Новосъздаденият генеративен научен стартъп, IntelliGenAI, вярва, че може да промени тази парадигма. Чрез използване на авангарден генеративен AI в структурната биология, IntelliGenAI има за цел драстично да ускори откриването на лекарства и да подобри шансовете за успех. Компанията наскоро затвори кръг от ангелско финансиране, според съобщенията, в „десетки милиони щатски долари“, за да усъвършенства технологията си и се подготвя за растеж.

Сливане на структурна биология с генеративен AI

Основната иновация на IntelliFold(който е основният модел, пуснат от компанията) е генеративен AI модел за 3D прогнозиране на биомолекулна структура. По същество стартъпът е изградил широкомащабен „базов модел“, подобен на AlphaFold-3 на DeepMind, но с по-широки възможности, пригодени за научноизследователска и развойна дейност на лекарства като афинитет и алостерично място. Моделът IntelliFold може да предвиди как различните биологични молекули – протеини, ДНК/РНК, лекарства с малки молекули, йони и т.н. – взаимодействат помежду си в триизмерното пространство с висока точност. Според открит технически доклад на ранната версия на компанията, производителността на IntelliFold при ключови тестове за протеинова структура е равна на най-новия AlphaFold 3 на Google DeepMind, а най-новата Pro версия на модела вече показа, че изчерпателно надминава AF-3 в публични набори от тестови данни. Това означава, че моделът не само изчислява сгъването на протеина, но също така може да предвиди конформациите на свързване и дори да оцени афинитета на свързване между протеин и бъдеща лекарствена молекула – решаващ показател за виртуален скрининг.

Основна характеристика на системата IntelliFold е нейната управляемост. Чрез прилагане на леки адаптери, които могат да се обучават, базовият модел може да бъде насочен към специфични задачи. Например, той може да се съсредоточи върху предсказване на алостерични конформационни промени – фините промени във формата, на които претърпява протеинът, когато молекула се свързва с отдалечено място – без да се губи точността на първичната конформация. „Като се има предвид специфична протеинова последователност, моделът IntelliFold може да предвиди нейната конформация и режим на свързване с малка молекула“, обяснява съоснователят Роналд Сън, подчертавайки ключова способност, която отговаря на ясната пазарна нужда от откриване на лекарства. Отвъд самата структура, моделът може да изведе стойност на афинитет за свързването, потенциално повишавайки ефективността и точността на скрининга на лекарства с порядъци. Тези постижения предоставят на фармацевтичните изследователи мощен инструмент за проектиране и оценка на нови терапевтични молекули много по-ефективно от преди.

Платформата IntelliFold е разработена вътрешно от стартиращата компания IntelliGenAI, която беше основана в края на 2024 г. на фона на нарастване на интереса към генеративни AI начинания. Роналд Сън, президент на IntelliFold, е бивш технологичен инвеститор, който е прекарал години в подкрепа на гранични технологични проекти, за да спечели, преди да реши сам да изгради такъв. Главният учен, Sun Siqi, е изследовател от университета Фудан, който преди това е работил в изследователските лаборатории на Microsoft, специализирайки в усъвършенствани широкоезични модели в продължение на години, след като спечели „SOTA“ в структурното прогнозиране на CASP12 (Критична оценка на структурното прогнозиране, 2016). Необичайната комбинация от опит в областта на изкуствения интелект и ноу-хау в областта на структурната биология на основателния екип им позволи да създадат усъвършенстван модел за прогнозиране от самото начало, вместо просто да опаковат съществуващите инструменти. Повечето членове на екипа имат двоен опит в изчислителната биология и дълбокото обучение, което Sun отбелязва, че е от решаващо значение за разработването на техен собствен голям модел за научни изследвания. Ранна версия на сървъра на IntelliFold вече е предоставена на сътрудници и тестери, демонстрирайки потенциала на технологията в проекти за откриване на лекарства в реалния свят.

„Генеративна наука“ – нова изследователска парадигма

Подходът на IntelliFold е пример за това, което Роналд Сън нарича „генеративна наука“ – прилагане на генеративен ИИ към научни открития по начини, които коренно се различават от традиционната изследователска парадигма. В продължение на векове науката е напредвала чрез усърдния процес на формулиране на теории, извеждане на уравнения и експериментална проверка на всяка стъпка. При разработването на лекарства, например, изследователите обикновено трябва да идентифицират биологична мишена, да проектират молекула и итеративно да тестват и променят хипотезите в лабораторията. Generative AI предлага коренно различен път: вместо изрично да начертае всяко молекулярно взаимодействие с първичните принципи на физиката и химията, моделът на AI се обучава върху масивни набори от данни от последователности, структури и експериментални резултати. След това може директно да генерира правдоподобни решения или прогнози, дори без перфектно човешко разбиране на всеки механизъм.

Според Sun този базиран на данни генеративен метод може да доведе до резултати, които са „сравнително точни, но абсолютно по-бързи и по-широки“ по обхват в сравнение с традиционните техники. С други думи, един добре обучен модел може да не обясни защо даден протеин се сгъва или свързва по начина, по който го прави, но може да предскаже какво ще се случи много по-бързо и в много повече възможности, отколкото всяка лаборатория може да тества ръчно, и в момента е един от най-ефективните и водещи подходи за справяне с по-трудни и по-сложни проблеми със свързването, като така наречените нелекарстващи цели. Истинската зора на този генеративен научен подход беше белязана от AlphaFold2 на DeepMind, който през 2020 г. реши стария от десетилетия проблем с предсказване на протеинови 3D структури от аминокиселинни последователности. AlphaFold3 (обявен през 2023 г.) разшири тази способност за моделиране на взаимодействия между протеини и други молекули като нуклеинови киселини, малки съединения и дори антитела – отваряйки вратата за ИИ да насочва откриването на лекарства по смислен начин.

Сега стартиращи компании като IntelliFold тласкат тази тенденция още повече. „Виждаме потенциална промяна в първите принципи на научните изследвания“, казва Sun за генеративната AI вълна. „За първи път може да е възможно да се разширят човешките знания десет пъти по-бързо и по-широко, дори без напълно интерпретируеми модели за всяка стъпка.“ Sun очаква, че използването на AI по този начин може да повиши ефективността на изследванията поне с един порядък и да позволи на учените да изследват опции, които преди това са били невъзможни. Във фармацевтичния контекст, отбелязва той, управлявана от ИИ парадигма може драстично да съкрати цикъла на откриване и да намали разходите за нов кандидат за лекарство. Степента на успеваемост може да се подобри „няколко пъти“, тъй като усъвършенстваните модели разкриват жизнеспособни удари на лекарства, които човешките експерти може да пренебрегнат. Чрез прилагане на генеративни модели директно към научно изследване, IntelliFold се надява да превърне това, което някога е било бавен, линеен процес, в нещо по-близко до бързото създаване на прототипи – тестване на безброй виртуални съединения и сценарии in silico, като само най-обещаващите преминават към физически изпитания.

Преследване на SOTA чрез сърфиране в закона за мащабиране

Наред със символните езикови модели и моделите на света, научните модели, които улавят представянето на природните закони и дълбоко лежащите закономерности, съставляват третия стълб от най-високо ниво на Изкуствения общ интелект (AGI). В широк диапазон от области на природните науки – обхващащи изключително конкретното и изключително абстрактното, макроскопичното и микроскопичното – съществуват обективни структури, които могат да бъдат формализирани, систематизирани и в крайна сметка операционализирани като инструменти.

В исторически план математическите принципи и емпиричните научни експерименти са основните средства, чрез които човечеството обяснява природните сили и отключва производителността, насочвайки устойчивия и трансформиращ напредък. Въпреки това, след появата на AlphaFold2 (AF-2), се появи нова надпревара към най-съвременното (SOTA) представяне – такова, в което конкуренцията между самите модели се превърна в основна арена на интелектуално съперничество.

Състезанието CASP, което бе отбелязало само постепенен напредък в продължение на няколко десетилетия, навлезе в нова фаза на CASP12 през 2016 г. с въвеждането на конволюционни невронни мрежи и в крайна сметка беше доведено до решаваща повратна точка на CASP14, където AlphaFold2 ефективно реши дългогодишния проблем с предсказването на структурата на един протеин с почти експериментална точност.

Въпреки че годините на напредък в предсказването на мономерната структура – кулминация в AF-2 – са от дълбоко научно значение и предоставят на индустрията много по-добри отправни точки за изследвания надолу по веригата, те остават недостатъчни за едно от най-критичните предизвикателства в ранния етап на откриване на лекарства: съвместно сгъване. В тази област на индустрията отдавна липсва решение, което едновременно да предлага надеждна информираност за взаимодействие и ефективност с висока производителност.

Официалното пускане на AlphaFold3 през 2024 г., с неговата генеративна AI-базирана способност за прогнозиране на сложна и композитна структура, отбеляза основна инфлексна точка в индустриалната стойност на моделите на биологичната основа. Неговите пробиви в предсказването на структури на различни молекулярни комплекси – включително системи антиген-антитяло и взаимодействия протеин-малка молекула – отвориха нова глава. Надграждайки тази възможност, свързаните с AlphaFold платформи осигуриха множество забележителни партньорства с мултинационални фармацевтични компании като Novartis и Eli Lilly, включващи предварителни плащания в десетки милиони щатски долари и обща стойност на сделката, варираща от 1-2 милиарда USD.

Успоредно с това бързо последваха усилия за репликация и изследователски подобрения. И все пак поради изключително високата бариера за навлизане, изискваща задълбочен опит както в широкомащабните генеративни модели, така и в структурната биология, напредъкът е постепенен, а не експлозивен. Скорошни сравнителни проучвания – като наскоро публикувания бенчмарк FoldBench – разкриха значителен цялостен напредък в тази посока, като същевременно подчертаха значителна свобода за по-нататъшно увеличаване на капацитета спрямо настоящите SOTA системи. като същевременно подчертава, че настоящите SOTA методи все още имат значително място за подобрение на определени задачи.

Използвайки биологията като представителен пример, става все по-ясно, че как специфичните за домейна научни данни и знания се токенизират и картографират в генеративни AI архитектури сега е основният и определящ проблем на генеративната наука. След като науката за домейни е успешно токенизирана и осъществимостта й е валидирана, следващият императив е мащабирането – процес, който изисква итеративен напредък в моделната архитектура и инфраструктура.

Генеративната наука не е просто да подреждате повече трансформаторни блокове. За да изградят по-мощни и ефективни модели, изследователите се нуждаят от задълбочено разбиране както на науката, специфична за домейна, така и на самите моделни архитектури, за да намерят правилните посоки за мащабиране. В противен случай простото натрупване на повече изчисления и данни пак няма да успее да постигне добри резултати.

Този процес – мащабиране към модели с по-висок капацитет и по-висока ефективност, постигане на по-висока производителност, интегриране на все по-конкретни настройки на проблемите и специфични за сценария данни и формиране на самоподсилващ се динамичен маховик на итерация – бързо се очертава като стандартна методология на Generative Science.

В същото време тази методология бързо се разширява отвъд биологията. Водени от организации като DeepMind, иноваторите активно прилагат трансформативния потенциал на Transformers и принципите на генеративната наука в области, включително, но не само, моделиране на климата, наука за материалите и контрол на ядрения синтез.

IntelligenAI: График и иновации

Основавайки се на архитектурни иновации и алгоритмична еволюция в рамките на GenAI, IntelligenAI предостави поредица от резултати, които са наравно с, или в някои случаи надминават AlphaFold3 и текущата индустрия SOTA: 1. Pro версията превъзхожда AlphaFold3 по множество ключови показатели.
f1.png
2. Чрез вмъкване на LoRA адаптери, моделът постига не само отлична производителност в сценарии на канонично (ортостерично) свързване, но също и изключителна способност при насочени контролни задачи, включително насочване към алостерично място, насочвано от джоба сгъване и насочвано сгъване с епитоп.f2.png
3. Един от първите в света основни модели за постигане на базирано на GenAI прогнозиране на афинитета, демонстриращ значително превъзходна SOTA производителност в множество набори от данни.
f3.png
4. Сред валидираните и ефективни подобрения, които понастоящем се разработват (във вътрешно тестване, все още не е пуснато публично), повече от половината произтичат от фундаментално преосмисляне на архитектурата на модела и парадигмите за обучение, а не само от мащаба на данните – подход, който се очаква да доведе до значителни подобрения в производителността в следващото голямо издание.

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin