

Китайският технологичен гигант Meituan пусна своя нов модел LongCat-Video, претендирайки за пробив в генерирането на текст към видео чрез създаване на съгласувани клипове с висока разделителна способност с дължина до пет минути. Компанията също така е отворила модела в GitHub и Hugging Face, за да подкрепи по-широко изследователско сътрудничество.
Според Meituan, LongCat-Video е изграден върху архитектура на дифузионен трансформатор (DiT) и поддържа три режима – текст към видео, изображение към видео и видео продължение. Моделът може да трансформира текстова подкана или единично референтно изображение в плавна поредица от 720p/30 кадъра в секунда или да разшири съществуващите кадри в по-дълги сцени с постоянен стил, движение и физика.
Екипът каза, че моделът се справя с постоянно предизвикателство в генеративното видео – поддържане на качество и времева стабилност при продължителни продължителности. LongCat-Video може да генерира непрекъснато, многоминутно съдържание без типичното влошаване на кадрите, което засяга повечето системи, базирани на дифузия.
Meituan описа LongCat-Video като стъпка към AI „световен модел“, способен да изучава геометрия, семантика и движение в реалния свят, за да симулира физическа среда. Моделът е публично достъпен чрез хранилищата на Meituan в GitHub и Hugging Face.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта