在AI视频生成百花齐放的时代,从OpenAI的Sora到Google的Veo,再到Runway、Kling等平台都积极布局视频市场。就在这个时间点,Midjourney推出首款形象转动画功能——V1模型,不但引起产业关注,也为创作者社交媒体带来全新工具选择。
Midjourney向来以风格化图像生成见长,这次加入视频战场的V1,不再追求极致拟真或商业叙事能力,而是回归创作者视角,强调创意速度、风格一致性与简便操作,让图像叙事直接“动起来”。这项视频功能不仅是图像模型的自然延伸,更可能引领一波AI视觉故事创作潮流。
与其他视频生成网站最大的不同点在于,Midjourney V1并没有文本转视频的功能,只提供“图像转视频”(Image-to-Video)机制。用户可从既有或上传图像出发,产生每支约5秒的短片动画,并可选择延伸时间至最多21秒(总共4次延长,每次约4秒)。目前该功能仅通过Midjourney官方网页界面提供,需以Discord账号登录操作。
这项功能提供两种动画生成模式:
Auto(自动)模式:系统根据图像自动推测动态与镜头移动方式,适合初学者与快速预览。
Manual(手动)模式:用户可输入提示语自订动作内容与镜头语法,适合高端使用与特定叙事控制。
视频生成后,系统会提供四支版本供预览与挑选,并可针对单支视频选择延长时间,或重新生成动作方向。
1.上传图片
当你登录Midjourney后,点击上方的输入围,然后在这里要先拖拽一张图片到这里。可以使用先前生成的图,也可手动上传本机图像。
2.把图片放置到“Starting Frame”作为启始画格。
刚刚上传的图片在下方的区域,你可以理解为是一个“工作桌”或是缓冲区,用以暂存你工作需要用到的图片。而你要生成视频,就要把这个图片拖拽到上方的“Starting Frame”。
3.设置动画
在这里点击“1”之后,就会出现这个界面。
你可以在“2”这里输入要生成视频的提示词(手动模式),或是什么都不输入让系统自己决定(自动模式)。
另外,在“3”这里可以让你选择生成视频的动作强度:
Low motion:适合细腻变化(如光影、风、水波),画面稳定柔和。
High motion:适合激烈动作与镜头运动,但容易产生画面不稳或破图。
之后按下生成即可。
4.视频产出
点击左边的“Cretate”,可以看到你生成的内容。每次可产生四段约5秒视频
5.产生延伸视频
点击进入其中一个生成的视频,在右下角有产生延伸视频的选项,一样是可以自动或是手动,以及选择Low motion或是High motion。
延伸生成的视频时长为4秒,延伸功能最多支持4次,因此视频总时长最多达21秒。
Midjourney采用月订阅制,并没有特别分出产生视频或是产生图片的订阅,而是采用耗用的GPU算力时间为基本,依照方案不同提供不同程度的GPU算力生成时间(以新台币换算):
根据官方说法,一分钟的算力时间可以给你生成一次图片(一次4张)。举例来说,3.3小时的算力可以生成198张图。
至于视频生成,计算资源需求官方说法是为图像的8倍,因此大约是24段视频。
Midjourney V1的Manual模式是视频创作的精华所在,通过简单英文叙述即可控制角色动作与镜头方向。提示语应具备以下三要素:
主体:谁在动?(如a fox, a dancer, a robot)
动作:做什么动作?(如jumps, spins, waves)
镜头语法:如何拍摄?(如camera pans right, zooms in slowly)
A cat stretches on a windowsill while the sun slowly rises in the background; camera slowly zooms in.
A cherry blossom tree sways gently in the breeze; camera pans left through the branches.
可加入气氛描述(如golden light, foggy morning)或时间感(in timelapse)强化视觉表现。
Midjourney V1的“图像转视频”功能相较于其他竞争平台(如Runway、Kling、Sora、Veo)具备以下几个特色:
图像风格一致性强:Midjourney自家生成的图像搭配动画功能可无缝延伸,画面风格不易断裂。
操作门槛低:只需点击图片“Animate”按钮,即可快速上手;Manual模式也仅需自然语句撰写。
高性价比:月费低、视频生成耗费相对资源少,对创作者较友善。
创意自由度高:动作幅度可自选(Low/High motion)、支持延伸视频长度、提示语自由度高。
相较之下:
Runway:支持多段时间轴编辑与高分辨率视频输出,专业度较高但操作复杂。
Kling(字节跳动):生成速度快、强调AI计算流畅度,但多用于中文市场。
Sora/Veo:支持文本生成视频与声音,适合完整叙事视频,但目前不支持图像作为起点。
若你已有Midjourney图像素材,V1的动画工具可说是目前最具集成性与效率的延伸工具。
虽然功能强大,但Midjourney V1视频目前仍有以下限制需注意:
仅支持图像生成视频,不支持纯文本生成(text-to-video)。
输出视频分辨率仅为480p,较不适合用于商业用途。
在high motion模式下,部分画面可能会出现不自然变形或逻辑破绽。
生成结果为预览性质,可能有画质压缩或动作不稳的情形。