七火山科技的Etna(埃特纳)模型,是一个文生视频的AIGC模型,它能够根据简短的文本描述生成相应的视频内容。
七火山科技的Etna(埃特纳)模型,是一个文生视频的AIGC模型,它能够根据简短的文本描述生成相应的视频内容。
Etna模型目前的主干网络采用了Diffusion架构,同时正在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构。
Etna模型在语言模型和图像模型中插入时空卷积和注意力层,能够处理视频数据,即考虑图像序列中的时间连续性,这意味着Etna拥有一定的时空理解能力,能够理解并生成具有时间维度的视频内容。
Etna模型在一个大型视频数据集上进行充分训练,过程采用先进的deep-learning技术策略,包括LDS大规模训练、复杂HPO超参数优化和DPO微调,确保了模型的强大性能和生成能力。