主页
故事
消息
更多

介绍MidReal Morpheus模型


Andrew*、Haoran*、Kaijie*、Rio*、Troy、Shichen、Fuhao

介绍

我们推出了Morpheus-1-70B(Morpheus),一个能够根据文本指令生成互动且具有插图的故事的讲故事模型。具体来说,Morpheus是一个经过微调的智能体集合,形成了一个叙事引擎,能够根据用户输入生成引人入胜、连贯且插图丰富的故事。在盲测中,它在故事写作方面达到了最新的技术水平。其商业版本目前已在我们故事生成平台MidReal(midreal.ai)上部署。

在此之前,已有大量关于用户引导的创意写作和插图生成的研究。诸如Re3、DOC和RecurrentGPT之类的故事生成框架在提高长篇故事的连贯性、相关性和趣味性方面表现出色。StoryDiffusion提出了自我注意力的一致性,确保生成的图像中的角色一致性,并能够为故事配上长篇插图。

尽管这些先前的工作取得了显著进展,但它们尚未达到直接生产所需的性能水平。Morpheus作为这些方法的继任者,已经成为一个通用的故事和插图生成模型,正在为MidReal上的超过10万创作者服务。

在这篇报告中,我们展示了Morpheus如何通过以下两个方面推进故事讲述AI的发展:(1)我们用于Llama 3(及其他预训练模型)后训练的方法和统计数据,它们构成了我们模型的基础;(2)Morpheus能力和局限性的定性和定量评估。报告中未包含模型和实现细节。

DOC: https://arxiv.org/abs/2212.10077

Re3: https://arxiv.org/abs/2210.06774

RecurrentGPT: https://arxiv.org/abs/2305.13304

StoryDiffusion: https://storydiffusion.github.io/

方法

思维树

我们从Shunyu Yao的“思维树”工作中汲取灵感,该方法将问题解决过程组织成树状结构。在这个结构中,节点表示部分解决方案,边表示修改这些解决方案的操作。这种方式模仿了人类系统2思维的过程,这种思维方式缓慢、深思熟虑且有意识,具有很高的推理能力,可以解决复杂问题。

我们发现,写故事的过程很像构建一个问题解决树。在创意写作中,输入场景充当树的根,随后的每一层节点在前一层的基础上展开,从粗略到精细地塑造故事。最精细的大纲然后被扩展成用户阅读的实际段落。

Morpheus与“思维树”和DOC不同之处在于这一过程专门为创意写作进行了重新设计和微调。我们使用公开可访问的数据训练模型,以学习节点扩展的最佳策略。为了平衡用户在故事中途重新导向叙述的意图、规划质量和生成时间,树构建过程是动态的,根据需要创建或重建节点。

动态记忆压缩

RecurrentGPT使用自然语言模拟长短期记忆机制,在硬盘上存储和更新记忆。在每个时间步,它生成一个段落并更新硬盘上的记忆。这种方法通过在多个段落之间保持上下文和连贯性,实现了连贯的长篇文本生成。

Morpheus改进了这一记忆机制,采用了更加动态的记忆系统。在写下故事的下一个段落时,所有先前撰写的文本都会动态压缩,其中最相关的信息(例如,前文的伏笔)压缩得最少。这种方法使模型能够始终将整个故事置于其上下文中,根据计划写的下一个段落调整不同部分的压缩比例。

智能体微调

FireAct提出了一种微调大语言模型以创建具有更高性能的智能体的方法。它展示了即使是较弱的模型,如Llama-2-7B,通过智能体微调也可以在HotpotQA上实现77%的性能提升。这种方法在推理期间与传统的提示智能体架构相比,在成本、时间和稳健性方面具有优势。

Morpheus采用了这种智能体微调的方法。具体来说,模型在约15亿个标记上进行了微调,用于实体生成、情节扩展、段落生成和记忆回忆。这些数据来自公开访问的故事,分为两种语言和十种不同的风格。为了实现最佳的微调效果,数据被预处理成与推理时间结构匹配的树格式,以获得最佳性能。

MidReal StoryDiffusion

诸如StoryDiffusion和IP-Adapter之类的模型已经解决了基于单张图像维持角色一致外观的问题。然而,要真正创造身临其境的插图,不仅需要视觉一致性。还有两个关键方面:首先,插图必须忠实地跟随故事的发展,识别出代表每段故事的最佳场景。其次,拍摄角度和类型必须动态调整,以为视觉叙事提供电影般的深度。

为实现这一目标,我们创建了自己的基于扩散的模型,并通过基于transformer的LLM对其进行了微调,以将插图生成模块编织到Morpheus中。在生成故事时,Morpheus首先选择插图风格。然后,对于每段故事,它会自动识别最佳场景,并以量身定制的拍摄角度和类型生成插图,同时保持角色外观的一致性。这种方法使Morpheus能够创造出丰富且一致的视觉体验。

社会模拟与多模态渲染

Morpheus不仅构建叙事树,还创建一个连贯的语义列表来指导故事生成。该列表包括前提、背景、角色、关键物体、主题和其他重要的故事元素。对于每个角色,Morpheus还构建了一个行为模型。基于这些语义,Morpheus在构建树的过程中模拟了角色与环境之间的互动,类似于游戏引擎的模拟。这种模拟使Morpheus能够通过微调,将输出根植于其他模态,包括角色对话、插图系列、视频,甚至3D互动。

情感发展

为了创造引人入胜的故事,Morpheus通过有效的节奏控制来建立悬念和解决。我们通过增强的节奏参数对模型进行微调,以控制故事的节奏。节奏还包括预期的情感反应以及角色在每段中的目标进展。

训练统计

训练配置:AdamW优化器,余弦学习率调度器,初始学习率5e-5。每个设备批量大小为8,梯度累积步数为8,有效批量大小为128。最大序列长度为8192。LoRA微调应用于q_proj和v_proj层。模型并行性使用了DeepSpeed的ZeRO stage 3和完全分片数据并行(FSDP)策略。为了提高内存效率,使用了4-bit量化、FP16精度和Flash Attention。训练进行了7个周期,验证集占比10%,每100步进行一次评估,并在训练结束时保存最佳模型。训练期间记录了损失曲线。实验在配备NVIDIA A100/A800 GPU的集群上进行,每个节点包含8个通过NVLink和NVSwitch连接的GPU,节点之间通过InfiniBand互连。

指标

W&B指标

下图展示了一个示例训练作业的w&b指标。

人类评估

为了严格评估Morpheus生成的故事质量,我们建立了一个由五个不同类别组成的评估框架。每个类别都旨在衡量叙事输出的关键方面,这些方面有助于提供令人满意的阅读体验:

  • 趣味性:片段能够吸引和吸引读者。
  • 连贯性:片段逻辑流畅且易于理解。
  • 相关性:片段与所提供的主题一致。
  • 情感影响:片段能够引发情感反应,无论是兴奋、紧张还是惊讶。
  • 语言风格:写作具有高文学质量,节奏和流畅性令人愉悦。

我们采用了一项双盲研究,涉及900对故事对比。每对故事片段中包括一个由Morpheus生成的片段以及一个由竞争模型生成的对应片段。为了防止评估过程中的偏见,评估者不知道哪个片段是由哪个模型生成的。

下图所示的结果表明,Morpheus在五个类别中的四个类别中显著优于其他模型。值得注意的是,Morpheus在连贯性、趣味性、情感影响和语言风格方面表现尤为出色,这表明它能够生成结构良好、引人入胜且情感共鸣强烈的故事,并具有高水平的文学风格。

示例

以下是Morpheus的早期用户生成的故事示例。虽然这些故事尚未达到畅销书的质量,但它们清楚地展示了AI撰写引人入胜、连贯叙事的潜力。

https://midreal.ai/s/eAzF

https://midreal.ai/s/eAp9

https://midreal.ai/s/eAsE

https://midreal.ai/s/eADe

讨论

讲故事 vs 聊天

目前,大多数大型语言模型都被训练为聊天模型,响应用户输入并充当助手或用户定义的任何角色。这种方法适用于构建基础服务,使应用程序开发人员能够引导模型朝着期望的方向发展。

然而,讲故事本质上是一个补全任务,而不是一个聊天任务。Morpheus试图通过后期训练来消除预训练模型的聊天性质。通过专注于故事补全和叙事连贯性,Morpheus根据用户提供的场景生成引人入胜的故事。未来,我们将探索更深入的方式重新训练模型,使其从根本上适应讲故事的任务。

带后期训练的智能体 vs 提示生成的智能体

传统上,智能体是通过基于提示的框架创建的。由Shunyu Yao提出的推理和行动框架(ReAct)是基于提示的智能体的一个杰出范例。然而,基于提示的智能体存在几个缺点,包括(1)由于反复提示交互而速度慢,(2)稳健性较低,(3)由于提示中只能提供少量示例,动作策略定义不足。

另一方面,Morpheus是一个经过微调的智能体,速度更快,稳健性更高,准确性更强。更大的数据集为微调智能体提供了更强的学习支持,使其能够推导出更复杂的策略以供采样,并适应各种输入和状态。后期训练还使重复提示变得不再必要。

带有开源权重模型的后期训练 vs 专有模型

在实验的早期阶段,我们使用了专有模型。然而,随着Llama 3和Mixtral 8x22B等开源权重模型的发布,格局发生了显著变化。我们观察到开源模型与专有模型之间的性能差距正在缩小,而适用于开源权重模型的后期训练技术的发展速度超过了专有模型平台提供的微调方法。我们预计在未来2-3年内,开源权重模型的后期训练将变得更加主流。

愿景

我们相信讲故事是基于AI的娱乐的未来。虽然Character.AI等产品引起了广泛关注,但聊天机器人不太可能成为AI媒体的最终形式。

我们认为“故事”是一种更为根本的媒体形式。无论是漫画、电影还是游戏,它们都围绕着主角及其与环境的互动展开叙事。通过利用讲故事的力量,我们期望从叙事的坚实基础扩展到更高的模态,从而提供更具沉浸感的体验。

我们致力于降低写作的执行门槛,使任何人都能成为合格的故事讲述者,并塑造一个充满无数创意和多样媒体的未来。

未来方向

展望未来,我们计划通过整合更多的多模态渲染技术来增强Morpheus的讲故事能力。这将涉及生成与故事发展相一致的插图、视频和3D交互内容。通过优化记忆压缩和长篇计划,我们将创作出更具深度和一致性的故事。

同时,我们计划探索更广泛的后期训练方法来创建智能体,使Morpheus能够更好地捕捉用户偏好,并生成与不同受众产生共鸣的故事。我们还将研究协作叙事的潜力,使多个用户能够共同塑造一个共享的叙事,同时保持连贯性和沉浸感。

总之,Morpheus代表了AI叙事的重大进步。通过将讲故事作为核心应用,并利用大型语言模型和扩散模型的最新进展,我们相信Morpheus将重新定义人们与故事互动的方式,使互动式、个性化的叙事对每个人都可及。

致谢

我们对MIT、香港科技大学、上海交通大学和MidReal团队提供的资源和支持表示由衷感谢。我们还要特别感谢Ciaran、Shunyu、Zhenbang和Jianuo对这项工作的宝贵贡献。