semaphore提示您:看后求收藏(新笔趣阁www.xbqg5200.com),接着再看更方便。
通过不同的网络对其进行编码。图像标题 生成多种风格的标题、 周和龙 (2023)在生成标题前使用了一种风格感知视觉编码器来检索图像内容。除了对视觉信息进行简单的编码外,Cho 等人还使用了视觉编码器、 Cho et al. (2022) 进一步使用图像-文本对之间的多模态相似性作为奖励函数来训练更精细的字幕模型。除了检索图像元素外、
过检索新闻文章中的视觉基础实体来处理新闻图片标题。视觉基础对话Lee et al., 2021b) 要求检索视觉信息以生成相关的对话回复。Fan et al. (2021)用基于 KNN 的信息获取(KIF)模块增强了生成模型,该模块可检索图像和维基知识。梁等人 (2021)从图像索引中检索与对话框相关的图像,作为响应生成器的基础。Shen 等人 (2021)训练了一个单词-图像映射模型来检索反应的视觉印象,然后使用文本和视觉信息生成反应。文本生成 对于一般的文本生成任务,图像检索也可以帮助扩展上下文。杨等人 (2022a)通过检索现有图像和合成新生成的图像来增强文本模型的 "想象力"。因此,为语言模型注入想象力可以提高许多下游自然语言任务的性能。类似的例子还有 Zhu 等人 (2023)将 "想象力 "。
增强与合成图像和检索图像进行了比较,认为机器生成的图像由于更好地考虑了上下文,可以提供