GELATO:冻结塔方法实现多模态嵌入
GELATO 探索将强大的预训练文本嵌入模型扩展到多模态场景,而非从头训练新模型。其文本编码器保持冻结(“文本塔”),同时训练独立的其他模态编码器,将图像等数据对齐到相同的嵌入空间。这种“冻结塔”策略利用了已有文本理解能力,避免重新训练核心模型。文章介绍了该方法及其高效多模态表示学习的动机。
Thinkgap 信息流
页面仅读取已加工的 items 表,并以中英双语呈现。
1 条内容
GELATO 探索将强大的预训练文本嵌入模型扩展到多模态场景,而非从头训练新模型。其文本编码器保持冻结(“文本塔”),同时训练独立的其他模态编码器,将图像等数据对齐到相同的嵌入空间。这种“冻结塔”策略利用了已有文本理解能力,避免重新训练核心模型。文章介绍了该方法及其高效多模态表示学习的动机。