Thinkgap 信息流

过滤噪音，保留 AI 信号。

页面仅读取已加工的 items 表，并以中英双语呈现。

1 条内容

MEDIUM LARGE LANGUAGE MODELS2026年6月11日

GELATO：冻结塔方法实现多模态嵌入

GELATO 探索将强大的预训练文本嵌入模型扩展到多模态场景，而非从头训练新模型。其文本编码器保持冻结（“文本塔”），同时训练独立的其他模态编码器，将图像等数据对齐到相同的嵌入空间。这种“冻结塔”策略利用了已有文本理解能力，避免重新训练核心模型。文章介绍了该方法及其高效多模态表示学习的动机。