简单说,CLIP将图片与图片描述一起训练,达到的目的:给定一句文本,匹配到与文本内容相符的图片;给定一张图片,匹配到与图片相符的文本。
CLIP的能力不止于此。作为比对文本-图像对的预训练模型,它能将文本和图像转化为特征向量,计算出任意一对文本-图像的匹配度。如果将该匹配验证过程链接到AI图像生成模型之上,依靠CLIP的匹配验证,引导图像生成器推导出的图像特征值向量匹配指定的文本条件编码向量,不就能得到符合文字描述的图片吗?
采用图像提取、图像描述提取、元数据提取和搜索结果提取,建立图像搜索引擎。定义你的图像描述符,数据集索引,定义你的相似性度量,然后进行搜索和排名。选择要搜索的图像,选择用于进行搜索的目录,搜索所有图片的目录,创建图片特征索引,评估搜索图片的相同特征,匹配搜索的图片并获得匹配的图片。
CLIP模型的训练目标是什么?通过各种各样的复杂计算,让原本匹配的图片和文本产生正相关。将苹果的照片和苹果的文字进行匹配,而不是摩托车或其他。
在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。如图片、视频文件无法进行关键词匹配,但是却可能有外部链接,通过链接信息,搜索引擎就可以了解图片和视频的内容从而排名。不同文字的页面排名也成为可能。如在百度或http://google.cn搜索SEO,都可以看到英文和其他文字的SEO网站。