凭借飞桨平台和文心大模型,百度不仅在自身的搜索、信息流等业务中实现了大规模应用,还将眼光放在了更广阔的各行各业上:工业、农业、能源、城市、科学计算等等20多个领域。
如何解决这个问题?出发点就是能否把搜索引擎日志迁移去做对话式搜索引擎的训练。在这个思想上,把大规模的web搜索的日志转换成对话式搜索日志,然后在转换之后的数据上训练对话式搜索的模型。但这种方法也同时伴随着两个很明显的问题:
百度自2019年开始深耕预训练模型研发,先后发布知识增强文心(ERNIE)系列模型。根据百度方面披露的信息,该文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品。
有了AI领域全环节的覆盖,目前,飞桨和文心大模型已大规模应用于百度搜索、信息流、智能音箱等互联网产品,显著提升了百度的产品效果和用户体验。同时也根据企业需要,为其他芯片、平台提供相应的接口。可以看出,百度绝非简单的AI公司,它正在向国内AI基础设施提供者的角色嬗变。
实验显示,用这种自动生成的训练数据来训练的对话式搜索模型,能够和使用昂贵的人造或者人工标注的数据达到同样的效果,且随着自动生成的训练数据规模的增大,性能也会持续提升。这种方法使我们基于大规模搜索日志进行训练对话式搜索模型成为了可能。