首页- 百度排名方法- 如何根据产品策略优化搜索排名结果

如何根据产品策略优化搜索排名结果

发布时间:2021-03-09 08:00:00

编辑指南:搜索是最常见的功能之一。用户可以通过站内搜索快速找到自己想要的东西,改善用户体验,提升转化率。如何建立一个高质量的网站搜索引擎?本文将从五个方面进行分析,希望对您有所帮助。

1、 站内搜索的意义

对于媒体内容网站、电子商务、SaaS服务等b端企业来说,增加“站内搜索”功能,帮助用户快速找到自己想要的东西,是改善用户体验、降低跳出率、提升用户转化率的途径。

另一方面,站内搜索也是帮助b端企业快速收集用户真实想法的好工具。用户的每一次搜索和点击都是对自己网站内容的反馈,尤其是没有结果的搜索词。这也是一个重要的***手资料,以帮助我们改善网站。

那么如何快速构建一个高质量的搜索引擎呢?接下来,我将写一系列文章详细讲解网站搜索的各个方面,欢迎大家继续关注。

今天,我们来谈谈如何从产品层面优化搜索排名结果。

2、 浅谈初级搜索算法

要深入理解搜索,必须从搜索引擎的起源入手。任何复杂的系统都是从一个简单的系统开始,然后逐渐演化。复杂系统在设计时很难很好地工作。所以我们必须回到源头,从源头上理解搜索。

1990年代,TREC组织了一系列年度研讨会。本研讨会的主要目的是寻找由非结构化长文档组成的数据集的***搜索算法。TREC对搜索引擎算法做了大量的优化,TF-IDF算法应该是当时***的排序算法的主要部分。

TF-IDF算法和它的名字一样,包含两个关键元素:“词频TF”和“逆文档频率IDF”。这两个因素经过统计加权后用于获得搜索排名。

用户键入“搜索词”后,首先比较整个文档库中包含最多“搜索词”的文档。包含的内容越多,此文档的排名就越高。

这个简单的规则有一个致命的问题。在我们的语言中有许多连词、代词、助词,它们只是用来辅助句子表达的词。例如,像“马”、“叶”、“这个”、“但是”这样的词不是文件的核心内容,所以应该减少权重。

此时,我们将介绍第二个关键元素—逆文档频率IDF。它的功能是减少频繁词在语料库中的权重。一个单词在语料库中重复的次数越多,包含该单词的文档的排名就越低。

TF-IDF的设计是否简单巧妙?TF-IDF排序算法和BM25等类似算法基本上是古灶搜索引擎查询排序的核心算法。这种算法主要针对非结构化的长文本,如大型企业文档、历年司法文档、全球论文检索数据库等。

这种算法是搜索引擎的基石,很好的理解它们的原理,有助于我们设计自己的站点搜索。接下来,让我们谈谈如何设计和处理独立站点、小程序和应用程序中的搜索问题。

3、 如何按数据属性优化排序结果

今天我们不谈搜索技术,只谈站内搜索的产品设计。

该算法的问题在于,它只能针对少数场景进行设计,不适合在互联网上的网站、小程序和应用程序中进行信息搜索。这种搜索会把所有的文档放在一起,而不考虑类型,我们当前的数据信息包含了很多纬度,甚至一些用户行为投票的社会指标也包含在其中,比如(查看、喜欢、转发等)。

如何利用多维数据提高搜索精度是我们需要思考的问题。

前面我们提到了TF-IDF搜索算法的原理,那么为了进一步提高搜索引擎的排名精度,应该增加哪些元素呢?事实上,我们网站/Applet/app中的文档信息并不是混在一起的,而是包含了很多纬度信息,甚至有些纬度是用户行为产生的文档质量投票,比如浏览量、喜欢度、转发量、收藏量等,如何利用这么多的多维信息来帮助我们优化搜索?

一般来说,我们可以将网站中的文档信息分为这样几个维度。

举个例子。假设用户最近看了威尔·史密斯的经典电影《当幸福敲门》并且非常喜欢。第二天,我打算去豆瓣看影评,但昨天看到的却是“幸福”?用户只记得电影名称中有一个幸福,所以在豆瓣电影的搜索框中输入“幸福”。

请考虑一下用户此时的心理状态。他当然不在乎有多少电影片名包含“幸福”一词(TF频率),当然也不在乎“幸福”一词是否是电影片名中的常用词(IDF频率)。

这个用户更关心的是如何快速准确地找到他昨天看的电影《幸福》,并快速观看影评。

在这个场景的搜索中,“幸福”这个词有很多属性,可以被我们的搜索引擎用来进行排名判断。

在对上述属性进行数字加权后,使用TF-IDF排序算法更容易将“当幸福敲门”排在搜索结果的顶部,而不是找到“当幸福敲门”。

因此,我们应该在排名结果中考虑网站业务的各种属性,并根据不同属性的重要性设计权重。我们可以从以下几个方面来考虑调度问题。

豆瓣电影输入“史密斯”,前三位是电影人,后三位是电影人。这是一个基于产品业务权重的搜索排名策略。

通过这些排序策略,与经典的搜索算法相比,站点搜索的搜索精度有了很大的提高。那么,如何继续提高分拣质量呢?

接下来,我们来谈谈如何灵活运用这些搜索策略,进一步提高搜索排名结果。

4、 如何通过调整数据属性的排序来优化搜索结果

搜索结果准确率低的原因不是搜索算法。无论网站/应用程序有多大、多复杂,规则都可能用尽。与全网搜索的难度相比,难度低了无数个数量级。

有什么问题吗?问题在于缺乏或难以灵活运用搜索策略。

如果我们用elasticsearch来构建站内搜索,从“构建”到“可用”其实非常容易,但从“可用”到“可用”,需要几个工程师+无数时间的积累。这不是普通中小企业能承受的成本。大多数中小型公司仍将维持勉强度日的状态。

特别是,基本搜索算法选择使用一个大的浮点分数将所有内容混合在一起。根据所有规则对每个文档进行加权以获得分数。然后按照这个规则排序。这种方法有一个致命的问题,那就是混合不同的属性来谈论排序。

例如。假设排序方案包括TF-IDF和likes。所以问题是,我们的搜索引擎排名如何?

如果一个文档有一个非常高的like计数,它将如何排序?此文档将位于列表的顶部,即使文档和搜索词之间的相关性很低。

因此,如果一个文档与搜索词高度相关,但是喜欢的数量是0,那么它将如何排序?这个类似0的文章可能不会出现在排序结果中。

这种混合搜索排序方法的另一个问题是其复杂性。当多个纬度的属性混合在一个公式中时,当我们发现搜索结果不好时,我们不知道如何调整。

那么,面对这个多纬度的搜索问题,我们应该如何设计搜索排名呢?

聪明的方法是将所有属性分解,并根据自己的业务调整它们的顺序。不是将所有属性混合在一起计算大分数,而是连续n次计算和排序n个分数。

所有的匹配结果都按照一个准则进行排序。如果存在平行分数,则继续根据第二个标准计算和排序分数。如果仍然有相似之处,请继续使用第三个条件,直到每个条件在搜索结果中都有自己的位置。

因此,在这一过程中首先采用哪一个标准来进行判断就成为排序方案的关键。

Copyright © 2015-2020. 未经许可,不可拷贝或镜像 lunmei.net