评测:谷歌搜索质量退步了吗?

发布时间: 访问量:83

大数据文摘转载自数据实战派

作者:surgehq.ai

译者:Hugo

最近在Hacker News上有很多关于谷歌搜索质量是否退步了的讨论。

谷歌搜索结果是不是越来越差了?

有趣的是,我自己也注意到了这一点。上周,我和一个朋友聊起了Databricks,于是我们搜索了“Databricks 的b轮估值”,想找出该公司的b轮估值是多少。

没想到的是,谷歌居然不懂“series b”的意思(它似乎混淆了“b”和“billions”),所以第一个搜索结果明显是不相关的。我在第一页甚至没有得到任何关于该公司B轮估值的信息。

谷歌搜索结果是不是越来越差了?

相比之下,必应的搜索结果页面就要好得多。关于该公司B轮估值的信息在第一个扩展搜索结果中是正确的(它不包含估值信息,但这是意料之中的,因为B轮估值是不公开的),右边的边栏也恰到好处。

谷歌搜索结果是不是越来越差了?

那么为什么谷歌搜索质量会退步呢? 可能是以下几个的原因 :

  1. 谷歌重视短期广告收入甚于搜索质量。讽刺的是,谷歌发表过一篇著名的论文,详细解释了 长期目标 对用户和业务更好!

  2. 信息多样性正在超越传统的网页。如今,越来越多内容经常出现在Twitter、Facebook、YouTube、Medium、Reddit等网站上。如今的互联网已经和谷歌搜索诞生时的互联网大不相同了!

  3. 从历史上看,谷歌搜索中几乎没有使用ML。但据我所知,这在最近几年有所改变。由于领导层的更替和人工智能的进步。有没有可能ML在不经意间使搜索质量变差了?

  4. 至关重要的是,评估搜索质量是一个非常困难的问题。

例如,有人认为,更好的搜索是提供更多的点击选项。当我搜索“databricks 的B轮估值”时,你可能会认为我想点击包含相关信息的网站。但理想情况下,我可能永远不会点击:我只需要看一眼搜索结果页面(SERP)顶部显示的估值就好了。更重要的是,点击通常是一个不好的信号:例如,我可能会点击谷歌的第一个搜索结果,因为我错误地认为它包含了B轮估值的信息,事实上里面并没有。

那么谷歌的搜索质量真的在退步吗?它现在有多好,和它的竞争对手相比又是什么水平呢?

我曾在YouTube、Twitter和微软从事搜索质量评估工作,这是Surge AI的主要客户用例之一。

所以,让我们来分析一下谷歌搜索在2022年到底是什么水平。

首先,如何严格地衡量一个搜索引擎的搜索质量?正如上面提到的,使用传统的指标来衡量搜索质量是非常困难的,衡量指标主要有以下几种:

  • 点击选项:如前所述,点击选项多并不一定是好事。

  • 搜索耗时:搜索速度快是好是坏?好处是快速找到答案,坏处是时间短导致搜索结果太差。

  • 重定义:如果第一次的搜索查询失败了,用户重写查询内容并再次尝试查询。重定义可能是一件坏事。因为很多人会直接放弃而没有重新输入问题,而且,如何判断一个查询是否是重新输入的呢?

  • 也许长期指标是解决方案。

搜索引擎需要做什么?谷歌首创的另一种评估方法是人工评估:直接问人工评分者参与的搜索结果的好坏。换句话说,就是直接向人工评分员提供一组搜索问题和对应的搜索结果,并要求他们对每个搜索结果的满意程度进行评分。

这种方法有许多细微差别。例如:评分者怎么知道搜索的意图?是对搜索结果个别评分还是整体评分?评分人员如何挑选?

但无论如何,这是我最喜欢的方法。

谷歌搜索的质量

因此,为了衡量谷歌搜索的质量,以下是我的操作过程:

  • 我请了一组来自Surge AI的评估人员。Surge AI是一个新型的数据标注平台,拥有高技能的人工评分员。

  • 为了给搜索查询打分,我要求250名评估人员在他们的浏览器历史中查找最近的搜索内容,并将其作为打分的内容。这是一个个性化搜索评估的例子(与随机抽样搜索查询和评估人员猜测每个查询背后的意图不同)。因此,这些实际的查询代表了美国广大网民的使用模式。

  • 每个评价人员然后要解释他们的最初查询意图,用1-5的打分评价谷歌搜索满足该意图的程度,并解释他们的评判标准。

以下是结果:

谷歌搜索结果是不是越来越差了?

以下是谷歌表现不佳的搜索结果示例:

搜索查询:视频博主tim lee的年龄

意图:我想知道YouTube视频博主Tim Lee的年龄

评级:差

解释:只有一些结果显示了对的人,但我从这些结果中根本找不到他的年龄。

谷歌搜索结果是不是越来越差了?

除了请评分人员给谷歌的SERP评分外,我还请他们将其与必应进行比较。这是一个对比评估,而不是做绝对的判断,比较它们哪个更好。

以下是结果:

谷歌搜索结果是不是越来越差了?

所以谷歌的表现确实优于Bing,从统计来看差异显著的。但有趣的是,有些搜索谷歌的结果更差。例如:

搜索:治愈猫过敏的方法

目的:我的猫鼻塞,我想知道是否有普通疗法或其他产品让我可以买到来治愈它。

1)谷歌搜索引擎

评级:尚可

解释:谷歌结果页面没有完全理解我的问题。显示的结果也令人困惑,因为只有一半的内容与猫的过敏有关,其余的内容是一般宠物过敏或人类对猫过敏。

谷歌搜索结果是不是越来越差了?

谷歌搜索结果是不是越来越差了?

2)必应搜索引擎

评级:极佳

解释:然后还提供了一篇有针对性的文章,建议如何利用家庭疗法治疗和预防猫过敏。

谷歌搜索结果是不是越来越差了?

总的来说,必应的搜索结果要好得多。因为它提供了用户可能想要的所有结果,包括广告、文章、图片和操作指南。谷歌的页面只提供了可购买的产品和一些有趣的文章,但他们的搜索结果对该查询是有误解的。

测试2

搜索查询: iphone的消息屏蔽是什么情况?

搜索意图:我给一个亲戚发了一条短信,然后我收到了一条“信息已被屏蔽”的自动回复。我没有和那个亲戚吵架而且我们一直都很好,所以我觉得这很奇怪。

我还觉得这很奇怪是因为这是一条自动回复,通常只有公司才会试图屏蔽某些信息,所以我查了一下。

1)谷歌搜索引擎

评级:尚可

解释:第一个和第三个搜索结果误解了我的查询意图,它以为我在问如何屏蔽其他人。第二个搜索结果是有帮助的。

谷歌搜索结果是不是越来越差了?

2)必应搜索引擎

评级:好

解释:网站的搜索结果都能理解我在寻找什么,并且与我收到的信息有关。

谷歌搜索结果是不是越来越差了?

总的来说,必应要好得多。谷歌不明白查询人的问题,给了没有帮助的答案。必应则能明白。

测试3

搜索查询:印第安纳波利斯的免费核酸检测点

目的:我试图在印第安纳波利斯找到免费的核酸检测点。理想情况下,最好有一份该地区所有检测点的清单或地图。

1)谷歌搜索引擎

评级:尚可

解释:我希望可以在搜索结果中更快地找到该城市可用的检测点。相反,我看到了一个满是广告的页面。

谷歌搜索结果是不是越来越差了?

2)必应搜索引擎

评级:好

解释:第二个搜索结果是一张地图,上面列出了检测点、它们的位置以及它们的工作时间。这对我很有帮助!

谷歌搜索结果是不是越来越差了?

总的来说,Bing要好得多。我以为我必须先点击搜索结果中的链接才能找到地图,但我用必应搜索时就得到了想要的结果。

免责声明

原文出处《评测:谷歌搜索质量退步了吗?》,本站未证实文章的真实性和有效性,如产生任何问题,酷目录不承担任何责任。如对内容有疑问,请及时联系本站处理。

  • 更多文章
  • 相关网站
  • 随便看看
  • 推荐文章