谷歌在一项专利中写道,它可能会使用向量空间分析根据在网站上发现的特征对网站进行分类。
这篇文章是关于 2018 年 8 月提交的一项新的谷歌专利申请,该申请于 2020 年初在世界知识产权组织 (WIPO) 发布。
该专利申请使用神经网络来了解网站
背后的模式和特征并对这些网站进行分类。
本网站分类体系是指在特定知 whatsapp 筛查 识领域内对网站进行分类的向量。
这些知识领域可以包括健康、金融等主题。归类在某些知识领域的网站可能具有排名优势。
这些网站分类比知识领域内的网站类别更加多样化。该专利进一步细分了类别:
例如,网站分类可以包括第一类由知识领域的专家(例如医生)编写的网站、第二类由知识领域的学徒(例如医学生)编写的网站、以及第三类由知识领域的外行编写的网站。
我记得SEO行业中关于 Google 质量评估指南的讨论以及其中对 EAT 或专业知识、权威性和可信度的引用。 QRG 指向具有不同 EAT 级别的医疗保健网站,类似于谷歌新专利申请中关于网站表示向量的分类:
具有高 EAT 的医疗建议应由具 助您提高转化率 有适当医疗专业知识的个人或组织撰写或准备。具有高 EAT 的医疗建议或信息应
以专业风格撰写,并应定期编辑、审查和更新。
指南指出,有些网站是由对某些主题缺乏专业知识的人创建的:
甚至有可能拥有YMYL主题的日常专业知识。例如,有针对患有特定疾病的人的论坛和支持页面。分享个人经历是日常专业知识的一种形式。考虑这个例子。
在这里,论坛参与者正在讲述他们的亲人患肝癌后还能存活多久。这是分享个人经历(他们是这方面的专家)的一个例子
,而不是医疗建议。具体的医疗信息和建议(而不是
生活经历的描述)应该来自医生或其他健康专业人士。
等级包括专家级、学徒级和外行级。
这些分类基于不同级别的 ws資料庫 专业水平,专利指出它还根据权威性对网站进行排名,但没有提及可信度,因此它没有考虑基于 EAT 对网站的完整排名。该方法捕捉到了 EAT 的两个方面,因此它可以通过允许人工评级者对排名靠前且表现出高度权威性和专业性的页面进行评级来满足质量评级指南的部分目标。
如果此过程还限制了 Google 必须返回搜索结果的网站数量(具体取决于它们所在的知识域),则意味着 Google 抓取以返回结果的网站数量少于 Google 整个网络索引所提供的数量。让我们仔细看看这项专利申请背后的过程。
该过程将网站划分为特定的知识领域,并尝试在这些特定知识领域内找到不同类型的网站:
-
-
- 接收网站渲染矢量和质量评级,这些评级代表了网站与其他网站相比的质量测量。
- 对第一个网站进行排名,其中每个网站的质量评级都低于某个阈值,其中至少有一个网站的质量评级低于该阈值
- 对第二网站进行分类,每个网站的质量评级都高于高于第一阈值的某个阈值,至少一个网站的质量评级高于第一阈值
- 生成被归类为第一网站的网站的第一个汇总样本表示
- 从第二个分类网站组中创建第二个汇总样本表示
- 接收另一个网站
- 确定第一个聚合样本表示与单个其他网站表示之间的差异的第一个度量
- 确定第二个聚合样本表示与其他单个网站表示之间的差异的第二个度量
- 根据第一个差异度量和第二个差异度量对另一个网站进行分类,或者将其归类为不符合第一个或第二个差异度量的类别。
-
搜索查询需要来自经过验证的知识源的结果
专利申请指出,该方法涉及使用搜索查询中的术语来了解搜索查询需要来自特定知识领域的数据。
搜索查询可以从这个特定的知识领域寻找答案。该程序包括:
-
-
- 从权威来源生成经过预处理的答案,以供将来的搜索查询使用
- 接收针对特定知识领域的搜索查询
- 使用预处理过的答案之一来回答搜索查询
-
使用向量空间分析的优点
搜索引擎可以仅选择、抓取或同时抓取具有特定分类的站点的数据,从而减少查找搜索结果所需的计算资源,例如,不选择或抓取任何与分类不匹配的站点,或两者兼而有之。这可以:
-
- 减少存储潜在搜索结果数据所需的存储空间,例如,可能只需要存储具有特定分类的网站的数据
- 减少搜索系统需要分析的网站数量,例如将搜索限制在具有特定分类的网站