按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。一个网页重要性的分析的算法。通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。1、接受一个用户查询的请求。HITS 算法与用户输入的查询请求密切相关,它的查询结果是动态生成的,而 PageRank 算法则与用户的查询无关。2、将查询提交给某个现有的搜索引擎(或者是自己构造的检索系统),并在返回的搜索结果中,提取排名靠前的网页,得到一组与用户查询高度相关的初始网页集合,这个集合被称作为 root set3、建立 base set,凡是与根集内网页有直接链接指向关系的网页都被扩充进来,形成如下集合4、计算:auth[i] = sum(hub[j] * e[j][i], j = 1..n),hub[i] = sum(auth[j] * e[i][j], j = 1..n),注意此处先计算 auth 和 hub 的新值,然后覆盖原值5、归一化:auth[i] /= sqrt(sum(auth[i]^2)),hub[i] /= sqrt(sum(hub[i]^2)) ,即将 auth 向量和 hub 向量的长度置为1HIST算法是子集传播算法的代表算法。在HIST算法中,分为Hub页面和Authority页面,Authority页面是指与某个领域或者某个话题相关的高质量页面,Hub页面则是包含很多指向高质量Authority页面链接的网页,比如,hao123首页就是一个典型的高质量Hub页。Hub页和Authority页之间是相互增强的关系,HITS算法基于的是下面的两个基本假设:

  我们可以简单地理解为HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多,但是有很多来自枢纽页面的导入链接。典型的枢纽页面就是如雅虎目录、开放目录或好123样的网站目录。这种高质量的网站目录作用就在于指向其他权威网站,所以称为枢纽。而权威页面有很多导入链接其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面HITS算法是针对特定查询词的,所以称为主题搜索。HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接,当你的网站不能成为权威页面时,就让它成为枢纽页面,所以导出链接也是当前搜索引擎排名因素之一,绝不链接到其他网站的做法,并不是好的SEO方法。