那些垃圾页面不会被其他页面链接,分数自然低。”
“但实现起来很难。”王磊皱起眉,“我们需要分析整个网络的链接结构,这计算量太大了。”
贾瀞雯放下笔:“所以陈总说了,先做简化版。
不分析整个网络,只分析我们已收录的十万网页。
先验证这个思路是否可行。”
她看着团队:“陈总给了两周时间。
两周内,我们要做出超链分析的第一版,集成到排名算法里。”
任务定下来了,但怎么开始,谁都没底。
第一天,团队在查阅资料。
超链分析这个概念,国外有论文提到过,但没见到实际应用。
他们需要自己从头设计算法。
第二天,李明在白板上画出了第一版架构图:“我们需要建两个矩阵。
一个记录每个网页的出链,一个记录入链。
然后迭代计算,直到收敛。”
“收敛条件呢?”
“每个网页的分数变化小于某个阈值。”
“计算量还是大。”张涛摇头,“十万网页,矩阵就是一百亿个元素。
现在的服务器算不动。”
第三天,陈浩打电话来了。
“遇到困难了?”他问。
贾瀞雯实话实说:“算力不够。
团队说矩阵太大,迭代计算需要的时间太长。”
电话那头沉默了一会儿。
“可以简化。”陈浩说,“第一,不需要算所有网页。
只计算有入链的网页,那些孤立页面直接给最低分。