第1733章 准备创立百度公司(2 / 4)

“完全可能。《2024最受欢迎小说:》”陈浩拿起那几张纸,“技术上已经具备条件了。

我把它叫做‘某度’,取‘众里寻他千某度’的意思。”

他从第一页开始讲解:“首先,我们需要写一个程序,叫网络爬虫。

它会像蜘蛛一样,从一个网页爬到另一个网页,把网上所有的内容都收集起来。”

“所有?”贾瀞雯惊讶地问,“网上有多少网页啊?”

“现在不多,但以后会有几十亿,几百亿。”陈浩平静地说,“所以这个爬虫要日夜不停地工作,发现新网页就存下来,已经有的就更新。”

他翻到第二页:“存下来的网页要建立索引。

就像图书馆的目录卡片,把每个网页里重要的词摘出来,记录这个词出现在哪个网页、出现了多少次、在什么位置。”

贾瀞雯努力理解着:“就是说,如果有人搜‘汽车’,我们马上能知道哪些网页提到了‘汽车’?”

“聪明!”陈浩赞许地看她一眼,“但还不够。

如果只是简单匹配,会搜出太多没用的结果。

比如有人搜‘苹果’,他可能想找水果,也可能是找苹果电脑,或者叫‘苹果’的乐队。”

“那怎么办?”

“这就是最核心的部分——排名算法。”陈浩的声音里带着兴奋,“我们要给搜索结果排序,把最可能符合用户需求的网页放在最前面。

这需要考虑很多因素:关键词出现的频率、位置、网页本身的重要性、其他网页链接到这个网页的数量……”

贾瀞雯皱起眉:“等一下,我有点跟不上了。

网页的重要性怎么判断?”

“如果一个网页被很多其他网页链接,说明它可能比较权威。”陈浩耐心解释,“就像一篇论文被引用的次数越多,通常越重要。

举报本章错误( 无需登录 )