重生87：开局截胡港岛女神(极地苍狼)_第1741章别被技术细节吓住（2 / 4）_重生87：开局截胡港岛女神最新章节免费阅读无弹窗

贾瀞雯拿起笔。

“第一，爬虫的伦理问题。

我们要遵守rObOtS协议，就是网站根目录下的一个文本文件，告诉爬虫哪些页面可以访问，哪些不行。

这个必须遵守，不然我们会惹麻烦。”

“第二，网页格式问题。

现在网页主要是HTML，虽然各家写法不一样，但基本结构是固定的。

链接都在＜ahref=＞标签里，用正则表达式可以提取。”

贾瀞雯打断：“正则表达式是什么？”

“一种文本匹配的方法。”陈浩解释，“比如你要找所有以‘http://’开头的字符串。

这个让技术人员去查资料，他们懂。”

“第三，防止死循环。

每个访问过的链接都要记录下来，下次遇到就直接跳过。

还要设置深度限制，不能无限爬下去。”

贾瀞雯飞快地记着。

陈浩的声音很平静，好像这些难题都不是问题。

“那中文分词呢？”她问，“这个他们觉得特别难。”

电话那头沉默了一会儿。

“这个确实难。”陈浩承认，“英文搜索可以直接按单词匹配，中文必须先把句子切分成有意义的词语。

我们需要的不是机械切分，而是理解语义后的智能切分。”

“怎么做？”

“两种思路。”陈浩说，“一是基于词典，把常用的词做成词典库，然后匹配。

二是基于统计，分析大量文本，找出经常连在一起出现的字组合。

第1741章别被技术细节吓住

最好的办法是两者结合。”

贾瀞雯记下最后几个字，笔尖顿了顿：“浩哥，这些概念你怎么都懂？你又没学过计算机。”