贾瀞雯拿起笔。
“第一,爬虫的伦理问题。
我们要遵守rObOtS协议,就是网站根目录下的一个文本文件,告诉爬虫哪些页面可以访问,哪些不行。
这个必须遵守,不然我们会惹麻烦。”
“第二,网页格式问题。
现在网页主要是HTML,虽然各家写法不一样,但基本结构是固定的。
链接都在<ahref=>标签里,用正则表达式可以提取。”
贾瀞雯打断:“正则表达式是什么?”
“一种文本匹配的方法。”陈浩解释,“比如你要找所有以‘http://’开头的字符串。
这个让技术人员去查资料,他们懂。”
“第三,防止死循环。
每个访问过的链接都要记录下来,下次遇到就直接跳过。
还要设置深度限制,不能无限爬下去。”
贾瀞雯飞快地记着。
陈浩的声音很平静,好像这些难题都不是问题。
“那中文分词呢?”她问,“这个他们觉得特别难。”
电话那头沉默了一会儿。
“这个确实难。”陈浩承认,“英文搜索可以直接按单词匹配,中文必须先把句子切分成有意义的词语。
我们需要的不是机械切分,而是理解语义后的智能切分。”
“怎么做?”
“两种思路。”陈浩说,“一是基于词典,把常用的词做成词典库,然后匹配。
二是基于统计,分析大量文本,找出经常连在一起出现的字组合。
第1741章别被技术细节吓住
最好的办法是两者结合。”
贾瀞雯记下最后几个字,笔尖顿了顿:“浩哥,这些概念你怎么都懂?你又没学过计算机。”