横店陈园别墅的客厅里,吊灯洒下暖黄色的光。<\/p>
陈浩靠在皮质沙发上,手里拿着几张写满字的纸。<\/p>
贾瀞雯坐在他对面,穿着米白色的针织衫,长发松松地挽在脑后。<\/p>
“瀞雯,今天要跟你说的事,可能会改变很多东西。”陈浩放下纸张,身体微微前倾。<\/p>
贾瀞雯眨了眨眼,端起茶几上的茶杯:“你说,我听着。”<\/p>
“你知道现在国内能上网的人还很少。”陈浩说,“但用不了几年,互联网会像电视一样普及。<\/p>
到那时候,每个人都能在网上发布信息,能建自已的网页,写文章,传图片。”<\/p>
“然后呢?”贾瀞雯放下茶杯。<\/p>
“然后问题就来了。”陈浩站起来,走到窗边又转回来,“信息太多,就像把全世界的书都堆在一个房间里,没有目录,没有分类。<\/p>
你想找某个具体的东西,得一本一本翻。”<\/p>
贾瀞雯点点头:“我懂这个意思。<\/p>
上次我想查国外的电影资料,找了两个小时都没找到想要的。”<\/p>
“对!”陈浩眼睛亮起来,“所以我们需要一个工具,一个能在这堆乱糟糟的信息里,快速找到你想要的东西的工具。”<\/p>
“什么工具?”<\/p>
“搜索引擎。”陈浩坐回沙发,语速加快,“你打开电脑,在一个框里输入你想找的内容,比如‘横店影视城’。<\/p>
按下回车,几秒钟后,所有包含这个关键词的网页都会列出来,按照相关程度排好序。”<\/p>
贾瀞雯微微张开嘴,想象着那个画面:“这……可能吗?”<\/p>
“完全可能。”陈浩拿起那几张纸,“技术上已经具备条件了。<\/p>
我把它叫做‘百度’,取‘众里寻他千百度’的意思。”<\/p>
他从第一页开始讲解:“首先,我们需要写一个程序,叫网络爬虫。<\/p>
它会像蜘蛛一样,从一个网页爬到另一个网页,把网上所有的内容都收集起来。”<\/p>
“所有?”贾瀞雯惊讶地问,“网上有多少网页啊?”<\/p>
“现在不多,但以后会有几十亿,几百亿。”陈浩平静地说,“所以这个爬虫要日夜不停地工作,发现新网页就存下来,已经有的就更新。”<\/p>
他翻到第二页:“存下来的网页要建立索引。<\/p>
就像图书馆的目录卡片,把每个网页里重要的词摘出来,记录这个词出现在哪个网页、出现了多少次、在什么位置。”<\/p>
贾瀞雯努力理解着:“就是说,如果有人搜‘汽车’,我们马上能知道哪些网页提到了‘汽车’?”<\/p>
“聪明!”陈浩赞许地看她一眼,“但还不够。<\/p>
如果只是简单匹配,会搜出太多没用的结果。<\/p>
比如有人搜‘苹果’,他可能想找水果,也可能是找苹果电脑,或者叫‘苹果’的乐队。”<\/p>
“那怎么办?”<\/p>
“这就是最核心的部分——排名算法。”陈浩的声音里带着兴奋,“我们要给搜索结果排序,把最可能符合用户需求的网页放在最前面。<\/p>
这需要考虑很多因素:关键词出现的频率、位置、网页本身的重要性、其他网页链接到这个网页的数量……”<\/p>
贾瀞雯皱起眉:“等一下,我有点跟不上了。<\/p>
网页的重要性怎么判断?”<\/p>
“如果一个网页被很多其他网页链接,说明它可能比较权威。”陈浩耐心解释,“就像一篇论文被引用的次数越多,通常越重要。<\/p>