手机浏览器扫描二维码访问
周大老板这个技术外行,怎么还关心起技术细节来了?
就缓缓的解释道:“爬虫是搜索的基础工具,爬虫搜信息……嗯,就跟使用浏览器上网差不多,都是先向服务器送请求,获得返回的页面,然后筛选出有价值的内容。如果时间足够长计算量足够大,使用爬虫工具,就可以把互联网上的所有信息都搜索一遍。”
见周大老板似乎很感兴趣的样子。
王小船就拿过纸笔,很快的写下了一行代码,“假如说我们要爬取微知网的信息,用这行代码就可以实现了。”
周不器拿过代码一看,嗯,是很简单。
headers={‘use-agent’:‘netosThebot’,}
r=(“
htm1=r.text
print(htm1)
难怪说3月份的时候,北科有两个计算机系的大学生被开除了。
这技术好像是不太难。
因为大四写论文,可用谷歌、百度、微点等搜索引擎,却搜不到别人写的相关论文。怎么办?就有计算机系的学生,自己写了段爬虫算法。
然后成功的爬取到了几百篇相关论文。
接下来就好办了,摘抄、重组、整合。
如果查重不过关,也简单,用谷歌翻译,先汉译英、再英译汉。再人工地把句子整理通顺,查重就顺利通过。
可能是北科的创业环境被周不器给带起来了,那俩大学生就有了通过技术牟利的心思,玩起了帮同学写论文的生意。
被现后,俩人都被开除了。
要不是周不器出面力保,上缴了非法所得,并安排到了校内网工作,他俩说不定就要蹲监狱了,前程就全毁了。
王小船接着说:“这是静态网站的爬取,如果是优酷、朋友网的这种动态页面,算法会相对复杂。可不管怎样,这都是很基础的工具。我们做搜索引擎,难点已经从复杂性变为规模量了。”
周不器皱皱眉,“老马……就是阿里的那位。他跟我说,要屏蔽百度对淘宝的爬虫,怎么回事?”
王小船笑道:“这事也简单,爬虫和网站之间有一个爬取协议,业内叫Robot协议。这个协议会声明,该网站的哪些内容可以爬取,哪些内容不能爬取,并规定白名单里的爬虫可以爬取主页内容。淘宝如果要屏蔽百度,只需要把百度的爬虫加到黑名单里就行了。”
“嗯!”
周不器点了点头。
这就是他想要的答案。
爬虫黑名单!
王小船似乎看出了什么,试探着说:“老板,你……你要对百度下手吗?”
周不器道:“我看了一下微知网的数据,过去3个月,有过1.1亿的访问量,是来自百度。”
王小船没有惊喜,深吸了口气,忧心忡忡的说:“微知的访问量本来就不高,如果屏蔽了百度,流量就更低了。”
周不器并不在乎,“微知不需要流量,微知需要的是优质内容。你都说了,百度的算法不如谷歌,很难通过简单的数据处理完成对一些有深度内容的检索,来爬取微知的内容,是简洁途径。有不少用户都是通过百度来访问微知,我们要断了这条线!”
王小船眨眨眼,“真要屏蔽吗?”
一个现代女强人律师阴差阳错的到了八零年代,成为了一个嫁入豪门的农村妇女,原主凄苦一生,临死都未能给自己正名,而女主则是利用自己的信息差和现代观念,不仅仅改变了原主的生活,还给变了身边的人,全部跟着女主的步伐走向牛逼,完成了人生逆袭!...
附本作品来自互联网本人不做任何负责内容版权归作者所有大祸作者妖桃第1章题记闯祸?!那是我的本能。第一章京都我来了迈进威峨的城门,便瞧见街上车水马龙,街道宽阔整洁,两旁的店铺鳞次栉比。来往行人衣着华丽端庄,说话谈吐也显得格外文雅得体,京都果然是不同凡响的。结伴前来赴考的周雄一路上粗声粗气大嗓门的他,怕失...
每次回家夫人都在异世界...
☆花容月貌聪明绝顶的头儿急冲冲的走在前面,喋喋不休的对跟在他身后的我们说着一会儿会议上的注意事项,我碰了碰旁边的安佳怡,抬抬下巴,无声的问他今天是怎么了?安佳怡拢了一只手在嘴边,口形夸张他这是紧张!都年过半百了有什么好紧张的?你不知道我正要凑过去听我不知道的那部分,前面那颗油光瓦亮的头刷...
A市的街上,车水马龙。 我在一家名叫遇见的咖啡厅已经坐了两个小时,靠墙角的位置,正对着操作台的方向,一位穿着天蓝色围裙的年轻女孩,正在忙碌的冲泡着各类饮品...
简介关于妖管所就业指南毕业就失业的林暮在投了三个月的简历后,终于入职了一家名为妖管所的公司。在这里,他认识了各种妖族,渐渐地他现,好像他也不是人。...