这本书中就详细的讲解了如何编写一个可以抓取整个互联网的程序“黑洞”,这个超级爬虫可以抓取到网络上的一切公开内容,当然这需要消耗庞大的计算机资源,杨青现在并没有抢度娘生意的打算,他现在只是把黑洞里面的一些技巧用在自己的小爬虫上。
在程序员的世界中爬虫并不是太高深的技术,现在流行得编程语言有非常多的开源爬虫框架,比如说python(蟒蛇)这个语言所开发的爬虫是在底层程序员中最流行的,原因就是简单,方便,可以抓取到80%的内容,主以满足绝大多数公司对数据抓取的要求,而在高端一些的爬虫就是不是python这种简单的脚本语言所能够做到的了。
双手在计算机上不断的敲打,一行行的代码在计算机上不断的出现,两个小时过后,一款小型的,基于python开源框架所编写的爬虫就被编写出来了。
“第一个任务,爬取网上的游戏网站,论坛!”
“第二个任务,爬取各大直播平台的游戏主播!”
“第三个任务,爬取游戏微博达人!”
“第四个任务,爬取各大视频网站的游戏视频发布id!”
“第五个任务,爬取网上的象棋类网站,论坛!”
“嗯,就先设定这5个任务吧!”杨青把爬虫的任务设置好,便点击了运行。
电脑上一个黑色的界面中,一行行的数据如同瀑布一样开始不断的滚过,而杨青也感觉到了一阵困意,两眼一闭就迅速的进入了梦乡。
“砰……砰……砰”一阵巨大的敲门声吧杨青吵醒了。
迷迷糊糊的杨青从床上爬了起来来到门口,打开门。
陈茜抱着笔记本走了进来:“还睡觉呢?”
“哦!”
“赶快洗洗吧!”