Skip to main content
 Web开发网 » 编程语言 » Python语言

零基础小白如何在最短的时间快速入门python爬虫?

我的看法是首先需要有Python的基础,在有基础的前提下,利用框架是最快,可以短时间实现爬虫。在这里我推荐scrapy,scrapy是基于python开发的开源网络爬虫框架,scrapy简单易用、灵活、易扩展、跨平台等特性,使得scrapy受广大用友的欢迎。

使用scrapy也很简单,只需要重点编写spider这一个文件就可以里,其实是我们网页数据处理的部分,以诗词网-爬取诗词为例。我们可以在spider里这样写:

零基础小白如何在最短的时间快速入门python爬虫?  Python网络爬虫 第1张

上面的代码整体上就两部分内容,一部分是提取网页中的URL,另一部分是提取诗词详情页面我们需要爬取的内容,在这里我选择爬取的数据是诗词的作者、内容、网站打的标签等一些内容。

是不是很方便,如果你不用存储数据,到这里其实差不多够了,定义一下Item字段就可以实现数据的爬取,如果需要存储到数据库,这个时候需要在Pipeline里定义一个类,用于存储数据

零基础小白如何在最短的时间快速入门python爬虫?  Python网络爬虫 第2张

如上图所示,定义的mongodb的类,这样我们就可以实现数据存储到Mongodb中。

总的来说,scrapy是一个可以帮助我们快速入门爬虫的框架,可以让我们感受到爬虫的魅力,希望对大家有帮助,也欢迎大家留言探讨。

评论列表暂无评论
发表评论
微信