python爬虫基础篇

简介

python爬虫是一种非常方便实用的一种方式用来抓取网页信息以及数据，接下来我通过一个非常简单基础的爬取豆瓣电影实例来体会其中的强大之处。

Pycharm IDE

requests, lxml库

xpath语法

首先就是导入requests，lxml库

由于每个网站都会有一定的反爬虫机制，在爬取时候需要做一些处理去构造用户标识头User-Agent

这里通过requests请求获取网页源代码，然后用lxml+xpath对网页的数据进行分析

在网页中右键检查就可以查看网页完整的源代码，这里通过xpath的语法找到电影信息在li标签下面，可以直接通过//ul[Hive account@class='lists']/li找到对应的信息

最后通过遍历得到我们所需要的爬虫数据并且打印出来

成功输出了得到的电影数据