1. 概述

网络抓取是从任何网站或任何其他信息源中提取数据的过程，以你想要查看的格式保存在你的系统中；
包含格式很多，例如CSV、Excel等；文件、XML、JSON等等。Python是最常见的网页抓取语言之一；对于任何网络抓取活动，Python被认为是确保此过程无任何错误进行的最佳方法；

2. 使用pandas 爬取网页数据

2.1 打开网页

打开一个网页，将网址复制下来；
20221029

2.2 打开 PyCharm 编译器

先下载pandas库，【文件】=>【设置】=>【项目：xxx】=>【项目解释器】（【File】=>【Settings…】=>【project：xxx】=>【Python Interpreter】），点击＋号，在搜索框中输入“pandas”，在下方列表中选中“pandas”，点击安装，等待提示安装完成即可；
回到Pycharm输入以下代码

import pandas as pd     #导入pandas库

html = "https://mobile.anjuke.com/xf/fj-nn/2020/"  #将要爬取数据的网站网址复制到此
date = pd.read_html(html)       #运用pd.read_html读取网站数据
print(date)     #输出爬取到的数据

运行结果如下所示：

3.使用urllib爬取网页数据并写入Excel表

3.1 下载 urllib 库

与上述方法一致，这里就不赘述了

3.2 代码如下

import urllib.request       #导入urllib库

url = urllib.request.urlopen("https://fangjia.gotohui.com/show-39181")        #需要抓取数据的网站
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置，会自动生成xls表
dt1.write(data)   #将数据写入D:/Code/data/2.xls表中
dt1.close()
print(data)

3.3 运行结果如下

20221101
打开目录下的2.xls表，即可看到爬取的数据；

结束语

若这篇文章有帮到你，给个赞，收个藏，欢迎大家评论；
若文章有什么错误，欢迎大家指教。

文章出处登录后可见！

已经登录？立即刷新

Python 爬取网页数据的两种方法

Python 爬取网页数据的两种方法

1. 概述

2. 使用pandas 爬取网页数据

2.1 打开网页

2.2 打开 PyCharm 编译器

3.使用urllib爬取网页数据并写入Excel表

3.1 下载 urllib 库

3.2 代码如下

3.3 运行结果如下

结束语

Python 爬取网页数据的两种方法

Python 爬取网页数据的两种方法

相关推荐