Python 爬取网页数据的两种方法

1. 概述

网络抓取是从任何网站或任何其他信息源中提取数据的过程,以你想要查看的格式保存在你的系统中;
包含格式很多,例如CSV、Excel等;文件、XML、JSON等等。Python是最常见的网页抓取语言之一;对于任何网络抓取活动,Python被认为是确保此过程无任何错误进行的最佳方法;

2. 使用pandas 爬取网页数据

2.1 打开网页

打开一个网页,将网址复制下来;
20221029

2.2 打开 PyCharm 编译器

  1. 先下载pandas库,【文件】=>【设置】=>【项目:xxx】=>【项目解释器】(【File】=>【Settings…】=>【project:xxx】=>【Python Interpreter】),点击号,在搜索框中输入“pandas”,在下方列表中选中“pandas”,点击安装,等待提示安装完成即可;20221101
    20221101

  2. 回到Pycharm输入以下代码

import pandas as pd     #导入pandas库

html = "https://mobile.anjuke.com/xf/fj-nn/2020/"  #将要爬取数据的网站网址复制到此
date = pd.read_html(html)       #运用pd.read_html读取网站数据
print(date)     #输出爬取到的数据
  1. 运行结果如下所示:20221101

3.使用urllib爬取网页数据并写入Excel表

3.1 下载 urllib 库

与上述方法一致,这里就不赘述了

3.2 代码如下

import urllib.request       #导入urllib库

url = urllib.request.urlopen("https://fangjia.gotohui.com/show-39181")        #需要抓取数据的网站
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb")       #xls表的位置,会自动生成xls表
dt1.write(data)   #将数据写入D:/Code/data/2.xls表中
dt1.close()
print(data)

3.3 运行结果如下

20221101
打开目录下的2.xls表,即可看到爬取的数据;

202211101

结束语

若这篇文章有帮到你,给个赞,收个藏,欢迎大家评论;
若文章有什么错误,欢迎大家指教。

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2023年3月11日
下一篇 2023年3月11日

相关推荐