使用Python的Requests和BeautifulSoup库来爬取新闻网站的新闻标题、发布时间、内容等信息,并将数据存储到数据库中

一  回顾BeautifulSoup库

BeautifulSoup是Python的一个HTML/XML解析库,用于从HTML或XML文件中提取数据。结合Python的requests库,可以实现网页爬取和数据提取。

以下是一个简单的使用BeautifulSoup和requests库实现爬虫的示例:

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# 提取所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

# 提取页面标题
title = soup.title.string
print(title)

二 上操作

  用requests库和BeautifulSoup4库,爬取校园新闻列表的时间、标题、链接、来源。

import requests
from bs4 import BeautifulSoup

re = requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/")
re.encoding = 'utf-8'

soup = BeautifulSoup(re.text,'html.parser')
s = soup.select('a')

for news in s:
    if len(news.select(".news-list-title"))>0:
        title=news.select(".news-list-title")[0].text
        time=news.select(".news-list-info")[0].contents[0].text
        content=news.select(".news-list-info")[0].contents[1].text
        url=news.attrs['href']
        text=news.select(".news-list-description")[0].text
        print(title,  time,  content,  url,  text)

输出结果:

输出结果:

感悟信仰力量,加强信仰教育——我校举行信仰教育研习班开班典礼 2017-09-26 马克思主义学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0926/8262.html 9月21日下午,我校“信仰教育研习班”开班典礼及教育动员大会在我校第四教学楼第二学术报告厅举行。
澳大利亚阿德莱德大学Simon Futo一行来访我校 2017-09-25 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0925/8252.html 9月25日,澳大利亚最古老、最享有盛誉的八大名校之一阿德莱德大学来访我校。
杨文轩教授入选中国哲学社会科学最有影响力学者 2017-09-25 学校综合办 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0925/8249.html 9月23日,我校校长杨文轩教授入选中国哲学社会科学一级学科最有影响力学者。
我校军训受到人民日报等媒体广泛关注 2017-09-23 学校综合办 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0923/8246.html 9月22日晚,我校新生军训团国旗方队的训练视频,被人民日报、共青团中央等众多新闻和机构媒体进行了报道。
责任信念记心头 扬帆起航正当时——我校举行2017级新生军训总结表彰大会 2017-09-22 学生处 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0922/8232.html 9月22日上午,我校在足球场隆重举行2017级新生军训总结表彰大会。
英国赫尔大学商学院副院长Mr. Lynne Brrow一行来我校访问交流 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8225.html 9月21日,英国赫尔大学商学院副院长Mr  Lynne Brrow、中国区代表葛恒等一行七人来访我校。
广东省教育厅高教处领导莅临我校调研 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8226.html 9月20日下午,广东省教育厅高教处处长郑文一行莅临我校调研物流管理专业校企协同育人情况。
广东省教育厅交流合作处领导莅临我校考察 2017-09-21 国际学院 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0921/8217.html 9月20日,广东省教育厅交流合作处处长李金俊、副处长周国平一行莅临我校考察和指导工作。
杨文轩主持召开广东省民办教育协会常务会议 2017-09-20 综合办公室 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0920/8205.html 9月19日下午,广东省民办教育协会会长、我校校长杨文轩教授在我校主持召开广东省民办教育协会常务会议。
我校开展消防安全演练教育活动 2017-09-20 保卫处 http://news.gzcc.cn/html/2017/xiaoyuanxinwen_0920/8208.html 9月19日,我校联合地方有关单位,开展突发事件应急疏散演练暨消防灭火实操能力培训活动。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2023年6月25日
下一篇 2023年6月25日

相关推荐