python爬虫今日热榜数据到txt文件的源码_python

来源:脚本之家  责任编辑:小易  

今日热榜:https://tophub.today/

在这里插入图片描述

爬取数据及保存格式:

在这里插入图片描述

爬取后保存为.txt文件:

在这里插入图片描述

部分内容:

在这里插入图片描述
在这里插入图片描述

源码及注释:

import requests
from bs4 import BeautifulSoup

def download_page(url):
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
  try:
    r = requests.get(url,timeout = 30,headers=headers)
    return r.text
  except:
    return "please inspect your url or setup"


def get_content(html,tag):
  output = """  排名:{}\n  标题:{} \n  热度:{}\n  链接:{}\n  ------------\n"""
  output2 = """平台:{}  榜单类型:{}  最近更新:{}\n------------\n"""
  num=[]
  title=[]
  hot=[]
  href=[]
  soup = BeautifulSoup(html, 'html.parser')
  con = soup.find('div',attrs={'class':'bc-cc'})
  con_list = con.find_all('div', class_="cc-cd")
  for i in con_list: 
    author = i.find('div', class_='cc-cd-lb').get_text() # 获取平台名字
    time = i.find('div', class_='i-h').get_text() # 获取最近更新
    link = i.find('div', class_='cc-cd-cb-l').find_all('a') # 获取所有链接 
    gender = i.find('span', class_='cc-cd-sb-st').get_text() # 获取类型 
    save_txt(tag,output2.format(author, gender,time))
    for k in link:
      href.append(k['href'])
      num.append(k.find('span', class_='s').get_text())
      title.append(str(k.find('span', class_='t').get_text()))
      hot.append(str(k.find('span', class_='e').get_text()))
    for h in range(len(num)): 
      save_txt(tag,output.format(num[h], title[h], hot[h], href[h]))


def save_txt(tag,*args):
  for i in args:
    with open(tag+'.txt', 'a', encoding='utf-8') as f:
      f.write(i)


def main():
  #   综合  科技  娱乐  社区    购物   财经
  page=['news','tech','ent','community','shopping','finance']
  for tag in page:
    url = 'https://tophub.today/c/{}'.format(tag)
    html = download_page(url)
    get_content(html,tag)

if __name__ == '__main__':
  main()

到此这篇关于python爬虫今日热榜数据到txt文件的源码的文章就介绍到这了,更多相关python爬虫今日热榜数据内容请搜索真格学网以前的文章或继续浏览下面的相关文章希望大家以后多多支持真格学网!

您可能感兴趣的文章:Python实现数据可视化看如何监控你的爬虫状态【推荐】Python3实现的爬虫爬取数据并存入mysql数据库操作示例python2.7实现爬虫网页数据python爬虫爬取网页表格数据python中数据爬虫requests库使用方法详解Python爬虫实例_城市公交网络站点数据的爬取方法Python爬虫_城市公交、地铁站点和线路数据采集实例

  • 本文相关:
  • python中实现结构相似的函数调用方法
  • python实现对excel进行数据剔除操作实例
  • python模拟登录百度代码分享(获取百度贴吧等级)
  • python爬虫:通过关键字爬取百度图片
  • python利用 keyboard 库记录键盘事件
  • django应用程序中如何发送电子邮件详解
  • python自动化办公操作ppt的实现
  • python连接sql server乱码的解决方法
  • python 合并文件的具体实例
  • django unittest 设置跳过某些case的方法
  • python怎样把爬到的数据保存到 text文件中
  • python抓取txt文件下的数据
  • python怎么将数据写入txt文件
  • 取出txt文件中数据,用python怎么写?
  • Python爬虫往txt文件传送数据时报编码错误
  • python爬虫?数据提取?
  • 如何把python的结果导入txt文件中去?
  • python 实现读取文件夹下txt文件 执行一段代码,将...
  • python写的实时获取gps数据,并保存成txt文档
  • 求一个python3爬虫代码,可以从小说网站上直接把小...
  • 网站首页网页制作脚本下载服务器操作系统网站运营平面设计媒体动画电脑基础硬件教程网络安全vbsdos/bathtahtcpythonperl游戏相关vba远程脚本coldfusionruby专题autoitseraphzonepowershelllinux shellluagolangerlang其它首页python实现数据可视化看如何监控你的爬虫状态【推荐】python3实现的爬虫爬取数据并存入mysql数据库操作示例python2.7实现爬虫网页数据python爬虫爬取网页表格数据python中数据爬虫requests库使用方法详解python爬虫实例_城市公交网络站点数据的爬取方法python爬虫_城市公交、地铁站点和线路数据采集实例python中实现结构相似的函数调用方法python实现对excel进行数据剔除操作实例python模拟登录百度代码分享(获取百度贴吧等级)python爬虫:通过关键字爬取百度图片python利用 keyboard 库记录键盘事件django应用程序中如何发送电子邮件详解python自动化办公操作ppt的实现python连接sql server乱码的解决方法python 合并文件的具体实例django unittest 设置跳过某些case的方法python入门教程 超详细1小时学会pycharm 2020最新永久激活码(附python 列表(list)操作方法详解python 元组(tuple)操作详解python 字典(dictionary)操作详解pycharm 使用心得(一)安装和首python strip()函数 介绍pycharm 2020年最新激活码(亲测python 中文乱码问题深入分析python中使用xlrd、xlwt操作excemac下supervisor进程监控管理工具的安装与django 文件上传功能的相关实例代码(简单keras中的多分类损失函数用法categoricaldjango admin 添加自定义链接方式详解如何用python实现一个简单下载器的服python爬虫之selenium警告框(弹窗)处理python 计算两个列表的相关系数的实现sanic框架cookies操作示例python查找第k小元素代码分享python编程使用*解包和itertools.product
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.zgxue.com All Rights Reserved