您的当前位置：首页正文

爬取东方财富网数据笔记

2024-11-09 来源：个人技术集锦

小白是如何学习爬虫的？首先先从简单的入手，在b站上寻找爬虫视频，这里推荐

有编程基础的仅需要观看其中部分爬虫视频即可，如果没有编程基础可以自行观看完整视频。这里的爬虫讲解以豆瓣电影Top250的信息爬取为主，所以通过学习如何爬取豆瓣电影信息为基础，在此基础上摸索爬取东方财富网的信息数据。（爬取豆瓣的代码，在视频中有非常完整的讲解）

一、下面首先爬取了东方财富网的Title

网址：

详细代码如下所示（包含部分代码解释）：

from bs4 import BeautifulSoup      # 网页解析，获取数据
import re       # 正则表达式，进行文字匹配
import urllib.request,urllib.error      # 制定URL，获取网页数据
import xlwt     # 进行excel操作

def main():
    baseurl = "http://data.eastmoney.com/zjlx/000001.html"
    # 1.爬取网页
    datalist = getDate(baseurl)

    # 2.逐一解析数据

    # 3.打印数据或保存到当前代码文件夹下    
    savepath = "东方财富名称.xlsx"
    saveData(datalist, savepath)

# 创建正则表达式的对象
findTitle = re.compile(r'<a href="(.*?)">(.*?)</a>')

# 爬取网页
def getDate(baseurl):
    datalist = []
    html = askURL(baseurl)  # 保存获取到的网页源码
    # 2.逐一解析数据       在网页的解析中，寻找到需要的信息代码块
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('tr'):
        for it in item.find_all('td'):
            it = str(it)
            tirle = re.findall(findTitle, it)
            if len(tirle)!=0:
                datalist.append(tirle[0][1])
    # print(datalist)
    return datalist

# 得到指定一个URL的网页内容
def askURL(url):
    # 用户代理，表示告诉网页服务器，是何种类型的机器、浏览器
    # 模拟浏览器头部信息，向网页服务器发送信息
    headers = {