您的当前位置:首页正文

爬取东方财富网数据笔记

2024-11-09 来源:个人技术集锦

小白是如何学习爬虫的?首先先从简单的入手,在b站上寻找爬虫视频,这里推荐

有编程基础的仅需要观看其中部分爬虫视频即可,如果没有编程基础可以自行观看完整视频。这里的爬虫讲解以豆瓣电影Top250的信息爬取为主,所以通过学习如何爬取豆瓣电影信息为基础,在此基础上摸索爬取东方财富网的信息数据。(爬取豆瓣的代码,在视频中有非常完整的讲解)

一、下面首先爬取了东方财富网的Title       

网址:

详细代码如下所示(包含部分代码解释) :

from bs4 import BeautifulSoup      # 网页解析,获取数据
import re       # 正则表达式,进行文字匹配
import urllib.request,urllib.error      # 制定URL,获取网页数据
import xlwt     # 进行excel操作

def main():
    baseurl = "http://data.eastmoney.com/zjlx/000001.html"
    # 1.爬取网页
    datalist = getDate(baseurl)

    # 2.逐一解析数据

    # 3.打印数据或保存到当前代码文件夹下    
    savepath = "东方财富名称.xlsx"
    saveData(datalist, savepath)

# 创建正则表达式的对象
findTitle = re.compile(r'<a href="(.*?)">(.*?)</a>')

# 爬取网页
def getDate(baseurl):
    datalist = []
    html = askURL(baseurl)  # 保存获取到的网页源码
    # 2.逐一解析数据       在网页的解析中,寻找到需要的信息代码块
    soup = BeautifulSoup(html,"html.parser")
    for item in soup.find_all('tr'):
        for it in item.find_all('td'):
            it = str(it)
            tirle = re.findall(findTitle, it)
            if len(tirle)!=0:
                datalist.append(tirle[0][1])
    # print(datalist)
    return datalist

# 得到指定一个URL的网页内容
def askURL(url):
    # 用户代理,表示告诉网页服务器,是何种类型的机器、浏览器
    # 模拟浏览器头部信息,向网页服务器发送信息
    headers = {
      
Top