小白是如何学习爬虫的?首先先从简单的入手,在b站上寻找爬虫视频,这里推荐
有编程基础的仅需要观看其中部分爬虫视频即可,如果没有编程基础可以自行观看完整视频。这里的爬虫讲解以豆瓣电影Top250的信息爬取为主,所以通过学习如何爬取豆瓣电影信息为基础,在此基础上摸索爬取东方财富网的信息数据。(爬取豆瓣的代码,在视频中有非常完整的讲解)
一、下面首先爬取了东方财富网的Title
网址:
详细代码如下所示(包含部分代码解释) :
from bs4 import BeautifulSoup # 网页解析,获取数据
import re # 正则表达式,进行文字匹配
import urllib.request,urllib.error # 制定URL,获取网页数据
import xlwt # 进行excel操作
def main():
baseurl = "http://data.eastmoney.com/zjlx/000001.html"
# 1.爬取网页
datalist = getDate(baseurl)
# 2.逐一解析数据
# 3.打印数据或保存到当前代码文件夹下
savepath = "东方财富名称.xlsx"
saveData(datalist, savepath)
# 创建正则表达式的对象
findTitle = re.compile(r'<a href="(.*?)">(.*?)</a>')
# 爬取网页
def getDate(baseurl):
datalist = []
html = askURL(baseurl) # 保存获取到的网页源码
# 2.逐一解析数据 在网页的解析中,寻找到需要的信息代码块
soup = BeautifulSoup(html,"html.parser")
for item in soup.find_all('tr'):
for it in item.find_all('td'):
it = str(it)
tirle = re.findall(findTitle, it)
if len(tirle)!=0:
datalist.append(tirle[0][1])
# print(datalist)
return datalist
# 得到指定一个URL的网页内容
def askURL(url):
# 用户代理,表示告诉网页服务器,是何种类型的机器、浏览器
# 模拟浏览器头部信息,向网页服务器发送信息
headers = {