基于pytorch的lstm参数使用详解_python

来源:脚本之家  责任编辑:小易  

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。字段可根据需要扩充,即字段数目不定,可称为半结构化数据,例如Exchange存储的数据。非结构化数据库在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例数据清洗从名字上也看的出就是把“脏”的“洗掉”。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗.而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。(1)不完整的数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。(2)错误的数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,对于类似于全角字符、数据前后有不可见字符的问题,只能通过写SQL语句的方式找出来,然后要求客户在业务系统修正之后抽取。日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务系统数据库用SQL的方式挑出来,交给业务主管部门要求限期修正,修正之后再抽取。(3)重复的数据对于这一类数据—特别是维表中会出现这种情况—将重复数据记录的所有字段导出来,让客户确认并整理。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认,对于过滤掉的数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以每天向业务单位发送过滤数据的邮件,促使他们尽快地修正错误,同时也可以做为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉,对于每个过滤规则认真进行验证,并要用户确认。随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。所谓非结构化数据库,是指数据库的变长纪录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单地说,非结构化数据库就是字段可变的数据库。我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的iBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。它主要有以下几个优点:(1)Internet应用中,存在大量的复杂数据类型,iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。(2)它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。(3)iBase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了数据库系统数据管理到内容管理的转化。(4)iBase采用了面向对象的基石,将企业业务数据和商业逻辑紧密结合在一起,特别适合于表达复杂的数据对象和多媒体对象。(5)iBase是适应Internet发展的需要而产生的数据库,它基于Web是一个广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将网络服务器(WebServer)和数据库服务器(Database Server)直接集成为一个整体,使数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合,从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。(6)iBase全面兼容各种大中小型的数据库,对传统关系数据库,如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。通过从上面的分析后我们可以预言,随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术www.zgxue.com防采集请勿采集本网。

lstm(*input, **kwargs)

基于深度置信中国络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经中国络是第一个真正多层结构学习算法,它利用

将多层长短时记忆(LSTM)神经网络应用于输入序列。

安装方便(几行命令而已),调试简单(自带 Profile),GPU/CPU 通吃,官方教程相当完备,支持模块十分丰富(除了 CNNs,更是支持 RBM/DBN/LSTM/RBM-RNN/SdA/MLPs)。在其上层有 Keras 封装,GRU/JZS

参数:

input_size:输入'x'中预期特性的数量

哥伦布CAT是新一代高性能的区块链DAPP跨链应用开发平台,基于区块链/分布式节点部署的链网体系,通过分布式众源数据交互协议、跨链交互/事务处理机制、分布式私钥控机制(多维计算、门限密钥共享)、超级

hidden_size:隐藏状态'h'中的特性数量

两者不是同一个level上的,深度学习是机器学习的一种。最近火的发紫的深度学习实际上指的的深度神经网络学习,普通神经网络由于训练代价较高,一般只有3-4层,而深度神经网络由于采用了特殊的

num_layers:循环层的数量。例如,设置' ' num_layers=2 ' '意味着将两个LSTM堆叠在一起,形成一个'堆叠的LSTM ',第二个LSTM接收第一个LSTM的输出并计算最终结果。默认值:1

基于这些理由,SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。在被人摒弃的十年里面,有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的

bias:如果' False',则该层不使用偏置权重' b_ih '和' b_hh '。默认值:'True'

batch_first:如果' 'True ' ',则输入和输出张量作为(batch, seq, feature)提供。默认值: 'False'

dropout:如果非零,则在除最后一层外的每个LSTM层的输出上引入一个“dropout”层,相当于:attr:'dropout'。默认值:0

bidirectional:如果‘True',则成为双向LSTM。默认值:'False'

输入:input,(h_0, c_0)

**input**of shape (seq_len, batch, input_size):包含输入序列特征的张量。输入也可以是一个压缩的可变长度序列。

see:func:'torch.nn.utils.rnn.pack_padded_sequence' 或:func:'torch.nn.utils.rnn.pack_sequence' 的细节。

**h_0** of shape (num_layers * num_directions, batch, hidden_size):张量包含批处理中每个元素的初始隐藏状态。

如果RNN是双向的,num_directions应该是2,否则应该是1。

**c_0** of shape (num_layers * num_directions, batch, hidden_size):张量包含批处理中每个元素的初始单元格状态。

如果没有提供' (h_0, c_0) ',则**h_0**和**c_0**都默认为零。

输出:output,(h_n, c_n)

**output**of shape (seq_len, batch, num_directions * hidden_size) :包含LSTM最后一层输出特征' (h_t) '张量,

对于每个t. If a:class: 'torch.nn.utils.rnn.PackedSequence' 已经给出,输出也将是一个打包序列。

对于未打包的情况,可以使用'output.view(seq_len, batch, num_directions, hidden_size)',正向和反向分别为方向' 0 '和' 1 '。

同样,在包装的情况下,方向可以分开。

**h_n** of shape (num_layers * num_directions, batch, hidden_size):包含' t = seq_len '隐藏状态的张量。

与*output*类似, the layers可以使用以下命令分隔

h_n.view(num_layers, num_directions, batch, hidden_size) 对于'c_n'相似

**c_n** (num_layers * num_directions, batch, hidden_size):张量包含' t = seq_len '的单元状态

所有的权重和偏差都初始化自: where:

include:: cudnn_persistent_rnn.rst

import torchimport torch.nn as nn # 双向rnn例子# rnn = nn.RNN(10, 20, 2)# input = torch.randn(5, 3, 10)# h0 = torch.randn(2, 3, 20)# output, hn = rnn(input, h0)# print(output.shape,hn.shape)# torch.Size([5, 3, 20]) torch.Size([2, 3, 20]) # 双向lstm例子rnn = nn.LSTM(10, 20, 2) #(input_size,hidden_size,num_layers)input = torch.randn(5, 3, 10) #(seq_len, batch, input_size)h0 = torch.randn(2, 3, 20) #(num_layers * num_directions, batch, hidden_size)c0 = torch.randn(2, 3, 20) #(num_layers * num_directions, batch, hidden_size)# output:(seq_len, batch, num_directions * hidden_size)# hn,cn(num_layers * num_directions, batch, hidden_size)output, (hn, cn) = rnn(input, (h0, c0)) print(output.shape,hn.shape,cn.shape)>>>torch.Size([5, 3, 20]) torch.Size([2, 3, 20]) torch.Size([2, 3, 20])

以上这篇基于pytorch的lstm参数使用详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持真格学网。

语言模型主要规则模型统计模型两种统计语言模型用概率统计揭示语言单位内统计规律其N-Gram简单效广泛使用N-Gram:该模型基于种假设第n词现与前面N-1词相关与其任何词都相关整句概率各词现概率乘积些概率通直接语料统计N词同现数用二元Bi-Gram三元Tri-Gram语言模型性能通用交叉熵复杂度(Perplexity)衡量交叉熵意义用该模型文本识别难度或者压缩角度看每词平均要用几位编码复杂度意义用该模型表示文本平均支数其倒数视每词平均概率平滑指没观察N元组合赋予概率值保证词序列总能通语言模型概率值通使用平滑技术图灵估计、删除插值平滑、Katz平滑Kneser-Ney平滑内容来自www.zgxue.com请勿采集。


  • 本文相关:
  • pytorch下使用lstm神经网络写诗实例
  • pytorch 利用lstm做mnist手写数字识别分类的实例
  • pytorch 求网络模型参数实例
  • pytorch获取模型某一层参数名及参数值方式
  • pytorch实现用cnn和lstm对文本进行分类方式
  • 把pandas转换int型为str型的方法
  • python中subprocess的不同函数解析
  • python使用socket远程连接错误处理方法
  • 深入学习python中的装饰器使用
  • python 爬取携程所有机票的实例代码
  • python实现的根据ip地址计算子网掩码位数功能示例
  • python的另外几种语言实现
  • python使用urllib模块和pyquery实现阿里巴巴排名查询
  • python实现查找两个字符串中相同字符并输出的方法
  • python操作sonqube api获取检测结果并打印过程解析
  • pytorch 怎么处理变长的rnn lstm
  • 什么是结构化数据和非结构化数据?什么是数据清洗?
  • TensorFlow的优势和缺点有哪些
  • AI深度学习视频处理模块如何进行对象识别
  • 什么是深度学习与机器视觉
  • 深度机器学习中的batch的大小对学习效果有何影响
  • CAT哥伦布是做什么的?
  • 深度学习和机器学习的区别是什么
  • 深度学习能够学会编程吗
  • cnn与lstm应用于哪个领域
  • 网站首页网页制作脚本下载服务器操作系统网站运营平面设计媒体动画电脑基础硬件教程网络安全vbsdos/bathtahtcpythonperl游戏相关vba远程脚本coldfusionruby专题autoitseraphzonepowershelllinux shellluagolangerlang其它首页pythonpytorch下使用lstm神经网络写诗实例pytorch 利用lstm做mnist手写数字识别分类的实例pytorch 求网络模型参数实例pytorch获取模型某一层参数名及参数值方式pytorch实现用cnn和lstm对文本进行分类方式把pandas转换int型为str型的方法python中subprocess的不同函数解析python使用socket远程连接错误处理方法深入学习python中的装饰器使用python 爬取携程所有机票的实例代码python实现的根据ip地址计算子网掩码位数功能示例python的另外几种语言实现python使用urllib模块和pyquery实现阿里巴巴排名查询python实现查找两个字符串中相同字符并输出的方法python操作sonqube api获取检测结果并打印过程解析python入门教程 超详细1小时学会python 列表(list)操作方法详解python 元组(tuple)操作详解python 字典(dictionary)操作详解pycharm 使用心得(一)安装和首python strip()函数 介绍python 中文乱码问题深入分析python科学计算环境推荐——anacpython逐行读取文件内容的三种方python中使用xlrd、xlwt操作excepython实现九宫格式的朋友圈功能内附“马python 数据清洗之数据合并、转换、过滤、python subprocess模块功能与常见用法实例python走楼梯问题解决方法示例python可变参数函数用法实例浅谈python单向链表的实现python3使用pyqt5制作一个超简单浏览器的python中单下划线(_)和双下划线(__)的特用python实现knn分类算法python应用文件读取与登录注册功能
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.zgxue.com All Rights Reserved