解决使用pandas聚类时的小坑_python

来源:脚本之家  责任编辑:小易  

问题背景:

之前运行测试好好的程序,忽然出现了报错,还是merge时候的类型错误,这个bug有点蹊跷。

问题分析:

代码:进行聚类之后计算平均值与方差

tmp_df = df[['object1', 'float']].groupby(['object1']).head(20).groupby(['object1'])['float'].agg(['mean', 'sum']).reset_index()

这个输出的就是原本的数据类型:一个object,一个float64

tmp_df = http_df[['object1', 'object2', 'float']].groupby(['object1', 'object2']).head(20).groupby(['object1', 'object2'])['float'].agg(['mean']).reset_index()

这个输出就会修改object为float,

差别只在于一个是使用一个特征进行聚类,一个是使用两个特征进行聚类

问题原因(个人猜测,仅供参考):

pandas进行聚类的时候,就算之前已经定好各个列的类型,如果里边没有数据的时候,使用一列进行聚类不会修改列的类型,但是如果同时使用两列进行聚类就会修改列的类型。

所以才会出现后面进行merge时候,类型不同报错

有数据输入的时候这个报错不会发生,没有数据的时候就会发生。

补充:python数据处理--按照数据差值大小进行聚类(归类)

近来在做数据处理的工作中,遇到了数据分类的问题,利用python的各种方便库,写了这么个以数据差值大小进行归类的方法。

应用场景:

有一批数据集,如list=[1,2,3,4,9,10,11,20,20,1,1.1,2.1,100],将其按照数值大小进行归类,即数值比较接近的归为一类,故需要先设置一个阈值,以进行划分。

具体实现如下:

其中输入参数Data_set为输入的数据集,可以为列表、数组、Series、DataFrame。threshold为数据大小分类的门限值。

输出class_k为数据归类列表集合,index_list为数据归类对应的索引集合。

def threshold_cluster(Data_set,threshold):
 #统一格式化数据为一维数组
 stand_array=np.asarray(Data_set).ravel('C')
 stand_Data=Series(stand_array)
 index_list,class_k=[],[]
 while stand_Data.any():
  if len(stand_Data)==1:
   index_list.append(list(stand_Data.index))
   class_k.append(list(stand_Data))
   stand_Data=stand_Data.drop(stand_Data.index)
  else:
   class_data_index=stand_Data.index[0]
   class_data=stand_Data[class_data_index]
   stand_Data=stand_Data.drop(class_data_index)
   if (abs(stand_Data-class_data)<=threshold).any():
    args_data=stand_Data[abs(stand_Data-class_data)<=threshold]
    stand_Data=stand_Data.drop(args_data.index)
    index_list.append([class_data_index]+list(args_data.index))
    class_k.append([class_data]+list(args_data))
   else:
    index_list.append([class_data_index])
    class_k.append([class_data])
 return index_list,class_k

测试如下:

import numpy as np 
from pandas import Series,DataFrame 
Data_set=[1,1.1,0.9,-5,2,100,99,-4.2,10000,0] 
index_list,class_k=threshold_cluster(Data_set,5) 
index_list
Out[10]: [[0, 1, 2, 4, 9], [3, 7], [5, 6], [8]] 
class_k
Out[11]: [[1.0, 1.1, 0.9, 2.0, 0.0], [-5.0, -4.2], [100.0, 99.0], [10000.0]]
 

以上为个人经验,希望能给大家一个参考,也希望大家多多支持真格学网。如有错误或未考虑完全的地方,望不吝赐教。

您可能感兴趣的文章:pandas merge报错的解决方案pandas 使用merge实现百倍加速的操作Pandas提取单元格的值操作详细介绍在pandas中创建category类型数据的几种方法python中pandas.read_csv()函数的深入讲解pandas 颠倒列顺序的两种解决方案

  • 本文相关:
  • python 内置模块详解
  • pyinstaller打包多个py文件和去除cmd黑框的方法
  • 关于python3.7安装matplotlib始终无法成功的问题的解决
  • python如何停止递归
  • python修改字典内key对应值的方法
  • 详解python数据分析--pandas知识点
  • matplotlib subplots 设置总图的标题方法
  • python 实现遥感影像波段组合的示例代码
  • python 如何创建一个线程池
  • python使用matplotlib绘制动画的方法
  • python在导入pandas时出现问题
  • python在导入pandas时出现问题,怎么办?
  • python使用pandas处理绘图问题
  • Python pandas的问题,求大神 如图,为什么用&就没...
  • python pandas问题
  • pandas如何求交集pandas如何求交集有没有懂python...
  • 请问一下python中已经安装过pandas包,但是导入的...
  • 使用python安装pandas时 reading 超时怎么办?
  • python,pandas_datareader无法使用的问题?
  • Python导入pandas时报错
  • 网站首页网页制作脚本下载服务器操作系统网站运营平面设计媒体动画电脑基础硬件教程网络安全vbsdos/bathtahtcpythonperl游戏相关vba远程脚本coldfusionruby专题autoitseraphzonepowershelllinux shellluagolangerlang其它首页pandas merge报错的解决方案pandas 使用merge实现百倍加速的操作pandas提取单元格的值操作详细介绍在pandas中创建category类型数据的几种方法python中pandas.read_csv()函数的深入讲解pandas 颠倒列顺序的两种解决方案python 内置模块详解pyinstaller打包多个py文件和去除cmd黑框的方法关于python3.7安装matplotlib始终无法成功的问题的解决python如何停止递归python修改字典内key对应值的方法详解python数据分析--pandas知识点matplotlib subplots 设置总图的标题方法python 实现遥感影像波段组合的示例代码python 如何创建一个线程池python使用matplotlib绘制动画的方法python入门教程 超详细1小时学会pycharm 2020最新永久激活码(附python 列表(list)操作方法详解python 元组(tuple)操作详解python 字典(dictionary)操作详解python strip()函数 介绍pycharm 使用心得(一)安装和首pycharm 2020年最新激活码(亲测python 中文乱码问题深入分析python中使用xlrd、xlwt操作excewindows下python虚拟环境virtualenv安装和python登录系统界面实现详解python实现聊天小程序django 实现xadmin后台菜单改为中文python之web框架django项目搭建全过程python爬虫利器之requests库的用法(超全面pytorch之contiguous的用法python中gil的原理及用法总结介绍python的django框架中的querysetspyqt5 qlistwidget的用法解析
    免责声明 - 关于我们 - 联系我们 - 广告联系 - 友情链接 - 帮助中心 - 频道导航
    Copyright © 2017 www.zgxue.com All Rights Reserved