机器学习入门-数据过采样(上采样)1. SMOTE

news/2024/7/5 20:57:09

from imblearn.over_sampling import SMOTE  # 导入

overstamp = SMOTE(random_state=0)

# 对训练集的数据进行上采样,测试集的数据不需要
SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)

由于数据分布的不均衡,因此对数据进行上采样,上采样的数据指的是将少数的样本扩增到与多数样本相同的样本数

使用的方法:

            取少数样本中的一个数据,求出该样本与其他样本的距离,根据欧式距离进行排序,取出前5个数据

           新数据的位置   X_new = X + rand(0, 1) * distance     X表示当前数据的位置, distance表示与另外一个数据的欧式距离,乘上了一个随机值

# 进行数据过采样操作
from imblearn.over_sampling import SMOTE
from sklearn.cross_validation import train_test_split

X = data.loc[:, data.columns != 'Class']
y = data.loc[:, data.columns == 'Class']

train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.3, random_state=0)
overstamp = SMOTE(random_state=0)

SMOTE_train_x, SMOTE_train_y = overstamp.fit_sample(train_x, train_y)
# 统计数据的标签0,1个数
print(pd.value_counts(SMOTE_train_y, sort=True).sort_index())

 

转载于:https://www.cnblogs.com/my-love-is-python/p/10271295.html


http://www.niftyadmin.cn/n/4260294.html

相关文章

全民娱乐 手机电视将成为3G手机最主要应用

全民娱乐手机电视将成为3G手机最主要应用<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />究竟什么才是3G时代的主要应用&#xff1f;对于这个问题一直也是仁者见仁智者见智&#xff0c;大家心中都有自己的一杆秤。自己的喜好自然…

数据结构的定义和简介

1. 概述数据结构定义:我们如何把现实中大量而复杂的问题以特定的数据类型和特定的存储结构保存到主存储器(内存)中,以及在此基础上为实现某个功能(如元素的CURD、排序等)而执行的相应操作&#xff0c;这个相应的操作也叫算法。数据结构 元素 元素的关系算法 对数据结构的操作…

查看交换机中的DHCP配置情况

查看交换机中的DHCP配置情况 查看DHCP配置情况 display dhcp server statistics 查看地址池已分配的地址 display dhcp server ip-in-use 查看地址池剩余没有分配的地址 display dhcp server free-ip 查看地址池中已经过期的地址 display dhcp server expried

使用docker-composer创建一个mysql容器,并创建一个database且指定其编码集为中文utf8...

2019独角兽企业重金招聘Python工程师标准>>> #适用于docker-compser的v2 version: 2 services:mysql:container_name: mysqlimage: mariadb:10.4.1environment:#最好使用此设定时区&#xff0c;其它静像也可以使用- TZCST-8- CORE_VM_DOCKER_HOSTCONFIG_NETWORKMODE…

H3C交换机端口镜像配置

H3C交换机端口镜像配置 1、进入配置模式&#xff1a;system-view&#xff1b; 2、创建本地镜像组&#xff1a;mirroring-group 1 local 3、为镜像组配置源端口&#xff1a;mirroring-group 1 mirroring-port 4、为镜像组配置目的端口&#xff1a;mirroring-group 1 monitor-po…

边缘网关协议(BGP)简介

rpm -i ( or --install) options file1.rpm ... fileN.rpm 参数&#xff1a; file1.rpm ... fileN.rpm 将要安装的RPM包的文件名 详细选项&#xff1a; -h (or --hash) 安装时输出hash记号 (#) --test 只对安装进行测试&#xff0c;并不实际安装。 --percent 以百分比的形式…

H3C交换机设置与无线控制器时间同步

H3C交换机设置与无线控制器时间同步 配置NTP客户端/服务器模式 1.组网需求 组网需求为了通过NTP实现Switch与AC的时间同步 要求&#xff1a; &#xff08;1&#xff09;在AC上设置本地时钟作为参考时钟&#xff0c;层数为2&#xff1b; &#xff08;2&#xff09;配置Switch工…

JVM调优方法笔记

JVM调优方法笔记 http://www.oracle.com/technetwork/java/javase/tech/vmoptions-jsp-140102.html&#xff0c; http://download.oracle.com/javase/1.5.0/docs/tooldocs/share/jstat.html#gccause_option参考文档&#xff1a;http://www.blogjava.net/huanghuizz/articles/28…