pandas删除重复数据

青葱年少 • 2023年8月8日上午8:56 • Python • 阅读 55

目录

1、pandas中重复索引问题

df = df[~df.index.duplicated()]

2、pandas删除重复数据行

# 首先导入常用的两个包
import pandas as pd
import numpy as np

# 1.删除完全重复的行
df.drop_duplicates()

2.按k列进行去重，对于重复项，保留第一次出现的值
df.drop_duplicates('k',keep='first')

3、k2和k1两列进行去重
df.drop_duplicates(['k2','k1'], keep='first')
 
"""
keep：{‘first’, ‘last’, False}, 默认值 ‘first’

first：保留第一次出现的重复行，删除后面的重复行。
last：删除前面的重复项，保留最后一次出现的重复行。
False：删除所有重复项


"""

3、drop_duplicates()函数的语法

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：
subset：表示要进去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

文章出处登录后可见！

已经登录？立即刷新

pandas python 数据分析

赞 (0)

青葱年少普通用户

0

WGCNA分析 | 代码一

上一篇 2023年8月8日

【AI大模型】SuperCLUE 中文大模型排行榜 (2023年6月) —— 最新大模型排名！中文大模型评测基准SuperCLUE发布6月榜单

下一篇 2023年8月8日