Python 數據處理進階技巧：掌握 pandas.Series.duplicated() 的 keep 參數

by 儲蓄保險王 · 2025-08-03

在數據分析和處理過程中，識別和處理重複值是一個常見但關鍵的任務。Python 的 pandas 庫提供了強大的 duplicated() 方法來處理這類問題，而其中的 keep 參數尤其值得深入理解。本文將帶您全面了解這個參數的用法和應用場景。

keep 參數的三種模式

pandas.Series.duplicated() 方法的 keep 參數有三個可選值，每個都有不同的行為：

import pandas as pd
import numpy as np

# 創建一個包含重複值的示例 Series
s = pd.Series(['A', 'B', 'C', 'A', 'B', 'D'])

import pandas as pd
import numpy as np

# 創建一個包含重複值的示例 Series
s = pd.Series(['A', 'B', 'C', 'A', 'B', 'D'])

1. keep=’first’（默認值）

當 keep=’first’ 時，
第一次出現的值被標記為 False(未重複)，
而後續重複的值被標記為 True：

print("keep='first' 結果：")
print(s.duplicated(keep='first'))
print("標記為重複的值：")
print(s[s.duplicated(keep='first')].to_list())

print("keep='first' 結果：")
print(s.duplicated(keep='first'))
print("標記為重複的值：")
print(s[s.duplicated(keep='first')].to_list())

輸出結果:

Python 數據處理進階技巧：掌握 pandas.Series.duplicated() 的 keep 參數 - 儲蓄保險王

2. keep=’last’

當 keep=’last’ 時，最後一次出現的值被標記為 False，而先前出現的重複值被標記為 True：

print("\nkeep='last' 結果：")
print(s.duplicated(keep='last'))
print("標記為重複的值：")
print(s[s.duplicated(keep='last')].to_list())

print("\nkeep='last' 結果：")
print(s.duplicated(keep='last'))
print("標記為重複的值：")
print(s[s.duplicated(keep='last')].to_list())

輸出結果:

3. keep=False

當 keep=False 時，所有重複值都被標記為 True，無論是首次還是後續出現：

print("\nkeep=False 結果：")
print(s.duplicated(keep=False))
print("標記為重複的值：")
print(s[s.duplicated(keep=False)].to_list())

print("\nkeep=False 結果：")
print(s.duplicated(keep=False))
print("標記為重複的值：")
print(s[s.duplicated(keep=False)].to_list())

輸出結果:

結論

掌握 pandas 中 duplicated() 方法的 keep 參數是進行高效數據處理的關鍵。根據您的具體需求選擇合適的 keep 值，可以讓您更精確地控制如何識別和處理重複數據。

無論是進行數據清洗、自動化測試流程分析，還是識別業務邏輯中的異常模式，duplicated() 方法的靈活應用都能幫助您更好地完成任務。

通過本文的詳細說明和實例，相信您已經對 keep 參數有了全面的了解，並能在自己的項目中靈活運用這一強大工具。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python 數據處理進階技巧：掌握 pandas.Series.duplicated() 的 keep 參數

keep 參數的三種模式

1. keep=’first’（默認值）

2. keep=’last’

3. keep=False

結論

You may also like...

發佈留言取消回覆

hahow

近期文章

分類

近期留言

熱門討論

FB粉絲團

瀏覽量

月曆

Python 數據處理進階技巧：掌握 pandas.Series.duplicated() 的 keep 參數

keep 參數的三種模式

1. keep=’first’（默認值）

2. keep=’last’

3. keep=False

結論

You may also like...

20140817_16_HX400V_宜蘭國際童玩節_俄羅斯

Python: 如何使用graphviz套件繪製流程圖? 如何創建子圖? with g.subgraph(name=’cluster_0′) as c:

Python安裝套件時出現Verifying transaction: failed. The current user does not have write permission to the target envirment.如何以系統管理員身分執行Anaconda Prompt? pip list ; pip show beautifulsoup4 確認是否安裝成功

發佈留言 取消回覆

hahow

近期文章

分類

近期留言

熱門討論

FB粉絲團

瀏覽量

月曆

發佈留言取消回覆