Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby([‘name’]) .size() .reset_index(name=’count’)

by 儲蓄保險王 · 2023-03-15

import pandas as pd

data = {‘id’: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
‘name’: [‘John’, ‘Anna’, ‘John’, ‘Anna’,
‘John’, ‘Anna’, ‘John’, ‘Anna’,
‘John’, ‘Anna’]}

df = pd.DataFrame(data)

duplicates = df.duplicated(subset=[‘name’])
counts = df[duplicates].groupby([‘name’]).size().reset_index(name=’count’)

print(counts)

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

df:

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

duplicates = df.duplicated(subset=[‘name’])

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

duplicates 為一個bool Series

透過呼叫 df.duplicated(subset=['name']) 來產生的。

其中subset 參數指定了要檢查是否有重複值的欄位，

這裡是 name 欄位。

可以用來切片

只保留對應到True的元素

counts = df[duplicates].groupby([‘name’]).size().reset_index(name=’count’)

一步一步做分解動作

df[duplicates]:

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

df[duplicates] 會篩選出 df 中

所有被標示為重複的紀錄

只保留對應到True(重複)的元素

注意最左邊的index,已經沒有0,1

df[duplicates].groupby([‘name’]).size()

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

呼叫 groupby 方法，

以 name 欄位為分組依據(name變成index了)，

並呼叫 size 方法計算每個分組的大小，

也就是重複出現的次數。

其type為Series:

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

df[duplicates].groupby([‘name’]).size().reset_index(name=’count’)

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

呼叫 reset_index 方法，

將 name 欄位轉換為普通欄位，

並將計算結果命名為 count。

最終產生的 counts

groupby操作的結果是一個Series，

其中包含數量值，

而組的名稱(在這種情況下，是 ‘name’ 列中的值)則作為索引。

通過調用 .reset_index(name=’count’)，

你將這個Series轉換回一個DataFrame，

‘name’ 索引變成DataFrame的一個列，

而計數值則成為另一個名為 ‘count’ 的列。

在這種情況下，’count’ 列明顯包含計數值，

因為它是通過在groupby對象上調用 size() 方法創建的，

該方法計算每個組的出現次數。

groupby() :

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

就算資料是DataFrame,

有”fruit” “price”兩欄

經過groupby(“fruit”).size()

index就是”fruit”, values為重複次數

必然是只有一欄資料的Series

.reset_index(name=”count”)

當然只會為唯一一欄命名

.reset_index(name=”count”)

.to_frame(name=”count”).reset_index()

同效果

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

.to_frame(name=”count”) .reset_index()

去掉結尾的.reset_index()

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

to_frame() 方法将当前 Series 转换为一个 DataFrame，

新 DataFrame 只有一 column，

并可以通过 name 参数指定该column的名称。

groupby() 可以對兩欄作用:

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby(['name']) .size() .reset_index(name='count') - 儲蓄保險王

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby([‘name’]) .size() .reset_index(name=’count’)

You may also like...

發佈留言取消回覆

hahow

近期文章

分類

近期留言

熱門討論

FB粉絲團

瀏覽量

月曆

Python: pandas.DataFrame 如何找出重複值並計算重複次數? counts = df[duplicates] .groupby([‘name’]) .size() .reset_index(name=’count’)

You may also like...

Python: Pandas 與 NumPy 處理缺失值中位數計算的完整指南; pandas.Series.median( skipna=True ) ; median_np = numpy .nanmedian(arr)

Word:參考文獻建立,設定與列印隱藏文字

Python: 如何使用graphviz套件繪製流程圖? 如何使用子圖label取代node的xlabel (External label)?

發佈留言 取消回覆

hahow

近期文章

分類

近期留言

熱門討論

FB粉絲團

瀏覽量

月曆

發佈留言取消回覆