Python: pandas.Series如何只保留str,去除重複值？#isinstance(x:Any, str) -> bool #.drop_duplicates() #Series.apply( function )逐元素應用function運算 #DataFrame.apply( function )逐Series應用function運算 .drop_duplicates() 跟.unique()有何差別? df.drop_duplicates() 等效於 df[~df.duplicated()]

在Python的Pandas庫中，
如果你想處理一個Series對象
以便只保留字符串類型的數據，
並且去除重覆值，你可以使用以下方法：

篩選字符串類型的數據：
使用apply方法結合isinstance函數來檢查每個元素是否為字符串（str類型）。
去除重覆值：使用drop_duplicates()方法去除重覆的元素。
下面是一個具體的示例代碼：

# -*- coding: utf-8 -*-
"""
Created on Sat Nov 23 19:34:09 2024

@author: SavingKing
"""

import pandas as pd

# 創建一個示例 Series
data = pd.Series(['apple', 100, 'banana', 'apple', 
                  'orange', 42, 'banana'])

# 篩選字符串類型的數據
str_data = data[data.apply(lambda x: isinstance(x, str))]

# 去除重覆值
unique_str_data = str_data.drop_duplicates()

print(unique_str_data)

輸出結果:

在這個例子中：

data.apply(lambda x: isinstance(x, str))
會遍歷Series中的每個元素，檢查它是否是字符串
返回一個bool Series。
str_data 只包含字符串類型的數據。
str_data.drop_duplicates() 則從str_data中去除重覆的字符串。
執行上述代碼後，輸出將會是一個沒有重覆字符串的Series。
.unique() 跟.drop_duplicates()類似
但返回的是 numpy.array,
會少掉Series的.name屬性
(常用來嵌入輸出的檔名中,
來源是DF or xlsx檔的column name)

除了使用 .drop_duplicates() 去掉重複值,
也可以用以下方式:

上述是做分解動作,一行寫完:

str_data.unique() 類似,
但返回的是numpy.array:

.drop_duplicates?

df.drop_duplicates?
(注意: 多了subset 這個參數)

如果沒有指定 subset 參數，
drop_duplicates() 方法的預設值是 None，
這表示會使用所有欄位來判斷一行是否為重複行。

drop_duplicates() 完整的預設參數如下：
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
各參數的含義：

ignore_index=False：預設保留原始的索引值

subset=None：預設會使用所有欄位判斷重複

keep=’first’：預設保留重複行中的第一行

inplace=False：預設不修改原始 DataFrame，而是返回新的 DataFrame

不使用匿名函數:

import pandas as pd
from typing import Any

# 定義一個函數，檢查元素是否為字符串類型
def is_string(x: Any)->bool:
    return isinstance(x, str)

# 創建一個示例 Series
data = pd.Series(['apple', 100, 'banana',
 'apple', 'orange', 42, 'banana'])

# 篩選字符串類型的數據
str_data = data[data.apply(is_string)]

# 去除重覆值
unique_str_data = str_data.drop_duplicates()

print(unique_str_data)

在Pandas中使用像apply這樣的方法處理Series或DataFrame時，不需要顯式使用for循環來遍歷所有元素，這是因為這些方法內部已經實現了遍歷元素的邏輯。下面是一些關鍵點，解釋為什麽不需要顯式的for循環：

內部叠代
apply函數在內部執行叠代，這意味著它會自動處理Series中的每一個元素。當你調用data.apply(is_string)時，apply方法會逐一將Series中的每個值傳遞給is_string函數，並收集返回結果。這個過程是自動的，隱藏了叠代的細節。
向量化操作
Pandas和NumPy的很多操作是向量化的。向量化意味著操作可以同時應用於數組或序列的多個元素，而無需顯式循環每個元素。這不僅使代碼更簡潔，而且通常比使用純Python循環更高效，因為這些操作是在底層經過優化的C代碼中實現的。
效率和性能
使用像apply這樣的方法通常比使用普通的Python for循環更高效。這是因為Pandas的這些函數利用了Cython或其他底層優化技術來加速數據處理。雖然apply本身並不總是向量化操作，但它比純Python循環更優化。
簡潔的代碼
使用內置的函數如apply、map、filter等，可以使代碼更簡潔、更易於理解和維護。這些函數采用函數式編程的風格，減少了錯誤的可能性，特別是在覆雜的數據處理和轉換中。

例如，當使用drop_duplicates()方法時，Pandas內部處理所有的查找和比較操作，以確定哪些值是重覆的，然後返回一個沒有重覆項的新Series。這一切都是自動完成的，無需用戶編寫覆雜的循環邏輯。

這種方法的好處是讓使用者能夠編寫高級的數據處理邏輯，而不必關心底層的實現細節，從而提高開發效率和程序的運行效率。

.apply()方法在Pandas庫中既可以用於Series對象，也可以用於DataFrame對象，但它們的用法和行為有所不同。讓我們來看看兩者之間的主要區別：

對於 Series
當.apply()用於Series時，它將指定的函數應用於Series的每一個元素。這是一個元素級的操作，每次處理一個Series的單個值。

示例代碼:

import pandas as pd

s = pd.Series([1, 2, 3])
result = s.apply(lambda x: x ** 2)
print(result)

輸出結果:

對於 DataFrame
當.apply()用於DataFrame時，它可以沿指定的軸（行或列）應用一個函數。默認情況下，.apply()對DataFrame的每一列操作，但可以通過設置axis參數改為對每一行操作。

示例代碼:

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# 默認情況下，apply 對列操作
result_col = df.apply(lambda x: x.sum())  # 對每一列求和
print("Column sums:\n", result_col)

# 設置 axis=1 對行操作
result_row = df.apply(lambda x: x.sum(), axis=1)  # 對每一行求和
print("\nRow sums:\n", result_row)