Python: 如何用 difflib.get_close_matches() 比對字串相似度並儲存結果

加入好友

加入好友

加入社群

加入社群

Python: 如何用 difflib.get_close_matches() 比對字串相似度並儲存結果 - 儲蓄保險王

Python: 如何用 difflib.get_close_matches() 比對字串相似度並儲存結果 - 儲蓄保險王

code:

import difflib
import json
import os

# 示範用的資料
log_sensors = ["temperture", "humidy", "presure"]  # 可能打錯的文字
rd_sensors = ["temperature", "humidity", "pressure", "voltage", "current"]  # 正確的文字

# 建立空字典來存储匹配結果
matches = {}

# 對每個 log_sensors 中的項目尋找相似項
for sensor in log_sensors:
    # 使用 difflib 尋找相似的文字
    # n=5: 最多回傳5個匹配結果
    # cutoff=0.6: 相似度閾值，0~1之間，越大要求越嚴格
    match = difflib.get_close_matches(sensor, rd_sensors, n=5, cutoff=0.6)
    
    # 如果找到匹配項，存入字典；沒找到則存入 None
    if match:
        matches[sensor] = match
    else:
        matches[sensor] = None
    
    # 印出比對結果
    print(f"原始文字: {sensor}")
    print(f"相似項目: {match}")
    print("-" * 30)

# 設定輸出路徑
# 假設目前在 /path/to/project
dirname = "/path/to/project"
dir_ex = os.path.join(dirname, "export")
path_ex = os.path.join(dir_ex, "similar.json")

# 建立輸出資料夾（如果不存在）
os.makedirs(dir_ex, exist_ok=True)

# 將結果寫入 JSON 檔案
with open(path_ex, "w", encoding="UTF-8") as f:
    json.dump(matches, f, indent=4, ensure_ascii=False)

print(f"檔案已經輸出到\n{path_ex}")

輸出結果:

json:

這個程式的主要功能：

比對兩個列表中的相似文字
使用 difflib 進行模糊匹配
將結果整理成字典格式
輸出成易讀的 JSON 檔案

常用參數說明：

n: 要返回的最大匹配數量
cutoff: 相似度閾值（0.6 表示需要 60% 相似）
indent: JSON 檔案的縮排格式
ensure_ascii: 設為 False 可正確處理中文

推薦hahow線上學習python: https://igrape.net/30afN

儲蓄保險王

儲蓄險是板主最喜愛的儲蓄工具,最喜愛的投資理財工具則是ETF,最喜愛的省錢工具則是信用卡

Next 2025年永豐sport卡指定支付/通路最高回饋6%,汗水不白流(豐城)APP(請輸入邀請碼: BEOSXT) »

Previous « Python: numpy.nan 與 pandas.NA ,pandas.NaT 有何差別? numpy.isnan() 只能判斷float的np.nan; pandas.isna()不只可以判斷np.nan 還可以判斷pd.NA ,pd.NaT, None

Leave a Comment

Share

Published by

儲蓄保險王

6 個月 ago

Recent Posts

攝影或3C

Python機器學習: 從特徵工程到數據擬合 PolynomialFeatures 與 numpy.polyfit 的全面比較與應用; from sklearn.preprocessing import PolynomialFeatures ; poly = PolynomialFeatures( degree=2, include_bias = True) ; X_poly = poly.fit_transform(X)

導言在數據分析與機器學習中，...

3 天 ago

攝影或3C

Python Pandas GroupBy 的 size 陷阱：為什麼你的計數結果總是不對？如何計算重複次數? duplicates = df.duplicated( subset = [‘name’] )

在使用 Pandas 進行數據...

7 天 ago

攝影或3C

Python: 循環播放英文單詞及其中文翻譯

import pygame f...

1 週 ago

攝影或3C

Python Pandas 中的視圖(View)與副本(Copy) : 避免資料操作錯誤的指南; 如何處理SettingWithCopyWarning ?

在使用 Pandas 處理資料...

2 週 ago

攝影或3C

Python: Pandas 與 NumPy 處理缺失值中位數計算的完整指南; pandas.Series.median( skipna=True ) ; median_np = numpy .nanmedian(arr)

在資料分析過程中，我們經常會遇...

2 週 ago

攝影或3C

Python 機器學習:手把手教你用 sklearn.preprocessing .StandardScaler 做數據標準化(Standardization）#只接受2D數據 ; from sklearn.preprocessing import StandardScaler ; 儲存/載入 scaler or model: joblib.dump() / joblib.load()

在機器學習中，數據標準化（St...

1 個月 ago

L