Python：如何使用 PyMuPDF (import fitz ) 提取 PDF 文本區塊並存儲為 DataFrame ; text: List[ Tuple[float|str|int] ] = page.get_text(“blocks”)

以下是一段 Python 教學，
展示如何使用 PyMuPDF (也稱 fitz)
從 PDF 文件中提取每一頁的文本區塊內容，
並將其存儲到 pandas DataFrame 中。

需求背景

PDF 文件通常包含多種數據，
比如文本、圖片或矢量圖形。這段代碼的目的是：

遍歷多個 PDF 文件。
提取每個 PDF 文件每一頁的文本區塊（包括文本的坐標）。
將提取的數據存儲為結構化的表格（pandas DataFrame），便於後續分析。

代碼詳解

1. 基本代碼結構

以下是完整代碼：

import os
import fitz  # PyMuPDF
import pandas as pd
from typing import List, Tuple

# 假設 pathes 是包含 PDF 文件路徑的列表
pathes = ["path/to/pdf1.pdf", "path/to/pdf2.pdf"]

for pdf_path in pathes:
    # 獲取 PDF 文件的基礎名稱（無擴展名）
    main_fname_pdf = os.path.splitext(os.path.basename(pdf_path))[0]
    
    # 打開 PDF 文件
    doc = fitz.open(pdf_path)
    
    # 初始化用於存儲數據的列表
    data = []
    
    # 遍歷 PDF 的每一頁，提取文字內容
    for page_num in range(len(doc)):
        page = doc[page_num]
        
        # 提取文本區塊（返回一個包含多個區塊的列表）
        text: List[Tuple[float, float, float, float, str, int, int]] = page.get_text("blocks")
        """
        [(18.0,   #x0
        13.59375, #y0
        166.0,    #x1
        21.59375, #y1
        'Confidential:20230901203757478_110548\n', #content
        0, #block_no
        0 #block_type),...]
        block_no：在頁面中的順序。
        block_type：區塊的類型（0: 文本，1: 圖片，2: 矢量圖形）
        """
        
        # 遍歷每個文本區塊
        for block in text:
            x0, y0, x1, y1, content, block_no, block_type = block
            
            # 僅處理文本類型的區塊（block_type == 0）
            if block_type == 0:
                data.append([page_num + 1, x0, y0, x1, y1, content.strip()])
    
    # 將提取的數據轉為 pandas DataFrame
    df = pd.DataFrame(data, columns=["Page", "x0", "y0", "x1", "y1", "Text"])
    
    # 保存到 CSV 文件（可選）
    output_csv_path = f"{main_fname_pdf}_output.csv"
    df.to_csv(output_csv_path, index=False)
    print(f"已成功處理並保存文件：{output_csv_path}")

代碼拆解與說明

1. 文件路徑處理
main_fname_pdf = os.path.splitext(os.path.basename(pdf_path))[0]

os.path.basename(pdf_path): 獲取文件名稱（包含擴展名）。

os.path.splitext(...): 去掉文件擴展名，僅保留基礎名稱。

這樣可以方便生成輸出文件名稱。

2. 打開 PDF 文件
doc = fitz.open(pdf_path)
使用 fitz.open 打開 PDF 文件。

doc 是一個 PDF 文檔對象，包含所有頁面的數據。

3. 遍歷每一頁的內容
for page_num in range(len(doc)): page = doc[page_num]

len(doc): 返回 PDF 的頁數。

doc[page_num]: 獲取對應頁面的內容。

4. 提取文本區塊
text: List[Tuple[float, float, float, float, str, int, int]] = page.get_text("blocks")
調用 page.get_text("blocks") 提取文本區塊，返回一個列表，每個元素是一個區塊，包含以下信息：

x0, y0: 區塊左上角的坐標。

x1, y1: 區塊右下角的坐標。

content: 區塊的文本內容。

block_no: 區塊在頁面中的順序。

block_type: 區塊類型（0: 文本，1: 圖片，2: 矢量圖形）。

5. 過濾文本區塊並存儲數據
if block_type == 0: data.append([page_num + 1, x0, y0, x1, y1, content.strip()])

只處理文本類型的區塊（block_type == 0）。

使用 content.strip() 去除文本內容的首尾空格。

將每頁的數據存儲到 data 列表中。

6. 轉換為 DataFrame
df = pd.DataFrame(data, columns=["Page", "x0", "y0", "x1", "y1", "Text"])
data 是一個包含多個行的列表，每行對應一個文本區塊的數據。

使用 pandas.DataFrame 將數據轉換為結構化表格，方便後續處理。

7. 選擇性保存

df.to_csv(output_csv_path, index=False)
將提取的數據保存為 CSV 文件，文件名稱基於 PDF 的基礎名稱生成。

輸出示例

結語

這段代碼展示了如何使用
PyMuPDF 提取 PDF 的結構化文本數據，
並將其轉換為可分析的格式（DataFrame）。
通過這種方式，你可以方便地處理文本內容，
進行進一步分析或存儲。

儲蓄保險王

儲蓄險是板主最喜愛的儲蓄工具,最喜愛的投資理財工具則是ETF,最喜愛的省錢工具則是信用卡

Next Python: pandas.Series.nunique() 方法說明,計算唯一值的數量,與 len( pandas.Series.unique() ) 同效果 »

Previous « python Graphviz中控制子圖(子圖可以僅含一個node)垂直位置教學： rank='sink' ; rank='source' ; rank='same' ; 為子圖的屬性,在node中設定無效 ; 不可與g.attr(newrank='true') #子圖同高度一起使用; with g.subgraph() as s: s.attr(rank='sink') # 設置子圖為sink ; s.node('Logo', 'Company Logo')

如何設定OPENAI_API_KEY 每月使用上限？如何將 OPENAI_API_KEY 永久存在環境變數？setx OPENAI_API_KEY …

OpenAI platform...

4 天 ago

攝影或3C

Python `json.loads` 的 `strict=True / False` 快速指南 \n vs \\n ; \t vs \\t 那一個是合法json?

`json.loads()` ...

2 週 ago

攝影或3C

Python typing.TypedDict vs typing.NamedTuple 教學; from typing import NamedTuple, TypedDict

## 1. 一句話總結 ## ...

3 週 ago

攝影或3C

Python `typing.NamedTuple` (`collections.namedtuple`) 與 `typing.Literal` 教學 — 用型別「防止錯配」; StripRule = NamedTuple(“StripRule”, [(“regex”, re.Pattern), (“flag”, str)]) vs StripRule = namedtuple(“StripRule”, [“regex”, “flag”])

> **主要目的:防止錯...

3 週 ago

攝影或3C

Python容器複雜度評估（Container Complexity Evaluation）：BFS（Breadth-First Search，廣度優先）層寬統計與 DFS（Depth-First Search，深度優先）Leaf 計數 #遞迴

## 1) 兩個核心指標在算什...

3 週 ago

攝影或3C

Python Caller Name (呼叫者函數名) 教學：sys._getframe(1) vs inspect.currentframe().f_back # inspect.currentframe() 先拿到自己，再 .f_back 到 caller；等價於 sys._getframe(1)

這份文件示範如何在錯誤 hel...

4 週 ago

Python：如何使用 PyMuPDF (import fitz ) 提取 PDF 文本區塊並存儲為 DataFrame ; text: List[ Tuple[float|str|int] ] = page.get_text(“blocks”)

需求背景

代碼詳解

1. 基本代碼結構

Related Post

Recent Posts

如何設定OPENAI_API_KEY 每月使用上限？如何將 OPENAI_API_KEY 永久 存在環境變數？setx OPENAI_API_KEY …

Python `json.loads` 的 `strict=True / False` 快速指南 \n vs \\n ; \t vs \\t 那一個是合法json?

Python typing.TypedDict vs typing.NamedTuple 教學; from typing import NamedTuple, TypedDict

Python `typing.NamedTuple` (`collections.namedtuple`) 與 `typing.Literal` 教學 — 用型別「防止錯配」; StripRule = NamedTuple(“StripRule”, [(“regex”, re.Pattern), (“flag”, str)]) vs StripRule = namedtuple(“StripRule”, [“regex”, “flag”])

Python容器複雜度評估（Container Complexity Evaluation）：BFS（Breadth-First Search，廣度優先）層寬統計與 DFS（Depth-First Search，深度優先）Leaf 計數 #遞迴

Python Caller Name (呼叫者函數名) 教學：sys._getframe(1) vs inspect.currentframe().f_back # inspect.currentframe() 先拿到自己，再 .f_back 到 caller；等價於 sys._getframe(1)

如何設定OPENAI_API_KEY 每月使用上限？如何將 OPENAI_API_KEY 永久存在環境變數？setx OPENAI_API_KEY …