<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      國產化Word處理控件Spire.Doc教程:Python提取Word文檔中的文本、圖片、表格等

      在現代辦公場景中,Word文檔已成為信息存儲與交流的重要載體,承載著關鍵的業務數據、結構化表格、可視化圖表以及協作批注等重要內容。面對日益增長的文檔處理需求,傳統的人工操作方式已難以滿足效率與準確性的雙重標準。采用Python實現Word文檔內容的自動化解析,不僅能顯著提升處理效率、降低人為錯誤率,還能實現數據集成、內容遷移及智能分析等多種應用。

      E-iceblue旗下Spire系列產品是國產文檔處理領域的優秀產品,支持國產化,幫助企業高效構建文檔處理的應用程序。本文將詳細介紹如何使用 Spire.Doc for Python 在 Python 中讀取 Word 文檔(包括 .doc 和 .docx 格式),并演示如何提取文本、圖片、表格、批注、列表以及文檔的元數據等信息。無論您是進行文檔內容抓取、自動化報告生成,還是開發文檔解析工具,本教程都將提供清晰的代碼示例和實用指導。

      Spire.Doc for Python試用下載,請聯系Spire授權代理商慧都科技

      加入技術交流Q群(125237868),與更多開發者一起提升文檔開發技能

      為什么使用 Python 讀取 Word 文檔?

      Python 作為一門靈活且功能強大的編程語言,廣泛應用于自動化、數據處理及內容分析等領域。使用 Python 讀取 Word 文檔,可以實現以下重要應用:

      • 批量提取數據:從報告、合同、簡歷等文檔中快速抓取關鍵信息,無需手工復制粘貼。
      • 結構化內容解析:將文本、表格和圖片等內容整理成數據庫或分析模型,便于后續處理。
      • 自動化工作流集成:將 Word 文檔讀取功能嵌入到 Web 服務、API 或后臺系統,實現端到端自動化。
      • 支持多格式文檔處理:同時兼容現代 .docx 和傳統 .doc 文件,保證業務場景的全面覆蓋。

      安裝 Python Word 文檔解析庫

      要在 Python 中讀取 Word 文檔,首先需要安裝支持 .doc 和 .docx 格式的解析庫。Spire.Doc for Python 是一款功能完善且獨立于 Microsoft Office 的第三方庫,支持提取文本、圖片、表格、批注、列表及元數據等多種內容。

      Spire.Doc for Python試用下載,請聯系Spire授權代理商慧都科技

      加入技術交流Q群(125237868),與更多開發者一起提升文檔開發技能

      通過以下命令即可安裝 Spire.Doc:

      pip install Spire.Doc

      安裝完成后,即可在 Python 代碼中導入并使用 Spire.Doc 進行 Word 文檔的讀取和處理。

      使用 Python 讀取 Word 文檔中文本

      提取文本是解析 Word 文檔的基礎需求。根據不同場景,你可能需要獲取整篇文檔的全部文本,或僅針對特定節、段落進行讀取。

      獲取整個文檔的文本

      在文檔管理系統中,提取全文文本有助于建立搜索索引,使用戶能夠通過關鍵詞快速定位文檔內容,從而提升查詢效率和使用體驗。

      Spire.Doc 提供了 Document.GetText() 方法,可一次性提取 Word 文檔中的所有文字信息,涵蓋正文、表格及列表等內容。

      以下示例展示了如何加載 Word 文檔,獲取全文文本,并將其保存為獨立的文本文件,便于后續處理與分析:

      from spire.doc import *
      
      # 創建Document對象
      doc = Document()
      
      # 加載Word文檔
      doc.LoadFromFile("示例.docx")
      
      # 獲取文檔所有文本
      text = doc.GetText()
      
      # 保存獲取的文本為TXT文件
      with open("output/提取文本.txt", "w", encoding="utf-8") as file:
      file.write(text)
      
      document.Close()

      獲取特定節或段落的文本

      在許多結構化文檔(如報告、合同或說明書)中,內容通常被劃分為多個節或段落。若只需提取文檔中某一部分的文本信息,可以直接訪問指定節,并逐段讀取內容,實現更具針對性的處理。

      以下示例展示了如何訪問 Word 文檔中的指定節,并提取其中所有段落的文本內容:

      from spire.doc import *
      
      # 加載 .docx 或 .doc 文件
      document = Document()
      document.LoadFromFile("示例.docx")
      
      # 訪問指定節
      section = document.Sections[0]
      
      # 獲取該節段落文本
      with open("output/節文本.txt", "w", encoding="utf-8") as file:
          for paragraph in section.Paragraphs:
              file.write(paragraph.Text + "\n")
      
      document.Close()

      使用 Python 讀取 Word 文檔中的特定元素

      除了純文本,Word 文檔中還可能包含圖片、表格、批注、列表及元數據等多種元素。Spire.Doc 提供豐富且便捷的接口,幫助開發者高效地提取這些內容,實現對文檔結構和數據的全面訪問。

      提取圖片

      Word 文檔中常包含圖片元素,例如公司 Logo、插圖、圖表等。若需提取這些圖片以便進行分析、存檔或再利用,可通過遍歷文檔結構并識別圖片對象(DocPicture)來實現。

      以下是提取 Word 文檔中所有圖片并將其保存為本地文件的完整示例:

      import queue
      from spire.doc import *
      
      # 創建Document對象
      doc = Document()
      
      # 加載Word文件
      doc.LoadFromFile("示例.docx")
      
      # 創建隊列對象
      nodes = queue.Queue()
      nodes.put(doc)
      
      # 創建列表
      images = []
      
      while nodes.qsize() > 0:
          node = nodes.get()
      
          # 遍歷文檔中的子對象
          for i in range(node.ChildObjects.Count):
              child = node.ChildObjects.get_Item(i)
      
              # 判斷子對象是否為圖片
              if child.DocumentObjectType == DocumentObjectType.Picture:
                  picture = child if isinstance(child, DocPicture) else None
                  dataBytes = picture.ImageBytes
      
                  # 將圖片數據添加到列表中
                  images.append(dataBytes)
               
              elif isinstance(child, ICompositeObject):
                  nodes.put(child if isinstance(child, ICompositeObject) else None)
      
      # 遍歷列表中的圖片
      for i, item in enumerate(images):
          fileName = "圖片-{}.png".format(i)
          with open("output/Images/"+fileName,'wb') as imageFile:
      
              # 將圖片寫入指定路徑
              imageFile.write(item)
      doc.Close()

      獲取表格數據

      在 Word 文檔中,表格常用于組織結構化數據,如報表或物品清單。使用 Spire.Doc,開發者可以遍歷文檔中的所有表格,訪問表格中的每個單元格,并提取單元格的內容。

      以下代碼展示了如何提取Word文檔中所有表格的數據,并將結果保存為文本文件:

      from spire.doc import *
      import os
      
      # 加載 Word 文檔
      document = Document()
      document.LoadFromFile("示例.docx")
      
      # 指定輸出文件夾存在
      output_dir = "output/Tables"
      os.makedirs(output_dir, exist_ok=True)
      
      # 遍歷所有節并提取表格數據
      for s in range(document.Sections.Count):
          section = document.Sections[s]
          tables = section.Tables
      
          for i in range(tables.Count):
              table = tables[i]
              table_data = ""
      
              for j in range(table.Rows.Count):
                  row = table.Rows[j]
      
                  for k in range(row.Cells.Count):
                      cell = row.Cells[k]
                      cell_text = ""
      
                      for p in range(cell.Paragraphs.Count):
                          para_text = cell.Paragraphs[p].Text
                          cell_text += para_text + " "
      
                      table_data += cell_text.strip()
                      if k < row.Cells.Count - 1:
                          table_data += "\t"
                  table_data += "\n"
      
              # 將提取的表格數據寫入文本文件
              output_path = os.path.join(output_dir, f"Word表格_{s+1}_{i+1}.txt")
              with open(output_path, "w", encoding="utf-8") as output_file:
                  output_file.write(table_data)
      
      document.Close()

      讀取列表

      Word 文檔中的項目列表(如編號列表和項目符號列表)常用于展示條款、步驟或要點等結構化內容。借助 Spire.Doc,開發者可以輕松識別并提取文檔中的列表。

      以下代碼示例展示了如何加載 Word 文件,查找所有列表項,并將項目編號(如數字或符號)和其對應的文本內容寫入本地文本文件:

      from spire.doc import *
      
      # 加載 Word 文檔
      document = Document()
      document.LoadFromFile("示例.docx")
      
      # 創建文本文件,用于存放列表內容
      with open("output/列表內容.txt", "w", encoding="utf-8") as output_file:
          # 遍歷文檔中的節
          for s in range(document.Sections.Count):
              section = document.Sections[s]
              # 遍歷節中的段落
              for p in range(section.Paragraphs.Count):
                  paragraph = section.Paragraphs[p]
                  # 找到列表,提取其內容并保存至文本文件
                  if paragraph.ListFormat.ListType != ListType.NoList:
                      output_file.write(paragraph.ListText + paragraph.Text + "\n")
      
      document.Close()

      提取批注

      Word 支持添加批注,用于提供修改建議或評論。通過訪問 Comments 集合,可以獲取文檔中所有批注的信息,包括批注作者和具體內容,便于實現審閱流程的自動化管理。

      以下代碼展示了如何提取所有批注,包括批注作者與內容,并保存到文本文件中:

      from spire.doc import *
      
      # 加載 Word 文檔
      document = Document()
      document.LoadFromFile("示例.docx")
      
      # 創建文本文件,用于存放批注內容
      with open("output/批注內容.txt", "w", encoding="utf-8") as output_file:
          # 遍歷文檔中的所有批注,獲取每個批注的作者和內容
          for i in range(document.Comments.Count):
              comment = document.Comments[i]
              output_file.write(f"批注 {i + 1}:\n")
              output_file.write(f"作者:{comment.Format.Author}\n")
      
              comment_text = ""
              for j in range(comment.Body.Paragraphs.Count):
                  paragraph = comment.Body.Paragraphs[j]
                  comment_text += paragraph.Text + "\n"
      
              output_file.write(f"內容: {comment_text.strip()}\n\n")
      
      document.Close()

      獲取元數據(文檔屬性)

      Word 文檔通常包含作者、標題、主題、關鍵字等元數據信息,這些數據保存在文檔的 BuiltinDocumentProperties 屬性中。提取這些屬性有助于文檔的歸檔管理、分類整理以及搜索優化。

      以下示例代碼展示了如何讀取 Word 文檔的標題、作者、主題等屬性,并將其保存到本地文本文件:

      from spire.doc import *
      
      # 加載 Word 文檔
      document = Document()
      document.LoadFromFile("示例.docx")
      
      # 獲取文檔屬性
      props = document.BuiltinDocumentProperties
      
      # 將文檔屬性信息寫入到本地文本文件
      with open("output/元數據.txt", "w", encoding="utf-8") as output_file:
          output_file.write(f"標題: {props.Title}\n")
          output_file.write(f"作者: {props.Author}\n")
      output_file.write(f"主題: {props.Subject}\n")
      
      document.Close()

      總結

      使用 Python 讀取 Word 文檔,不僅能夠顯著提升文檔處理效率,還能實現數據提取與自動化工作的深度集成。通過 Spire.Doc for Python,開發者可以輕松完成 .doc 和 .docx 文件中的文本提取、表格讀取、圖片導出、批注解析、列表識別以及元數據獲取等多種常見操作。

      除了讀取內容,Spire.Doc 還支持創建和編輯 Word 文檔、設置樣式格式、插入圖片、執行文檔合并,以及將 Word 轉換為 PDF和圖片等格式,滿足從讀取到輸出的全流程需求,適用于報告生成、合同解析、批量文檔處理等多種業務場景。

      Spire.Doc for Python試用下載,請聯系Spire授權代理商慧都科技

      加入技術交流Q群(125237868),與更多開發者一起提升文檔開發技能

      常見問題解答

      Q1:Python 如何讀取 Word(.doc/.docx)文檔內容?

      A1:可以使用 Spire.Doc for Python 來讀取 Word 文件。該庫支持加載 .doc 和 .docx 格式,并提取文檔中的文本、圖片、表格、批注等內容。

      Q2:使用 Spire.Doc for Python 是否需要安裝 Microsoft Office?
      A2:不需要。Spire.Doc 是一款獨立運行的 Word 處理庫,無需安裝 Microsoft Word 或 Office ,即可在 Python 項目中實現 Word 文件的讀取與編輯功能。

      Q3:除了讀取 Word 內容,Spire.Doc 是否支持寫入和生成 Word 文件?
      A3:支持。Spire.Doc for Python 不僅可以讀取 Word 文檔內容,還支持以編程方式創建、編輯和保存 Word 文件。用戶可以添加段落、設置樣式、插入圖片和表格,甚至將 Word 轉換為 PDF 或圖片格式,滿足多樣化的文檔生成需求。

      Spire.Doc for Python試用下載,請聯系Spire授權代理商慧都科技

      加入技術交流Q群(125237868),與更多開發者一起提升文檔開發技能

      posted @ 2025-08-04 11:44  IT開發者筆記  閱讀(49)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 欧美一区二区三区在线观看| 不卡乱辈伦在线看中文字幕| 国产亚洲一区二区三不卡| 亚洲欧洲日产国产 最新| 国产老熟女狂叫对白| 亚洲va中文字幕无码久久| 色综合视频一区二区三区| 国产偷国产偷亚洲高清人| 国产精品国产三级国产a| 又爽又黄又无遮掩的免费视频| 国产精品美女一区二区三| gogogo高清在线观看视频中文| 无码成a毛片免费| 网友偷拍视频一区二区三区| 伊人久久大香线蕉综合观| 日韩精品一区二区三区中文无码| 四虎在线播放亚洲成人| 欧美成人h精品网站| 成人做受120秒试看试看视频 | 国产中文字幕一区二区| 免费大黄网站在线观看| 日韩精品中文字幕有码| 免费特黄夫妻生活片| 亚洲人成人无码网WWW电影首页| 亚洲另类激情专区小说图片| 亚洲精品国产熟女久久久| 丁香婷婷色综合激情五月| 午夜片神马影院福利| 亚洲综合无码日韩国产加勒比| 久久月本道色综合久久| 免费无码又黄又爽又刺激| 色综合天天色综合久久网| 乱码视频午夜在线观看| 平邑县| 激情综合网激情五月激情 | 国产仑乱无码内谢| 色情一区二区三区免费看| 亚洲精品一区二区三区婷婷月| 精品不卡一区二区三区| 惠来县| 天堂一区二区三区av|