C# 读取PDF中的表格

2022-11-16 02:44:51 HarmonyOS ℃

　　本文介绍在C#程序中（附VB.NET代码）提取PDF中的表格的方法，调用Spire.PDF for .NET提供的提取表格的类以及方法等来获取表格单元格中的文本内容；代码内容中涉及到的主要类型及方法归纳如下表，供参考：

　　类型

　　描述

　　PdfDocument Class

　　Represents a pdf document model.

　　PdfDocument.LoadFromFile(string filename) Method

　　Loads a PDF document.

　　PdfTableExtractor Class

　　Represents the PDF table extractor.

　　PdfTable Class

　　Defines a PDF table.

　　PdfTableExtractor. ExtractTable(int pageIndex) Method

　　Extracts table from page.

　　PdfTable.GetText(int rowIndex,int columnIndex) Method

　　Gets Text in cell.

　　File.WriteAllText() Method

　　Saves extracted text in table to a .txt file.

　　环境配置

　　Visual Studio 2022.net framework 4.6.1PDF测试文档库：Spire.PDF for .NET 7.10.4引用dll文件的2种方法：

　　方法1：通过NuGet安装。

　　【步骤】

　　鼠标右键点击“引用”，“管理NuGet程序包”，

　　点击“浏览”，在搜索框中输入，点击“安装”，

　　或者使用PM控制台安装:

　　PM>Install-Package Spire.PDF -Version 7.10.4

　　方法2：手动添加引用。

　　【步骤】

　　鼠标右键点击“引用”，“添加引用”，

　　点击“浏览”，“浏览”，将本地路径下的dll文件（需提前下载到本地，并解压）添加到引用列表

　　点击OK,完成引用：

　　代码示例

　　using Spire.Pdf;using Spire.Pdf.Utilities;using System.IO;using System.Text;namespace ExtractTable{ class Program { static void Main(string[] args) { //加载PDF文档 PdfDocument pdf = new PdfDocument(); pdf.LoadFromFile("sample.pdf"); StringBuilder builder = new StringBuilder(); //抽取表格 PdfTableExtractor extractor = new PdfTableExtractor(pdf); PdfTable[] tableLists = null; for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++) { tableLists = extractor.ExtractTable(pageIndex); if (tableLists != null && tableLists.Length > 0) { foreach (PdfTable table in tableLists) { int row = table.GetRowCount(); int column = table.GetColumnCount(); for (int i = 0; i < row; i++) { for (int j = 0; j < column; j++) { string text = table.GetText(i, j); builder.App(text + " "); } builder.App("\r\n"); } } } } //保存提取的表格内容到txt文档 File.WriteAllText("ExtractedTable.txt", builder.ToString()); } }}

　　VB.NET

　　Imports Spire.PdfImports Spire.Pdf.UtilitiesImports System.IOImports System.TextNamespace ExtractTable Class Program Private Shared Sub Main(args As String()) '加载PDF文档 Dim pdf As New PdfDocument() pdf.LoadFromFile("sample.pdf") Dim builder As New StringBuilder() '抽取表格 Dim extractor As New PdfTableExtractor(pdf) Dim tableLists As PdfTable() = Nothing For pageIndex As Integer = 0 To pdf.Pages.Count - 1 tableLists = extractor.ExtractTable(pageIndex) If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then For Each table As PdfTable In tableLists Dim row As Integer = table.GetRowCount() Dim column As Integer = table.GetColumnCount() For i As Integer = 0 To row - 1 For j As Integer = 0 To column - 1 Dim text As String = table.GetText(i, j) builder.App(text & Convert.ToString(" ")) Next builder.App(vbCr & vbLf) Next Next End If Next '保存提取的表格内容到txt文档 File.WriteAllText("ExtractedTable.txt", builder.ToString()) End Sub End ClassEnd Namespace

　　表格内容提取结果：

　　其他注意事项：

　　代码中的PDF文件以及生成的.txt文件路径为 F:\VS2022Project\ExtractTable\bin\Debug\sample.pdf 和 F:\VS2022Project\ ExtractTable\bin\Debug\ExtractedTable.txt。文件路径也可以自定义为其他路径。注意使用的dll文件版本。低于7.10.4的其他版本不提取表格。

标签： HarmonyOS

上一篇：阳江美食文化节开幕，10条乡村旅游精品线路全新发布

下一篇：返回列表

C# 读取PDF中的表格

相关推荐

阳江美食文化节开幕，10条乡村旅游精品线路全新发布

父女兄妹之间乱伦生孩子，澳洲一个40人的家族各地逃窜躲避追查

C｜二维表的数据结构：二维数组、指针数组、结构体

好用的人事管理软件有哪些？人事管理系统软件排名