C# 拆分PDF文件，提取PDF文本内容|C/S开发框架|C/S框架网

C# 拆分PDF文件，提取PDF文本内容|C/S开发框架

作者:csframework|C/S框架网发布日期:2024/04/08 22:38:58

使用 PdfSharp 拆分PDF文件

C# 全选

            PdfDocument newdoc = PdfSharp.Pdf.IO.PdfReader.Open(filename, PdfSharp.Pdf.IO.PdfDocumentOpenMode.Import);

            int index = 0;
            foreach (PdfPage page in newdoc.Pages)
            {
                string filename = string.Format("Single_PDF_{0}.pdf", index++);
                PdfDocument singlepdf = new PdfDocument();
                singlepdf.AddPage(page);
                singlepdf.Save(filename);
            }

注意：作者测试 PdfSharp 不支持提取中文内容。

使用 iText.Kernel.Pdf 提取PDF文本内容

C# 全选

    /// <summary>
    /// 提取文本内容
    /// </summary>
    /// <param name="filename">pdf文件</param>
    /// <param name="pageIndex">页码</param>
    /// <returns></returns>
    public static IEnumerable<string> ExtractText(string filename, int pageIndex)
    {
        using (var r = new PdfReader(filename))
        using (var doc = new PdfDocument(r))
        {
            if (doc.GetNumberOfPages() >= pageIndex)
            {
                string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(pageIndex));
                yield return text;
            }
        }
    }

作者亲测：使用iText7支持提取全部文本，包括中文。

NuGet包

XML 全选

    <PackageReference Include="itext7" Version="8.0.3" />
    <PackageReference Include="PDFsharp" Version="6.0.0" />

扫一扫加作者微信

参考文档：

C/S开发框架支持加载数据库的FastReport.NET报表模板文件 - 功能升级
C#使用SqlBulkCopy快速导入Excel文件(xls/xlsx)-C/S开发框架
GIT VS解决方案忽略文件 .gitignore-C/S开发框架
C#读取加载XML文件-C/S开发框架
C# 利用PrintDocument定制打印单据-C/S开发框架
C# INI文件处理帮助类 IniFile-C/S开发框架
C#多线程使用读写锁ReaderWriterLockSlim同步写入文件-C/S开发框架
C#使用正则表达式移除所有的Html标记,返回纯文本-C/S开发框架
C# ASP.NET使用ashx一般处理程序实现上传文件功能-C/S开发框架
C#使用Graphics合成二维码和头像的分享图(小程序分享、App分享)-C/S开发框架
C# 将PDF转为线性化PDF-C/S开发框架
C# Win服务定时作业实现集团之间的跨系统跨数据库数据同步|C/S开发框架
WinFramework轻量框架代码生成器 | 生成C#类模型|C/S开发框架
C#使用QRCodeEncoder生成在线支付二维码图片（中间带Logo）|C/S开发框架
C# DataGridView 隐藏默认 * 行|C/S开发框架

旗舰版V5.1
(作者推荐)

轻量框架V2.1
(2021 release)

目录

使用 PdfSharp 拆分PDF文件

使用 iText.Kernel.Pdf 提取PDF文本内容

NuGet包