在C#中阅读PDF文件

IronPDF C# PDF 库中的 PdfDocument.ExtractAllText 方法非常适合处理基本的 PDF 文本读取任务。 此方法可以轻松处理源 PDF 文档中的空白和编码差异。

PdfDocument.ExtractTextFromPage 从 PDF 的特定页面读取文本。 在上面的例子中,我们看到它被迭代使用以从特定范围的页面中检索文本内容。

IronPDF还可以从PDF中提取原始图像。 为此,请使用以下PdfDocument类中的任一方法:

  • ExtractAllImages:将 PDF 中嵌入的所有图像作为 IronSoftware.Drawing.AnyBitmap 对象返回。
  • ExtractAllRawImages:将所有嵌入的图像作为原始字节 (byte []) 的列表检索。
  • ExtractImagesFromPage:提取索引页面中包含的图像。
  • ExtractImagesFromPages:与ExtractImagesFromPage相同,但从特定的页面范围或多个指定页面中提取。
  • ExtractRawImagesFromPageExtractRawImagesFromPages:与前两种方法相同,但返回的提取图像为字节数组,而不是IronSoftware.Drawing.AnyBitmap对象。