在C#中阅读PDF文件
IronPDF C# PDF 库中的 PdfDocument.ExtractAllText
方法非常适合处理基本的 PDF 文本读取任务。 此方法可以轻松处理源 PDF 文档中的空白和编码差异。
PdfDocument.ExtractTextFromPage
从 PDF 的特定页面读取文本。 在上面的例子中,我们看到它被迭代使用以从特定范围的页面中检索文本内容。
IronPDF还可以从PDF中提取原始图像。 为此,请使用以下PdfDocument
类中的任一方法:
ExtractAllImages
:将 PDF 中嵌入的所有图像作为IronSoftware.Drawing.AnyBitmap
对象返回。ExtractAllRawImages
:将所有嵌入的图像作为原始字节 (byte []
) 的列表检索。ExtractImagesFromPage
:提取索引页面中包含的图像。ExtractImagesFromPages
:与ExtractImagesFromPage
相同,但从特定的页面范围或多个指定页面中提取。-
ExtractRawImagesFromPage
和ExtractRawImagesFromPages
:与前两种方法相同,但返回的提取图像为字节数组,而不是IronSoftware.Drawing.AnyBitmap
对象。
如何在C#中读取PDF文件
- 下载 IronPDF 库用于 C#
- 从 PDF 中提取图像或文本
- 阅读和查找特定文件中的单词
- 查看原始文档的 PDF 输出结果