PDF-Dateien in C# lesen

VB C#

using IronPdf;
using IronSoftware.Drawing;
using System.Collections.Generic;

// Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
var pdf = PdfDocument.FromFile("encrypted.pdf", "password");

// Get all text to put in a search index
string text = pdf.ExtractAllText();

// Get all Images
var allImages = pdf.ExtractAllImages();

// Or even find the precise text and images for each page in the document
for (var index = 0 ; index < pdf.PageCount ; index++)
{
    int pageNumber = index + 1;
    text = pdf.ExtractTextFromPage(index);
    List<AnyBitmap> images = pdf.ExtractBitmapsFromPage(index);
    //...
}

Imports IronPdf
Imports IronSoftware.Drawing
Imports System.Collections.Generic

' Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private pdf = PdfDocument.FromFile("encrypted.pdf", "password")

' Get all text to put in a search index
Private text As String = pdf.ExtractAllText()

' Get all Images
Private allImages = pdf.ExtractAllImages()

' Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim pageNumber As Integer = index + 1
	text = pdf.ExtractTextFromPage(index)
	Dim images As List(Of AnyBitmap) = pdf.ExtractBitmapsFromPage(index)
	'...
Next index

Install-Package IronPdf

PDF-Dateien in C# lesen

Die Methode PdfDocument.ExtractAllText aus der IronPDF C# PDF-Bibliothek ist perfekt für einfache PDF-Textleseaufgaben geeignet. Mit dieser Methode werden Leerraum- und Kodierungsabweichungen in PDF-Quelldokumenten problemlos gehandhabt.

PdfDocument.ExtractTextFromPage liest den Text von bestimmten Seiten eines PDFs. Im obigen Beispiel wird es iterativ verwendet, um Textinhalte aus einem bestimmten Bereich von Seiten abzurufen.

IronPDF kann auch Rohbilder aus PDFs extrahieren. Verwenden Sie hierfür eine der folgenden Methoden aus der PdfDocument-Klasse:

ExtractAllImages: gibt alle in einer PDF eingebetteten Bilder als IronSoftware.Drawing.AnyBitmap-Objekte zurück.
ExtractAllRawImages: ruft alle eingebetteten Bilder als Liste von Rohbytes (byte []) ab.
ExtractImagesFromPage: extrahiert die Bilder, die sich auf einer indizierten Seite befinden.
ExtractImagesFromPages: dasselbe wie ExtractImagesFromPage, aber für einen bestimmten Seitenbereich oder eine Liste einzelner Seiten.
ExtractRawImagesFromPage und ExtractRawImagesFromPages: funktioniert genauso wie die vorherigen beiden Methoden, aber gibt extrahierte Bilder als Byte-Arrays anstelle von IronSoftware.Drawing.AnyBitmap-Objekten zurück.
Wie man PDF-Dateien in C# liest
1. IronPDF-Bibliothek für C# herunterladen
2. Bilder oder Text aus PDF extrahieren
3. Lesen und Finden von Wörtern in bestimmten Dokumenten
4. PDF-Ausgabe des Originaldokuments anzeigen