PDF-Dateien in C# lesen

Die Methode PdfDocument.ExtractAllText aus der IronPDF C# PDF-Bibliothek ist perfekt für einfache PDF-Textleseaufgaben geeignet. Mit dieser Methode werden Leerraum- und Kodierungsabweichungen in PDF-Quelldokumenten problemlos gehandhabt.

PdfDocument.ExtractTextFromPage liest den Text von bestimmten Seiten eines PDFs. Im obigen Beispiel wird es iterativ verwendet, um Textinhalte aus einem bestimmten Bereich von Seiten abzurufen.

IronPDF kann auch Rohbilder aus PDFs extrahieren. Verwenden Sie hierfür eine der folgenden Methoden aus der PdfDocument-Klasse:

  • ExtractAllImages: gibt alle in einer PDF eingebetteten Bilder als IronSoftware.Drawing.AnyBitmap-Objekte zurück.
  • ExtractAllRawImages: ruft alle eingebetteten Bilder als Liste von Rohbytes (byte []) ab.
  • ExtractImagesFromPage: extrahiert die Bilder, die sich auf einer indizierten Seite befinden.
  • ExtractImagesFromPages: dasselbe wie ExtractImagesFromPage, aber für einen bestimmten Seitenbereich oder eine Liste einzelner Seiten.
  • ExtractRawImagesFromPage und ExtractRawImagesFromPages: funktioniert genauso wie die vorherigen beiden Methoden, aber gibt extrahierte Bilder als Byte-Arrays anstelle von IronSoftware.Drawing.AnyBitmap-Objekten zurück.