Odczyt danych tekstowych przy pomocy biblioteki PdfParser

Biblioteka PHP Smalot/PdfParser wespół z popularnym narzędziem TCPDF pozwalają w dość łatwy sposób pobierać dane tekstowe z plików w formacie PDF.

Inicjalizacja użycia biblioteki może przebiegać w następujący sposób:

$sciezka_pliku = …
$parser = new Smalot\PdfParser\Parser();
$pdf = $parser->parseFile($sciezka_pliku);
$pobrana_tresc = $pdf->getText();

Pobrana treść może być w dowolny sposób przetwarzana. W razie potrzeby użycia danych w postaci JSON z czytelnym formatowaniem warto użyć funkcji json_encode z zestawem odpowiednich flag:

json_encode($wynikowa_tablica, JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT | JSON_PRESERVE_ZERO_FRACTION)

W razie chęci zminimalizowania ilości zewnętrznego kodu przydaje się następująca lista niezbędnych plików, które wymagają dokonania importu (poprzez funkcję import bądź require):

Smalot/PdfParser/Element.php
Smalot/PdfParser/Element/ElementNumeric.php
Smalot/PdfParser/Element/ElementXRef.php
Smalot/PdfParser/Element/ElementName.php
Smalot/PdfParser/Element/ElementArray.php
Smalot/PdfParser/Parser.php
tcpdf/tcpdf_parser.php
Smalot/PdfParser/Document.php
Smalot/PdfParser/Header.php
Smalot/PdfParser/Element/ElementString.php
Smalot/PdfParser/Element/ElementDate.php
Smalot/PdfParser/PDFObject.php
Smalot/PdfParser/Pages.php
Smalot/PdfParser/Page.php
Smalot/PdfParser/Font.php
Smalot/PdfParser/Element/ElementMissing.php