Obiekt ramki w Pandas na podstawie danych z pliku pdf

Wczytanie danych z pliku pdf wymaga zainstalowanego modułu tabula-py. Moduł ten umożliwia także zapis wczytanych danych do pliku z danymi w formacie csv lub json.

import tabula
df_list = tabula.read_pdf('file.pdf')

Funkcja read_pdf wczytuje domyślnie jedną stronę z pliku pdf, jeśli nie podano wartości dla parametru pages (jeśli chcemy wczytać wszystkie strony to należy wpisać parametr pages=’all’).

Powyższa funkcja zwraca obiekt listy zawierającej kolejne obiekty typu DataFrame, na przykład:

df = df_list[0]        # pierwszy obiekt ramki

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *