Matplotlib – osadzenie wykresu w aplikacji

Kod programu można pobrać tutaj.

Okno programu zostało utworzone w bibliotece tkinter. Na wykres została przewidziana osobna ramka tkinter.Frame(). W ramce tej został umieszczony wykres dzięki zastosowaniu obiektu FigureCanvasTkAgg. Obiekt ten jako parametry przyjmuje obiekt Figure oraz kontener – w tym przypadku obiekt Frame.

W oknie programu umieściłem podstawowe widżety tzn. menu programu, pole wprowadzania i przycisk tkinter.Button() umożliwiające zmianę roku, dla którego generowany jest wykres oraz pole statusu, w którym są wyświetlane komunikaty o poprawnym wczytaniu danych lub o braku danych do wygenerowania wykresu dla danego roku.

Domyślnie po uruchomieniu programu wyświetlany jest wykres cen hurtowych dla bieżącego roku.

Okno programu generującego wykres cen hurtowych paliw na podstawie podanego roku.

Matplotlib – osadzanie wykresu w aplikacji #2

Drobne zmiany w kodzie.

Wykresy zapisywane są na lokalnym dysku, w katalogu data/ projektu. Jeśli na dysku jest już zapisany wykres dla danego roku, to jest on wczytywany z lokalnych zasobów, bez tworzenia zapytań do serwera, w celu przyspieszenia wyświetlania wykresu.

Alternatywnie można byłoby pobrać wszystkie dane za jednym razem asynchronicznie np. korzystając z obiektu ThreadPoolExecutor() i następnie odwoływać się już tylko do lokalnych zasobów.

Matplotlib i parsowanie HTML

W dzisiejszym wpisie przedstawię parsowanie strony Orlenu w celu pobrania danych o zmianach cen hurtowych oleju napędowego i przedstawienia tych zmian na wykresie.

Na wstępie niezbędne jest zaimportowanie bibliotek: requests – w celu obsługi zapytań HTLM, lxml .html do parsowania HTML, matplotlib.pyplot – w celu wyświetlenia wykresu na podstawie sparsowanych danych oraz unicodedata – w celu obsługi unicode.

import requests
from lxml import html
import matplotlib.pyplot as plt
import unicodedata

if __name__ == "__main__":
    main()

def main():
   print_chart(my_parser(2019))    #wyświetla wykres dla 2019 roku

def print_chart(content):
    year = content.get('year')  
    fuel = content.get('fuel')
    dates = content.get('dates') 
    prices = content.get('prices')

    plt.style.use('bmh')

    fig, ax = plt.subplots()

    ax.set_title(f'Cena dla paliwa {fuel} - {year} rok')
    ax.set_xlabel('Data')
    ax.set_ylabel('Cena')
    fig.autofmt_xdate()
    ax.grid(True)
    ax.xaxis.set_major_locator(plt.MaxNLocator(10))
    ax.plot(dates, prices, c='#CA3F62')
    plt.show()

Powyższa funkcja rysuje wykres liniowy zmian cen hurtowych oleju napędowego w danych roku. Argument content przekazywany do funkcji jest słownikiem. Wartości dla kolejnych kluczy słownika są przekazywane do zmiennych year, fuel, dates, i prices. Wartości dates i prices są listami przechowującymi odpowiednio daty i ceny hurtowe Orlenu.

Następnie w wierszu plt.style use(’bmh’) zostaje użyty styl graficzny dla wykresu w celu poprawy wyglądu wykresu. Listę dostępnych stylów można wyświetlić za pomocą: print(plt.style.available).

Następnie za pomocą jako wynik funkcji plt.subplots() zostaje zwrócona krotka, której wartości są przypisane do zmiennych – odpowiednio fig oraz ax. Zmienna fig przechowuje obiekt Figure, który można utożsamiać z oknem wszystkich wykresów, natomiast ax przechowuje obiekt AxesSubplot, który możemy utożsamiać z poszczególnym wykresem, jednakże na takim obiekcie może być rysowanych kilka wykresów dla różnych danych np. obiekt taki może przechowywać wykres zmian cen oleju napędowego oraz drugi wykres, zawierający cenę etyliny w tym okresie. Jeżeli chcielibyśmy przedstawić oba wykresy w tym samym oknie, w tym samym obiekcie Figure, ale np. w dwóch kolumnach, to należałoby użyć dwóch obiektów ax np. ax1 i ax2 tzn.

fig, (ax1, ax2) = plt.subplots(rows=1, cols=2)

W kolejnych wierszach ustawiany jest tytuł dla wykresu, etykieta dla osi X i etykieta dla osi Y. Następnie wywołuję funkcję autofmt_xdate(), aby poprawić widoczność etykiet dla osi X – etykiety wyświetlane są pod kątem i nie przesłaniają się nawzajem.

Kolejnym krokiem jest wyświetlenie siatki wykresu za pomocą funkcji grid() przekazując parametr True – w celu poprawy wyglądu wykresu.

Można zauważyć, że dane osi X przesłaniają się mimo wszystko. Aby poprawić widoczność wartości na osi x ograniczyłem ilość wyświetlanych wartości na osi X do 10 za pomocą funkcji: ax.xaxis.set_major_locator(plt.MaxNLocator(10))

W kolejnym wierszu: ax.plot(dates, prices, c=’#CA3F62′) tworzony jest wykres liniowy na podstawie danych dla osi X – zawartych w liście dates oraz dla danych dla osi Y zawartych w liście prices. Parametr c określa kolor linii wykresu.

Funkcja show() w kolejnej linii wyświetla tak przygotowany wykres.

Słownik content przekazany jako argument do funkcji print_chart() jest zwracany jako wynik funkcji my_parser(), która jako parametr przyjmuje argument year – rok, dla którego chcemy pobrać dane. Kod mojej funkcji my_parser() wygląda następująco:

def my_parser(year):
    page = requests.get(f'https://www.orlen.pl/PL/DlaBiznesu/HurtoweCenyPaliw/Strony/archiwum-cen.aspx?Fuel=ONEkodiesel&Year={year}')
    text = unicodedata.normalize("NFKC", page.text)
    tree = html.fromstring(text)
    table_content = tree.xpath('//tr/td/span/text()')
    table_content = table_content[::-1]
    content = {}
    content['year'] = year
    content['fuel'] = table_content.pop()
    content['dates'] = table_content[1::2]
    prices = table_content[::2]
    prices = [price.replace(' ', '') for price in prices]
    prices = list(map(int, prices))
    content['prices'] = prices
    return content

Najpierw za pomocą funkcji get() z biblioteki requests jest tworzone zapytanie strony Orlenu dla danego roku, podanego jako parametr funkcji my_parser(). W efekcie zmienna page przechowuje zwrócony obiekt Response.

W kolejnym etapie zawartość strony jest normalizowana, aby pozbyć się z tekstu kodów unicode.

W linii tree = html.fromstring(text) tworzona jest zmienna tree, za pomocą której następnie będzie wyszukiwana zawartość tabeli, przechowującej daty i ceny paliwa tzn.:

table_content = tree.xpath(’//tr/td/span/text()’) # pobranie wartości z tabeli

Pobrana zawartość z tabeli jest listą zawierającą kolejno: nazwę paliwa, a następnie na przemian daty i ceny paliwa. Dane są posortowane od końca roku do początku i aby uzyskać odwrotne wartości należy wpisać:

table_content = table_content[::-1]

Dzięki temu dane z początku roku będą na początku wykresu.

Kolejnym krokiem jest utworzenie słownika content, którego kluczami będą: year, fuel, dates i prices, przechowującymi odpowiednio rok, dla którego chcemy wyświetlić dane; nazwę paliwa; zawierający listę dat i listę cen hurtowych. Wartość year jest przekazywana na podstawie parametru funkcji my_parser(). Wartość fuel jest pobrana za pomocą funkcji pop() z listy table_content – dzięki czemu docelowo lista ma tylko dane zawierające daty i ceny. W liście prices jest są dokonywane czynności porządkowe tzn. usunięcie spacji oddzielających tysiące oraz zrzutowanie tak zmodyfikowanych łańcuchów na typ int.

Tak utworzony słownik jest następnie zwracany jako argument do funkcji print_chart()

W efekcie wykres cen hurtowych dla oleju napędowego dla przykładowego roku 2019 wygląda następująco:

Wykres hurtowych cen oleju napędowego – PKN Orlen w 2019 roku.

W kolejnym wpisie opiszę jak osadzić wykres utworzony z danych pobranych ze strony PKN Orlen we własnej aplikacji na podstawie opisanej już wcześniej biblioteki tkinter.

— c. d. n. —

Mapy kolorów w matplotlib

Aby utworzyć wykres punktowy, korzystający z wybranej palety kolorów należy jako argument cmap podać nazwę wybranego schematu kolorów. Kolory pogrupowane są w grupy >>dokumentacja<< – np. Sequential – różne natężenie jednego koloru, Diverging – różne natężenia dwóch kontrastowych kolorów, Qualitative – kontrastowe różne kolory, ale pasujące do palety np. Pastel1 – zawierający różne kolory pastelowe.

import matplotlib.pyplot as plt

fig, ax = plt.subplots()

ax.set_title('Tytuł wykresu')
ax.set_xlabel('Etykieta osi X')
ax.set_ylabel('Etykieta osi Y')

# x - lista z wartościami osi X np. nazwa produktu
# y - lista z wartościami osi Y np. cena produktu
# intensivity - lista z liczbami odpowiadającymi instensywności danej cechy
# cm - nazwa wybranej palety kolorów

ax.scatter(x, y, c=intensivity,  cmap=cm)  
  # Przykładowo: plt.scatter(x, y, c=intensivity, s=50,  cmap='plasma')

mappable = ax.collections[0]
cbar = fig.colorbar(mappable=mappable)
cbar.set_label('intensivity')

plt.show()

Parametr s odpowiada za wielkość rysowanych znaków.

Aby wyświetlić pasek colorbar, który obrazuje intensywność danej cechy dla wyświetlonego punktu należy jako parametr podać obiekt mappable, który dla wykresu punktowego jest przechowywany jako element listy collections obiektu AxesSubplot.

W efekcie na wykresie, który może przedstawiać np. nazwę produktu i cenę można umieścić dodatkową informację za pomocą koloru np. popularność wśród kupujących lub ilość towaru w magazynie (np. kolor zielony – towar dostępny bez problemu aż po kolor czerwony – brak towaru w magazynie)