Lekce 11 - Data Mining - Vliv makroindikátorů na export - Korelace
V minulé lekci, Data Mining - Vliv makroindikátorů na export - Dokončení dat, jsme dokončili přípravu dat pro další reálnou úlohu, týkající se vlivu makroindikátorů na vývoj exportu do Německa.
V tomto tutoriálu Data Miningu využijeme upravená data z
předchozích lekcí a zahájíme v rámci naší reálné úlohy statistické
testování vztahů mezi hlavními makroekonomickými indikátory České
republiky a vývojem exportu z ČR do Německa. Využijeme k tomu
korelační analýzu. Konkrétně využijeme metodu
scatter_matrix()
, která umožňuje vytvoření maticového grafu
zobrazujícího vztahy mezi více než dvěma proměnnými najednou. Nejprve si
ale prohloubíme základy teorie.
Korelační analýza
O vztahu mezi dvěma veličinami mluvíme jako o korelaci. Korelační koeficient je potom číslo, které vyjadřuje sílu tohoto vztahu mezi dvěma veličinami. Existuje více způsobů, jak korelaci měřit, avšak nejvíce využívaný je Pearsonův korelační koeficient (r) pro lineární závislost. Koeficient měří sílu lineární závislosti, resp. těsnost mezi dvěma veličinami (nikoliv průběh závislosti, pro který se využívá regresní analýza, o které si povíme později). Dvě proměnné jsou korelované, pokud určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Pomocí korelačního koeficientu můžeme vyčíslit, jak silná je vazba mezi našimi daty, tedy vybranými makroekonomickými indikátory a exportem do Německa.
Korelační koeficient nabývá hodnot z intervalu od -1 do 1. Pokud je hodnota kladná, odpovídá zvětšení jedné veličiny zvětšení druhé. Je-li hodnota záporná, odpovídá zvětšení jedné veličiny zmenšení druhé. Je-li hodnota nulová, není mezi veličinami lineární závislost. Je-li hodnota přesně 1 nebo −1, je mezi veličinami přesná lineární závislost.
Přibližná interpretace hodnot korelačního koeficientu (záporné hodnoty jsou analogické):
...konec náhledu článku...
Pokračuj dál
Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.
Koupit tento kurz
Před koupí tohoto článku je třeba koupit předchozí díl
Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.
- Neomezený a trvalý přístup k jednotlivým lekcím.
- Kvalitní znalosti v oblasti IT.
- Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.
Popis článku
Požadovaný článek má následující obsah:
V této lekci si ujasníme rozdíl mezi korelací a regresí a navážeme testováním. Využijeme metodu scatter_matrix() a spočítáme korelační koeficienty.
Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.