NOVINKA - Online rekvalifikační kurz Python programátor. Oblíbená a studenty ověřená rekvalifikace - nyní i online.
Hledáme nové posily do ITnetwork týmu. Podívej se na volné pozice a přidej se do nejagilnější firmy na trhu - Více informací.

Lekce 11 - Data Mining - Vliv makroindikátorů na export - Korelace

V minulé lekci, Data Mining - Vliv makroindikátorů na export - Dokončení dat, jsme dokončili přípravu dat pro další reálnou úlohu, týkající se vlivu makroindikátorů na vývoj exportu do Německa.

V tomto tutoriálu Data Miningu využijeme upravená data z předchozích lekcí a zahájíme v rámci naší reálné úlohy statistické testování vztahů mezi hlavními makroekonomickými indikátory České republiky a vývojem exportu z ČR do Německa. Využijeme k tomu korelační analýzu. Konkrétně využijeme metodu scatter_matrix(), která umožňuje vytvoření maticového grafu zobrazujícího vztahy mezi více než dvěma proměnnými najednou. Nejprve si ale prohloubíme základy teorie.

Korelační analýza

O vztahu mezi dvěma veličinami mluvíme jako o korelaci. Korelační koeficient je potom číslo, které vyjadřuje sílu tohoto vztahu mezi dvěma veličinami. Existuje více způsobů, jak korelaci měřit, avšak nejvíce využívaný je Pearsonův korelační koeficient (r) pro lineární závislost. Koeficient měří sílu lineární závislosti, resp. těsnost mezi dvěma veličinami (nikoliv průběh závislosti, pro který se využívá regresní analýza, o které si povíme později). Dvě proměnné jsou korelované, pokud určité hodnoty jedné proměnné mají tendenci se vyskytovat společně s určitými hodnotami druhé proměnné. Pomocí korelačního koeficientu můžeme vyčíslit, jak silná je vazba mezi našimi daty, tedy vybranými makroekonomickými indikátory a exportem do Německa.

Korelační koeficient nabývá hodnot z intervalu od -1 do 1. Pokud je hodnota kladná, odpovídá zvětšení jedné veličiny zvětšení druhé. Je-li hodnota záporná, odpovídá zvětšení jedné veličiny zmenšení druhé. Je-li hodnota nulová, není mezi veličinami lineární závislost. Je-li hodnota přesně 1 nebo −1, je mezi veličinami přesná lineární závislost.

Přibližná interpretace hodnot korelačního koeficientu (záporné hodnoty jsou analogické):


 

...konec náhledu článku...
Pokračuj dál

Znalosti v hodnotě stovek tisíc získáš za pár korun

Došel jsi až sem a to je super! Věříme, že ti první lekce ukázaly něco nového a užitečného.
Chceš v kurzu pokračovat? Přejdi do prémiové sekce.

Koupit tento kurz

Koupit všechny aktuálně dostupné lekce s funkcí odevzdávání úloh a certifikátem za pouhých 470 Kč
Aktuální stav konta 0 Kč
Koupí tohoto balíčku získáš přístup ke všem 16 článkům (13 lekcí, 3 testy) tohoto kurzu.

Před koupí tohoto článku je třeba koupit předchozí díl

Obsah článku spadá pod licenci Premium, koupí článku souhlasíš se smluvními podmínkami.

Co od nás v dalších lekcích dostaneš?
  • Neomezený a trvalý přístup k jednotlivým lekcím.
  • Kvalitní znalosti v oblasti IT.
  • Dovednosti, které ti pomohou získat vysněnou a dobře placenou práci.

Popis článku

Požadovaný článek má následující obsah:

V této lekci si ujasníme rozdíl mezi korelací a regresí a navážeme testováním. Využijeme metodu scatter_matrix() a spočítáme korelační koeficienty.

Kredity získáš, když podpoříš naši síť. To můžeš udělat buď zasláním symbolické částky na podporu provozu nebo přidáním obsahu na síť.

Článek pro vás napsala Aneta Siobos
Avatar
Autor se věnuje datové analýze.
Aktivity