DSGE modely
V ekonomii existuje řada rozdílných přístupů, kterými lze zkoumat realitu. Tyto přístupy jsou jedním z důvodů, proč se od sebe ekonomické směry tolik liší. Rád bych vám nyní stručně a jednoduše vysvětlil tři základní přístupy, které v ekonomii existují. Nebojte se cizích pojmů, který možná nebudete rozumět. Všechno je mnohem jednodušší, než se na první pohled zdá.
V současnosti nejoblíbenějším typem modelů jsou takzvané dynamické stochastické modely všeobecné rovnováhy. Anglicky je nazýváme Dynamic Stochastic Models of General Equilibrium, zkráceně se označují jako DSGE modely. Velmi složité varianty těchto modelů využívají například centrální banky či ministerstva financí (včetně našeho) k simulaci dopadů jejich hospodářské politiky na ekonomiku. DSGE modely můžeme oprávněně označit jako state of the art současné ekonomie.
Proč vlastně DSGE modely vznikly a jaké byly jejich hlavní přínosy? Abychom si na tuto otázku odpověděli, musíme si vyjasnit další důležitý pojem, kterým je Lucasova kritika. Jedná se o kritiku (především) keynesiánských makroekonomických modelů, kterou formuloval americký ekonom Robert Lucas. Upozorňoval na fakt, že tyto modely v sobě neobsahují informaci o tom, jak ekonomické subjekty reagují na změnu hospodářské politiky.
Jednovýběrové testy
V případě jednovýběrového z-testu uvažujeme, že máme jeden statistický soubor dat, známe známe rozptyl dat a chceme ověřit hypotézu o jeho střední hodnotě. Pokud rozptyl neznáme (a musíme ho odhadovat), využijeme t-test. Protože z-test je jedním z nejjednodušších statistických testů, vysvětlíme si na něm detailně, jak se statistické testování provádí, jaké má testování výstupy a jak je interpretujeme.
V tomto článku je popsáno, jak provést z-test v Excelu. Zadání příkladu a teoretický popis včetně vzorců najdete v článku o z-testu.
Microsoft Excel obsahuje funkci Z.TEST pro provedení z-testu, která vrací p-hodnotu testované hypotézy. Bohužel je standardně tato funkce napsána pro provedení jednostranného testu pro nulovou hypotézu, že střední hodnota souboru větší než zadaná střední hodnota.
Uvažujme, že chceme ověřit hypotézu o střední hodnotě nějakého náhodného výběru, k čemuž můžeme využít z-test. U oboustranného z-testu je alternativní hypotéza zadaná nerovností, tj. alternativní hypotéza tvrdila, že střední hodnota náhodného výběru je odlišná od teoretické (testované) střední hodnoty. Nyní rozebereme další variantu - levostranný test, kde ověřujeme, zda je skutečná střední hodnota dat menší než hypotetická hodnota.
Oproti příkladu s levostranným testem uvažujme nyní opačný případ, tj. kontrolujeme, zda pracovník nastavil vyšší délku součástky než 190 mm. Možnost, že by součástky byly kratší, nyní neuvažujeme. Taková varianta testu je označovaná jako pravostranný test.
Zásadním omezením z-testu, je nutnost znát rozptyl testovaného souboru. V realitě rozptyl velmi často neznáme, a tak se musíme spokojit s jeho odhadem. V takovém případě musíme využít určitou "modifikaci" z-testu, která se nazývá t-test. Ten je používán ke stejnému účelu jako z-test, tedy k ověření hypotézy o střední hodnotě souboru.
Poslední možností formulace alternativní hypotézy t-testu je levostranný test, kdy v alternativní hypotéze tvrdíme, že soubor má střední hodnotu menší než 190 mm.
Podobně jako u z-testu můžeme i u t-testu pracovat s pravostrannou variantou testu, kdy formulujeme alternativní hypotézu jako se znaménkem "menší než".
V předcházejících článcích jsme rozebírali z-test a t-test. Oba testy slouží k otestování hypotézy o střední hodnotě a liší se pouze předpokladem o znalosti rozptylu. Nabízí se ale otázka, k čemu vlastně máme dva testy? Jakou výhodu vlastně přináší znalost rozptylu? Na to se nyní podíváme.
Rozptyl je ukazatelem variability. Ukazažele variability jsou měřítkem toho, nakolik jsou hodnoty souboru vzájemně různorodé. Chí-kvadrát test o rozptylu umožňuje ověřit hypotézu o rozptylu dat.
V článku si vysvětlíme, jak bychom provedli levostranný test, tentokrát již bez slovního zadání. Důvodem je, abychom si ukázali chování funkcí pro !equation0! při levostranném testu.
Testování hypotéz
Možné případy chyb a správných výsledků se často znázorňují v tabulce. Ve sloupcích vidíme skutečnost (kterou neznáme) a v řádcích výsledek našeho testování.
Pro někoho mohou být matoucí pojmy chyba 1. druhu a chyba 2. druhu. Protože tyto pojmy mohou být pro někoho obtížně pochopitelné nebo matoucí, ukážeme si nyní podrobně, jak tyto chyby mohou vzniknout a jak se projevují.
Dvouvýběrové testy
Uvažujme nyní, že máme obdobné zadání, máme však data o průměrné době potřebné na výrobu jednoho výrobku. Pokud by technologické postupy v novém závodě byly efektivnější, průměrná doba výroby by měla být nižší. Data jsou v tabulce níže.
V případě oboustranného testu řešíme pouze to, zda je mezi středními hodnotami rozdíl. Vraťme se k našemu příkladu s počty vyrobených výrobků ve dvou různých závodech. Nyní tedy rozhodneme pouze o tom, zda se průměrné počty mezi závody liší.
Často je třeba porovnat několik statistických souborů vůči sobě. To znamená, že například u dvou souborů zjišťujeme, jestli některý z nich nemá větší střední hodnotu nebo rozptyl než ten druhý. Pro takový typ úloh budeme používat testy, které jsou navržené na práci s více soubory.
Uveďme si nyní typické zadání párového testu: Máme data o průměrném počtu vyrobených výrobků 20 pracovníky za jednu směnu. Vedení společnosti následně provedlo změnu výrobních procesů a pro stejných 20 pracovníků provedlo nová měření. Ověřte na hladině významnosti !equation0!, že došlo ke zvýšení průměrné produkce pracovníků.
Nyní si na novém datovém souboru stručně popíšeme postup pro pravostranný párový t-test. Opět se budeme pohybovat na hladině významnosti !equation0!.
Zbývá nám poslední varianta testu a tím je oboustranný párový t-test. V případě oboustranného testu řešíme pouze to, jestli se střední hodnoty liší nebo ne. Nerozhodujeme, který ze souborů má menší a který větší střední hodnotu. Vygenerujeme si nový datový soubor, test si ukážeme na !equation0!.
Nyní se budeme zabývat situací, kdy máme dva soubory, přičemž pozorování z obou souborů nelze spárovat. Soubory tedy mohou mít i odlišný počet pozorování. Předpokládáme však, že soubory mají shodné rozptyly. V takovém případě použijeme dvouvýběrový t-test, někdy též označovaný jako dvouvýběrový Studentův test.
Nyní si ukážeme postup při pravostranném testu. Upravme si nejprve předchozí zadání: Máme data o průměrném počtu výrobků, které neprošly kontrolou kvality (tj. zmetků), vyrobených ve dvou různých závodech, přičemž druhý závod postupuje podle upravených výrobních procesů. Předpokládáme, že počty mají v obou případech shodný rozptyl. Ověřte hypotézu, že změna výrobních postupů vedla ke snížení zmetkovosti.
Poslední variantou je oboustranný test. Opět si upravíme zadání příkladu: Máme data o počtu vyrobených výrobků pracovníky za jednu směnu ve dvou různých závodech jedné společnosti. Ověřte na !equation0! hypotézu, že mezi těmito dvěma závody existuje statisticky významný rozdíl v průměrném počtu vyrobených výrobků.
Welchův test používáme pro soubory, jejichž pozorování nejsou spárována a nemůžeme u nich předpokládat shodný rozptyl. V některých učebnicích statistiky je doporučeno začít s ověřením hypotézy o shodě rozptylů pomocí Fischerova testu a dle výsledku poté zvolit variantu t-testu. Tento postup však není korektní.
Úvod do statistiky
Střední hodnota je nejznámějším ukazatelem polohy. Ukazatele polohy charakterizují určitou úroveň hodnot v souboru. Dále se ale můžeme zajímat o to, nakolik jsou hodnoty souboru diverzifikované neboli vzájemně rozdílné. To určujeme pomocí ukazatelů variability. Například průměrný počet bodů z testu ve škole popisuje průměrnou úroveň znalostí studentů. Rozptyl bodů nám pak říká, jaké jsou mezi jednotlivými studenty rozdíly. Pokud je rozptyl velký, znamená to, že jednotliví studenti se vzájemně velmi liší svými vědomostmi. Čím je rozptyl nižší, tím jsou si jednotliví studenti svými výkony bližší.
Pokročilá témata
V popisu výběrového rozptylu chybí důkaz nebo jakékoli vysvětlení, proč je zavedení výběrového rozptylu vlastně potřeba a proč vzorec na rozptyl nelze použít pro nestranný odhad. Tomu se budeme věnovat nyní.
Statistika v Pythonu
V rámci kurzu budeme používat modul pro práci s daty pandas
, moduly pro tvorbu grafů matplotlib
a seaborn
a moduly pro výpočty scipy
a statsmodels
. pandas
, matplotlib
, seaborn
a requests
jsou externí moduly, které musíme nejdříve nainstalovat.
Základní otázkou je, proč se statistikou vůbec zabýváme a co statistika nabízí navíc oproti datové analýze. Hlavní rozdíl mezi statistiko a datovou analýzou je, že u statistiky se zpravidla zabýváme vzorkem dat a na základě vzorku dat usuzujeme, jaké má vlastnosti nějaký větší celek. Srovnejme si například volby a předvolební průzkum. Ve volbách se ptáme všech lidí, jaké jsou jejich volební preference. V předvolebním průzkumu se ptáme nějakého malého vzorku lidí (obvykle kolem tisíce lidí) a z toho, co nám odpoví, usuzujeme, jaké politické preference má celá populace. Předvolební průzkum tedy vyžaduje nějaké statistické znalosti, které nám řeknou, jak sestavit vzorek respondentů, jak přesný je náš odhad atd.
Hypotézou obecně myslíme nějaké tvrzení. Testování hypotéz se zabývá ověřením, zda je nějaká hypotéza platná. Při testování hypotéz předpokládáme, že máme k dispozici nějaký vzorek dat, nikoli kompletní data. To vnáší prvek určité nejistoty.