Během sezony se snažím moc do modelů nevstupovat a raději si dělám poznámky, co upravit v budoucnu. Teď, když je tu offseason, mám čas na obroušení několika detailů a šanci podrobit model testům.
Léto nemají fanoušci amerického fotbalu vůbec v lásce. Podepisování volných agentů, draft, česká liga amerického fotbalu, která za chvíli začíná, ani nejnovější Madden nemůžou dost dobře nahradit dramatické neděle u skutečné a jedinečné NFL.
To já volno mezi sezonami vítám, protože prvních pár dnů a týdnů volna obvykle trávím tuningem své databáze a modelů. Spoustu věcí přidám, spousta odeberu – task-list po každé sezoně běžně dosahuje padesáti různých úkolů a poznámek – a pak se testuje, jestli je výsledek lepší, než předchozí varianta.
Ranking, rating a laugh test
‘Laugh test’, případně ‘Straight face test’ je v podstatě zkouška, jestli se dá nějaké tvrzení nebo hodnocení brát vážně a nevysmějeme se mu při prvním pohledu. Má svůj původ v ekonomii a pokud vím, ve sportu jej prvně použil jako argument Dean Oliver, autor Basketball on Paper a basketbalový ekvivalent Billa Jamese. V roce 2002 Oliver kritizoval žebříček nejlepších hráčů NBA seřazený podle metod Winstona a Sagarina. Jejich žebříček podle něj jednoznačně neprošel laugh testem, protože hodnotil Shaquilla O’Neala, v té době považovaného za nejlepšího hráče NBA, až na dvacátém místě a naopak nováček Andrei Kirilenko v něm vycházel jako druhý nejlepší v celé lize.
K hodnocení kdo je nejlepší (ranking) není potřeba bůh ví jak sofistikovaných metod. Například vytvořit pořadí top 10 v čemkoliv je relativně jednoduché, proto jsou tak oblíbené. Druhá věc je rozšířit žebříček o dalších deset nebo dvacet položek a ještě další věc je ohodnotit (rating) je: vyhodnotit například, jaký je rozdíl mezi týmem na 23. a 26. místě nebo 18. a 30. nejlepší rockovou kapelou. V tomto nám u sportu pomáhají statistiky a u filmů, knih, muziky nebo produktů uživatelská hodnocení.
V Anthonym mám několik modelů, které hodnotí týmy víceméně stejnými způsoby, ale každý trochu jinak. Rád bych tuto sérii využil jako možnost, jak tato moje hodnocení týmů z právě dohrané sézony podrobit vlastním kritickým okem a zjistit, jestli laugh testem projdou, nebo v něm vyhoří.
DAROPE a test #1: subjektivní hodnocení
Zkráceně Defense adjusted Anthony Rating based On Pure Efficiency je souhrn základních i pokročilých statistik, které sleduji a jejich porovnání se soupeři, proti kterým jich bylo dosaženo. Jde o jednoznačně nepokročilejší věc, jakou jsem na poli modelů kdy vytvořil (což samo o sobě nic neznamená); AROPE vzniklo asi před třemi lety, byť tehdy s jiným postupem. Teprve nedávno jsem přešel z čistého rankingu bez kontextu k ratingu, tedy neměřím jen to, že má někdo nejlepší útok, ale i o kolik lepší v této kategorii je, než tým na druhém nebo desátém místě.
Každá statistika, kterou měřím má jinou váhu. Jsou čísla, která sleduji jen čistě ze zvědavosti, protože na výsledky zápasů nemají žádný dopad. Například podíl zkompletovaných přihrávek v mém modelu tvoří jen zhruba desetinu hodnocení útoku vzduchem; a rating útoku vzduchem zase dělá asi pětinu celkového útoku.
V praxi to funguje tak, že pokud by všechny ostatní statistiky zůstaly stejné, pak přesně jedno procento kompletace navíc přidá k celkovému hodnocení útoku 0.025 bodu, celý jeden yard na běh navíc přidá 0.130 bodu a jeden yard na pass pak 0.475 bodu. Samotné % zkompletovaných přihrávek nevypovídá o kvalitě QB nebo útoku obecně; a spoustu kompletací ve skutečnosti útoku nijak nepomůže, proto jedno nebo dvě procenta zkompletovaných přihrávek navíc samo o sobě hodnocení takřka vůbec nepomůže.
Pro někoho, kdo rád zkouší věci metodou pokus omyl se nachází krása v možnosti do daného ratingu opakovaně vstupovat a měnit priority statistik. Zpětně se pak dá testovat, jestli se moje výsledky nezpřesnily v předvídání výsledků zápasů nebo jestli mi nové hodnocení nedává subjektivně větší smysl, než to starší. Ale to samotné při takové metodě pokusu a omylu z modelu nedělá automaticky model, který si bude vést dobře v dalších letech. Jak se říká, “hindsight is 20/20” a na to je potřeba pamatovat.
Než střílet hodnoty od boku a pak je náhodně upravovat jsem tak raději udělal regresní analýzu. Tím jsem zjistil, jak je která statistika důležitá pro vyhrávání zápasů. Potvrdil jsem si tím například to, o čem jsem doposud jen četl, totiž že útok vzduchem má na výsledek zápasů asi čtyřikrát větší vliv, než útok po zemi. Vynásobeno, sečteno, porovnáno s průměrem a podtrženo – výsledné číslo je hodnocení týmu. Co na to subjektivní laugh test?
Pár námitek by tu bylo: do top 10 se trošku překvapivě dostali Bengals (7-8-1) nebo Broncos (9-7), do první pětky se procpala Arizona (7-8-1) a překvapil třeba Indianapolis na 15. příčce, protože ten subjektivně vidím spíš jako tým mezi 22. a 26. místem.
Ale jinak v horní desítce máme dva nejlepší týmy základní části (Cowboys, Patriots), finalistu AFC (Steelers) a Super Bowlu (Falcons). Nejhorší pětku okupují Browns, Rams, 49ers, Jets a Lions. Tady je to v pořádku.
Přirozeně jsem tu a tam nesouhlasně zamručel, ale to je každodenní realita práce s tvrdými daty. Ty se často míjí s konvenčním názorem. Pravda je, že Cincinnati měli hodně under-achieving rok a navíc můj model nebere v potaz, kdy bylo výkonů dosaženo, takže bere celou základní část plošně. Kdyby se braly nejposlednější výkony jako nejdůležitější, pak budou Green Bay Packers o dost výše: od “run the table”, kdy Aaron Rodgers vyhlásil, že jeho tým musí vyhrát všechny zbývající zápasy, měli hodnocení +25.5%.
Test #2: DVOA
Další zkouška ratingu spočívala v porovnání s něčím, co využívá podobných metod. Vybral jsem metriku DVOA, kterou sám často používám, a odečetl od ní special teamy, které ve svém modelu nijak neměřím. Zjednodušeně podáno DVOA funguje tak, že srovnává dosažené výsledky v dané situaci – skóre, down, vzdálenost – proti průměru a pak je upravuje podle toho, proti jaké obraně byly dosažené.
Koeficient r^2, který udává jaký je rozptyl hodnot Y vysvětlen hodnotami X, má hodnotu 0.834. To znamená, že 83% procent hodnocení DVOA se dá vysvětlit mým hodnocením DAROPE. Můj rating se tedy v mnohém shoduje s čísly, které generují chlapíci z Football Outsiders.
Tři ze čtyř týmů, které úplně neprošly subjektivním testem (Bengals, Broncos, Cardinals), jsou v DVOA skutečně hodnoceny hůř, všechny jsou o přesně 5 příček níže, což může a nemusí vypadat jako velký rozdíl. Největší neshoda panuje u Colts, kteří jsou podle DVOA hodnocení až jako 26., a u Eagles, kteří v DVOA vychází jako jeden z vůbec nejlepších týmů soutěže. Bez těchto dvou odlehlých hodnot by r^2 bylo dokonce 88%.
Protože oba žebříčky mají v top 10 až na dvě výjimky stejné týmy, byly i výsledky nejlepších celků v podstatě totožné, 102-55-3 pro DAROPE a 103-56-1 pro DVOA.
AROPE a test #3: sázkařské kurzy
Sázení na NFL je jedna z nejnáročnějších disciplín ve světě gamblingu. Při sázení tady nejde jen o porovnání toho, který tým je lepší a o kolik; roli hraje spousta věcí, které se do čísel nepromítnou a které v jiných sportech nejsou tolik vidět, jako jsou konkrétní schémata obou soupeřů, gameplanning nebo i sezónní rozpis.
Co se týče modelů – a tohle platí pro všechny sporty – problémem jsou klíčová zranění. Například ve wild card víkendu můj model favorizoval Oakland bez Dereka Carra o 2.6 bodů, zatímco já osobně si line napsal jako -3 pro Houston a ten taky zvítězil 27-14. V posledním týdnu sezony můj model favorizoval Dallas na hřišti Philadelphie o 4.5 bodu, já sám jsem si napsal Eagles -3.5. Dallas už měl jistý postup, nastoupil s náhradníky a Eagles skutečně vyhráli 27-13. A tak dále a tak dále.
Není tedy překvapivé, že moje modely nebyly v právě odehrané sezoně lepší, než bookmakeři. Minimálně u Totalů, tip na celkový počet bodů v zápase, si ale moje modely vedly slušně. Od pátého týdne dál se model pletl v průměru o 9.29 bodů; closing čísla bookmakerů o 9.25 bodů a opening čísla bookmakerů o 9.29.
Jinak řečeno, modely předvídaly stejně dobře jako bookmakeři, když vypisovali kurzy. Jiný příběh byl u spreadů, kde měli bookmakeři jasně navrch, jejich closing čísla se s reálnými výsledky rozcházela v průměru o 8.82 bodů, zatímco ty moje hned o 9.28 – no, aspoň je ten omyl konsistentní.
Test #4: vyhrávání zápasů
Skoro každý zápas má svého favorita, ať je sebetitěrnější. Týmy, které jsou favority 55:45 by měly dlouhodobě vyhrávat kolem oněch 55 procent zápasů. Třeba v Super Bowlu můj model dával Patriots šanci na vítězství 63% a když takto sečtu všechny týmy, které můj model favorizoval, očekával bych, že týmy, které AROPE favorizovalo, vyhrají 130.73 zápasů; ve skutečnosti vyhráli 127krát a dvakrát remizovali.
To znamená, že už po čtyřech týdnech jsem měl určitou představu, jak budou vypadat výsledky na konci základní části a tento obrázek se pak zápas od zápasu vyjasňoval. Průměrný omyl mezi předvídanými vítězstvími před pátým odehraným týdnem a pozdější realitou byl 1.78 vítězství; po osmi týdnech 1.41; po deseti týdnech 1.14.
Třebaže průměrná přesnost není bůh ví jaká, největší omyly zpravidla bývají u týmů, které za své dobré výsledky vděčí hlavně štěstí (a naopak), což letos byli například tři účastníci playoff v AFC: Raiders, Dolphins a Texans. Ti měli mezi sebou record 12-1 v zápasech rozhodnutých o tři a méně bodů a kdyby se sezona hrála mnohokrát dokola, jistě by se jejich výkony znormalizovaly a byly blíže padesátiprocentní úspěšnosti. Podle Pythagorean expectation by v takové dlouhodobé soutěži měl Oakland průměr 8.7 výher na sezonu, Miami 7.6 a Houston 6.5. což je zhruba tolik, kolik jim AROPE předpovědělo už po čtyřech týdnech: 9.4, 6.7 a 7.0.
Sezona NFL je velmi krátká, takže v samotných počtech výher a proher je spousta šumu. Není náhoda, že odhad vítězství podle Pythagorean je přesnější při předvídání výsledků příští sezony, než skutečný počet výher.
Shrnutí
DAROPE tedy vygenerovalo žebříček týmů, se kterým se až na čtyři výjimky dá subjektivně souhlasit; a navíc se až na dvě výjimky skoro z devadesáti procent shoduje s DVOA. Starší a menší brácha AROPE pak velmi slušně odhaduje počty bodů, není nicméně vhodný na sázení spreadů, ale v dlouhodobém měřítku dává týmům poměrně přesné šance na vítězství.
Možná to nebylo na jedničku, ale laugh test modelu z prvního dílu považuji za úspěšně složený.
5 Comments