Statistické modely v NFL II.: ARVE a Borda Count

Po pár měsících je na čase přinést druhou polovinu povídání o statistických modelech v NFL. I v tomto článku vysvětlím, jak fungují nástroje, které budu v rychle se blížící sezoně používat.

Léto uteklo jako voda a je na čase se přepnout do aktivního režimu. Tento čtvrtek začíná ročník 2017 NFL. Prozatím tím startuje jen přemíra play-by-play tweetů z tréninkových kempů následovaná šňůrou přípravných zápasů, během kterých nejde o nic moc než finalizování sestav. Přesto, díky, těšilo nás a na pár měsíců sbohem, offseason.

Stejně jako v minulém díle budu porovnávat výsledky svého modelu s jednou ze zavedených značek, v tomto případě s VOA a Sagarin ratings.

Ofenzivní AROPE (a VOA)

VOA není jen názvem podobné statistice DVOA z předchozího článku. I toto je hodnocení od chlapíků z Football Outsiders a funguje na chlup stejně, pouze nebere v potaz sílu soupeře.

Totéž platí pro AROPE, které jsem naťuknul v prvním díle, kde jsem psal o tom, jak se tento model dá použít pro předvídání výsledků a sázkařských totalů. V podstatě tedy jde o rozšíření z minula, takže se zdržím zdlouhavějšího okecávání. Ve zkratce: v posledních čtyřech letech se hodnocení útoků shoduje z 83% s hodnocením VOA a nejlepší tři útoky v tomto období byly Broncos 2013, Falcons 2016 a Packers 2014.

nfl1316_aropevoa

ARVE

Zkráceně Anthony’s Regression Via Efficiency funguje na podobném principu, jako DAROPE, model z prvního dílu, ale je podstatně jednodušší a navíc nebere v potaz obrany, proti kterým bylo výkonů dosaženo.

Základní myšlenka ARVE bylo zjistit, jak by “normálně” dopadly zápasy silně ovlivněné shlukem náhodných turnoverů jeden nebo dva yardy od endzone a jiných nepravděpodobných událostí. Mnoho zápasů vyhrává horší tým a ani po celou sezonu, která je v NFL velmi krátká, se rozdíl mezi “skutečnou silou” a recordem nevyrovná. Slavný citát “You are what your record says you are” od hall of fame kouče Billa Parcellse zkrátka neplatí.

Skóre jsou v tomto fiktivním světě často těsnější, než ve skutečnosti – 9 remíz dle této metriky – z čehož hned tři patří Oaklandu – budiž toho důkazem. Navíc má v tomto vesmíru každý devátý zápas jiného vítěze, než v reálu. V playoff byly takové zápasy dva, Packers na hřišti Cowboys a pak Super Bowl: podle mého modelu by “normálně” pozvedli nad hlavu trofej hráči Atlanty, vyhrávající nad Patriots v průměru 40-24. Ovšem, v tomto vesmíru by hráli finále konference v Dallasu, takže kdo ví?

arve_results_po2016

Fakt, který jsem si musel nechat na závěr: ARVE bohužel nemá větší hodnotu, než jako pouhá zajímavost. Co se týče předvídání výsledků další sezony, má jen o velmi málo – v řádu desetin procent – větší výpovědní hodnotu, než samotný počet skórovaných bodů.

A tak opravdu jen čistě pro zajímavost: Bengals “měli” loni skórovat o 63 bodů více, než se jim ve skutečnosti podařilo. Bears o 59 více, což by v jejich případě znamenalo navýšení ofenzivní produkce bezmála o pětinu. Obrana Patriots zdaleka neinkasovala tak často, jak jejich efektivita napovídá. Mít průměrný počet obranných plays (tady můžou děkovat vynikajícímu útoku) a průměrný sequencing, “měla” inkasovat o 74 bodů více. Fanoušky Patriots to ale patrně nijak trápit nemusí; jediná obrana, která měla v posledních čtyřech letech větší rozdíl jsou Chiefs z roku 2014, kteří byli ten rok hodnocení jako #19 v defenzivním DVOA a další sezonu se vyšvihli na #6.

Využití principu Borda Count

Borda Count má svůj původ jako teorie objektivnějšího hlasování pro politické lídry. Podle této metody by lidé hlasovali pro kandidáty podle preferencí, spíš než aby házeli hlas jednomu konkrétnímu člověku. U Borda Count má každý kandidát tolik bodů, kolik má pod sebou oponentů. Tento způsob by například teoreticky změnil výsledky amerických prezidentských voleb v roce 2000; podle analytiků by v přímé volbě mezi dvěma kandidáty vyhrál Al Gore, ale protože se rozhodovalo mezi třemi a Ralph Nader “bral” hlasy právě Alu Gorovi, nakonec o fous vyhrál Bush. (a všichni víme, co bylo dál)

Politiku stranou. Tato myšlenka se mi zalíbila natolik, že jsem ji implementoval jako jeden ze svých modelů pro rychlé, bezbolestné a jednoduché hodnocení týmů. První tento borda-count-like rating je založen na AROPE – tým získává body za každý tým, který porazí a jsou mu odečteny za každý, s kterým prohrál, přičemž získané a ztracené body jsou ekvivalentem AROPE ratingu soupeřů.

Mezi patnáctkou nejlepších týmů základní části posledních čtyř let jsou všichni budoucí vítězové Super Bowlu a tři finalisté. Chybí loňský finalista, Falcons, kteří jsou na 23. příčce.

bordacount_201316

Combined Borda Count (a Sagarin Ratings)

Americký statistik Jeff Sagarin se věnuje hodnocení týmů už od poloviny osmdesátých let. Jeho způsob hodnocení NFL týmů je například pro gamblery přitažlivý v tom, že se z něj dá hned vypočítat bodový rozdíl (sázkařský spread) mezi týmy. Pokud mají Patriots hodnocení 29.8 a Packers 23.6, pak by teoreticky měli být Patriots na neutrální půdě lepší o 6.2 bodů.

Namíchaný Borda Count bere onen základní princip a rozšiřuje ho o skóre. Rating týmu se násobí výsledkem, ale ne tím skutečným, nýbrž tím z vesmíru ARVE. Tím vzniká mišmaš obou modelů, který ale není tak nesmyslný, jak by se mohlo zdát. Ve skutečnosti se dost shoduje se všemi třemi ratingy, které Sagarin publikuje, nejvíce ale s tím, který se jmenuje “Golden mean”: na konci loňské základní části byla shoda 89 procent.

borda_sagarin_2016

Lonští Eagles jsou pro mé modely zakletí, zdá se. V prvním díle vyšli v mém hodnocení o dost hůře, než ve DVOA. Stejná situace nastala tady: Sagarin je měl po skončení základní části hodnocené mnohem lépe, než ARVE. Tak uvidíme, jestli si dle mých čísel polepší v příští sezoně – však ona už brzy začne.

2 Comments

  1. Pingback: NFL Futures 2018

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s