O mně

Článek v angličtině zde / click here for English translation.

Určitou posedlost čísly jsem na sobě pozoroval od raného dětství. Ten kluk, který si pamatoval kdo v těláku dal kolik gólů a pak vyráběl kartičky se statistikami pro všechny děti ve třídě? Jo, tak to jsem byl já. Takže by se dalo říct, že dávalo smysl – i když šlo jen o naprostou náhodu – že když mi bylo osm let, začal jsem hrát baseball, který byl ze všech sportů nejplnější statistik a kde byl největší dopad dat
na management týmů.

Dokonce i teď je baseball, podobně jako americký fotbal, považován v České republice za obskurní sport – převážně nudná podívaná, která je dobrá možná pro Američany, ale Evropanům nedává smysl. Ale v devadesátých letech? To teprve bylo: baseball měl image sportu pro neatletické děti, což je srandovní, protože seriózní baseballisté jsou frajeři. Většina diváků moc netušila, na co se vlastně dívají, a popravdě, někteří moji spoluhráči na tom tehdy byli podobně. Ale já jsem byl připravený ještě předtím než jsem poprvé cítil trávu v zadním poli baseballového hřiště: “Kuba se naučil pravidla přes počítačovou hru” byl v našem týmu dlouhodobý vtípek. Jo, hrál jsem Hardball II do zblbnutí a znal jsem mnoho drobných pravidel nebo detailů hry, například co je infield fly nebo kdo má v které situaci při odpalu do zadního pole za úkol zkrátit příhoz na metu.

To mi posloužilo dobře, takže jsem přirozeně použil stejnou taktiku i o mnoho let později, když jsem nutně potřeboval trénink jako začínající zapisovatel pro svůj tým kolem roku 2004, což mě nakonec přivedlo k zapisování na několika zahraničních turnajích. Trénoval jsem z velké části tím, že jsem po večerech prostě zapisoval zápasy, které jsem odehrál v Triple Play 2001. To je ale nerd! Rozhodně šlo
o logický krok, protože jsem si uvědomil, že daleko víc než na zápasy jsem se těšil na večery po nich, kdy jsem mohl projít zápisy a v Excelu aktualizovat statistiky sebe a svých spoluhráčů. Při zpětném pohledu se zdá, že samotné soutěžení byl jen prostředek k tomu, co mě bavilo doopravdy. Jako feťák, který potřebuje svoji dávku.

1614431714742Zapisování jsem trénoval na skutečných MLB zápasech – když jsem měl to štěstí, že byly v televizi – ale častěji na zápasech, které jsem odehrál ve hře Triple Play 2001. Toto je jeden z nich: uživatelem ovládaní Atlanta Braves rozsekali počítačově řízené Toronto Blue Jays 23-9.

Nadšení čísly jsem aspoň trošku využil, když jsme s pár kamarády pořádali turnaje v Doomu – ano, v tom Doomu – a tam mi naplno došlo, že nezáleží o jaký typ soutěže se jedná; sport, hra, nebo něco mezi (jako třeba poker), hráči prostě milují svoje statistiky. Jinak se ale dá říct, že jsem si dal celkem pauzu, jak co se týče vývoje jako statistika, tak obecně. To asi puberta s některými lidmi prostě udělá. Ale pár let na to mě nejstarší bratr dovedl ke knize Signál a Šum od Nate Silvera. Kniha je o datech: jaká máme k dispozici, jak bychom je měli používat, jak je opravdu používáme a mně bylo okamžitě jasné, že tenhle člověk ví o čem mluví. Silver si udělal vynikající jméno díky předvídání volebních výsledků a výkonů baseballových hráčů pomocí svého modelu PECOTA. Úplně první kapitola, kterou jsem četl, pojednávala o plešatějícím druhém metaři malého vzrůstu, Dustinu Pedroiovi, kterého špatně odhadla většina tradičních scoutů a který se stal superhvězdou v týmu Red Sox. Hned mě to chytlo. I přes riziko, že to bude znít příliš melodramaticky, tahle knížka je na žebříčku důvodů, proč jsem svůj život chytil pevněji do ruky, v top-2; na prvním místě je seznámení s mojí manželkou. Silverova knížka nejen že restartovala moji práci s daty, navíc mě naučila mít rád čtení –
ve třech letech mezi roky 2016 a 2018 jsem přečetl 205 knížek.

zdaemon
Do soutěžení ve starobylé hře Doom jsme instalovali prvky e-sportu v době, kdy e-sport ještě ani neexistoval. Statistiky byly tak důležitou součástí, že když jsem jednou musel na deset minut odpojit podstránku se statistikami, abych aktualizoval vzorce zodpovědné za výpočet bodů a výher, dostal jsem stížností dva emaily. To se fakt stalo.

Je rok 2014 a já se zbláznil do NFL, amerického fotbalu, a byl poměrně frustrován tím, jak se v tomto sportu přistupovalo ke statistikám. V jistém ohledu to bylo pochopitelné. Americký fotbal je jeden z nejbrutálnějších způsobů jak spolu dva lidé mohou soutěžit aniž by se zabili. I kdyby tradiční muži fotbalu neviděli, co tihle absolventi Harvardu a Yalu udělali s baseballem, zpráva pro stereotyp šprta shrbeného nad notebookem byl jasný a zřetelný: “Nepatříš sem, kámo!” Ironie toho, že odmítány byly nápady, které měly za cíl přimět útoky hrát daleko agresivně (čti: mužněji), FootballGuys™ vůbec nedocházela. Kontrast hodnoty a objemu informací, které měly k dispozici týmy ve fotbalu oproti těm v baseballu byl každopádně propastný: v MLB byly stadiony prošpikované nejmodernějšími kamerami, které umožnili analytikům sledovat rychlost nadhozu, i jeho horizontální a vertikální pohyb; u odpalu zase rychlost i úhel, pod jakým míček opustil pálku, a to vše živě. Mezitím, týmy v NFL byly i nadále hodnocené podle nicneříkajících kumulativních statistik. Naštěstí tu byli Football Outsiders a blog Warrena Sharpa. Tihle chlapíci to chápali, publikovali každý rok tucty článků a aby se člověk dozvěděl více o sportu celkově, nejen o statistikách, stačilo jen poslouchat.

Když jsem se v roce 2015 připravoval na sezonu NFL, která byla mou první (spoiler alert: byla i poslední) kdy jsem působil v roli placeného sázkařského poradce na webu KolemDvou, dal jsem dohromady model, který jsem nazval Anthony podle pseudonymu postavy Matthew McConaugheyho ve filmu Two For The Money. Původní myšlenka byla taková, že mi Anthony pomůže vybírat zápasy na které vsadit, ale to jsem rychle zavrhl; na to jsem měl příliš málo dat a neměl jsem možnost svůj algoritmus pořádně otestovat. I tak mi model velmi pomohl v tom, abych si pohodlně vyjel před každým zápasem všechny statistiky, což mi ušetřilo spoustu hodin šťourání se v číslech na cizích webech a k nevyhnutelnému závěru, že v sázení na sport jsem naprosto příšerný, jsem díky tomu možná došel o rok nebo dva dříve. Přestože moje kariéra sázkařského poradce měla velmi krátké a výbušné trvání, model jsem si ponechal i s jeho hloupým jménem. I přes neschopnost predikovat výsledky dnes jeho ratingy považuji za vlastní standard pro hodnocení týmů.

Myšlenka vytvoření programu, který by mi radil jak sázet mě naplno nikdy neopustila. Místo abych znovu zkoušel štěstí v americkém fotbalu jsem se v roce 2016 zaměřil na hokej. A byl to znovu Nate Silver, který mě inspiroval jak na to. On a jeho tým z fivethirtyeight používali pro hodnocení sportovních týmů variantu Elo ratingu. To mi přišlo fascinující: čistě použitím výsledků zápasů bez pokročilejších statistik a dalších detailů bylo možné zjistit, jak si který tým ve své soutěži stojí. Celé léto jsem strávil programováním modelu s vlastní verzí Elo hodnocení, dal jsem dohromady výsledky od roku 2000 z asi dvaceti lig a ručně opsal sázkařské kurzy od roku 2014. Co se týče soutěží, měl jsem širokou škálu, vše od pompézní NHL až po obskurní Ekstraliga w hokeju na lodzie, což je, přesně jak to zní, polská soutěž. Jak se dalo očekávat, velmi záhy jsem zjistil, že vyhrávat v NHL, KHL nebo i ve Švédské nejvyšší lize je s mým jednoduchým modelem úplně bez šance. Bookmakeři v těchto ligách byli zkrátka příliš dobří, než aby je napálil jednoduchý excelovský soubor. V méně populárních soutěžích to už ale byla jiná písnička. Bookmakeři se v těchto méně známých vodách snaží chránit tím, že sázkaře nutí platit vyšší poplatek za sázku, a to tak, že celkově snižují kurzy. Nicméně můj test naznačoval, že i přesto je tu potenciál vyhrát peníze. Tak jsem na svůj vynález nalepil jméno (Tumobelo) a celý rok 2016 jsem podle něj sázel skutečné peníze, což dalo dohromady poměrně slabý yield – tedy výnos ze sázek – +3.1%. Normální sázkař je schopný udělat třeba 300 sázek za sezonu, ale můj model se nepral s únavou, nikdy se neprobudil s kocovinou, ani s pocitem, že dnes se mu dělat nechce a bude se radši dívat na Futuramu, takže mi za sezonu poradil vsadit na celkem 867 zápasů, což jsem taky udělal. Za těchto okolností jinak slabý yield +3.1% znamenal návratnost investice za rok +28%, což jsem považoval za úspěch.

Sezona 2017/18 nešla ani zdaleka tak dobře a přestal jsem podle modelu sázet ve chvíli, kdy jsem měl 194 sázek a yield jen +0.6 procent. Pravděpodobně bych i tak pokračoval až do konce sezony, protože mě nějakým perverzním způsobem bavilo sázet na týmy v těchto podřadných ligách. Stalo se ale to, že moje účast na projektu v Armchair Analysis tou dobou už přerostla v regulérní druhou práci a na hokej zkrátka nezbyl čas.

Na Armchair jsem narazil v roce 2016 a náhoda chtěla, že zrovna v tu dobu dával můj budoucí šéf, Dennis Erny, dohromady tým charterů, kteří by společně prošli všechny akce NFL a poznačili různé detaily, které normálně v datech nejsou. Například kolik yardů receiver běžel po chycení přihrávky, nebo jestli neupustil pass, který měl chytit, a tak dále. Tato vrstva přidaných informací bylo přesně to, co mi v Anthonym silně chybělo. Dvakrát jsem se nerozmýšlel, sepsal něco jako motivační dopis, doplnil ho o pár svých dřívějších analýz a omylem ho odeslal do prostoru pro veřejné komentáře, který jsem si spletl s formulářem pro poslání mailu – trapas! Dobře jsme se tomu zasmáli – Dennis nejspíš víc než já – a tak jsem sezónu 2016 strávil dobrovolničením asi čtyři hodiny týdně u zápasů Baltimore Ravens a Carolina Panthers.

Práce mě bavila a u týmu jsem zůstal i další rok. Před sezonou 2017 bylo moje nadšení pravděpodobně hmatatelné i z mailů, které jsem do Kanady svému šéfovi téměř denně posílal. Moje neustálé tanečky na samotné hranici mezi zapálením pro věc a lezením na nervy nakonec byly pro projekt z větší části pozitivní. Armchair měl sice několikaletou historii v automatickém sběru a prodeji základních dat, ale sběr těch pokročilých ručních byl nový a vybudování stabilního týmu nejde hned, zvlášť když se opíráte o dobrovolníky posbírané po různých koutech internetu. Na začátku ročníku 2017 několik lidí sice odpadlo, ale to nás nemohlo zastavit a já byl za svoji otravnost odměněn povýšením na senior analytika. O tom, jak jsem se díky tomu předávkoval NFL a jednou v neděli jsem odmítnul zapnout byť jediný zápas jsem napsal i článek. Přestože jsem anglický a polský hokej fakt zbožňoval, NFL měla před hokejovým sázením prioritu. A bylo to dobře: před sezonou 2018 jsem dostal smlouvu na senior pozici, ve které jsem měl zodpovědnost za sběr dat ke všem přihrávkám, které tu sezonu z rukou quaterbacků šly. Před začátkem sezony 2019 jsem dostal oficiální pozici “Vedoucí sběru dat”, čímž mi k tomu co jsem už dělal přibyla ještě práce na běhových akcích. Klíčová pro nás byla offseason v roce 2020, kdy jsme si poprvé nevzali pořádné volno a pracovali i přes léto, abychom nakonec během covidové NFL sezóny dali dohromady největší NFL databázi na internetu za asi třetinovou cenu za kterou data nabízela naše konkurence. To dokonce přilákalo investory, z kterých se následně stali kupci celého projektu.

Více o mé práci v článcích o NFL a hokeji.