Článek v angličtině zde / click here for English translation.
Jmenuji se Jakub Machata. Snaha pochopit svět pomocí čísel u mě byla evidentní už od raného dětství. Ten kluk, který si během fotbalových utkání v těláku dělal mentální poznámky o tom, kdo dal kolik gólů a na kolik nahrál? A potom vyráběl kartičky se statistikami pro všechny děti ve třídě? Jo, tak to jsem byl já. Takže vlastně dávalo smysl — i když šlo jen o úplnou kliku — že jsem začal hrát baseball krátce po svých osmých narozeninách. Baseball, který byl ze všech sportů nejplnější statistik a kde byl největší dopad dat na management týmů.
Dokonce i teď je baseball, podobně jako americký fotbal, považován v České republice za obskurní sport. Převážně nudná podívaná, která je dobrá možná pro Američany, ale Evropanům nedává smysl. Ale v devadesátých letech? To teprve bylo — díky nezáživnému vyčkávání měl baseball image sportu, který je vhodný pro neatletické děti. To je srandovní, protože seriózní baseballisté jsou frajeři plní výbušné síly. Většina diváků moc netušila, na co se vlastně dívají. Popravdě, podobně na tom tehdy byli i někteří moji spoluhráči. Pro týmy vůbec byla ze začátku výzva dát dohromady dost hráčů, aby se aspoň naplnila soupiska. Aby si člověk zahrál, stačilo přijít se zavázanými tkaničkami. Já byl mentálně připravený nadbytečně; znal jsem některé detaily téhle hry ještě předtím, než jsem poprvé cítil pod nohama trávu baseballového hřiště; předtím, než jsem poprvé vlezl do pálkařského boxu a zjistil, že tady může být můj malý vzrůst velkou výhodou. Moje strike zóna byla mikroskopická a já věděl, jak s ní pracovat. V našem týmu se dlouho těšil oblibě vtípek, “Kuba se naučil baseball na počítači”. Jo, hrál jsem tehdy Hardball II do zblbnutí. Optikou roku 2020 ta hra vypadá jako naprostý odpad. A stejně mě naučila mnoho drobných pravidel nebo taktik baseballu, například co je infield fly nebo kdo má v které situaci při odpalu do zadního pole za úkol zkrátit příhoz na metu.
To mi posloužilo dobře, takže jsem přirozeně použil stejnou strategii i o mnoho let později, když jsem nutně potřeboval trénink jako začínající zapisovatel pro svůj tým kolem roku 2004. To mě nakonec přivedlo k zapisování na několika zahraničních turnajích. Ten první byl nejlepší. Zvlášť úplně první zápas. Trošku vystrašený jsem šel na střídačku plnou anglicky mluvících hráčů a zeptal se jejich trenéra, jestli už má nachystanou soupisku. Předal mi papír, na kterém bylo naškrábané v jakém pořadí budou hráči chodit na pálku, přidal k tomu starý dobrý americký úsměv a suvenýr — malý připínáček s americkou vlajkou. Zatraceně pyšně jsem si tu věc zapíchl do čepice a měl ji tam po celý turnaj. Dokonce jsem si ten dárek držel i po několik stěhování. Ač šlo o malinký připínáček, šlo o velmi potřebnou metaforu. Představoval pro mě pojítko mezi prací a výsledkem.
Tak či tak… Nutně jsem potřeboval trénink, abych byl aspoň trošku v klidu, když jsem měl zaznamenávat snahu lidí ze skutečného světa. A tak jsem trávil večery tím, že jsem zapisoval zápasy, které jsem odehrával na počítači v Triple Play 2001 — to je ale nerd! Skok z pozice hráče na post zapisovatele začal být logický ve chvíli, kdy jsem si uvědomil že daleko víc než na zápasy se těším na večery po nich. To jsem projížděl zápisy a aktualizoval excelovský soubor plný statistik našeho týmu. Při zpětném pohledu se zdá, že samotné soutěžení byl jen prostředek k tomu, co mě bavilo doopravdy. Jako narkoman, který potřebuje svoji dávku, našel jsem si cestu.
Zapisování jsem trénoval na skutečných MLB zápasech – když jsem měl to štěstí, že byly v televizi -, ale častěji na zápasech, které jsem odehrál v Triple Play 2001. Toto je karta ze zápasu, kdy moje Atlanta Braves rozsekala počítačově řízené Toronto Blue Jays 23-9.
Svoje nadšení čísly jsem aspoň trošku využil, když jsme s pár kamarády pořádali turnaje v Doomu — ano, v tom Doomu. Tam mi naplno došlo, že nezáleží o jaký typ soutěže se jedná; sport, hra, nebo něco mezi (jako třeba poker), hráči prostě milují svoje statistiky. Jinak se ale dá říct, že jakmile jsem v roce 2008 úplně sekl s baseball, dal jsem si pár let pauzu. Jak co se týče vývoje jako statistika, tak obecně. Teda jestli nepočítáte porážení vážně příšerných hráčů ve zlaté éře online pokeru, nebo moje epické dynastie ve sportovních manažerech, nebo ovládnutí nijak užitečného skillu triků se žetony, v tom případě, jo, dominoval jsem na všech frontách. Vlastně to možná nebyla úplná ztráta času. Poker byla čistá mechanika a dřina — hrát dvanáct stolů mikro sázek nedávalo moc prostoru pro umění nebo velké blafování — ale hodilo to pár stovek dolarů měsíčně. Triky se žetony byly zase dobrý způsob, jak vypadat, že vím co dělám, když jsem zavítal na živý poker, a šly mi snadno. Snad tomu pomohlo, že psaní všemi deseti jsem měl v malíku (he he); průměr přes 120 slov za minutu jsem měl ještě na základní škole, takže určitá zručnost prstů tam byla. V titěrném světě trikování s žetony jsem se umístil v top-3 v několika online soutěžích. Navíc jsem psal návody jak se krok za krokem jednotlivé triky naučit. Psal jsem pro teď už neexistující Mujpoker.cz, kteří byli napojeni na hernu Paradise Poker. Ti mi jednou poslali sadu s žetony, abych je mohl používat pro video-tutoriály a ukazoval tak jejich značku. Dneska je takový balíček pro moderní influencery jen další den v kanclu, ale pro mě to byl super pocit dostat něco jen tak. Nicméně… bylo to před víc než deseti lety a ta firma už před nějakou dobu zkrachovala, tak teď už to snad můžu říct: ty žetony hrozně klouzaly a od srdce jsem je nesnášel.
Pár let na to mě nejstarší bratr dovedl ke knize Signál a Šum od Nate Silvera a ta se stala mojí biblí. Kniha je o datech: jaká máme k dispozici, jak bychom je měli používat, a jak je opravdu používáme. Bylo mi okamžitě jasné, že tenhle člověk ví, o čem mluví. Silver se proslavil předvídáním výsledků voleb a autorstvím modelu PECOTA, který odhadoval výkony baseballových hráčů. Úplně první kapitola, kterou jsem četl, pojednávala o plešatějícím druhém metaři malého vzrůstu, Dustinu Pedroiovi. Toho většina tradičních scoutů špatně odhadla. Byl draftován ve druhém kole týmem Red Sox a stal se nefalšovanou superhvězdou, když vyhrál cenu pro nejužitečnějšího hráče ve svém druhém roce jako starter. Hned mě to chytlo. I přes riziko, že to bude znít příliš melodramaticky, říkám že tahle knížka je na žebříčku důvodů, proč jsem svůj život chytil pevněji do ruky, v horní dvojce — na prvním místě je seznámení s mojí manželkou. Silverovi vědomosti a humor nejen že restartovaly moje potápění se do spreadsheetů, ale navíc mě naučily ocenit čtení jako takové. Za tři roky mezi lety 2016 a 2018 jsem přečetl 205 knížek.
Do soutěžení ve starobylé hře Doom jsme instalovali prvky e-sportu v době, kdy e-sport ještě ani pořádně neexistoval. Statistiky byly tak důležité, že když jsem jednou musel na deset minut odpojit podstránku, abych upravil vzorce zodpovědné za výpočet bodů a výher, dostal jsem emailem dvě stížnosti. To se fakt stalo.
V roce 2014 jsem byl až po kolena v NFL. Americký fotbal mi učaroval, a byl jsem poměrně frustrován tím, jak se v tomto sportu přistupovalo ke statistikám. V jistém ohledu to bylo pochopitelné. Americký fotbal je jeden z nejbrutálnějších způsobů, jak spolu lidé mohou soutěžit aniž by se zabili. Analytiky by měly problém se prosadit i kdyby si tradiční muži fotbalu nevšimli, co v předchozích deseti letech provedla vlna absolventů Harvardu a Yalu ve světě baseballu — a věřte mi, oni si všimli. Vzkaz pro stereotyp šprta shrbeného nad notebookem byl jasný a zřetelný: “Nepatříš sem, slabochu!” Ironie celého sporu byla, že co FootballGuys™ ve skutečnosti odmítali byly nápady, které nakonec přiměly útoky hrát daleko mužněji agresivněji. Buď jak buď, kontrast hodnoty a objemu informací, které měly k dispozici týmy ve fotbalu oproti těm v baseballu byl propastný. MLB měla stadiony prošpikované nejmodernějšími kamerami. Ty umožnili analytikům sledovat rychlost, horizontální a vertikální pohyb nadhozů. Při odpalu mohli studovat úhel a rychlost, s jakou míček pálku opustil — a to vše živě. Mezitím, týmy v NFL byly i nadále hodnocené podle nicneříkajících kumulativních statistik. Naštěstí tu byli Football Outsiders a blog Warrena Sharpa. Tihle chlapíci byli hodně chytří a nebáli se to ukázat. Ročně investovali stovky hodin a publikovali tucty článků s prostým cílem pomoci fanouškům být chytřejší. Kdo se chtěl o americkém fotbalu něco naučit, mohl; stačilo jen poslouchat.
V roce 2015 jsem se připravoval na sezonu NFL, která byla mou první (spoiler alert: byla i poslední) kdy jsem působil v roli placeného sázkařského poradce na webu KolemDvou. Dal jsem dohromady svůj první model. Nazval jsem ho Anthony podle pseudonymu postavy Matthew McConaugheyho ve filmu Two For The Money. Původní záměr byl, že mi Anthony pomůže vybírat zápasy na které vsadit. Tuhle hezkou myšlenku jsem brzy pustil z hlavy. Všechny moje regresivní analýzy ukazovaly tvrdou realitu, že samotná čísla na vyhrávání stačit nebudou. Rozhodně ne u sportu, který kombinuje nejefektivnější sázkařský trh s nejmenší velikostí statistického vzorku. Týmy v NFL hrají v základní části pouhých šestnáct zápasů, v hokejové NHL a basketbalové NBA to je 82, v baseballové MLB dokonce 162. I tak mi model pomohl v tom, abych si pohodlně vyjel před každým zápasem všechny statistiky, což mi ušetřilo spoustu hodin šťourání se v číslech na cizích webech. A model měl ještě jednu výhodu: k nevyhnutelnému závěru, že v sázení na sport jsem naprosto příšerný, jsem díky němu možná došel o rok nebo dva dříve. Přestože moje kariéra sázkařského poradce měla krátké trvání a bolavý závěr, model jsem si ponechal i s jeho trochu hloupým jménem. Když jsem si trochu olízal rány a smířil se s porážkou, stal se Anthony mým vlastním standardem pro hodnocení týmů.
Myšlenka vytvoření programu, který by mi radil, jak sázet mě nikdy naplno neopustila. Místo abych znovu pokoušel štěstí v americkém fotbalu jsem se v roce 2016 zaměřil na hokej. A byl to znovu Nate Silver, který mě inspiroval od kterého jsem nepokrytě kradl. Silverův web FiveThirtyEight používali pro hodnocení sportovních týmů svoji variantu Elo ratingu. Ten se stal roku 1959 oficiální metodou pro hodnocení šachistů v USA a celosvětově se používá od roku 1970. Přišlo mi fascinující, že jen díky použití výsledků bez jakýchkoli pokročilejších statistik a jiných detailů bylo možné zjistit, jak si který tým ve své soutěži stojí. Celé léto jsem strávil programováním modelu s vlastní verzí Elo. Dát dohromady výsledky od roku 2000 z asi dvaceti lig šlo celkem rychle, patřičné vzorce rovněž, ale manuální opisování sázkařských kurzů z několika sezón chvíli trvalo. Měl jsem širokou škálu soutěží, vše od pompézní NHL až po naprosté dno Ekstraliga w hokeju na lodzie, což je, přesně jak to zní, polská soutěž. Jak se dalo očekávat, velmi záhy jsem zjistil, že vyhrávat v NHL, KHL nebo ve Švédské nejvyšší lize je s mým jednoduchým modelem úplně bez šance. Bookmakeři v těchto ligách byli zkrátka příliš dobří, než aby je dlouhodobě překonával můj jednoduchý excelovský soubor. V méně populárních soutěžích to už ale byla jiná písnička. Bookmakeři se v těchto méně známých, nepopulárních, nekoukatelných soutěžích chrání tím, že sázkaře nutí platit vyšší poplatek za sázku — snižují kurzy. Nicméně můj test naznačoval, že i přesto je tu potenciál vyhrát peníze. A tak jsem celý ročník 2016/17 podle modelu sázel skutečné peníze. Sezonu jsem uzavřel s yield +3.1% což znamená, že za každých vsazených tisíc korun jsem vyhrál třicet. Normálně taková ziskovost není důvod k velké oslavě, jenže tohle tak úplně normální nebylo. Člověk je schopný udělat možná 300 sázek za sezonu. Ale počítačový model se nikdy neunaví. Nevzbudí se se zničující kocovinou, rozsekaný ze stokilometrové víkendové túry, nebo bezdůvodně s pocitem, že dneska nebude nic dělat, jen koukat na Futuramu. Takže když mi model v roce 2016 poradil, abych vsadil na celkem 867 zápasů, přesně to jsem taky udělal. Proto ta celkem slabá návratnost +3.1% znamenala +28% v daleko důležitějším políčku ROI — návrat investice. Tou dobou jsem to považoval za úspěch. Dneska si říkám, “Dobrý, ne skvělý,” což bude úplnou náhodou i název mé biografie.
Sezona 2017/18 nešla ani zdaleka tak dobře. Zapíchl jsem to ve chvíli, kdy jsem měl 194 sázek a návratnost skoro urážlivých +0.6 procent. V podstatě jsem nedostával za veškerou práci — hlídání rozpisů, sepisování výsledků, kurzů, sázení vybraných zápasů — vůbec zaplaceno. Nevadilo mi to. Z nějakého důvodu jsem cítil skoro perverzní potěšení ze sázení na tyhle podřadné soutěže, které nikoho kromě gamblerů nezajímaly. Nicméně, moje účast na projektu v Armchair Analysis tou dobou už přerůstala v regulérní druhou práci. Když jsem stál před rozhodnutím, jestli jít za sportem mého srdce kde byly i skutečné peníze, nebo dál skákat podle rozpisu anglického hokeje, nemohl jsem Excel zavřít rychleji.
Načasování vyšlo skvěle. Když jsem na Armchair na podzim roku 2016 narazil, jeho majitel a můj budoucí šéf Dennis Erny zrovna v tu dobu hledal lidi pro svůj tým sběračů dat. Cílem bylo společně projít každou akci z každého týdne a poznačit různé detaily, které zajímaly klienty: směsku sázkařské veřejnosti, fantasy hráčů a televizních komentátorů. Kolik yardů receiver běžel po zachycení přihrávky? Byl QB pod tlakem? Byla přihrávka nekompletní, protože byla nepřesná, nebo hráč upustil míč? Účast na takovém projektu by mi poskytla vrstvu informací, kterou jsem v Anthonym citelně postrádal. Dvakrát jsem se nerozmýšlel, napsal krátký motivační dopis, doplnil ho o pár svých starších článků plných obludných grafů, přidal odkaz na svůj blog a přes emailový formulář na webu ho odeslal — až na to, že to vůbec nebyl emailový formulář a všechno co jsem napsal spadlo pěkně rovnou do komentářů pod článkem. To zděšení, když jsem si uvědomil, že můj defacto životopis visí veřejně na očích lidem ucházejícím se o stejnou pozici jako já — trapas! Dobře jsme se tomu zasmáli — Dennis nejspíš víc než já — a tak jsem sezónu 2016 strávil dobrovolničením asi čtyři hodiny týdně u zápasů Baltimore Ravens a Carolina Panthers.
Zapálil jsem se do téhle práce a u týmu jsem zůstal i další rok. Před sezonou 2017 bylo moje nadšení maximální. Až tak moc, že jsem se nedokázal kontrolovat. Chvílemi jsem se pohyboval na tenké hranici mezi hodnotným, nadšeným zaměstnancem a vyloženě otravným volem. Ale nakonec to bylo pro projekt jen dobře. Armchair měl sice několikaletou historii v automatickém sběru a prodeji základních dat, ale sběr těch pokročilých vyžadujících ruční práci byl v plenkách. Vybudování stabilního týmu nejde hned, zvlášť když se opíráte o Honzu a Janu z internetu, jestli se tak teda vážně jmenujete. Aby nebyla nuda, v prvních dvou týdnech několik lidí odpadlo, aniž by řekli aspoň ‘tahle práce stojí za prd, sbohem‘. V takové situaci, když není k dispozici skupina spolehlivých lidí, coaching nebo know-how, mít v personálu jednoho šílence se může hodně vyplatit. Zvládli jsme to dokonce bez nutnosti nějak protahovat uzávěrky slíbené klientům, a já byl povýšen na pozici jediného senior analytika. A tady se ty příběhy setkávají. I když jsem anglický a polský hokej fakt zbožňoval, rozhodl jsem se nacpat veškerý volný čas do tohohle fotbalového projektu. Vyplatilo se to: před začátkem sezony 2019 jsem dostal oficiální pozici ‘Vedoucí sběru dat’. Ale víte, jak to poslední dobou s těmi nóbl označeními pozic je, ne? Tahle by se dala volně přeložit jako ‘Budeš dělat všechno, a bude se ti to líbit‘. A taky že jo. Klíčové pro nás bylo léto 2020. Zatímco se svět uvrhal do chaosu kvůli pandemii, my ucítili šanci udělat z našeho hobby reálného kandidáta na nejlepší zdroj fotbalových dat. Vůbec poprvé jsme si nevzali pořádně volno — určitě ne víc než dva týdny. Během covidové NFL sezóny jsme pak dali dohromady největší stáhnutelnou databázi za asi třetinovou cenu za kterou data nabízela naše konkurence.
Detaily o mé práci mám v podobně laděných článcích na téma NFL a hokej.