e數據(28)-先發投手的歸類(Part II)

相信大家應該都看過我前一篇<e數據(27)-怎樣的成績算是3號先發投手?>,

也對THT的Jeff Sackmann在2006年底所提出的,
「如何計算各隊及聯盟中的每一號投手平均的成績」及「區分標準」,有了一定的了解及認識,
也或許已經試著用前述的標準,來將自己球隊上的先發投手做個歸類了…

不過古人說:「盡信書不如無書。」
不知道有沒有人在讀完前篇文章後,並且仔細思考過後,
發現其實Jeff Sackmann所提出的計算方法可能會出現一點偏差:
是當我們先正確的得出聯盟中各隊每一號先發投手的成績後,再去進行計算整個聯盟時發生的。

SB Nation的Matthew在2008年進行類似主題研究時,對於Jeff Sackmann的計算方法有以下想法:

Those are both decent methods, but what stuck out to me was the fixture of doing the rotation slots team by team. It doesn’t make a lot of sense to me to have, for example, the Nationals’ best 32 starts this year grouped in with the Blue Jays’ best 32 starts as those made by #1 pitchers. I want a measurement whereby if you have a #1 pitcher, you can say that pitcher is among the top pitchers in the league regardless of team

 

那些都是很不錯的方法,但是對於先固定的算出每隊每號先發投手成績(再換算成聯盟每號先發投手成績)這件事困擾著我。對我來說,那看起來沒有道理,例如將華盛頓國民隊先發了32次的一號投手跟多倫多藍鳥隊先發了32次的一號先發投手放在同一群內計算。我想要計算的是「你是否真的有一號先發先發投手,而你可以說那個先發投手不管在那個球隊中都是聯盟中的一號先發投手。」

Matthew的意思是說,我們怎麼可以把戰績最爛球隊(國民隊)的一號先發,
(在墊底球隊中,即便是一號先發,很可能其數據也不怎麼樣)
拿去跟藍鳥隊的一號先發(今年美聯賽揚獎票選第二名,Roy Halladay)放在同一組來計算呢?

如果拿來套在中職,簡單的說就是,
既然我們依前篇中的計算方法,已經知道興農牛隊隊中,
今年「很可能」,連一個可以稱得上是一號先發(ERA<3.199、局數>6.09局)的投手都沒有,
(依前篇計算方法,林其緯跟余文彬都只能算是聯盟中的二號先發等級)
那麼,如果我們還將林其緯及余文彬的成績跟強森及廖于誠等人放在同一組拿去平均,
這樣我們豈不是拉低了聯盟一號先發投手的平均成績,也拉高了聯盟中二號先發投手的平均成績;
(例:小林亮寬及許文雄的成績明明很可能應該是一號先發,但卻因為他們的一號先發太強而被迫放在二號先發的位置去平均)
如此,我們很可能會得到一個偏差的整個聯盟每一號先發投手的成績。

為了解決以上的問題,Mathew也提出了一個很直觀的方法:
不以球隊來區分,直接將聯盟中的先發投手分為五組(因為大聯盟球隊是用五個先發當輪值),
第一組的的就是聯盟中成績最好的幾個一號先發,第二組的是成績次好的二號先發,依此類推…
然後分別計算每一組的平均成績,最後得到的就是聯盟中真正的每一號投手的平均成績。

不過,原文中Matthew用的是投手的進階數據tRA,
在這裡,為了讓大家比較容易去理解,同時也方便與前篇進行比較,
因此,套在中職時,
我還是採用ERA來將聯盟中的先發投手進行排序,並分成四組(中職每隊是四個先發),
同時,因為每隊一號先發要先發25場,共有6隊,
因此,每一組(每一號)的先發投手共要湊足6*25=150次先發。

好了,接下是你會想知道的,若依先發時的ERA來排序,到底是那些投手被分到一號先發那組中,
他們是:艾瓦多、羅德里、廖于誠、強森、海克曼、小林亮寬、潘威倫、許文雄、倪福德及貝力
(貝力的成績剛好界於1-2號先發間,他21場先發有6場分給一號先發群、15場分給二號先發群)

如果你還想知道,而人數也不會太多不好列的二號先發那組中有那些人的話。
他們是:貝力、林其緯、韋伯、林正豐、朱尉銘、丹尼、余文彬、班尼歐、羅銳、陳建輔、康明斯、曾嘉敏及徐余偉。

然後繼續再這樣將聯盟中剩下的先發投手依ERA高低進行歸類為三號或四號群組中,
並且將他們的成績都進行平均計算後,得到的結果是這樣的:
聯盟平均

投手 先發場數 先發局數 平均局數 先發ERA ERA+
#1 150 965.71 6.44 2.688 152
#2 150 866.76 5.78 3.594 114
#3 150 826.07 5.51 4.399 93
#4 148 666.36 4.50 6.309 65

 
一樣的,把一號及二號先發、二號及三號先發、三號及四號先發的成績拿來平均後:

投手 先發場數 先發局數 平均局數 先發ERA ERA+
#1 / #2 150 916.24 6.11 3.116 131
#2 / #3 150 846.42 5.64 3.987 103
#3 / #4 150 746.22 5.01 5.252 78

 

也就是說,一號先發的標準是ERA低於3.116、局數超過6.11局;
二號先發則是在3.116及3.987的ERA間、5.64-6.11局間,
而三號先發的ERA則是在3.987-5.252間、局數是5.01-5.64局,
而如果先發的ERA高於5.252、局數也低於5.01局,那就是四號先發了。
 
對了,如果你想要知道現在這個算法跟Jeff Sackmann算法的差異有多大的話,
這裡是前篇最後的結果:

投手 先發場數 先發局數 平均局數 先發ERA ERA+
#1 / #2 150 912.95 6.09 3.199 128
#2 / #3 150 852.00 5.68 4.000 100
#3 / #4 149 744.39 5.00 5.144 79

 
老實說,差距並沒有我當初想像的那麼大。