這篇應該是介紹這些入門數據一系列下來的最後一篇,比較淺顯、實用的數據前面大致上介紹過了,這一篇我想談的是一個態度─面對這些數據的態度。

 全世界最大的棒球迷學術團體The Society for American Baseball Research曾經為新興起、關注數據的這門領域,取了一個全新的英文單字─Sabermetric。 中文還沒有適切的翻譯,我在網路上討論時,常常看到有人用「數據派」來形容類似關注數據的人,聽起來好像有點貶意,不過這篇文章姑且用之。

 所謂的數據派大概是指在論戰時常常提出各式各樣數據作佐證的這群網友。因為台灣的棒球圈對這些「新數據」有概念的教練球員並不太多,所以很多調度安排或者球評的言論,在這些數據的分析下表現得近乎愚蠢。有人據數據攻擊之,當然也有人護航,當中的爭執不可細數。不過就我觀察來看,多數的爭議是對於無法量化的影響因素有不同的看法,這些因素包括選手的身體狀況、運氣、或者所謂的「霸氣」。再者,數據派強調能夠量化數字的重要性,常常會讓人攻擊「乾脆開電腦算算就好了,也不用上場打球了」。而通常這些想法都是出自誤解,誤解又是出自對於Sabermetrics的不了解,我嘗試提出四點數據派理當有的想法,或許可作為參考。

 而在了解數據派之前,應該要了解數據派為什麼產生。「數據」一個很重要的目的,是要去當作做「選擇」的時候的一個工具。用經濟學的理解,人無時無刻不在選擇,有選擇就有成本,成本小的時候選擇可以隨便做,當成本大的時候選擇就會變得謹慎,而這正是現代數據會被重視的一個很大原因─選擇的成本提高了─高薪的FA制度。試想,如果簽不簽一個球員,關係到的是上百萬上千萬的美金,這個選擇能不謹慎嗎?因此要怎麼更精確(至少比傳統打擊三樣數字精確)的去衡量一個球員,就成了管理階層的挑戰。所以對這些管理階層而言,不可能說出「Bonds 跟一朗是不能比較的」這種話,因為他的任務是要去評估一個球員值得多少美金,他必須要去想出辦法來比較兩個看似無法比較的球員─甚至得去比較投手跟野手。

 大概知道現代數據興起的背景之後,或許比較容易理解以下幾點︰

第一、數據派應該是最不崇尚結果論的

 我們可以用過去預測未來,但棒球一如人生,也因為充滿了意外而有趣。譬如當年紅人簽下Ken Griffey Jr. ,當時沒有人會知道他會打成這樣,但是這個合約是不是蠢合約?就數據派的角度看並不是的,數字的樂趣是在預測,不是在結果。甚至不用數據的例子,奧運對義大利那一場九局丟上陽建福,不用多詳細的資料都能知道陽建福是當時牛棚能拿出來最好的投手,丟上陽建福沒有任何問題,被幹了逆轉砲是結果,跟當初的決定是否正確無關。所以說數據派「拿電腦算就好了」是完全不了解才會有的誤會。

 沒有意外的棒球比賽是無趣的,對任何一派的球迷都一樣。數據派並不介意預言失準,只在意做出預測的時候有沒有道理。CCLu有一個很傳神的比喻,某一堆數字是40~80 ,另一堆數字是70~120,現在要兩人各抽一張比大,先抽的人應該選擇哪一堆?選擇第二堆的人當然有可能輸,但是除非作弊,不然任誰都會認為先選第一堆的是豬腦(CCLu的原文不是這樣,我改了例子,但是說明的創意是他的。)。簡單說數據派並不否認「宇宙無常」,但是他們並不會用「宇宙無常」當作自己沒腦的擋箭牌,反而拿「宇宙無常」作為反對數據派的理由才是相當可笑的。

第二、理性是數據派溝通的平台

 在比較兩個水準很接近的選手的時候,如果去除任何數據,包括傳統的三樣指標(別忘了這三種指標也是數據,每個棒球迷或多或少都屬於數據派),事實上幾乎是無從討論的。一個日本人可以因為同鄉所以認為松井秀喜比較棒,一個多明尼加人可以因為血緣所以認為Manny Ramirez 比較強,這樣的爭論不會有結果。數字的工作就是提供一個普遍能夠接受的平台,不是讓兩個人各自「我認為」而沒有交集。

 當然如同之前每一篇文章強調的,數據在一個面向常常只能反映出部分的結果,打擊已經是現代數據可以非常準確預測的項目了,但是無法量化成數字的因素還有很多,更不要提投球跟守備了。不過即使如此,這並不表示一場比賽的打擊順序得靠擲銅板決定,精確的數據提供的是一個可信賴的範圍,當然有這個範圍以外的因素。譬如說所謂的抗壓性,或者是有一個王牌救援在陣給予對手的壓力等等,這些因素的確或多或少會影響,我認為好的數據頭不應該傲慢的忽視這些因素。這些因素雖然難以量化,但是還是可以評估,譬如就算陳金鋒上場前一直告訴你他好緊張,因此讓他坐板凳然後叫闕樹木代打他通常不會被接受。

 我想要強調的是一個估計值的概念,就像是常有人提出霸氣作為投手好不好的關鍵,但是一個有霸氣的陳義信,難道就會比溫文儒雅的Mike Mussina來得有威力嗎?當拿兩個實力差距很大的選手比較的時候,不可量化的因素影響力幾乎是零。謝佳賢可能近況不好,但是不論這個無法量化的因素多困擾他,誠泰隊一樣沒人能取代他的地位。而當實力差距有限的時候,不能否認很多慣用數據的人,依然傲慢的否決這些因素的影響,我認為完全否決這些因素是沒道理的,但是看到每天都在討論誰有霸氣誰缺霸氣這種文章還是會倒胃。在面對不可量化因素的時候,應該是更審慎的去找一個「合理」的共識。

第三、好的數據頭立場應該是很嚴謹的

 很多時候「數據派」被污名化的確是因為充斥太多假數據派,好的數據頭理當是很嚴謹的,從統計的角度來說,唯有信度跟效度都在可容許範圍的時候,數據派才有立論的基礎。舉例來說,數據派很重視樣本數的大小,王建民去年季末在3A投了三十多局的好球,在多數的球探報告裡面,即使他的成績好得讓人驚豔,也一定會加上一句保留的話語─他需要更多局數證明他自己。沒有足夠的樣本背書預測就容易失準,即使一個人打了一整季的好球,或者有一整季不如預期的表現─就像這兩年的松井秀喜。

 另外是關於解釋數據上的問題,所有的數據都是過去結果的累積平均,數據的功用不在預測一個play的成功或失敗,而應該是大量樣本累積之後的結果。譬如說在XR的公式中一次盜壘成功相當於0.36分,這並不是說黃甘霖盜上了二壘統一就拿了0.36分,而是一整季累積下來的結果,當他持續不斷的盜壘成功,整個效益平均下來一次盜壘的效益會接近這個數字。所以拿大量統計的結果去否定每次play是否該觸擊或者盜壘是不妥當的,整個統計說明的是一個趨勢,過量的觸擊會傷害球隊,但是每一次的觸擊不盡然如此。

第四、好的數據頭不會只看電腦不看球賽

 很多人想當然爾的認為信仰數據的人不看球賽,事實上通常不是這樣。會去專研數據的人多半對棒球有莫名的狂熱,要這些人不看球簡直是要他們的命。也因為數據頭對於數據的了解詳細,所以對於數據預測不足的部分更是清楚。一個好的數據頭去解釋一個投手好不好的時候往往不只是需要ERA 、WHIP這些數字,更會說明這個投手的stuff 究竟好不好。如果仔細注意,以前常在Cobras板出沒的「蛇板的大大」們,除了附帶數據說明,對於選手的觀察往往也有深入的見解。

 其實說他們是數據派實在是不妥當,就像之前講的,數據只是一種預測的工具,而越是了解現代數據的人就越是清楚現代數據的不足之處,因此也就越不可能完全依賴數據,稱這樣的人做「數據派」其實是有點冤枉了。

 或許應該這樣說,如果將棒球的可預測性分成可量化及不可量化兩部分,深受sabermetrics 影響的人只是將可量化的那部份看得更重了。如果這些人過度忽略了不可量化那部份的重要性,很顯然他們也悖離了事實,這一直是「數據派」被攻擊的地方。事實上這個爭論在美國也時有所聞,特別是在缺乏大量穩定數據的新秀評估上,傳統派的勇士隊比起「數據派」的運動家隊可是一點也不遜色。

 不過若我們假定真的有所謂可量化及不可量化的比重,無疑台灣球界對於可量化的那部份實在太膚淺。過去三十年美國球界的修正已經足夠說明在Sabermetrics出現以前的棒球,對於可量化的部分有錯誤的低估,而現在台灣球界的風氣比起三十年前的美國好不到哪去。因此即使網路上常常充斥對於數據的重要矯枉過正的言論,我依然相信提倡數據的重要對於台灣棒球的確會有正面的影響。也是鑒於多數的資訊被引進的太過緩慢,語言的隔閡常常也讓現代棒球理論的擴散不容易,所以我狂妄的想要將一些入門的資料做統整性的介紹。

 感謝CobrasTalk的板友不吝辛苦幫我除錯,這八篇文章如果有任何錯誤,請各位去找那些答應幫我檢查的CT板人算帳XD
創作者介紹
創作者 atlyankees 的頭像
atlyankees

nickyang's blog

atlyankees 發表在 痞客邦 留言(1) 人氣()


留言列表 (1)

發表留言