當前位置:
首頁 > 文史 > 怎樣用數學模型靠譜地討論足球流氓

怎樣用數學模型靠譜地討論足球流氓

為什麼會有足球流氓,警察和社會學家的觀點完全不同,最靠譜的方式或許是借用數學進行分析。


文|孫鑫偉


提到足球流氓,人們首先會想到英國,當然,由於俄羅斯組建了世界第一支足球流氓國家隊,談到這個話題也會讓人們想起俄羅斯。

怎樣用數學模型靠譜地討論足球流氓


▍英國西漢姆球迷和切爾西球迷之間衝突的新聞


問題是——


何為「足球流氓」


該領域權威之一大衛·V.·坎特將之描述為「包括多種從簡單到複雜的暴力行為」;另一個權威埃里克·鄧寧則稱之為「與足球相關的,各式各樣的引起衝突的行為」——看上去像是廢話。當代學者甚至會迴避它的定義。


因為它既可以是球迷與球員之間的,也可以是球迷之間的,既可以是場內的也可以是場外的,有口角、推搡,也有造成 1 至 5 人受傷的使用武器的鬥毆,也有類似 1985 年海瑟爾慘案這樣的悲劇(雙方球迷衝突導致看台坍塌,死 39 人,傷 600 多人)。

怎樣用數學模型靠譜地討論足球流氓


怎樣用數學模型靠譜地討論足球流氓



當我們談足球流氓時,我們談到的現象其實會涉及到多個變數:行為的危害程度、發生地點、組織形式、是否會造成傷害以及傷害程度,是否會構成犯罪、犯罪等級、發生原因、涉及對象等等。每個變數都會有多種可能的取值。

所以,謹慎而靠譜的描述方式是看上述變數各種取值所佔的比率。比如,在The Nature and Extent of Football Hooliganism in England and Wales(《英格蘭及威爾士的足球流氓程度及背後的本質》)一文中,作者便分析了包括 NCIS(國家犯罪情報局)1999 年至 2003 年四個賽季的數據,發現如下現象:


地點:球場內的足球流氓現象並不比市中心公共場合更多;


時間:比賽前比賽中和比賽後三個時段中,比賽後最危險;


受傷程度:大部分衝突都不會造成受傷,有時受傷警察會遠多於球迷,因為球迷很難被統計;


武器:排列前兩位的武器是瓶子和石頭,實際上它們造成傷害很少,因為投中太難了。


為什麼英國足球流氓最著名?


研究者認為,足球流氓是世界性問題,之所以英國顯得格外顯眼,除了它本身確實嚴重之外,媒體誇大也功不可沒。


足球流氓現象伴隨著英國足球歷史,只是程度及方式不同,前期更多體現在球迷對比賽官員及對方球員的暴力。1960 年代開始,才逐漸轉為球迷間的鬥毆,且愈演愈烈。


這與當時英國工人階級家庭的年輕一代有關。約翰·克拉克認為,這一代人更少受父母管制,非常容易形成自己的亞文化。從最早的泰迪男孩(Teddy Boy)到摩斯族(Mods)、搖滾派(Rockers),再到後來的光頭黨(Skinheads)。

怎樣用數學模型靠譜地討論足球流氓


泰迪男孩:1950 年代出現在倫敦,隨後風靡全國。他們身著工人階級流行的愛德華王朝七世的穿衣風格,雙排紐扣披肩夾克,白色或灰色領帶,緊身褲,帶扣的鞋子。

怎樣用數學模型靠譜地討論足球流氓



摩斯族和搖滾派是兩種對立的流行於 1960-1970 年代的英國亞文化。前者(下圖左)崇尚時尚與音樂,騎「速可達」摩托車,梳法式犀利短髮,配義大利式西裝、七分西褲、手工制皮鞋。後者(下圖右)重點在於騎摩托車上,喜歡黑色皮夾克、摩托車皮靴,留著「將頭髮高高梳起、劉海向後留、後腦勺部分用髮膠貼上」的龐畢度髮型。

怎樣用數學模型靠譜地討論足球流氓



1960 年代末期,光頭黨文化開始流行,他們留短髮,穿賓舍曼襯衫和背帶,普雷斯特褲子以及馬汀大夫的靴子,強調男子氣概、侵略性、強健的身體。

怎樣用數學模型靠譜地討論足球流氓


這些亞文化群體都來自底層工人階級,「情緒激動、動輒用武力解決問題」,他們通常會位於場內最廉價的票區。發生衝突時,往往各司其職,有負責領導唱歌的,有負責與對方球迷叫罵的,還有旅途的組織者,當然最主要的,還是喝醉酒的打手。伴隨著這些亞文化群體規模的擴大,場內的衝突和火藥味越來越濃。


1966 年英國舉辦世界盃前後,媒體開始關注「足球流氓」。有學者稱,儘管當時衝突頻率並沒有什麼變化,但媒體報道和電視普及,將足球流氓現象放大,讓年輕人覺得球場是釋放暴力的好去處。

怎樣用數學模型靠譜地討論足球流氓



為何足球流氓越管越亂


早期的解決辦法除了增加警衛,就是用柵欄分隔主客場球迷,並用專車接送客場球迷。然而,這反而有副作用——兩方球迷被強行分開,增加了他們的認同感以及對群體外的敵對感。


而警方制定規則越多,流氓團體越會想法逃脫警方管控。這種博弈讓警察管得越來越寬,規則越定越細,懲罰手段越來越嚴厲;另一方面也滋生了幾個組織精密的超級流氓團體。


最能體現這種副作用的事件,就是 1989 年 4 月 15 日的希爾斯堡慘案——在希爾斯堡球場的利物浦和諾丁漢隊比賽中,由於柵欄過高,警察疏導不利,造成了嚴重的踩踏事故,致使 96 人死亡,700 多人受傷。

怎樣用數學模型靠譜地討論足球流氓


▍希爾斯堡球場


英國上訴法院法官彼得·泰勒表示,「希爾斯堡慘案的發生,正是由於這些越來越高,上面還長滿刺的遍布球場內外的柵欄,它們讓大部分觀眾在預感到危險那一刻無處逃脫」。下圖右邊的 Pen 3 區域,最多能承載 678 個人,可在那時有 1400 人左右想掙脫柵欄,往賽場方向逃脫。大部分傷亡人員都在該區域。

怎樣用數學模型靠譜地討論足球流氓



爾後,英國足球俱樂部又推出「會員制度」,旨在篩出不想看球的那部分球迷。米爾沃爾俱樂部甚至只對主場球迷開放。撒切爾還在 1989 年推出「足球觀眾法案」,它試圖制定「卡片制度」,球迷需要憑藉包括姓名、照片卡片才能到客場看球。


這些措施給那些真心想看球的球迷帶來了麻煩,並隨之影響了俱樂部的收益。從 1950 年代開始到 1990 年代前,到場觀賽人數一直穩步下降,除了 1966 年在本土舉辦的世界盃有小幅的上升。

怎樣用數學模型靠譜地討論足球流氓



實際上,加強警力增加了場內球迷的緊張情緒,認為「衝突」隨時有可能發生。克利福德·斯托特精心組織了一個多人參與的實驗,對比分析了 2000 年歐洲杯和 2004 年歐洲杯的警力、球迷情緒和他們之間的互動。

怎樣用數學模型靠譜地討論足球流氓


▍2000年和2004年歐洲杯警衛部署的觀測數據對比


研究發現,2004 年歐洲杯比 2000 年歐洲杯的警衛密度要小得多,但事故率卻是前者的 1/60。作者發現「本方球迷內認同感 × 時間」變數對於「球迷與警察的親切感」呈顯著正相關(p-value


1989 年,泰勒出具了一份研究希爾斯堡慘案的報告,報告提到在球場內用座位來代替台階,它照顧了觀眾的舒適度並有效解決扎堆現象;在安全問題方面,通過安裝閉路電視監控設施來預防、取消 2.2 米以上的柵欄;從俱樂部收益方面,停止使用會員制度。

怎樣用數學模型靠譜地討論足球流氓



▍泰勒法官關於「希爾斯堡慘案」最終報告的第二章部分目錄


為提高那些頂尖俱樂部的收視率和收入,原來的甲組俱樂部於 1992 年 5 月 27 日組建英超聯盟有限公司——英超聯賽被正式引入。球場座位席、草坪等硬體設施以及監控系統、安全立法等軟體方面的改善使得上座率穩步上升,而每年 在聯賽及國際賽場上被逮捕的足球流氓人數都在這之後平穩下降。

怎樣用數學模型靠譜地討論足球流氓


是什麼誘發足球流氓現象


「青年人的亞文化」這一因素遠不能解釋清楚英國的足球流氓現象,它只是促成媒體報道的導火索,讓英國足球聞名於世。


學術界對官方的解釋並不買賬,但又各執一詞。後者把原因歸結為酒精和球場上的暴力衝突。但是,沒有數據表明喝醉的球迷都會鬧事或鬧事的球迷都是由於酒精造成的。同樣,場外的衝突、看台上的騷動也不都是發生在球場上的暴力之後。


早期影響力比較大的是泰勒。他指出早期的足球俱樂部是從工人階級內產生的,從球員到經理。那時,經理和工人階級關係更緊密,屬於相同的亞文化圈——通過比賽來展示他們的求生慾望和陽剛之氣,甚至,後者還可以十分「民主」地為俱樂部提意見,參與俱樂部的管理。


隨著球員和老闆的收入、社會地位越來越高,他們逐漸和觀眾們產生了隔閡。這些工人階級觀眾失去了認同感和參與感,試圖通過以暴力方式來表達自己的不滿。


但是,沒有證據表明早期那些觀眾可以「民主」地參與俱樂部建設,也沒有這些觀眾對此表達不滿的有參考價值的佐證——R.·卡羅爾在《足球流氓在英國》一書中指出,大多數年輕人根本不了解這些背景,他們看球只是感興趣或追星。


另一種解釋非常乾脆利索:足球流氓群體有天生超出正常人的暴力基因。簡言之,這些人就喜歡打架,要麼受酒精或毒品影響,要麼患有精神疾病,像動物一樣不能控制自己行為。所以,唯一的解決方案就是警衛越多越嚴厲。只是這種觀念沒有任何數據支撐。

怎樣用數學模型靠譜地討論足球流氓


怎樣用數學模型靠譜地討論足球流氓


巴黎的阿納斯塔西婭·蘇卡拉(Anastassia Tsoukala)教授長期研究足球流氓現象,她認為談論足球流氓不能脫離社會背景,而是應該把「犯罪率」、「失業率」等社會問題一起放到大的社會環境中討論。研究者 1980 年代就發現,足球鬧事者 80.1%來自底層工人階級和失業人員。

怎樣用數學模型靠譜地討論足球流氓



除了這些低收入階層之外,「失業率」這一因素也被學者認為是關鍵因素。從下面英國失業率的曲線中可以看出,1980 年的失業率在此前後 20 年達到頂峰。


但學者鄧寧指出,失業率和足球流氓並不能完全建立聯繫。比如 1930 年代失業率最高的時候,與足球暴力相關的報道是最少的。同樣,在 1960 年代足球流氓開始猖狂時,失業率也很低。但報道的足球流氓數字並不一定能夠反映真實情況。

怎樣用數學模型靠譜地討論足球流氓



我們通過橫向和縱向比較兩個方面來看失業率與英國足球流氓的關係。首先是隨時間橫向地來看英國每年的失業率和被逮捕的足球流氓數的關係。由於後者 1992 年後官方才有統計數據,因此我們看 1993-2014 年的情況。下圖可以看出,兩者並沒有十分明顯的相關性(相關係數為 0.29)。

怎樣用數學模型靠譜地討論足球流氓


下面我們縱向地來比較。為此,我們查詢了 2004-2013 年這 10 年英超的數據,並計算了每一賽季不同俱樂部足球流氓逮捕人數與當地失業率的皮爾森相關係數。(有超過 1 傢俱樂部的城市,取平均數)


由結果可以看出,平均來看,不同地區的失業率和當地足球流氓活動有一定相關性,但比較弱且波動(標準差)較大,最高的是 07-08 賽季,可以達到 0.652,最低的是 08-09 賽季,僅為 0.103。我們分別畫出這兩者失業率與足球流氓逮捕人數的分布圖,從顏色上看 07-08 賽季的兩張圖呈一定強度的相關性,而後者幾乎看不出來。

怎樣用數學模型靠譜地討論足球流氓



▍左:07-08 賽季年失業率分布圖(英超),右:07-08 賽季足球流氓逮捕人數分布圖(英超)

怎樣用數學模型靠譜地討論足球流氓



▍左:08-09 賽季年失業率分布圖(英超),右:08-09 賽季足球流氓逮捕人數分布圖(英超)


我們還可以計算英超、英冠,甚至是前 n(n≥3) 聯賽。但這樣會引入聯賽級別不同而帶來的不公正性,由於英超最受關注,因此足球流氓數很有可能要比低級別聯賽更高。


從 2007-2008 年的例子就可以說明這一點,如果只是英超的話,相關性為 0.652,引入英冠聯賽後降為 0.554,算上英甲聯賽後驟降為 0.242。

怎樣用數學模型靠譜地討論足球流氓



▍左:07-08 賽季年失業率分布圖(英超、英冠),右:07-08 賽季足球流氓逮捕人數分布圖(英超、英冠)


同樣,我們也可以畫出引入這兩級聯賽後的對比圖。引入英冠後(上圖),依然能看出一定的相關性;而英甲聯賽算進來後相關性就不是很明顯了(下圖)。顯然,失業率與足球流氓的關聯性並不像社會學家想像得那麼強。

怎樣用數學模型靠譜地討論足球流氓



▍左:07-08 賽季年失業率分布圖(英超、英冠、英甲),右:07-08 賽季足球流氓逮捕人數分布圖(英超、英冠、英甲)


讓我們試試更複雜的模型


看來,研究足球流氓現象與社會關係還需要加入更多的指標。現有文獻對這一部分的量化研究並不多,因此我們嘗試自己來做一些研究。


為分析哪個變數或哪幾個變數更影響足球流氓的嚴重程度,我們決定以每個俱樂部,每個賽季足球流氓逮捕人數為響應變數「y」,並與該俱樂部或所在城市有關的各種指標(解釋變數)配套起來分析。


這些解釋變數包括四大塊,分別是聯賽相關因素、人口相關因素、經濟相關因素以及社會相關因素。聯賽相關因素包括該賽季這個俱樂部的排名,聯賽等級,平均觀眾人數(Attendence),上賽季是否升降級等。


人口相關因素包括該城市每年的人口(Population),男性人口比例,16-64 歲人口比例等。經濟相關因素包括人均總增加值(GVA),人均總增加值年增長率(Growth rate of GVA),不同類型工作人口比率,經濟不活躍比率(Economic inactivity)等。


社會因素包含的因素較多,比如失業率,失業率年增長率,犯罪率,房價中位數,房價年增長率,消費者物價指數(CPI)年增長率等等。這四大因素合在一起共 29 個指標。


我們根據英國國家統計局、「歐洲足球統計」以及各支球隊情況提取出了 21 傢俱樂部在 2004-2013 年這 10 年間上述指標的數據。


為更清楚地認識每個指標對響應變數「y」的影響,在對數據進行 MinMax 歸一化處理之後,我們畫出了部分指標與 y 的散點圖,以及線性關係。

怎樣用數學模型靠譜地討論足球流氓



▍部分指標與 y 的散點圖及線性關係


不難看出,即使是擁有最強線性關係的「平均觀眾人數」指標也無法對 y 擬合地很好。因此模型並不是由單一指標構成的,也就是說,y 一定是受多變數影響的。


因此,我們假定模型是由多變數決定的線性模型:


其中 y 是目標變數,X 是上面 29 個解釋變數組成的矩陣,每一列代表一個指標:


同時,我們假設:


也就是說,只有下標集合為 S 的解釋變數對應的係數是非零的,這說明,這些解釋變數就是我們需要的變數(其他變數係數為 0,因此沒有影響)。問題轉化為如何正確地選出下標集合為 S 的變數,我們嘗試用一些統計模型來解決這一問題。


LASSO 是 1996 年由羅伯特·提布施瓦尼提出來的統計模型,它能夠得到稀疏(大部分係數都是 0)的解,並在 2006 年由 Peng Zhao,Bin Yu 證明出當滿足一定條件的時候,LASSO 可以具有「model selection consistency」,即正確地挑選出下標集合為 S 的解釋變數。


在寫成拉格朗日形式之後,LASSO 模型可以轉化為解如下的優化問題:


其中:


我們可以看到,當 λ=+∞ 時,β=0,也就是說,所有的變數都沒有被選出來。而當λ=0的時候,所有的變數以 100%的概率被選出來。兩種情況都沒有什麼意義,因此我們要在 (0,+∞)內選擇合適的 λ 值,從而挑選出我們需要的變數。


我們可以觀察到,當 λ 值從正無窮減少的時候,會傾向於有越來越多的變數被選出來,模型的擬合能力越來越強,這會使得模型在數據上擬合地越來越準確,這有一定的好處,因為變數太少則擬合力度不夠(Underfiiting),但過於精確則會導致過擬合(Overfitting)的問題。比如下面左圖,藍色的直線就沒有能夠很好地擬合黃色的點,而最右邊圖的藍色曲線又擬合得太過。

怎樣用數學模型靠譜地討論足球流氓



▍因此在出現新的數據時(上面三幅圖的藍點),左邊的直線及右邊的曲線會分別由於欠擬合和過擬合的原因,距離藍點有一定距離


為解決這一問題,我們引入了 BIC 這個概念,它是模型選擇的衡量指標,BIC 值越小,代表這個指標認為欠擬合和過擬合之間平衡的越好。


將數據代入 LASSO 這一模型當中,我們畫出了 BIC 關於 1/λ的曲線圖:

怎樣用數學模型靠譜地討論足球流氓



由圖可以看出,在紅色虛線對應的位置上,BIC 值最小,認為選擇的模型最優。這時,選出的變數是「平均觀眾人數」、「人口」和「失業率年增長率」。


除了「人口」這一比較顯然的因素之外,「平均觀眾人數」可以反映球迷對俱樂部的關注程度,它的係數是正的,證明模型認為它與目標變數 y 呈正相關,球迷的關注度越高,足球流氓現象就越有可能滋生。


同樣,「失業率年增長率」也被認為和 y 呈正的相關關係,因此相比較「失業率」,更有影響的因素是「失業率年增長率」,後者越高,越容易引發社會的不滿,社會問題也會越來越多,包括足球流氓現象。


事實上,我們還可以做得更好。


在被今年 NIPS(神經信息處理系統大會)接受的論文Split LBI: An Iterative Regularization Path with Structural Sparsity(《Split LBI:一種可以給出結構稀疏路徑解的迭代演算法》)中,作者提出基於 Variable Splitting 和 LBI solution path 的迭代演算法 Split LBI,並從理論和實驗上證明,相比較於 LASSO,它可以得到更好的模型選擇結果。理論部分,感興趣的讀者可以去讀論文,這裡不再贅述。


對於實驗部分,作者採用「Area under the Curve of ROC(AUC)」來作為變數選擇的評價指標。我們結合 ROC 曲線一起來解釋。縱軸 TPR 表示選對變數的數量與真實變數數量的比率,而橫軸 FPR 表示選錯變數的數量占所有非真實變數數量的比率。

怎樣用數學模型靠譜地討論足球流氓



每一次迭代,演算法都會選出一些變數,我們可以根據這些選出來的變數以及真實的變數集合 S,來計算出 TPR 和 FPR,上圖中的紅點代表每次迭代的(TPR, FPR)。把這些紅點連接起來,就是 ROC 曲線,曲線下面的藍色部分的面積,就是 AUC。可以看出,AUC 的取值範圍是 0~1,值越大,代表模型選擇越好。

怎樣用數學模型靠譜地討論足球流氓



上面的表格列出了 LASSO 與 Split LBI 的 100 次模擬的 AUC 平均值及標準差。左邊的 genlasso 就是 LASSO(genlasso 的矩陣 D=I 時),右邊的 Split LBI 最好的時候可以達到 0.9982,要好於 genlasso 的 0.9426。


相比較用於解 LASSO 的 LARS 演算法,Split LBI 的迭代演算法形式上更簡單,我們還可以將選出的變數關於時間進行可視化。如下圖:

怎樣用數學模型靠譜地討論足球流氓



▍橫坐標代表時間,縱坐標表示變數的值,每條曲線表示該變數隨著時間變化的值。綠色方塊記錄著變數的名稱。紅色箭頭表示在相應的時間點上,指向的變數被演算法選出來,即認為非零。


在演算法剛開始時,是沒有變數選進來的。而後,「平均觀眾人數」這個變數被選到模型中來,緊接著是「人口」,當「失業率年增長率」被選進來之後,模型就是上面利用 BIC 最小時得到的模型。後面「經濟不活躍比率」、「消費者物價指數年增長率」,「無職業資格等級人口佔比」被陸續選了進來。


在這裡面,「經濟不活躍比率」表示非工作人群占人口比例,非工作人群包括學生,老人等群體。這些群體所佔比例越大,社會壓力也就相對越大。同樣的還有「消費者物價指數年增長率」,也與社會壓力呈正相關。


值得一提的是,第六個選出的變數「無職業資格等級人口佔比」(Rate of No qualification),指的是沒有 NVQ 等級的人占人口的比例。NVQ 是英國的國家職業資格證書制度,用于衡量執業人員職業能力,包括知識水平,運用能力,操作能力等。它共分為 5 個等級,級別越高代表職業能力越強。


而模型認為「無職業資格等級人口佔比」是與 y 是呈負相關的,這一方面說明近些年,這些「職業素養」相對低的人群不一定再是鬧事人員的主導因素,因為它的比例越低,表明具有職業資格的人的比例越高。


需要說明的是,解釋變數間都是有相關關係的,因此也不好針對單一因素來解釋。此外,演算法跑到了這裡,選出變數的解釋性相對之前就變弱了一些,隨著迭代的進行,演算法還會選出認為那些更不重要的,解釋性更弱的變數。將這一過程可視化後,這種現象也看起來更加直觀。


很遺憾,這裡只分析了最近 10 年的數據。理想情況應該從 1960 年代就開始分析,但當時並無官方統計數據。此外,有一些指標,比如各個地區的經濟不活躍指標、各種職業所佔比例等也都是在 2004 年開始才有數據。


最後必要說一句,近些年英國足球流氓現象稍有好轉,至少逮捕數據逐漸下降,但它不能完全代表球場內外的看球文化。而由於之前定性的研究已經潰爛,學術界也失去了研究它的新鮮感。媒體再度開始討論足球流氓,是因為 2016 年 「戰鬥民族」加入了這個話題。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 大象公會 的精彩文章:

為什麼「抗日神劇」這麼不靠譜
荒誕怪:挑戰你對脊椎動物的極限想像
為什麼會有倒懸的彩虹
馬爾他騎士團是一個什麼樣的國家
「聯合國破格降半旗」是何時編出來的

TAG:大象公會 |

您可能感興趣

睡前討論應用題可提升孩子數學能力?
硬核在此!討論一下流浪地球的軌道問題
能愛上性機器人嗎?科學家們正在積極地討論這個問題
全球科技巨頭將專門開會討論用戶隱私數據安全問題
魚和熊掌能否兼得?從合規角度討論數字證券協議的互操作性
新一輪互聯網造車討論潮,造車新勢力誰最靠譜ES8到底靠譜不靠譜?
知乎上線世界盃專題頁 為網民帶來高質量賽事討論
都是真球迷?掘金球員賽後看勇火大戰並討論各名宿影響力
一個深不可測的討論話題
華為聯想官方表態互相支持難能可貴 5G之路標準討論不必上綱上線 煽動民粹是玩火不可取
讓更多科學家坐下來盡情討論吧
討論出適合湖人現有陣容的自由角色球員
檢驗大討論——導管相關血流感染引起的發熱
造型激似動漫人物,石原里美新雜誌照引發討論
無組織討論測驗,測出你是哪種人格類型!
關於智能吸塵器標準的大討論
氣虛、濕熱也是病?傳統醫學疾病分類納入WHO體系引發醫學大討論
討論十二地支對應十二經絡的可能情況
自動駕駛風波不斷、全球領袖討論如何監管科技企業……一周熱點新聞回顧
地球的臭氧空洞恢復得怎麼樣了?為什麼現在沒人討論這個話題了