當前位置:
首頁 > 知識 > 事關 200 萬人的死因,理解數據需要一場博弈

事關 200 萬人的死因,理解數據需要一場博弈

事關 200 萬人的死因,理解數據需要一場博弈



「數據會說謊」的真實例子有哪些?

Manolo,經濟學/歷史學愛好者,計劃申請JD。


舉一個事關 200 萬人死因的例子,來自 Drixler(2016)。核心結論在最後一段。


出生後幾天內已經死去的嬰兒,統計有可能歸入三類。一是胎死腹中(stillbirth),二是出生後死亡(death in postpartum),三是殺嬰(infanticide)。1868-1945 年,日本一部分郡的死胎率異乎尋常地高。從下圖可以看到,有許多郡都在 10% 以上,少數甚至在部分年份超過 20%。

事關 200 萬人的死因,理解數據需要一場博弈


日本當時的戶籍制度很嚴格,採集的數據大部分比較可靠。不過,死胎這部分是居民自己報告。因此,有可能是新生兒父母殺掉孩子,再用死胎名義上報。這裡,死胎這個數據撒謊沒有?如果有,怎麼找出問題?接下來的分析可能比較繁複冗長,望諸位多一點耐心。

事關 200 萬人的死因,理解數據需要一場博弈



上面這張圖把數據畫到了日本地圖上。顏色越深,死胎比率越高。有三個地方尤其聚集:一是關西兵庫縣附近,二是關東千葉縣附近,三是西本州廣島附近。日本不算大國,這麼一塊地方,有幾個點死胎率比其它地方高 5% 甚至 10%,不尋常。如果數據真實,這幾個地方應該有特別之處。

事關 200 萬人的死因,理解數據需要一場博弈



第二個疑點是數據本身高得離譜。上圖來自 Drixler 附表的一部分,表中有全球各地大量記錄 1578-2010 年死胎率的數據。幾乎沒有國家這個數字會超過 10%,歐洲迄今為止最高是 1809-1810 年的斯塔拉斯堡,9%。超過 10% 而不屬於日本的例子只有三個:1923-1924 年美國 22 個州的非裔、1915-1949 年的模里西斯、1867-1946 年安提瓜的殖民者。大範圍長時段超過 10%,亘古未有。

事關 200 萬人的死因,理解數據需要一場博弈


第三個疑點是性別比。見上圖,黑點是除日本外世界各國死胎的性別比,白點是日本死胎的性別比。除日本外所有樣本,只有 3.5% 性別比低於 115,每 100 個女胎對應 115 個男胎。而日本超過 50% 的數據低於 115。女孩子消失了。見下圖,隨時間推移,總死胎率下降,性別比也慢慢恢復正常。

事關 200 萬人的死因,理解數據需要一場博弈



儘管疑點多多,學者傳統上還是接受這套數據,並且找了很多很多解釋,比如經濟差距、營養不良和傳染病等。但是,簡單的回歸就可以瓦解這些解釋。把死胎率對人均 GDP、城市化率、10 年後新兵身高、女性維生素 B1 缺乏症患病率、孕產婦死亡率和梅毒死亡率回歸,無一顯著。

事關 200 萬人的死因,理解數據需要一場博弈



可以進一步做更有力的批評。首先,現有估計表明日本在 1900 年前後人均卡路里日攝入量達 2000 卡。其次,對比其它幾次著名饑荒,1866-1868 年芬蘭饑荒餓死全國 7% 人口,死胎率從 3% 上升到了 4.3%。1899-1900 年印度饑荒期間死胎率估計是 5.1%,中國三年饑荒期間這個數字不到 2%。


另一種常見的解釋是日本婦女乾重活。問題在於:首先,大範圍研究顯示重體力活實際上減輕了死胎率;其次,死胎率高發地區大部分集中於城市,而承擔體力活較多的一般是農村婦女。實際上城市整體死胎率比農村要高 1.15 倍。

事關 200 萬人的死因,理解數據需要一場博弈



另一常見解釋是環境污染。日光銅礦(the Ashio Copper Mine)恰好與關東地區死胎數目最多地區重合。但是,如果把圖畫得更細一些,受銅礦污染影響地區與死胎比例最高地區並不重合。對神岡鋅礦(the Kamioka Zinc Mine)的類似研究得到了一致的結論。


貧血、梅毒、天花、猩紅熱、瘧疾等疾病也是常見解釋。不過,有數據的,做回歸都不顯著。國際比較也不支持這些解釋。以梅毒為例,坦尚尼亞研究顯示,患梅毒導致死胎率升高不超過 1%。玻利維亞梅毒產婦,整體死胎率是 2.3%。

事關 200 萬人的死因,理解數據需要一場博弈



也可能是政府編造了數據。但是,死胎率高地區傾向於集聚,邊界處死胎率數據變化平滑,數據整體服從本福德法則,各地區編造幾無可能同時滿足這幾點。最後一項可能是個人為了逃避死亡登記麻煩(當時規定出生後死亡要額外報告填表),把出生後幾天胎兒報成胎死腹中。這有可能,但這部分數目相比死胎不大。同樣有可能的一點是出生後死亡里也掩蓋了一部分殺嬰。上面這張圖顯示:死胎率高的地方,嬰兒剛出生就死亡的比率也高。這裡和前面的誤報可以抵消一部分。

事關 200 萬人的死因,理解數據需要一場博弈



因此,所謂的死胎數據很可能騙了人,其中很大一部分可能幹脆就是被殺死,然後說成是出生前就死了。作者用國際數據作了推算,按最保守假設,日本這段時間內有 170 萬殺嬰報成了死胎;按最松的假設,這個數字是 280 萬。數據僅供參考,詳細步驟見原文。這也是開頭第一句話的來源。


最後說一點。儘管拿出了這麼多證據,作者是不是真的證明了這個數據在騙人呢?沒有,只能說這個數據很可能不靠譜。對殺嬰的估計更加只能是參考了。日常生活中,我們可能沒有精力,也沒有能力去從這麼多方面檢查我們要用的數據,最好的辦法是什麼?


我的答案是用博弈的觀點看數據,看彙報數據、使用數據的人有沒有激勵操縱。他們有計策,自己有對策,把數據從偏離方向往回打個折。至於具體打多少,這也算是數據分析大師和菜鳥間的區別之一。如果對面知道你會打折扣,問題就更複雜了。數據有坑的另外一些例子可見知乎專欄。


參考文獻:Drixler F F. "Hidden in Plain Sight: Stillbirths and Infanticides in Imperial Japan"[J]. TheJournal of Economic History, 2016, 76(3):651-696.


補充:


現代化之前殺嬰是常見現象,現代也不少。比較常見的兩個原因是養不活(沒有可靠避孕和流產方法、貧困、缺乏社會救濟)和名譽問題。另外前面指出死胎數據里男女比例不對,重男輕女會會導致殺害女嬰現象發生。女嬰異常死亡是亞洲地區男女比例偏高的所謂 missing woman puzzle 的重要原因。這個答案有很好介紹:有哪些有意思的經濟學之「謎」。

您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知乎日報 的精彩文章:

兩顆衛星撞在一起,產生的太空垃圾幾乎布滿全球
別只盯著大疆,無人機市場還有很多機會
小事·不想生孩子
分成兩瓣的尾鰭,會是鯨魚的腿演化而來嗎?
簡單介紹一下這次出事的日本福島核電站

TAG:知乎日報 |

您可能感興趣

賺100萬需要多久,這4個故事讓人醍醐灌頂
從130到90 只需要這3件事
【1.03】人生還有很多事情需要忍
2017年,時尚圈的哪10個關鍵詞需要你記住?
2017年,你不需要有人對你好
只為死人服務的酒店,每位死者過夜需要費用1069人民幣
女人32-47歲,黃金15年,你需要做的10件事
女人32-47歲,黃金15年,你需要做的10件事!
蛻變不需要理由,他只有160的身高,卻練出了180的身材
屬牛人:2017年事業運勢,需要謹慎小人!
2017年波馬 你需要記住的8件事
以前通讀24史需要11年,現在只要60分鐘
印度在3000多年裡為何未能統一,還需要英國人幫忙
32-47歲,黃金15年,你需要做的10件事!
據說它是世界上最大的藏獒,配種一次需要100萬!
2個月吸粉20000,這個看片神器還不需要會員,憑什麼?
7个德国人发明了100%的树叶餐盘,把需要730000天降解的餐具,缩短成28天
1981-1991年出生的人,有件大事需要辦
命名一艘軍艦需要多少錢?054A「報價」100萬