傻傻分不清「樣本」和「樣品」,真不怪你
「樣本」和「樣品」這兩個詞出現在很多商品貿易、工程學、生物學資料中,甚至同時出現在同一段落的上下句。它們是同一個意思嗎?能否混用?
英文sample翻譯成「樣本」還是「樣品」?
樣本和樣品有啥區別?這個問題至少兩次被學生問起,照本宣科的回答之後我自己卻心裡發毛;
因為除了中英文的翻譯對應,在日常生活和各行各業中「樣」這個漢字似乎有著各種各樣、千差萬別的含義。
「樣本」和「樣品」的含義並不完全等價,雖然英文都是sample這個詞。
樣本是統計學上研究對象某個統計指標總體的一個子集;而樣品是指代表一類對象的材料實體的個體。維基百科上,「樣品」對應詞條是Sample (material);而「樣本」對應詞條是Sample (statistics)。
教科書&維基百科
例如李松崗《實用生物統計》一書中,樣本是從總體中抽取的一組(一或多個)個體的集合。
通常,總體、個體、樣本是放在一起來講的。總體是指所考察對象的全體,個體是總體中的每一個考察對象,樣本是總體的一個子集或多重子集,而樣本量(也稱樣本容量)則是指樣本中個體的數目。
樣品並無特別說明和定義,但使用上明顯的是,樣品是指材料上可區分的一個個實物,並無集合的含義,因而明顯與樣本不等價。
樣品通常強調的是較大量實物的一小部分,但有時,比如整個標本specimen,也可當做分析研究的樣品。
樣本則聚焦於統計學意義上,抽象或具象地都對應著來自某總體的數據集。樣本中的每個個體元素稱為樣本點或樣本單元或觀察結果。
樣本Sample在本源上的含義是指觀察或研究對象(如統計指標或自然社會現象)的一個代表[集合]。因此,統計學語境下的樣本強烈地提醒研究者或設計者去明確樣本所要代表的總體是什麼,以便設計方案和獲取合適的樣本。
服裝樣品:服裝店的博學小姐姐
前些天我家妞妞寶看中了童裝店櫥窗的一件花裙子。店員小姐姐拿來同款衣服的盒子打開,但是妞妞寶堅持要櫥窗里那一件……小姐姐解釋道「那個是樣品,不賣的」。正被「樣品」所困的妞爸不禁追問下去,沒想到小姐姐還是學過服裝設計並在服裝廠工作過的,於是我了解到服裝界好多的樣品稱謂。
服裝樣品的種類:開發樣(也稱頭樣)、銷售樣、跳碼樣(試身樣)、測試樣、產前樣(量產前客戶確認樣)、封樣(大貨產品生產標準)、船樣(大貨抽檢樣品)。
我立刻認出了最後的船樣是統計學意義下的樣品Sample。
而前面幾種樣品中的「樣」有樣式pattern之意,即作為代表設計參數的實物樣式或後續生產的樣板。
然而漢語的語感中【我相信很多人還是能清晰感受到】,前面幾個「樣」字仍有服裝參數或產品的代表之意。
服裝紙樣,也稱為服裝樣板或服裝模板。服裝打版就是把服裝創意設計圖做出樣板即紙樣;正式名稱叫服裝結構設計,這一步是創作設計和工藝設計之間的橋樑。
膩害了服裝店小姐姐!這時妞妞寶的注意力已經轉移了……
臨床血樣與食品抽檢
臨床采血稱為血樣:臨床想知道的是一個人的血糖、電解質、轉氨酶等指標的數值,是針對其周身全部血液的,只抽取一管血來代表,即是樣本。不同檢測抽取的血量也會有所不同。
食品生產出來,要檢查下其中營養物質、細菌、重金屬等含量是否達標,是針對全部產品的,但一個批次常常只抽取幾克或幾ml進行實際檢測,所抽取用來代表整個批次食品的,即是樣本。
而在實際扦樣、分樣和檢驗操作過程中,首先從整個批次所有產品選取某幾盒或某幾袋,即原始樣品(總樣品);進而化學檢驗需要將原始樣品混勻縮分,得到化驗所需量的平均樣品(縮分樣品);經過破碎、加工等處理後,最終直接化驗實驗或儀器測量之前的樣品稱為試驗樣品(或供試樣品)。
從這兩個實例中可以看出,相對直接簡單的臨床血樣明顯對應著統計學意義的樣本;而相對繁瑣複雜的食品抽檢就需要細分每一個操作過程中對實物的具體處理,不能籠統地都稱為樣本,而需要根據報告對象和具體語境來確定。對所檢批次來說,少量樣品的檢驗結果要放在統計推斷的邏輯中來判定整個批次的質量是否合格,因此檢驗報告結果是食品質量相關指標的一個樣本。
礦物或生物標本specimen
在博物館和百科類圖書中,常見到標本(specimen)這個詞。其實際含義是代表某種生物或礦物的一種規範性實物。
相比於樣品Sample,在生態保護及礦物勘探中,標本specimen或許更常用。標本從內涵上也有著作為相應生物或礦物種類的代表之意,但並不明確指向具體研究目的或某個統計指標。因而標本在研究中可視為一類具體特殊的樣品,而在日常語境中仍是博物學意義的實物展示與長期保藏品。
實踐上,只有統計學語境下,樣本有著非常明確的代表集的含義,而【計算機文件存儲、轉換、傳輸等數據操作和材料摘取、分離、處理、運輸、儲存等實物環節中】數據和材料稱為Sample時均屬於引申義,因為:
很多情況下,並不明確也無需明確這個Sample具體確切代表啥統計指標或自然社會現象。
GIF
一旦需用這些數據或材料作為某種觀察或研究對象的代表,就可以自然而然地稱之為樣本或樣品。
樣本強調代表集包含所需的統計指標信息,而樣品強調代表集對應的材料實物。
樣本是整體性概念,比如說一個藥物評價研究的樣本,樣本容量可能是30,即30個試藥人,而有90份樣品(每個試藥人在試藥過程中採集了3個節點的血樣),即樣品是以實物為中心的概念。而這中間血樣是對試藥人全身血液的抽樣,進而3個節點的血樣合起來是作為藥物評價的一個樣本點。
我們可以說「樣品污染」,但不能說「樣本污染」,而最多說樣本中的例外點(outlier,也稱離群值)。因為實物才可以被污染,甚至語言比喻還會說一個人的思想、一個地域的文化被污染,而統計學意義下的抽象樣本卻無法被污染、而只可能搞錯。
對於一些複雜現象和相關研究來說,樣本的清晰定義和樣品的準確獲取直接決定著研究設計的優劣和研究結果的成敗。
做一個安靜的華小胖
肥胖是一個複雜現象。比如首先胖瘦是一個相對概念,我們要試著去確定一個統計指標才好。那麼用什麼指標呢?有人說體重,可能更多人會贊同BMI(體重除以身高的平方,全部用國際公制單位)。華小胖項目中,BMI超過24的BGIers被視為華小胖。
因此每個華小胖都是BMI指標下肥胖現象的一個樣品,也可視為樣本容量為1的一個樣本。而實際上所有華小胖(約300多人)一起構成了肥胖的一個樣本。
這裡並未顯式定義樣本對應的總體,不過容易腦補出來:所有胖子(BMI>24的人,包括過去、現在及未來的人,嚴謹一點還可以加上年齡限制)。
但BMI也並非肥胖現象的最佳統計指標,比如已有研究表明:體脂率更貼切地表示了肥胖程度。因此貌似:樣品不變時,我們所談論的樣本卻可能變化,比如從BMI樣本變成體脂率樣本。
事實當然沒這麼簡單:作為肥胖這個複雜現象,BMI或體脂率都是對這種現象的一種抽象簡化,對肥胖現象的全面完整研究來說,這一群活生生的華小胖才是肥胖現象的一個樣本。
現有手段選用一些可以測量或容易測量的指標來刻畫肥胖現象的主體或側面,隨著研究進展可能不再使用BMI或體脂率、而是使用其它更準確全面的統計指標,但是華小胖仍然是肥胖現象的一個樣本。
因此可以說,對樣本和樣品概念的認識爭議辨析,實際上迫使我們了解其隨著研究過程的動態變化,和特定時間和空間條件下構造或選擇可測量的統計指標。


TAG:可思議 |