當前位置:
首頁 > 最新 > 李白對話錄之九:語義破格的出口

李白對話錄之九:語義破格的出口

白:

「國內大把的錢想出逃」

錢不會「想」。但是「出逃」只有一個坑,除了「錢」沒有其他候選。這種情況下句法優先,語義的不匹配,到語用(pragmatics)層面找轍。一個語用出口是擬人、人格化,把錢人格化。另一個語用出口是延展使動用法,錢的主人「想」使錢出逃。

李:

出口的問題也許不必存在。句法搞定的東西 默認是 語義不出場 語用不解釋,除非落地需要這種解釋。落地通常不需要。譬如 mt,一個語言的語義不諧而產生的轉義通常可以平移到目標語,哪怕是八杆子打不著的語種之間。譬如喬姆斯基的 green ideas,直譯成漢語,同樣可以反映喬老爺想 make 的 point:句法確定的時候 可以排除語義。

白:

聚焦句法的人看到的是half full,聚焦全局的人看到的是half empty。

李:哈

這裡談的是默認。默認做法是、一直是,語義破格是默認許可的,句法破格才需要語義出場。 因為自然語言中,句法確定場合下 語義破格太常見了,常見到見怪不怪。無需解釋。而受體在理解過程中 常常各有各的理解 根據這個人的教育和素養 而不是語言學 後者個體差異不大。

白:

默認的主體是誰

分析器么?分析器我同意。但默認的主體不必然是分析器。

李:

換句話說,如語義破格一定要給一個語用出口的話,很可能莫衷一是,標準很難制定。譬如喬老爺的破格的 green ideas,我們語言學家的理解 與普羅的理解 在語用層面相差太大。但是在句法層面,精英與普羅是一致的,雖然普羅可能不知道主謂賓定等術語。

白:

錢想出逃,在應用場景中是有意義的,不管精英普羅,並沒有大的分歧

李:

洗錢 的意思?

白:

不一定,也有正常的恐慌.包括本地賺了人民幣覺得不安全的,以及外資覺得不想繼續玩下去的。

李:

這些破格帶來的附加的意義,是聽眾體會出來的。每個人的體會即便大體方向一致,也很多差異。白老師的理解,比我的理解要豐富,比普羅更不同。很難形式化。即便能形式化 也很危險,因為有強加於人 限制其他可能的缺陷。

白:

這不重要,重要的是面向大眾中和精英的預警都要take it into account。

李:

也許只要指出某個關節 語義破格 就可以了,至於這個破格意味什麼 讓人各自琢磨。其實破格的事兒 指出不指出 大家都心知肚明。

白:

偉哥說的是模塊視角,不是系統或服務視角。換到服務視角,即便面向普羅,但是定位也可以是讓普羅覺得專業,精英覺得不外行。一個帶有修辭性語義破格的表述只有把附加意義掰開揉碎了才能向後傳播,跟其他信息滾在一起發酵。在NLP同行間心知肚明的事,要想在知識情報各個piece之間引發chemistry,必須還原為掰開揉碎的形態。形成看上去專業的影響鏈、作用鏈。

李:

語義計算提供多種可能 在語用中發酵 是個好主意 ,可能提升人工智慧的深度。

白:

所以,一個有追求的服務,不會遷就普羅的非專業理解,而是想辦法把專業的理解用普羅便於接受的形式展現出來。

李:

不過 也有可能是潘多拉的盒子

白:

不喜歡不買便是

李:

發酵到不可收拾 不收斂,語義破格的確是 nondeterministic,本性就是發散。其本質是訴諸的人類的想像力。

白:

有些破格已經是家常便飯了

像這句家常便飯就是。

李:

「家常便飯」的破格 通常固化到詞典裡面去了 。綁架以後 就把破格合法化了 可以不算是破格了。只是詞源上 可以看到 兩個語義 對於同一個詞。系統是看成兩個個體的 儘管實際操作我們常常繞過wsd,不做區分 但是如果需要區分 詞典是給出了兩條路徑的。

白:

但和本意還是兩個義項

「沒怎麼特意準備,就是家常便飯,大家隨意吃哈。」

家常便飯遇到吃,和難過遇到小河,是一個性質。

李:

感覺正好反著

家常便飯遇到吃 是常態 默認;就好比 難過 遇到 人【human】。

家常便飯甚至誰也遇不到,也還是默認為本義 【food】。

「難過」 稍微模糊點 誰是本義 誰是轉義 可以 argue,但通常按照 hidden ambiguity 的原則,詞法大於句法,「難過」因此本義是 sad。

白:

計算機只管一個是本義、另一個是轉義,其他不care

李:

轉義帶有強烈的句法組合色彩 ,是 difficult to cross。

當然 這一切都聽人的安排,遵從便利原則。

語義計算 沒有人工 便沒有語義,沒有語義 就談不上計算。

說到底 人的語義 design 以及系統內部的協調的考量,是語義計算的出發點 數據是語義計算的營養基地。

白:

如果說到相似性,就是固定組合裡面的詞素和外面的詞素產生了搭配趨勢,改變了原來的結合路徑。

李:對。

「這條河很難過。」

lexical entry 「難過」裡面的詞素「過」與外面句法的詞素「河」發生了 VO 的關係糾纏。

「這孩子很難過。」

就沒有糾纏,橋是橋路是路。

白:

本義的家常便飯,和外面的「吃」有糾纏,轉義的沒有糾纏;本義的難過和外面的「小河」有糾纏,轉義的沒有。本義的不一定是概率最高的,譬如本義的「難-過」就可能比不上轉義的「難過」概率高。

李:

所以說,要 遵從便利原則, 系統內部協調。本義、轉義的區分不重要,重要的是內部協調:哪個義項最方便作為標配。一旦作為標配,就不必考慮糾纏的條件了。只有標配的選項 才需要條件,或者需要喚醒。一般而言是概率高的做標配。或者條件混沌、難搞定的那個做標配。然後讓條件清晰的去 override 標配,此所謂 system internal coordination。遵循 longest principle,具有 hidden ambiguity 的「難過」,詞典標配可以是 sad

白:

選最高概率的作為標配是情理之中,但標配如果恰好是本義,就不需要糾纏去喚醒本義了。「把國民經濟搞上去」

李:

最高概率原則保證的是,萬一系統沒有時間充分開發,標配至少保證了從 bag of word 的傳統模型上看,數據質量最優。我們實踐中也遇到過決定不採用概率最大的作為標配,這是因為概率大的那個選項,上下文條件很清晰,規則容易搞定。而概率小的選項卻條件模糊,所以索性就扔進詞典做了標配。所有這些考量都是 system internal,與語言學或詞源學上的本義、轉義沒有必然的對應聯繫。

白:

吃豆腐,標配是本義,搭配在本義內部糾纏,遇到sex上下文時進入轉義。不一定顯性,隱形的sex也在內。比如,「張三的豆腐你也敢吃?」 當然,張三賣的豆腐有食品安全問題時,也可以這麼問。後者更加specific,是「例外的例外」

李:

例外之例外不得超過三層,這是我的原則,甚至不超過兩層。雖然人使勁想,可以一直想到更精巧的例外之例外來。系統不要被帶到溝里去。曾經由著性子這麼干過,一路追下去,自以為得計。在某個時間的點,一切都 ok,但除非封裝為黑箱,只要系統還在繼續開發中,那種追求例外之例外的開發路線,結果是捉襟見肘,不堪維護。魯棒的系統不允許規則具有嵌套層次的依賴性。【科研筆記:系統不能太精巧,正如人不能太聰明】

白:

這話放在比特幣上,一堆人會跟你急。比特幣的設計實在是太精巧了。

李:

超人例外。電腦例外。機器學習例外。

肉身凡胎的人做自然語言系統,stay simple,stay foolish 怎麼強調也不過分。

白:

「人家都出軌了,你為啥還沒上軌」這標題有意思

李:

機器學習例外是因為反正就是個黑箱子,裡面有多少參數,調控成了怎樣都是一鍋粥,在 retraining 之前,這就是一鎚子買賣,好壞就是它,不跟人類講理。

白:

無規則的系統例外

李:

無 symbolic rule 的系統例外。規則的廣義似乎也包括黑箱子系統。嚴格說該是,無可以讓人干預的 symbolic rule 系統例外,如果是 symbolic,但是人不得干預,那也無妨。跟封裝等價。

白:

完全詞例化的系統也是無symbolic rule的系統嗎?

李:

在我這裡是。每一條都可以做符號邏輯的解釋,都遵循某種語言學的思路。

白:

人只能干預詞典

李:

句法是超然的,處變不驚。只有語義甚至修辭,才需要把 出軌 與 上軌 聯繫起來,感受其中的「深意」。interpretation 是圍繞人跳舞的,譬如我們做 sentiment,把大選輿情挖掘出來,至於如何解讀,各人面對挖掘出來的同樣的情報,會各自不同。很多人想讓機器也做這個解讀,基本是死路。上帝的歸上帝,凱撒的歸凱撒。剝奪人的解讀機會,簡直蠻不講理,而且也註定無益。

白:

在證券領域,就是智能投研和智能投顧的關係。

李:

解讀的下一步是決策。機器不能也不該做決策。

白:

智能投顧也可以是機器人,但根據一份智能投研報告,不同的智能投顧機器人可以做出不同的投資決策。機器真做決策。但是決策機器人和語義分析機器人之間有防火牆。在投資領域,機器比人強。人過於貪婪和不淡定。人處理信息特別是把握瞬間機會的能力不如機器。做對沖的不利用機器是不可想像的。

李:

這個我信。

甚至銀行的那些投資顧問,遇到過不止一個了,老是忽悠我們每年定期去免費諮詢他們,感覺他們的平均水平低於一台機器。按照他們幾乎千篇一律的所謂投資建議去投資,不會比遵循某個設計良好的系統的建議,更有好處。這些顧問應該被機器把飯碗砸了,省得誤導人。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 洗腳池 的精彩文章:

自然語言的並列:preference semantics at its worst

TAG:洗腳池 |

您可能感興趣

語言表徵:從詞嵌套到句子語義
前沿|通用句子語義編碼器,谷歌在語義文本相似性上的探索
通用句子語義編碼器,谷歌在語義文本相似性上的探索
前沿 | 通用句子語義編碼器,谷歌在語義文本相似性上的探索
自然語言語義代碼搜索之路
王爾玉:語言與語義識別的技術發展與趨勢
的四條標準語義
鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用
廣告語中的模糊語義!
資源 | 自然語言語義代碼搜索之路
雙面「龍傲天」:流行辭彙的語義泛化
語義分析介紹及跨語言信息在語義分析中的應用
瑞士人說德語法語義大利語,他們之間怎麼交流?
意能通劉雨松:做最垂直的語義技術場景丨鎂客請講
在歷史與語義的邊際
語義信息:定義「有意義」的信息
蘋果發文:全局語義信息能否改進神經語言模型?
鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用|AI 研習社第 70 期大講堂
語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?
邱振中:被封閉的語義、被打開的可能、部分揭示與全部被揭示的關係