當前位置:
首頁 > 科技 > 又一篇CVPR 2022論文被指抄襲,平安保險研究者控訴IBM蘇黎世團隊

又一篇CVPR 2022論文被指抄襲,平安保險研究者控訴IBM蘇黎世團隊

機器之心報道

編輯:張倩


「他們並不是照抄文本,而是剽竊想法。」

昨天,有人在 reddit 上發帖稱,IBM 蘇黎世研究中心剽竊了自己的論文,而且還被 CVPR 2022 接收了。

這位發帖者寫道:

我叫 Xianbiao Qi,是一位有十多年研究經驗的計算機視覺研究者。我寫這個博客是為了投訴一個嚴重的案例:IBM 蘇黎世研究中心的員工蓄意剽竊我們的論文。他們並不是照抄文本,而是剽竊想法。

Qi 提到的疑似被抄襲的論文題為「PingAn-VCGroup"s Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML(平安 VCGroup 為 ICDAR 2021 科學文獻解析競賽任務 B 提供的解決方案:HTML 表格識別)」,作者來自平安保險和平安科技,上傳 arXiv 的時間是 2021 年 5 月份,2021 年 7 月份公布了代碼,2021 年 9 月發布了 Tablemaster 預訓練模型,2021 年 11 月發布了 tablemaster_mmocr docker 環境。論文中提到的競賽是 2021 年 4 月結束的,由 IBM 的另一個團隊主辦。

論文鏈接:https://arxiv.org/pdf/2105.01848.pdf

如論文標題所述,這篇文章為 ICDAR 2021 科學文獻解析競賽任務 B(HTML 表格識別)提供了一套解決方案。具體來說,他們將表格內容識別分為四個子任務:表格結構識別、文本行檢測、文本行識別和框分配。表格結構識別演算法是基於一種魯棒的圖像文本識別演算法 MASTER 定製的。PSENet 用於檢測表圖像中的每個文本行。文本行識別模型也建立在 MASTER 之上。最後,在框分配階段,他們將 PSENet 檢測到的文本框與通過表結構預測重構的結構項相關聯,並將文本行的可識別內容填充到對應項中。

被指抄襲的 IBM 論文題為「TableFormer: Table Structure Understanding with Transformers(TableFormer:用 Transformer 理解表結構)」,上傳 arXiv 的時間是 2022 年 3 月份,提交給 CVPR 的時間未知。

論文鏈接:https://arxiv.org/pdf/2203.01017.pdf

在這篇論文中,IBM 的研究人員提出了一種新的表結構識別模型,它從兩個方面改進了最新的端到端深度學習模型(即來自 PubTabNet 的 encoder-dual-decoder)。首先,他們引入了一種新的目標檢測解碼器用於表格單元格。通過這種方式,他們可以直接從 PDF 源中獲取編程式 PDF 的表格單元格內容,從而避免了定製 OCR 解碼器的訓練。這種架構上的改變帶來了更精確的表格內容提取。其次,他們將 LSTM 解碼器替換為基於 transformer 的解碼器。

Qi 表示,IBM 的這篇論文剽竊了他們的方法論、預處理、後處理、可視效果、推理、系統級解決方案、代碼、預訓練模型等內容,但「為了不被抓住」,他們沒有引用 Qi 等人的論文。

接下來,Qi 用十幾張圖展示了他認為 IBM 存在抄襲的地方。

Qi 展示的疑似抄襲點 1:方法論。他認為,IBM 的研究者抄襲了他們的想法,並重寫了「貢獻」部分,而且根據他們的圖重新畫了結構圖。


Qi 展示的疑似抄襲點 2:預處理。

Qi 展示的疑似抄襲點 3:後處理。

Qi 展示的疑似抄襲點 4:推理加速方法

Qi 展示的疑似抄襲點 5:技巧。

Qi 展示的疑似抄襲點 6:文本行檢測和文本行識別。

Qi 展示的疑似抄襲點 7:系統級解決方案。

Qi 展示的疑似抄襲點 8:可視效果。

Qi 展示的疑似抄襲點 9:誤導讀者。

在看了 Qi 給出的示例後,有人認為這些都是非常有力的證據,IBM 團隊很難證明自己的論文是原創的,Qi 應該向 CVPR 程序委員會投訴。

不過,也有人認為,這些證據不夠有力:「兩個小組研究的是同一個問題,使用的是相同的公開數據,他們的解決方案也有相似之處。但這並不意味著一方照搬另一方。例如「疑似抄襲點 1」中所展示的內容就不是那麼接近」。

目前,我們還沒有在帖子下方看到 IBM 論文作者的回應。

不過,值得一提的是,這並不是今年 CVPR 曝出的唯一一件疑似抄襲事件。幾天前,一位網友在 YouTube 上爆料說,首爾大學的一篇論文抄襲了十幾篇其他論文,目前該論文作者已經出來道歉並撤稿。

或許,頂會論文在查重上面需要多下點功夫了。

參考鏈接:https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 機器之心Pro 的精彩文章:

免費流片還包郵到家,谷歌「拼團」晶元項目推出了官方教程網站
50億圖文中提取中文跨模態基準,奇虎360預訓練框架超越多項SOTA