pos機基準信息

新聞資訊2 | 2023-07-12 09:44 | 投稿人：pos機之家

網(wǎng)上有很多關(guān)于pos機基準信息,用于評估跨語言泛化的大規(guī)模多語言多任務基準的知識，也有很多人為大家解答關(guān)于pos機基準信息的問題，今天pos機之家(www.fqd168.com)為大家整理了關(guān)于這方面的知識，讓我們一起來看下吧!

本文目錄一覽：

1、pos機基準信息

pos機基準信息

自然語言處理 (NLP) 的主要挑戰(zhàn)之一是構(gòu)建不僅可以使用英語而且可以使用世界上所有約 6,900 種語言的系統(tǒng)。幸運的是，雖然世界上大多數(shù)語言都是數(shù)據(jù)稀疏的，并且沒有足夠的可用數(shù)據(jù)來自行訓練強大的模型，但許多語言確實共享大量的底層結(jié)構(gòu)。在詞匯層面上，語言往往有同源詞——例如，英語中的“ desk”和德語中的“ Tisch”都來自拉丁語“ discus”. 同樣，許多語言也以類似的方式標記語義角色，例如在漢語和土耳其語中都使用后置詞來標記時空關(guān)系。

在 NLP 中，有許多方法在訓練中利用多種語言的共享結(jié)構(gòu)來克服數(shù)據(jù)稀疏問題。從歷史上看，這些方法中的大多數(shù)都專注于以多種語言執(zhí)行特定任務。在過去的幾年里，在深度學習進步的推動下，嘗試學習通用多語言表示的方法數(shù)量有所增加（例如，mBERT、XLM、XLM-R)，旨在捕獲跨語言共享的知識，并且對許多任務有用。然而，在實踐中，對此類方法的評估主要集中在一小部分任務和語言相似的語言上。

為了鼓勵對多語言學習的更多研究，我們引入了“ XTREME：用于評估跨語言泛化的大規(guī)模多語言多任務基準”，它涵蓋了 40 種不同類型的語言（跨越 12 個語系），并包括 9 個需要對不同語言進行推理的任務。語法或語義級別。選擇 XTREME 中的語言是為了最大限度地提高語言多樣性、現(xiàn)有任務的覆蓋范圍以及訓練數(shù)據(jù)的可用性。其中有許多未被充分研究的語言，例如達羅毗荼語泰米爾語（在印度南部、斯里蘭卡和新加坡使用）、泰盧固語和馬拉雅拉姆語（主要在印度南部使用）以及尼日爾-剛果語斯瓦希里語和約魯巴語，在非洲使用。代碼和數(shù)據(jù)，包括運行各種基線的示例，可在此處獲得。

XTREME 任務和語言

XTREME 中包含的任務涵蓋了一系列范式，包括句子分類、結(jié)構(gòu)化預測、句子檢索和問答。因此，為了使模型在 XTREME 基準測試中取得成功，他們必須學習可推廣到許多標準跨語言遷移設置的表示。

每個任務都涵蓋 40 種語言的一個子集。為了獲得用于 XTREME 分析的低資源語言的額外數(shù)據(jù)，自然語言推理 ( XNLI ) 和問答 ( XQuAD ) 這兩個代表性任務的測試集被自動從英語翻譯成其余語言。我們表明，使用這些任務的翻譯測試集的模型表現(xiàn)出的性能與使用人工標記的測試集所達到的性能相當。

零樣本評估

要使用 XTREME 評估性能，必須首先使用鼓勵跨語言學習的目標在多語言文本上對模型進行預訓練。然后，他們對特定于任務的英語數(shù)據(jù)進行微調(diào)，因為英語是最有可能獲得標記數(shù)據(jù)的語言。然后，XTREME 評估這些模型的零樣本跨語言傳輸性能，即在沒有看到特定任務數(shù)據(jù)的其他語言上。從預訓練到微調(diào)再到零鏡頭轉(zhuǎn)移的三步過程如下圖所示。

在實踐中，這種零樣本設置的好處之一是計算效率——預訓練模型只需要針對每個任務的英語數(shù)據(jù)進行微調(diào)，然后就可以直接在其他語言上進行評估。然而，對于其他語言中可用的標記數(shù)據(jù)的任務，我們也比較了對語言數(shù)據(jù)的微調(diào)。最后，我們通過獲得所有九個 XTREME 任務的零樣本分數(shù)來提供綜合分數(shù)。

遷移學習的測試平臺

我們使用幾種最先進的預訓練多語言模型進行實驗，包括：多語言 BERT，流行 BERT 模型的多語言擴展；XLM和XLM-R，兩個更大版本的多語言 BERT，已經(jīng)在更多數(shù)據(jù)上進行了訓練；以及大規(guī)模多語言機器翻譯模型M4。這些模型的一個共同特點是它們已經(jīng)在來自多種語言的大量數(shù)據(jù)上進行了預訓練。對于我們的實驗，我們選擇了這些模型的變體，這些模型在大約 100 種語言上進行了預訓練，包括我們基準測試的 40 種語言。

我們發(fā)現(xiàn)，雖然模型在大多數(shù)現(xiàn)有英語任務上的表現(xiàn)接近人類，但許多其他語言的表現(xiàn)要低得多。在所有模型中，結(jié)構(gòu)化預測和問答任務的英語性能與其余語言的性能之間的差距最大，而結(jié)構(gòu)化預測和句子檢索任務的跨語言結(jié)果分布最大。

為了說明起見，在下圖中，我們顯示了在所有語言系列中按任務和語言劃分的零樣本設置 XLM-R 中性能最佳的模型的性能。跨任務的分數(shù)不具有可比性，因此主要關(guān)注點應該是跨任務的語言的相對排名。正如我們所看到的，許多高資源語言，尤其是印歐語系的語言，一直排名靠前。相比之下，該模型在漢藏語、日語、韓語和尼日爾-剛果語等其他語系的許多語言上的性能較低。

總的來說，我們做了一些有趣的觀察。

在零樣本設置中，M4 和 mBERT 在一些較簡單的任務上與 XLM-R 競爭，而后者在特別具有挑戰(zhàn)性的問答任務等方面的表現(xiàn)優(yōu)于它們。例如，在 XQuAD 上，XLM-R 得分為 76.6，而 mBERT 為 64.5，M4 為 64.6，在MLQA和TyDi QA上的分差相似。我們發(fā)現(xiàn)使用機器翻譯的基線（翻譯訓練數(shù)據(jù)或測試數(shù)據(jù)）非常有競爭力。在 XNLI 任務中，mBERT 在零樣本傳輸設置中得分為 65.4，在使用翻譯訓練數(shù)據(jù)時得分為 74.0。我們觀察到，少樣本設置（即，在可用時使用有限數(shù)量的語言標記數(shù)據(jù)）對于更簡單的任務（例如 NER）尤其具有競爭力，但對于更復雜的問答任務則不太有用。這可以從 mBERT 的性能中看出，它在 NER 任務上在小樣本設置中從 62.2 提高到 88.3，提高了 42%，但對于問答任務（TyDi QA），僅提高了 25%（59.7 到 74.5 ）。總體而言，在所有模型和設置中，英語和其他語言的表現(xiàn)之間仍然存在很大差距，這表明跨語言遷移的研究潛力很大。跨語言遷移分析

與之前關(guān)于深度模型泛化能力的觀察結(jié)果類似，我們觀察到如果語言有更多的預訓練數(shù)據(jù)，例如 mBERT，與 XLM-R 相比，結(jié)果會有所改善，XLM-R 具有更多的預訓練數(shù)據(jù). 然而，我們發(fā)現(xiàn)這種相關(guān)性不適用于結(jié)構(gòu)化預測任務、詞性標注(POS) 和命名實體識別(NER)，這表明當前的深度預訓練模型無法充分利用預訓練模型。 - 訓練數(shù)據(jù)轉(zhuǎn)移到這樣的句法任務。我們還發(fā)現(xiàn)模型難以轉(zhuǎn)移到非拉丁文字。這在 POS 任務中很明顯，mBERT 在西班牙語上實現(xiàn)了 86.9 的零樣本準確率，而在日語上僅為 49.2。

對于自然語言推理任務 XNLI，我們發(fā)現(xiàn)模型在大約 70% 的時間內(nèi)對英語的測試示例和另一種語言的同一示例做出相同的預測。半監(jiān)督方法可能有助于鼓勵改進對示例的預測與其不同語言的翻譯之間的一致性。我們還發(fā)現(xiàn)，模型難以預測在經(jīng)過微調(diào)的英語訓練數(shù)據(jù)中沒有看到的 POS 標簽序列，這突出表明這些模型難以從用于預訓練的大量未標記數(shù)據(jù)中學習其他語言的語法。 -訓練。對于命名實體識別，模型最難預測遠程語言的英語訓練數(shù)據(jù)中未出現(xiàn)的實體——印度尼西亞語和斯瓦希里語的準確率分別為 58.0 和 66.6，而葡萄牙語和法語的準確率分別為 82.3 和 80.1。

在多語言遷移學習方面取得進展

盡管世界上只有 15% 左右的人口會說英語，但英語一直是 NLP 最新進展的焦點。我們相信，在深度上下文表示的基礎上，我們現(xiàn)在擁有在為世界其他語言提供服務的系統(tǒng)上取得實質(zhì)性進展的工具。我們希望 XTREME 能夠促進多語言遷移學習的研究，類似于GLUE和SuperGLUE等基準如何刺激深度單語模型的發(fā)展，包括BERT、RoBERTa、XLNet、AlBERT等。

以上就是關(guān)于pos機基準信息,用于評估跨語言泛化的大規(guī)模多語言多任務基準的知識，后面我們會繼續(xù)為大家整理關(guān)于pos機基準信息的知識，希望能夠幫助到大家！

轉(zhuǎn)發(fā)請帶上網(wǎng)址：http://www.fqd168.com/newsone/83502.html

上一篇：pos機展業(yè)布下一篇：pos機展業(yè)日志

欧美一区二区三区免费看,深夜日韩欧美,亚洲三级av,国产精品啊啊啊

pos機基準信息

本文目錄一覽：

pos機基準信息

你可能會喜歡：