跳至內容

行間注釋

維基百科,自由的百科全書

語言學教育學中,行間注釋是放置在行間的一系列簡短解釋(例如定義或發音),如在原文和其翻譯之間的行間注釋。進行注釋後,每行原文都會有一行或多行相應的轉錄文本,稱為行間注釋文本interlinear glossed text,IGT)—簡稱行間注釋。這種注釋幫助讀者理解原文與其翻譯之間的關係以及原語言的結構。行間注釋最簡單的形式是對原文的逐字翻譯。

歷史[編輯]

1910年《Toussaint-Langenscheidt西班牙語》中的行間文本,這是一部為德語使用者編寫的西班牙語教科書

行間注釋在很長一段時間內被用於各種目的。其中一個常見用法是為雙語教科書提供注釋,以輔助語言教育。這種行間注釋旨在明確原文的意義,而不嘗試正式模擬原語言的結構特徵。

這種注釋偶爾也不是通過行間布局表達,而是通過目標語言和元語言中單詞的編號表達。威廉·馮·洪堡古典納瓦特爾語的注釋就是一個例子:[1]

1

ni-

1

ich

2

c-

3

mache

3

chihui

2

es

4

-lia

4

für

5

in

5

der

6

no-

6

mein

7

piltzin

7

Sohn

8

ce

8

ein

9

calli

9

Haus

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

ich mache es für der mein Sohn ein Haus

這種「行內」風格允許示例在文本流中包含,並且目標語言的單詞順序可以以近似目標語言句法的順序書寫。(在這裡的注釋中,「mache es」從相應的源順序重新排列,以更自然地近似德語句法。)即便如此,這種方法仍然要求讀者「重新對齊」源形式和目標形式之間的對應關係。

19世紀和20世紀的現代方法採取了垂直注釋的方式,將相同的逐詞內容排列,使元語言詞條垂直排列在源語言詞條下方。在這種風格中,給定的示例可能如下呈現(這裡是英文注釋):

ni-

I

c-

it

chihui

make

-lia

for

in

to-the

no-

my

piltzin

son

ce

a

calli

house

ni- c- chihui -lia in no- piltzin ce calli

I it make for to-the my son a house

"I made my son a house."

這裡單詞順序由目標語言的句法決定。

最後,現代語言學家採用了使用簡寫語法類別標籤的做法。2008年出版的一本書重述了這個例子,如下標註:[2]

ni-c-chihui-lia

1SG.SUBJ-3SG.OBJ-mach-APPL

in

DET

no-piltzin

1SG.POSS-Sohn

ce

ein

calli

Haus

ni-c-chihui-lia in no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

這種寫法更為緊湊,但閱讀起來也更麻煩。不過這種方式較少依賴於元語言的語法結構來表達目標形式的語義。

在計算領域,Unicode特殊字符中提供了特殊文本標記,用於指示行間注釋的開始和結束。

結構[編輯]

儘管IGT格式沒有正式規範,但萊比錫注釋規則[3]是一套旨在儘可能標準化格式的指南。

用於語言學的行間文本通常包含以下部分的一些或全部,通常按從上到下的順序排列:

  • 原文正字法(通常用斜體粗斜體表示),
  • 拉丁字母的常規音譯,
  • 音標轉錄,
  • 形態音位學音譯,
  • 逐詞或逐詞素注釋,其中單詞內的詞素用連字符或其他標點分隔,

以及

  • 自由翻譯,如果語言結構差異過大而無法逐行對應,則可以放在單獨段落或相對頁面上。

例如,以下台灣閩南語句子被轉錄成五行文本:

1. 標準白話字音譯,
2. 使用聲調數字注釋表面的聲調,
3. 注釋引用形式的基礎聲調(在經歷變調之前),
4. 英語逐詞素注釋,

以及

5. 英文翻譯:[4]

(1.)

(2.)

(3.)

(4.)

goá

goa1

goa2

I

iáu-boē

iau1-boe3

iau2-boe7

not-yet

koat-tēng

koat2-teng3

koat4-teng7

decide

tang-sî

tang7-si5

tang1-si5

when

boeh

boeh2

boeh4

want

tńg-khì

tng1-khi3.

tng2-khi3.

return.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.

(4.) I not-yet decide when want return.

(5.) "I have not yet decided when I shall return."

逐詞對齊. 根據萊比錫注釋規則,標準做法是將目標語言中的單詞與元語言中的對應單詞左對齊;這種對齊可以在(1-3行)和第(4行)之間看到。

逐詞素對應. 在詞內層面,可分割的詞素在例子和注釋中都用連字符分隔。在例子和注釋中應該有相同數量的連字符,如下例所示:

Gila

now

abur-u-n

they-OBL-GEN

ferma

farm

hamišaluǧ

forever

güǧüna

behind

amuqʼ-da-č

stay-FUT-NEG

Gila abur-u-n ferma hamišaluǧ güǧüna amuqʼ-da-č

now they-OBL-GEN farm forever behind stay-FUT-NEG

'Now their farm will not stay behind forever.'

語法類別標籤. 在amuqʼ-da-č中,詞幹(amuq)被翻譯為對應的英語詞根(stay),而屈折詞綴(da)和(č)分別表示將來時和否定。這些屈折詞綴被注釋為FUTNEG;萊比錫注釋規則中可以找到廣泛使用的語法類別標準縮寫。

一對多對應關係. 當單個目標語言元素對應多個元語言元素時,用句點分隔它們。[3]例如:

çık-mak

come.out-INF

çık-mak

come.out-INF

'to come out'

非顯性元素. 如果逐詞素注釋(中間行)包含的元素在例子中沒有顯性元素對應,標準策略是在目標語言文本中包含一個顯性的「ø」,[3]它像顯性元素一樣用連字符分隔:

puer-ø

boy-NOM

puer-ø

boy-NOM

'boy'

重疊的處理類似於詞綴,用波浪號(而不是標準連字符)將複製的元素連接到詞幹上:[3]

bi~bili

IPFV~buy

bi~bili

IPFV~buy

'is buying'

標點[編輯]

在行間形態注釋中,各種形式的標點用於分隔注釋。通常情況下,單詞與其注釋對齊;在單詞內部,當文本和其注釋中都有邊界時使用連字符,當邊界僅出現在其中一方時使用句點。也就是說,文本和其注釋中應有相同數量的單詞由空格分隔,單詞和其注釋中也應有相同數量的連字符分隔詞素。這是基本系統,可以普遍應用。例如:

Odadan hızlı çıktım. (土耳其語)

oda-dan

room-ABL

room-from

hız-lı

speed-COM

speed-with

çık-tı-m

go.out-PFV-1sg

go_out-perfective-I

oda-dan hız-lı çık-tı-m

room-ABL speed-COM go.out-PFV-1sg

room-from speed-with go_out-perfective-I

'我迅速離開了房間。'

當源語言中的一個單詞對應於注釋語言中的一個短語時,可以使用下劃線代替句點,如go_out-PFV,儘管在其他情況下仍然會使用句點,例如希臘語oikíais house.FEM.PL.DAT 'to the houses'。

然而,有時可能需要更細緻的區分。例如,附著詞可以用雙連字符(或為了便於輸入,用等號)而不是連字符分隔:

Je t'aime. (法語)

je⹀te⹀aime

I⹀you⹀love

je⹀te⹀aime

I⹀you⹀love

'我愛你。'

導致不連續的詞綴(中綴環綴、插入詞綴等)可以用尖括號分隔,重疊用波浪號分隔,而不是用連字符:

sulat, susulat, sumulat, sumusulat (動詞變化) (他加祿語)

sulat

write

su~sulat

未然式~write

sumulat

施事觸發.過去時write

sumu~sulat

施事 觸發未然式~write

sulat su~sulat sumulat sumu~sulat

write 未然式~write 施事觸發.過去時write 施事 觸發未然式~write

(參見詞綴了解其他例子。)

無法輕易分離出的詞素,例如德語變音,可以用反斜槓而不是句點標記:

unser-n

our-DAT.PL

Väter-n

father\PL-DAT.PL

(德語)

 

unser-n Väter-n

our-DAT.PL father\PL-DAT.PL

'給我們的父親們'(Väter '父親們'的單數形式是Vater

萊比錫注釋規則中還展示了一些其他有時會使用的慣例。[3]

行間注釋資源[編輯]

目前已經有將世界上數百種語言的IGT數位化的資源。[5]

行間文本在線資料庫[編輯]

行間文本在線資料庫 (ODIN) 是一個包含超過1500種語言的20多萬個行間注釋實例的資料庫,這些實例是從學術語言研究中提取出來的。[6] 該資料庫的構建分為兩個階段:自動構建和人工校正。自動構建階段本身分為三個步驟完成:

  1. 首先,使用搜尋引擎(如Google、Bing)檢索可能包含行間注釋的學術文獻。查詢包括與語言學研究相關的術語,例如語法詞素(如"NOM"——主格的縮寫;"3SG"——第三人稱單數的縮寫)。
  2. 其次,使用機器學習中的序列標註方法,對提取文檔中的每一行進行標記,判斷其是否屬於行間注釋行。
  3. 第三,給每個行間注釋實例分配一個語言名稱(如塔加洛語)和一個ISO 693-3語言ID。語言名稱和ID是使用自然語言處理中的共指解析模型自動分配給行間注釋的,這些行間注釋實例被標記為從學術文獻中提取時所使用的語言名稱(和ID)。[6]

在人工校正階段,資料庫創建者手動校正自動構建階段第二步中序列標註方法發現的行間注釋實例的邊界。然後,在數據的第二次和第三次遍歷中,分別驗證了語言名稱和語言代碼。

行間文本在線資料庫中行間注釋實例的語言分布(第一階段和第二階段)
行間注釋實例範圍 語言數量 行間注釋實例數量 行間注釋實例比例
>10,000 3 (1) 36,691 (10,814) 19.39 (6.88)
1000-9999 37 (31) 97,158 (81,218) 51.34 (51.69)
100-999 122 (139) 40,260 (46,420) 21.27 (29.55)
10-99 326 (460) 12,822 (15,560) 6.78 (9.96)
1-9 838 (862) 2,313 (3,012) 1.22 (1.92)
總計 1,326 (1,493) 189,244 (157,114) 100 (100)

行間注釋實例的自動處理[編輯]

現已有利用行間注釋資源(如行間文本在線資料庫)的自然語言處理模型。[7][8]

自動標註[編輯]

例如,自然語言處理系統已經被開發出來自動產生語境標註。[7]

mi-s

你-GEN

ħumukuli

駱駝

elu-ab-ok'ek'-asi

我們.OBL-ERG.1.PL-偷-過去否定

anu

是.否定

mi-s ħumukuli elu-ab-ok'ek'-asi anu

你-GEN 駱駝 我們.OBL-ERG.1.PL-偷-過去否定 是.否定

'我們沒有偷你的駱駝。'

給定單詞分段線(上述第一行)和自由翻譯線(上述第三行),任務是生成中間的標註線,包括詞幹翻譯(例如,mi:)和與詞綴對應的語法類別標籤(例如,a:ERG.1.PL)。自然語言處理中的序列預測模型已被用來執行此任務。[7] 這個任務的難度有兩個因素貢獻:

  1. 翻譯不一定與單詞分段線對齊(例如,駱駝是翻譯中的最後一個詞,但是在單詞分段線中是第二個詞)。
  2. 單詞分段線中的一些詞在標註中有多個對應(例如,anu:是.否定)。

從標註中自動發現形態結構[編輯]

研究人員使用語境標註來獲取客體語言(即被標註的語言)的形態範例。為了從語境標註中自動創建形態範例,研究人員為每個標註中的詞幹創建了表格,並為標註中的每個語法類別(例如,ERG)創建了一個(可能為空的)插槽。例如,給定下面的標註句子:[7]

Vecher-om

晚上-INS

ya

1.SG.NOM

pobeja-la

跑-PFV.PST.SG.FEM

v

magazin

store.ACC

Vecher-om ya pobeja-la v magazin

晚上-INS 1.SG.NOM 跑-PFV.PST.SG.FEM 進 store.ACC

'晚上我跑到了商店。'

將為詞幹pobeja創建一個範例,並為PFV.PST.SG.FEMPFV.PST.SG.MASC的每個插槽創建一個(可能為空的)槽位:

(部分) pobeja的範例
插槽 屈折
PFV.PST.SG.FEM pobeja-la
PFV.PST.SG.MASC

PFV.PST.SG.FEM的槽位將被填充(因為在語境標註數據中觀察到了),但PFV.PST.SG.MASC的槽位將為空(假設沒有其他語境標註實例包含按PFV.PST.SG.MASC語法類別屈折的pobeja)。可以使用統計機器學習模型來填補缺失的條目。[8][9][10][11][12]

參見[編輯]

  • 漢文訓讀 – 對古典漢語文本進行標註的日本傳統
  • 旁註標記 – 有時與中文或日文一起使用以顯示發音的標註
  • 詞性標註,通常顯示為在標記的詞下的語境標註,有時與逐詞翻譯同時進行顯示
  • Treebank,通常顯示為原始文本的標註或注釋。
  • 詹姆斯·漢密爾頓,19世紀的作曲家,也是語言學習中行間注釋的推廣者
  • Metaphrase

參考文獻[編輯]

  1. ^ Lehmann, Christian. 逐行形态翻译的指导. Geert Booij; Christian Lehmann; Joachim Mugdan; Stavros Skopeteas (編). 形态学。屈折与词构的国际手册. 語言與交際科學手冊 2. 柏林: W. de Gruyter. 2004-01-23: 1834–1857. 
  2. ^ Haspelmath, Martin. 语言类型学与语言普遍性:国际手册有限度免費查閱,超限則需付費訂閱. Walter de Gruyter. 2008: 715. ISBN 978-3-11-011423-2. 
  3. ^ 3.0 3.1 3.2 3.3 3.4 Bickel, Balthasar; Bernard Comrie; Martin Haspelmath. 莱比锡标注规则。逐词形态标注的约定。. 語言學系 – 資源 – 標註規則. 2008年2月 [2010-06-30]. 
  4. ^ 例子來自高積煥和陳邦鎮的《A Basic Vocabulary for a Beginner in Taiwanese》
  5. ^ Georgi, Ryan. 从Aari到Zulu:利用逐词标注文本进行大规模多语言语言工具的创建 (學位論文). 華盛頓大學. 2016. 
  6. ^ 6.0 6.1 Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily. 丰富逐词标注文本的大规模多语言数据库. 語言資源與評估. 2016, 50 (2): 321–349 [2021-12-15]. S2CID 2674996. doi:10.1007/s10579-015-9325-4. 
  7. ^ 7.0 7.1 7.2 7.3 Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori. 利用翻译进行贫资源语言的自动逐词标注. COLING. 2020,. 第28屆國際計算語言學會議論文集: 5397–5408 [2021-12-15]. S2CID 227231816. doi:10.18653/v1/2020.coling-main.471可免費查閱. 
  8. ^ 8.0 8.1 Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans. IG2P:从逐词标注文本到范例. EMNLP. 2020,. 第2020屆自然語言處理方法會議論文集(EMNLP): 5251–5262 [2021-12-15]. S2CID 226262296. doi:10.18653/v1/2020.emnlp-main.424可免費查閱. 
  9. ^ Silfverberg, Miikka; Hulden, Mans. An Encoder-Decoder Approach to the Paradigm Cell Filling Problem. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics. 2018: 2883–2889. S2CID 53082616. doi:10.18653/v1/D18-1315可免費查閱 (英語). 
  10. ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans. Applying the Transformer to Character-level Transduction. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. Online: Association for Computational Linguistics. 2021: 1901–1907. S2CID 218718982. arXiv:2005.10213可免費查閱. doi:10.18653/v1/2021.eacl-main.163可免費查閱 (英語). 
  11. ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz. Inflection Generation as Discriminative String Transduction. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. 2015: 922–931. S2CID 14929030. doi:10.3115/v1/N15-1093可免費查閱 (英語). 
  12. ^ Bhargava, Aditya; Kondrak, Grzegorz. Leveraging supplemental representations for sequential transduction. Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Montréal, Canada: Association for Computational Linguistics). 2012: 396–406. 

外部連結[編輯]