編輯說明
編輯說明
語料介紹
1.閩南語拼音系統 |
2.閩南語漢字 |
3.詞類標記系統 |
2.1 閩南語拼音系統
TAICORP中的閩南語拼音採用教育部於民國八十七年所公佈之「臺灣閩南語音標系統」(同臺灣語言音標方案Taiwan Language Phonetic Alphabet)。其中部分因應方言而略有刪減。此外,有兩個調類是因應口語語料而增加的:零聲調(0)和其他聲調(9)。
(1) 零聲調 /0/:標記感嘆詞、語尾助詞等,隨著語境和語用而改變調值的詞素,例如:a0、le0。此外,外來語的聲調因為是借字,也標為零聲調,例
如:多桑 too0sang0(日語“父親”)
(2) 其他聲調 /9/:標記連音詞的聲調,例如:無要緊bua9kin2/ba9kin2
TAICORP所使用的閩南語拼音書寫系統及其對應的IPA語音如下:
閩南語拼音書寫系統(子音表)
Minnan Pinyin |
IPA |
Example |
Glossary |
p |
p -p |
pit4 筆 ciap4 汁 |
pen juice |
ph |
pʰ |
phue5 皮 |
skin |
b |
b |
be2 馬 |
buy |
m |
m -m m̩ |
moo1 毛 sim1 心 a1m2 阿姆 |
fur heart aunt |
t |
t -t |
to1 刀 that4 踢 |
knife kick |
th |
tʰ |
thau5 頭 |
head |
l |
l |
lai5 來 |
come |
n |
n -n |
ni5 年 sin1 新 |
year new |
k |
k -k |
kau2 狗 kak4 角 |
dog horn |
kh |
kʰ |
kha1 跤 |
foot |
g |
g |
gu5 牛 |
cow |
ng |
ŋ -ŋ ŋ̩ |
nge7 硬 sing1 升 ng5 黃 |
hard ascend yellow |
h |
h -ʔ |
hue1 花 bah4 肉 |
flower meat |
c ci |
ts tɕ |
cu2 煮 cit8 一 |
cook one |
ch chi |
tsʰ tɕʰ |
chai3 菜 chit4 七 |
vegetable seven |
s si |
s ɕ |
sai1 獅 si3 四 |
lion four |
j |
z |
jit8 日 |
sun |
閩南語拼音書寫系統(母音表)
拼音 |
IPA |
例字 |
英譯 |
|
i |
i |
豬 |
ti1 |
pig |
e |
e |
馬 |
be2 |
horse |
a |
a |
咬 |
ka7 |
bite |
oo |
ɔ |
姑 |
koo1 |
aunt |
o |
o/ə |
刀 |
to1 |
knife |
u |
u |
牛 |
gu5 |
cow |
inn |
ĩ |
甜 |
tinn1 |
sweet |
enn |
ẽ |
星 |
chenn1 |
star |
ann |
ã |
衫 |
sann1 |
clothes |
onn |
ɔ̃ |
好奇 |
honn3ki5 |
curious |
ia |
ia |
站 |
khia7 |
stand |
io |
io/iə |
橋 |
kio5 |
bridge |
iu |
iu |
球 |
kiu5 |
ball |
iann |
iã |
行 |
kiann5 |
walk |
iunn |
iũ |
薑 |
kiunn1 |
ginger |
ai |
ai |
來 |
lai5 |
come |
au |
au |
草 |
chau2 |
grass |
ainn |
aĩ |
歹 |
phainn2 |
bad |
ui |
ui |
水 |
cui2 |
water |
ue |
ue |
火 |
hue2 |
fire |
ua |
ua |
歌 |
kua1 |
song |
uann |
uã |
線 |
suann3 |
string |
iau |
iau |
餓 |
iau1 |
hungry |
uai |
uai |
乖 |
kuai1 |
submissive |
uainn |
ũãĩ |
關 |
kuainn1 |
close |
uinn |
ũĩ |
快活 |
khuinn3uah8 |
joyful |
閩南語拼音書寫系統(聲調表)
調類 |
邊界調值 |
語境調值 |
例字 |
英譯 |
0(輕聲) |
0 |
0 |
哦 |
(語助詞) |
1(陰平) |
55 |
33 |
詩 |
poem |
2(陰上) |
53 |
55 |
死 |
death |
3(陰去) |
11 |
53 |
四 |
four |
4(陰入) |
3 |
53 |
色 |
color |
5(陽平) |
13 |
33 |
時 |
time |
6(陽上) |
|
|
|
|
7(陽去) |
33 |
11 |
寺 |
temple |
8(陽入) |
5 |
1 |
熟 |
ripe |
9(其他) |
9 |
9 |
bua9kin2 (不要緊) |
not-matter (fine) |
2.2 閩南語漢字
拼音的書寫方式可讓懂漢語或閩南語的研究者來使用,而且也比較能夠與CHILDES已經開發出來的程式相配合,但為了考慮能讀漢字的使用者,即使不
能說閩南語,也可以比較快經由國字掌握語意,因此加入了%ort 的分層,將對話的內容以國字標示出來。但是由於閩南語的國字書寫系統並沒有定案,再
加上有許多本字無法確定,或者有音無字的情形,因此有必要訂定中文轉譯的原則。以下列舉中文轉譯的原則。
本計畫在選取國字時所使用的辭典共有四本,書名、作者及出版社詳列如下:
*《臺灣閩南語辭典》 董忠司 五南圖書出版公司 2001
*《台灣話大辭典》 陳修 遠流出版公司 1998
*《廈門方言詞典》 李榮 江蘇教育出版社 1998
*《閩南語詞彙》 楊秀芳 教育部國語推行委員會 1998
然而國字採用所根據的辭典其優先順序如下:
臺灣閩南語辭典>台灣話大辭典>廈門方言詞典>閩南語詞彙
本計畫國字選取的原則以國立編譯館主編的《臺灣閩南語辭典》為主,其他三本字典為輔,其原因在於,《臺灣閩南語辭典》不但詞彙量多、所列詞條一般口語常用詞彙比例較高之外,其採行的國字也較易於電腦的輸入。而《台灣話大辭典》詞彙量雖然豐富,但是其所列之國字較不利於電腦輸入,《閩南語彙》雖然本字考據正確,但詞彙量相較於《廈門方言詞典》則少得多。
另外,本計畫還參考其他三本閩南語辭典,分別是:
*《國臺對照活用辭典》 吳守禮 遠流出版有限公司 2000
*《臺語辭典常用漢字》 許極燉 自立晚報社文化出版部 1992
*《國台雙語辭典》 楊青矗 敦理出版社 1993
本計畫國字選取原則詳述如下:
(1)有國字的閩南語詞彙
a. 若於《臺灣閩南語辭典》查到該詞,且該詞為電腦可打出的字,則使用該字。例如:
「蠓罩」(bang2tah4)
「挽」(ban2)
「奇巧」(ki5kha2)
b. 若於《臺灣閩南語辭典》查到該詞查到該詞,然而該詞所用的字為電腦(Big5碼)的缺字,則該字用拼音。例如:
「 eq \o(\s\do 5(敖),\s\do 15(刀))早」(gau5ca2)®「gau5早」“早安”
c. 若無法於《臺灣閩南語辭典》查到該詞,則依上述辭典採用順序:
臺灣閩南語辭典>台灣話大辭典>廈門方言詞典>閩南語詞彙依次查到該詞為止。
相同的,該字如為電腦可打出的字,則予以採用,若為缺字,則採用拼音。
(2)查無國字的閩南語詞彙
若該詞皆未列在上述四本閩南語辭典之內,則採用教育部公佈的「臺灣閩南語音標系統」書寫。例如:「phang3kian3」(表示丟掉的意思)
(3)外來語
如果該詞為外來詞,國字的採用則和上述之一般閩南語詞彙相同:於字典中可找到,且為電腦可打出的國字則予以採用,例如:
「多桑」(too0sang0)
「摩托車」(oo0too0bai0)
若於字典中查不到,則採用拼音,唯聲調皆以「0」標示。
例如: thoo0la0khuh0 "卡車"
thoo0ma0too0 "蕃茄"
2.3 詞類標記系統
為了使TAICORP裡的語料能夠提供更多的訊息以便使用者做進一步的分析,在分詞的工作完成後,還要為每一個斷出的詞標上詞類標記。閩南語的詞類劃分的文獻雖然並不多,但由於閩南語和國語一樣,同屬於漢語語系,因此目前我們採用中研院詞庫小組的詞類標記,但是僅限於46個簡化標記,以避免詞類劃分過細時產生主觀強制性的歸類。
由於閩南語的詞類並非完全與國語一致,在建構本語料庫的過程當中,我們發現有兩個詞類為國語所沒有,一者為Di/T,另一為CIT,分別以「*」標示之。請參見下表。
台灣閩南語詞類標記(TAICORP)
標記 |
詞類 |
詞類(英文) |
A |
非謂形容詞 |
non-predicative adjective |
Caa |
對等連接詞 |
coordinate conjunction |
Cab |
連接詞 |
listing conjunction |
Cba |
連接詞 |
conjunction occurring at the end of a sentence |
Cbb |
關聯連接詞 |
following a subject |
Da |
數量副詞 |
possibly preceding a noun |
Dfa |
動詞前程度副詞 |
preceding VH through VL |
Dfb |
動詞後程度副詞 |
following adverb |
Di |
時態標記 |
post-verbal |
Dk |
句副詞 |
sentence initial |
D |
副詞 |
adverbial |
Na |
普通名詞 |
common noun |
Nb |
專有名稱 |
proper noun |
Nc |
地方詞 |
location noun |
Ncd |
位置詞 |
localizer |
Nd |
時間詞 |
time noun |
Neu |
數詞定詞 |
numeral determiner |
Nes |
特指定詞 |
specific determiner |
Nep |
指代定詞 |
anaphoric determiner |
Neqa |
數量定詞 |
classifier determiner |
Neqb |
後置數量定詞 |
postposed classifier determiner |
Nf |
量詞 |
classifier |
Ng |
後置詞 |
postposition |
Nh |
代名詞 |
pronoun |
I |
感嘆詞 |
interjection |
P |
介詞 |
preposition |
T |
語助詞 |
particle |
VA |
動作不及物動詞 |
active intransitive verb |
VAC |
動作使動動詞 |
|
VB |
動作類及物動詞 |
active pseudo-transitive verb |
VC |
動作及物動詞 |
active transitive verb |
VCL |
動作接地方賓語動詞 |
transitive verb taking a locative argument |
VD |
雙賓動詞 |
ditransitive verb |
VE |
動作句賓動詞 |
active transitive verb with sentential object |
VF |
動作謂賓動詞 |
active transitive verb with VP object |
VG |
分類動詞 |
classifactory verb |
VH |
狀態不及物動詞 |
stative intransitive verb |
VHC |
狀態使動動詞 |
stative causative verb |
VI |
狀態類及物動詞 |
stative pseudo-transitive verb |
VJ |
狀態及物動詞 |
stative transitive verb |
VK |
狀態句賓動詞 |
stative transitive verb with sentential object |
VL |
狀態謂賓動詞 |
stative transitive verb with VP object |
V_2 |
有 |
|
DE |
的 |
*special tag for the word "的" |
SHI |
是 |
special tag for the word "是" |
FW |
外文標記 |
foreign words |
*Di/T |
*le01 |
*marker following pseudo-transitive active verb |
*CIT |
*得2 |
*special tag for the word "得2" |
*Comp |
*補語連詞 |
*complementizer |
Di/T 是「le01」之詞類標記。由於 le01都出現於動詞之後,並常常出現在語句之末尾,因此同時具有時態標記以及語尾助詞的特徵,因此以Di/T標記之。
例如: 你 坐 le01!
去 共 西瓜 切切 le01!
CIT是「得2」的詞類標記。「得2」表示能夠的意思,其不但能加在動詞之後,並能與主要動詞分開遠遠出現在句末的位置,由於國語並無此類詞,因此另外以CIT標示。
例如:會1 提 得2
你 未使 去 偷挽 別人 辛苦 所 種 e0 果子 得2
Comp「補語連詞」是「得、甲1、了2、予3」的詞類標記。它的功用為連接兩個動詞,或前接一個動詞,後接一個子句。補語連詞並無貢獻任何語意,為一功能詞,此標記可以對應到國語的標記「DE」。但由於「補語連詞」不但可以標記閩南語的「得」,更可以標記「甲1」、「了2」、「予3」等其他詞,所以不採用「DE」,而使用「Comp」。
例如: 活 得 真 健康
湊 甲1 按呢
排 了2 真 水2
穿 予3 水水2
此外,由於閩南語一部份的詞彙,其語法特性和國語不同,因此需將中研院詞庫小組所訂立之標記原則做一調整,調整之處如下所列:
*重疊動詞:
此類動詞例如「食食」(ciah8ciah8),的詞類是依其後接的結果補語性質,以及其句法特性來判斷詞類標記。以「食食」(ciah8ciah8)為例,在「你緊共便當e0菜攏食食予3了」一句中,「食食」的詞類標記應為VB;然而在「等伊食食甲1飽就未哭a03」一句,「食食」則標予和未重覆前的原形動詞「食」相同的詞類,VC。