簡介

Introduction


 

    標記性和頻率一直是兒童語言習得相當重要的議題,標記性反映的是一個語言的常態性分佈(Goodluck, 1991),標記性越低(unmarked)的音出現頻率越高,標記性越高(marked)則出現頻率越低。成人語言是兒童語言的輸入和目標語言(target language),兒童的語音分佈應與成人相似。本報告研究之語言為閩南語,閩南語在台灣屬較弱勢的語言,由於其書寫系統並不盛行,且沒有任何報章雜誌以閩南語作為出版之語言,造成在研究上也較為稀少。本報告利用國立中正大學 語言學研究所 蔡素娟教授 所建立之 [台灣兒童語料庫]Taiwanese Child Language Corpus; TAICORP)之十四名兒童長期(longitudinal)自然語料,提供以閩南語為母語之兒童字詞相關分析:包括字頻、詞頻、音節類型及分佈頻率、聲母及韻母分佈頻率等。兒童語料並與其他參與錄音人員語料做交叉比較,以瞭解兒童導向語言(child-directed speech)對於兒童語言發展的重要性;此外,兒童語料也與《台灣閩南語口語語料庫》做比較,以瞭解兒童使用字詞與環境輸入(input)是否有關,及其與大人常用詞彙之相異。《台灣閩南語口語語料庫》由國立中正大學 語言學研究所 蔡素娟教授及麥傑教授所建立,語料來源為雲嘉南當地的廣播電台,所收錄之電台節目議題涵蓋許多,目前大約收錄84小時,已轉記為文字檔之時數為53小時。目前詞數約644,523詞(20114月資料)。本報告之《台灣閩南語口語語料庫》語料取10個檔案為樣本,共5小時之錄音。

台灣兒童語料庫之語料是,國立中正大學 語言學研究所 蔡素娟教授所執行的國科會研究計畫「台灣話聲調習得的發展之研究」(執行期限自民國868月至897月)(計畫編號:NSC 87-2411-H-194-019; NSC 88-2411-H-194-019; NSC 89-2411-H-194-010)所蒐集之語料。該計畫總共收錄十四名兒童之語料,年紀較大者每二至三週進行一次錄音,年紀較小者每一至二週錄音一次。錄音語料先經過錄音內容的編輯,去除過於冗長的空白部分或雜訊,並分段標記序號,以利記音之進行,總共有430個錄音檔案台灣兒童語料庫之總詞頻(包括其他參與錄音者)為1,741,408詞,兒童的詞頻為499,618詞(如列表四),佔所有詞頻的30%。語料庫的其他參與者包含:訪問者、兒童的父母親、兒童的祖父母、兒童的兄弟姐妹等。

參與計畫的兒童主要來自嘉義縣民雄鄉(豐收村、三興村、東興村、溪底部及鎮北村等),其母語皆為閩南語,錄音的年齡從一歲兩個月至五歲三個月,參訪年齡由三個月到兩年不等。受訪兒童的性別、參與計畫年齡、檔案數及錄音總長,如下表所示。

 

參與兒童基本資料

名字代號

性別

參與錄音的年齡

檔案總數

錄音總長

(分鐘)

YDA

3;11.02 – 4;04.26

8

480

YCX

3;10.16 – 4;00.16

6

285

LJX

3;09.20 – 4;02.24

8

530

CQM

2;09.07 – 4;06.22

30

1584

LMC

2;08.07 – 5;03.21

50

2045

YJK

2;06.11 – 2;0626

2

105

CEY

2;01.27 – 3;10.00

37

1728

HBL

2;01.22 – 4;00.03

45

1889

LWJ

2;01.08 – 3;07.03

36

1777

WZX

2;01.17 – 4;03.15

44

1757

YSW

1;07.17 – 2;07.14

21

1210

TWX

1;05.12 – 3;06.15

44

1829

HYS

1;02.28 – 3;04.12

51

2280

LYC

1;02.13 – 3;03.29

48

2255

總計

=9

=5

 

430

330小時

 

該計畫一共收錄430個錄音檔案,錄音總長約330小時。錄音檔案為較不佔空間的MP3格式,以方便儲存;文字檔案編碼方式為廣為接受的標準萬國碼(unicode),以利語料之流通,提供更多學者作為研究用途。

 

工作人員

計畫主持人:蔡素娟教授

研究助理:專任助理 林雅琪、林奐伊、李韵葳、謝沛諭

研究計畫程式撰寫人員:張民宗、紀春興、許千昱

 

致謝

本語料庫之語料收集及轉記,特別感謝前專任助理黃婷鈺、劉慧娟及陳曉君。