#1: 作者: 班門斧, 時間: 2007-10-15 11:54
班門斧
發表於 2007-10-16 02:16 《北大中文論壇》
答網友 hu0303 於 2007-10-11 10:30 問:
“那麼,黑人,黑戶,簡訊,快跑,快報,晚報,晚點,吃飯,吃面,心碎,碗碎等都是詞了嗎?”
首先,我們要從思想觀念上認識到,西方的語言文字與漢語漢字是有本質區別的兩種事物,西文的詞(word)在漢語世界沒有絕對對應的東西。任何一個西方山村農婦都清楚什麼是“詞”,但萬計的中國語言文字專家搞了上百年,至今未能解決漢語分詞問題。不是我們水平不如那些農婦,而是事物的本質不同。
西文之word,是指用來表義的“一個獨立的字母組合”。原本,中文“詞”這個字只是詩詞、措詞、言詞等意思,後來與西方文化接觸後,借用來套譯 “word”,但事實上中文就沒有與之對等的這麼一種東西。本來,如果中文只研究自己的一套字詞語法體系也沒有什麼問題,而要與西文對等類比的話,麻煩就多多了。
回到上面的具體問題上來,詞也可以有廣的理解和窄的定義。廣的、松散的理解就是每兩三個或三幾個字一起可以用來表示一個意思,就是一個詞。窄的定義大概可以是這樣:除了單字詞外,每組(兩個字或以上)字結合在一起,不可再簡單分割地表達一個特定的語義,就是一個詞。作為人種名稱的“黑人”是一個詞,它不包括曬黑,或塗得很黑的漢人,這個“黑”字和“人”字是不可簡單分立的。而“快跑”就不是一個詞,它就只是“快”對“跑”的簡單修飾(限定)。“今晚點什麼菜?”“你晚點再吃這個面包吧?”這兩個“晚點”就不是詞。“這趟火車晚點了”中的“晚點”就是一個詞了,即使這個事在凌晨五點發生也是“晚點”。由此類推,“黑人,黑戶,簡訊,快報,晚報,晚點,心碎”可以認為是詞。“心碎”是詞,“碗碎”就不是詞了。至於“吃飯”,概指包括吃菜、面、湯的事件,就是詞,“別夾菜了,快吃飯!”中的“吃飯”就不是詞。
上面說過。“詞”只是對西文的一個不精確對等的套譯,因此,在中文這邊,詞與非詞就沒有一個絕對的界線。“豬肉”在小學教育上誰也不敢說它不是一個詞,但這類詞是可以自釋的。大家都習以為常,熟視無睹了,我可以告訴大家,在最流行的幾本漢語大小詞典中,根本就沒有“豬肉”這個詞條(眾人萬萬沒有想到啊)。可以說“豬肉”不是詞,僅僅是“豬”對“肉”的修飾限定。能夠100%自釋的“詞”都可以認為不是詞,100%不能自釋的,如“頭寸”就一定是詞。至於中間界線劃定在50%處或者67%處,真是沒有一定之規,這就是中國語言文字專家群體至今都沒能解決分詞問題的本質所在。
早先,不能嚴格分詞本來也不是什麼問題,但是,隨著數字信息時代的到來,涉及到語料的機器處理,機器分類、排序、存儲、搜索等等,分詞問題就上升為一個重大問題了。
一般人以為漢字在電腦中的困難是輸入、輸出、存儲、顯示等。錯了,完全不是這麼回事。隨著電腦甚至手機在高速度、大容量方面的飛速發展,以及軟件技術的成熟(漢字輸入的方法及軟件等),漢字的輸入、輸出、存儲、顯示問題已經很好地解決了。中文(漢字)在數碼時代面臨的關鍵問題是:漢語分詞、漢字排序、漢字發展(包括優化漢字)----後一項是關於如何突破電腦對漢語漢字的局限(悶殺)的問題。
#2: 作者: 班門斧, 時間: 2007-10-15 11:59
班門斧
發表於 2007-1-27 08:09
班氏“詞結”論
班氏“詞結”論
近代以來,中國文字學界受西方語言文字理論的束縛,一直迷惘困惑,找不到自己的出路。
西文表語義的基礎是單詞,單詞由字母直接組合構成。西文也有詞根,但詞根這個層次發育不完全,而且詞根也不是構成西方語言文字的主體。This is a book, I am going to read it. 沒有什麼詞根可言,就是字母組合而堆砌出來的一列字母串,唯一的學習途徑就是死記它們的字母組合和表義。
中文表義的基礎是“字”,近代漢語發展成為以雙字詞為主體,但最根本的特點在於字依然是詞的構成基礎,字集是一個完整的相對獨立的、相對有限的語義集合。
隨著西風東漸,約百年來,文字學者們企圖用西方的文字理論去解釋漢語的文字體系,始終是焦頭爛額,不得其門。他們用西方的圓筐來裝中國的方塊物,始終是不能妥帖踏實。最明顯的一個例子就是,在西方老年農婦都不存在的分詞問題,中國數以千計的語言文字大師始終搞不清楚,中文分詞問題至今沒能解決。難道是這個問題真的這麼高深嗎?難道是英國的老年農婦真的比中國的語言文字教授更有文字修養嗎?絕對不是。這只能證明用西方的文字理論來套用在中文上是不適宜的。
中文的“字”是一種獨特的東西,是用西方文字理論不能解釋的東西。它一字一音,一字一義,它本身既可以是詞,又可以作為詞的組成部件。其本身有義,但又可以組合成與其字義相關或不相關的語詞。
詞本位派一直想用“詞”來改造、統一漢語(中文),但始終是脫不開“字”的魔影,始終是作繭自縛,走投無路。
中文的分詞問題未能解決,在語言學理論、文字改革、輸入法研制、中文計算機信息處理等領域就始終是有一個門檻沒能跨過,嚴重地障礙著中文信息事業的發展。
對這個困惑經過長期的思考和研究,班門斧對中文的本質有了一個新的發現,班氏提出一個全新的概念:“詞結”理論。
在中文的構成序列中,其層次一般已知為:筆畫、部首部件、字、詞、詞組、句子、段落、文章。詞是描述一個特定事物的獨立的語義單位(在西文裡,它同時又是一個獨立的外形結構)。中文的詞可以由一個字或兩三四個字組成。所謂“獨立的語義單位”,如果把它拆分,就不能嚴格精確地表達原來的語義了(“革命”的特定含義是不能拆分為“革”和“命”的簡單相加的)。詞組一般而言是兩個詞的一種較松散的定向組合,具有並列、限定、修飾等語法作用。問題的關鍵在於,班氏發現在詞和詞組之間,實質上還有一個層次,班氏暫時命名這個層次為“詞結”,是詞的衍生物,但它比詞組的結構更緊密的意思,詞的結節。(請暫時忘記西洋語言文字理論的框框)
“運動場”,以前我們一般把這三個字看成為一個詞,在信息處理的落後荒蠻時代不會有什麼問題。但隨著信息技術的發展,當我們深入研究語法結構,研制輸入法編碼、編制詞典、搞文字改革、搞計算機中文語言文字處理的時候,問題就來了。停車場、養豬場、生料場、廢料場也都是一個詞吧?養牛、養馬、養雞、養狗、養鱉、養蟹的也要造出一個詞,養蜈蚣場、養土拔鼠場、養尼羅河巴氏雙勾盤式螺旋藻場,這些也應該是一個詞吧。這樣下去,沒完沒了,詞典如何編寫?詞庫如何構建?不但長度是一個麻煩,而且其組成是一個開放性的無限集,詞典、詞庫、計算機語料處理是永遠不能可靠地實現的。
班氏指出,漢語從單字詞過渡到雙字詞,雙字詞的主導地位的確立,是漢語漢字發展進程中最偉大的一次革命(漸進式革命)。漢語用雙字構詞的方法,走上了一條光明大道,五千字可以組合出千萬數量級的詞庫,避免了象英語那樣走進海量構詞的死亡之路。班氏發現,現代漢語詞匯的主體是雙字詞,再附加上少量的單字詞和少量的三字詞。如“薩其馬”(餅)等一些詞不能切分,一旦切分,作為兩個獨立部分的簡單相加就不能正確地表達其原義,則作為特定的三字詞。
班氏定義,除了少量的一字詞、特定的三字詞外,中文的詞一般而言是指雙字詞。同時,引入“詞結”的概念。運動場、指揮官、個體戶,這些是詞結,“2+1”形式的詞結。雙職工、涮羊肉,這些則是“1+2”式的詞結。
部分特殊的、正在語法發展進程中的,如:藍籌股、爆米花,如果“藍籌、爆米或米花”未被收入詞庫,則它們可以被視為三字詞,一旦“藍籌、爆米或米花”被收入詞庫,則它們分解演化為詞結。
詞結概念的確立,符合漢語說話朗讀的發音節律,也符合漢語語義的構成科學,尤其是使中文的詞集成為相對可計算、可操作、可處理的數據集,而不是一個不可操控、不可感知的無底深淵。
關於字詞分層、詞結概念等內容,是一個很大的課題,或應該寫成一兩本書,本文只是花絮式地作一個簡單淺顯的介紹。
本貼由班門斧於2007年1月03日05:32:41在〖漢語拼音與輸入法論壇 - 漢語拼音第一網站〗發表.
班門斧
發表於 2007-10-10 07:41
最近發現一組更好的例子:如“青霉素”。
在詞匯研究沒有進入數字化、機器化的人海戰術的“冷兵器時代”,我們把“青霉素”看成為一個詞是合適的。但當今再把它看作是一個詞,對於中文處理的數字化、機器化而言,就是不科學了。看看“青霉素、紅霉素、氯霉素、鏈霉素、金霉素、土霉素、赤霉素、磷霉素、新霉素、慶大霉素、萬古霉素、阿奇霉素、黃曲霉素、麥迪霉素、表阿霉素、強力霉素、北裡霉素、克拉霉素、平陽霉素、更生霉素、卡那霉素”等等,可見,我們不能再讓機器語庫承認“青霉素”之流是一個獨立的詞,而且它也超出了“最小的語義結構”的含義。
所以,在承認現代漢語以雙字詞為主體的客觀現實的條件下,應該說“霉素”是一個詞,“青霉素”只是一個詞結而已。
#3: 作者: 本那比經略, 時間: 2007-10-15 18:55
小斧子兄弟的愛好還挺另類的說。。。:lol:
#4: 作者: TreeCa, 時間: 2007-10-15 19:03
中國文學載體裡有詩、詞之分。西方一律為Peom,簡直是混賬!!!
#5: 作者: 本那比經略, 時間: 2007-10-15 19:06
TreeCa 寫道:
中國文學載體裡有詩、詞之分。西方一律為Peom,簡直是混賬!!!
樹大看帖比囫圇吞棗還快。。。
#6: 作者: TreeCa, 時間: 2007-10-15 19:35
本那比經略 寫道:
樹大看帖比囫圇吞棗還快。。。
是快餐文化給害的。。。
#7: 作者: 春風拂面, 時間: 2007-10-15 19:47
TreeCa 寫道:
中國文學載體裡有詩、詞之分。西方一律為Peom,簡直是混賬!!!
你還別說,俺看到這個題目時,首先想到的也是這個意思。
#8: 作者: 逸立, 時間: 2007-10-15 23:01
此詞非彼詞···咳!咳!說完這話我舌頭都短了···
#9: 作者: 凡凡, 時間: 2007-10-16 11:45
班門斧是不是中文系的漢語專業畢業的?
#10: 作者: 班門斧, 時間: 2007-10-16 12:27
凡凡Caroline 寫道:
班門斧是不是中文系的漢語專業畢業的?
呵呵,多看幾個貼。
output generated using printer-friendly topic mod, 所有的時間均為 美國太平洋時間