語料庫與外語學習_第1頁
已閱讀1頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于語料庫的詞匯學習(方法與資源 ),,內容提綱,語料庫概念簡介(3-5)國內外主要語料庫(6,7)語料庫在外語教學與學習中的應用(8-29)免費在線語料庫簡介(COCA, BNC, Lextutor)(30-37)軟件工具(38-43)資源分享,,,,,,,What is a corpus?,Corpus = “a body of naturally occurring text”The texts were not p

2、roduced without the creator knowing that they would be used for linguistic analysisNewspapers, magazine articles, short stories, academic journals, etcGood genre balance (spoken, fiction, magazines, newspaper, academic

3、)Current: not 100-year-old novels,3,,Large: at least 100 million wordsMore words than you would see / hear in a whole lifetimeAnnotated: tagged for part of speech and lemma (e.g. the beat, they beat, and beat as)語料(c

4、orpus)是指收集的未經(jīng)組織和加工過的語言材料和素材。 ——戴煒棟,1999 語料(corpus)又稱為素材,是自然發(fā)生的語言材料(包括書面語和口語)的集合??梢杂脕碜鳛槊枋鲆环N語言的出發(fā)點或用于證實有關一種語言的假設的手段。 ——陳建生,1989,,語料庫——按照特定目的與方法建立起來的存儲語言材 料的“倉庫”。語料庫是按照一定的語言原則,運用隨機抽樣方法,收集自然出現(xiàn)的連續(xù)的語言,運用文本或話語片

5、段而建成的具有一定容量的大型電子文本庫。從其本質上來說,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本代表某一研究中所確定的語言運用總體。 ——楊惠中,2002,,國外主要的語料庫,Brown (1963 – 64) ——《布朗大學當代美國英語標準語料     庫》( The Brown University Corpus of Present Day      American English) 。含100 萬1

6、961 年前后的書面     英語。由Francis 與Kucera 主持完成。 COBUILD——John Sinclair 主持,迄今最大的語料庫之一;     含的語料超過5 億詞。 COCA —— 美國當代英語語料庫,收詞四億多,1990-2010 BNC——英語國家語料庫,收詞一億多,牛津大學/朗文/ 錢伯斯-哈洛普出版公司。 ICE——國際英語語

7、料庫,口語和書面語各一庫,收詞1 百萬 The Bank of English——英語庫,收詞2.5億。朗文/柯林 斯/伯明翰大學。,國內英語學習者語料庫,名稱    類型   建設單位    母語背景   容量(萬詞)HKUST   書面語    香港科技大學

8、   廣東話  > 2500TSLC   書面語   香港大學    廣東話    300CLEC   書面語   廣東外語外貿大學等  漢語   100COLSEC  口語    上海交通大學等    漢語    50

9、MSEE   書面語/口語  華南師范大學   漢語   87. 6SWECCL  書面語/口語   南京大學   漢語  > 200,中國英語學習者語料庫———CLEC (桂詩春、楊惠中, 2003)    我國中學生、大學英語4、6級、英語專業(yè)低年級和高年級學生在內的100多 萬詞的書面英語

10、語料庫, 是一部含有言語失誤標注的英語學習者語料庫。,中國英語學生口筆語語料庫———SWECCL  由“中國學生英語口語語料庫”( Spoken English Corpus of Chinese Learners,   (SECCL) 和 “中國學生英語筆語語料庫”(Written English Corpus of Chinese Learners,(WECCL)二個子項目組成??傄?guī)模為200 萬詞。南京大學主

11、持, (文秋 芳、王立非、梁茂成2005: 2),JDEST——20世紀80年代,中國第一個語料庫,上海交大,桂詩春、楊惠中,學術,,語料庫在外語教學與學習中的應用,基于規(guī)則和基于概率的實際應用:比如 機閱作文;機器翻譯等語料庫用于目的語和中介語研究詞典編撰:如 Collins Cobuild Advanced Learner’s English Dictionary測試教材編寫翻譯研究 語料庫用于語言學習:基

12、于大量真實語言輸入的自主性、研究型的語言學習 比如:近義詞辨析;語義韻;類聯(lián)結;搭配研究;句法分析;話 語分析等。 應用舉例,,,,,,Quiz: order by frequency,vigilantflabbergastedlostrinky-dinkmiserable,9,Quiz: order by frequency,lost (#2691)miser

13、able (#5841, “sad, hopeless”)vigilant (#11831, “watching over”)flabbergasted (#21701, “extremely surprised”)rinky-dink (#44681; “small, cheap, worthless”),10,,11,Obvious errors: not in corpus,12,Corpus of Contempora

14、ry American English (COCA)fall down carefully: no occurrences,13,“unrecycling”,Google: unrecycling (100 hits: lot / little?; they refer to that trashcan picture),15,Corpus of Contemporary American English (COCA): no

15、occurrences,16,COCA: other words with *recycl* (recycling, nonrecyclable, etc),[x*] recyclable: negative words before recyclable,18,Problems: civilized visitor | set up the ecosystem | ecosystem scenery,19,*set up the ec

16、osystem: verbs with ecosystem as an object,20,21,no virtuous near duck,22,Word meaning: collocates: slippery –– near crafty,,,23,slippery near crafty: no occurrences,24,adjectives near slippery: dangerous,25,arouse,,26,

17、collocates (nearby words) near arouse: suspicions, sexually, anger,,外語學習的四大難點,native-like pronunciation native way of thinking discrimination of synonyms idiomatic collocation,近義詞辨析,近義詞的辨析可以從意義的不同類型入手:語法意義(grammatic

18、al meaning) 詞匯意義(lexical meaning) 概念意義(denotative meaning) 聯(lián)想意義(associative meaning) 內涵意義(connotative meaning) 語體意義(stylistic meaning) 情感意義(affective meaning) 搭配意義(collocative meaning),,語料庫方法在教學中的應用舉例,《高級英語詞匯自主學習的

19、語料庫方法》 《SketchEngine工具在詞匯搭配和同義詞辨析教學上的應用》《基于在線語料庫的動_名搭配教學的實證研究》,,,免費在線語料庫 簡介,COCABNCLextutor,Corpus of Contemporary American English (COCA; www.americancorpus.org),410+ million words (cf. British National Corpus , 1

20、00m)More words than average speaker will hear in a lifetimeFrom more than 160,000 texts20 million words each year from 1990-2010Balanced across spoken, fiction, popular magazines, newspapers, and academic journals (2

21、0% in each genre each year)Freely available online since March 200860,000-70,000 unique users each monthComplete, context-sensitive help files online,31,A good article to learn about COCA (in Chinese):Wang, Xingfu, L

22、iu Guohui, Mark Davies (2008) "The Corpus of Contemporary American English -- A Useful Tool for English Teaching and Research". Computer-Assisted Foreign Language Education in China. 5:24-31,32,Composition of C

23、OCA410+ million words (1990-present): same composition each year,Spoken: (83 million words) Transcripts of unscripted conversation from more than 150 different TV and radio programs (examples: All Things Considered (NPR

24、), Newshour (PBS), Good Morning America (ABC), Today Show (NBC), 60 Minutes (CBS), Hannity and Colmes (Fox), Jerry Springer, etc). Fiction: (79 million words) Short stories and plays from literary magazines, children’s

25、 magazines, popular magazines, first chapters of first edition books 1990-present, and movie scripts. Popular Magazines: (84 million words) Nearly 100 different magazines, with a good mix (overall, and by year) between

26、 specific domains (news, health, home and gardening, women, financial, religion, sports, etc). A few examples are Time, Men’s Health, Good Housekeeping, Cosmopolitan, Fortune, Christian Century, Sports Illustrated, etc.,

27、33,,Newspapers: (79 million words) Ten newspapers from across the US, including: USA Today, New York Times, Atlanta Journal Constitution, San Francisco Chronicle, etc. In most cases, there is a good mix between different

28、 sections of the newspaper, such as local news, opinion, sports, financial, etc. Academic Journals: (79 million words) Nearly 100 different peer-reviewed journals. These were selected to cover the entire range of the L

29、ibrary of Congress classification system (e.g. a certain percentage from B (philosophy, psychology, religion), D (world history), K (education), T (technology), etc.), both overall and by number of words per year,免費在線語料庫

30、COCA檢索方法,http://www.americancorpus.org/ COCA在線檢索首頁COCA檢索頁COCA在線檢索seldomseldom檢索結果(list形式)seldom檢索結果(chart形式)COCA在線檢索seldom擴展語境舉例,免費在線語料庫BNC檢索方法,http://corpus.byu.eduBNC首頁 BNC檢索頁BNC在線檢索outcomeBNC在線檢索outcome檢索結果(

31、list)BNC在線檢索outcome檢索結果(chart)BNC在線檢索outcome檢索行擴展語境舉例,免費在線語料庫Lextutor檢索方法,Lextutor的多語料庫在線檢索首頁 (http://www.lextutor.ca/concordancers/concord_e.html ) Lextutor檢索consequenceLextutor檢索consequence檢索結果Lextutor檢索conseque

32、nce檢索結果refinedLextutor檢索consequence擴展語境舉例,軟件工具,用語料庫檢索工具可以將關鍵詞及其語境檢索出來,讓語言學習者直接而又集中地看到上述特征。用AntConc和Wordsmith檢索詞語Wordsmith——索引軟件。提供關鍵詞檢索,語塊檢索等。 關鍵詞及上下文共顯。英國,需付費。AntConc ——日本早稻田大學教授Antony研發(fā)的檢索軟

33、 件,免費MicroConcord,ConcApp6.0,VocabProfile,PowerGrep,,,Key words in Context--KWIC,,,Concordance lines 索引行/檢索行,,AntConc使用步驟展示,打開Antconc打開open files,載入選定的語料庫選定需要的選項卡:concordance; word list; key word;collocation等在下方輸入要檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論