「大數據分析和語料庫」是什麼?
大數據(big data)也就是資料的規模巨大,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。大數據有三個主要特性,包含資料量、資料類型和資料傳輸。資料量的累積是依據過去到現在每分每秒累積而成、資料型態則可以是多元的,從文字、聲音、影像、圖片等包羅萬象的資料、資料傳輸強調的是資料時效性,藉由得到即時的數據,同時產生分析得到回饋。除此之外,我們常聽到的「大數據分析」則是利用大數據產生結果,也因為資料結構性不明,因此強調分析方法和視覺化溝通,讓數據的價值得以呈現。
Linggle的開發故事
許多人已經習慣使用google翻譯和搜尋功能,找到免費網路資源來解決英文問題,既然如此為什麼我們還需要Linggle?清大資工學系張俊盛教授說明google的「搜尋」用途在搜尋資訊,並非解答語言問題,因此查詢的方式跟搜尋結果是無法達到語言學習的需求,但google直到今日還沒推出語言搜尋的功能。此外,google翻譯功能是兩種語言互相翻譯,我們要了解英文寫作並非翻譯,中翻英並非學習英文寫作的好方式,更何況目前機器翻譯的效果不佳,如果利用google翻譯進行寫作學習會鬧出不少笑話。因此Linggle是結合語料庫和自然語言技術,專門針對英語寫作學習的搜尋網站。
Linggle的視覺化搜尋機制
Linggle將網路語料庫(google 在2006年釋放的web 1T語料庫)的資源共享給一般民眾,除此之外Linngle透過大數據分析跟視覺化的檢索方式,讓學習者零時差的從語料庫獲得得學習。透過特別的大數據檢索技術,而且搜尋速度媲美google搜尋,再利用高到低頻率的短語+例句的搜尋結果回傳,讓學習者去了解全人類如何說話、寫作,這其中包含了所有的正確、錯誤的用法。
舉例:我們在學習英文上,很多人會搞不清楚適當的冠詞、單複數的變化和介系詞的使用方式、動詞和名詞的組合,Linggle的技術是如何協助我們克服在英文使用上的弱點?
- 適當的冠詞:用 ? 表達有、無:如 ?a;用 / 表達取捨 a/the
- 單複數的變化:用 / 表達取捨 noodle/noodles
- 介系詞的使用方式:用不確定之詞類查詢 prep. 或 ?prep.
- 動詞和名詞的組合:v. higher education, ~accept higher education
從以上張俊盛教授的說明讓人深刻的感覺到,語料庫、自然語言處理和人工智慧已經開始服務人群,如果聽眾在學習英文可以運用這類有效的工具,學習英文寫作就能夠事半功倍。也期待科技的日新月異和研究者的無私奉獻,讓英文學習可以不花半毛錢,24小時隨時學好道地英文。
來賓介紹
清華大學資訊工程學系 張俊盛教授,領導研究團隊研發語言學習搜尋引擎Linggle,已經成為國內研究生攥寫英文論文的必備工具,並且受到知名電腦資訊部落客推薦,清大Linggle的功能比起德國包浩斯大學開發的NetSpeak也更加強大,目前張教授帶領更大的跨領域研究團隊,正在擴大Linggle的功能,目的是形成一套多功能系統,將造福更多英文學習者。