• Linggle科技篇:大數據語言學習工具
  • Linggle科技篇:大數據語言學習工具

Linggle科技篇:大數據語言學習工具

3
276
邀訪來賓:播出日期:2018/05/12

大數據分析和語料庫」是什麼?

大數據(big data)也就是資料的規模巨大,以致無法透過傳統的方式在一定時間內進行儲存、運算與分析。大數據有三個主要特性,包含資料量、資料類型和資料傳輸。資料量的累積是依據過去到現在每分每秒累積而成、資料型態則可以是多元的,從文字、聲音、影像、圖片等包羅萬象的資料、資料傳輸強調的是資料時效性,藉由得到即時的數據,同時產生分析得到回饋。除此之外,我們常聽到的「大數據分析」則是利用大數據產生結果,也因為資料結構性不明,因此強調分析方法和視覺化溝通,讓數據的價值得以呈現。

Linggle的開發故事

許多人已經習慣使用google翻譯和搜尋功能,找到免費網路資源來解決英文問題,既然如此為什麼我們還需要Linggle?清大資工學系張俊盛教授說明google的「搜尋」用途在搜尋資訊,並非解答語言問題,因此查詢的方式跟搜尋結果是無法達到語言學習的需求,但google直到今日還沒推出語言搜尋的功能。此外,google翻譯功能是兩種語言互相翻譯,我們要了解英文寫作並非翻譯,中翻英並非學習英文寫作的好方式,更何況目前機器翻譯的效果不佳,如果利用google翻譯進行寫作學習會鬧出不少笑話。因此Linggle是結合語料庫和自然語言技術,專門針對英語寫作學習的搜尋網站。

Linggle的視覺化搜尋機制

Linggle將網路語料庫(google 在2006年釋放的web 1T語料庫)的資源共享給一般民眾,除此之外Linngle透過大數據分析跟視覺化的檢索方式,讓學習者零時差的從語料庫獲得得學習。透過特別的大數據檢索技術,而且搜尋速度媲美google搜尋,再利用高到低頻率的短語+例句的搜尋結果回傳,讓學習者去了解全人類如何說話、寫作,這其中包含了所有的正確、錯誤的用法。

舉例:我們在學習英文上,很多人會搞不清楚適當的冠詞、單複數的變化和介系詞的使用方式、動詞和名詞的組合,Linggle的技術是如何協助我們克服在英文使用上的弱點?

  • 適當的冠詞:用 ? 表達有、無:如 ?a;用 / 表達取捨 a/the
  • 單複數的變化:用 / 表達取捨 noodle/noodles
  • 介系詞的使用方式:用不確定之詞類查詢 prep. 或 ?prep.
  • 動詞和名詞的組合:v. higher education,  ~accept higher education

從以上張俊盛教授的說明讓人深刻的感覺到,語料庫、自然語言處理和人工智慧已經開始服務人群,如果聽眾在學習英文可以運用這類有效的工具,學習英文寫作就能夠事半功倍。也期待科技的日新月異和研究者的無私奉獻,讓英文學習可以不花半毛錢,24小時隨時學好道地英文。

來賓介紹

清華大學資訊工程學系 張俊盛教授,領導研究團隊研發語言學習搜尋引擎Linggle,已經成為國內研究生攥寫英文論文的必備工具,並且受到知名電腦資訊部落客推薦,清大Linggle的功能比起德國包浩斯大學開發的NetSpeak也更加強大,目前張教授帶領更大的跨領域研究團隊,正在擴大Linggle的功能,目的是形成一套多功能系統,將造福更多英文學習者。

心得筆記
播放時間00:00
科技原來那麼近
科技原來那麼近
首播日期 :
2018/01/01
主持人 :
鄭朝陽&張普熏

現代科技日新月異,並深入大眾生活成為不可或缺的一部分,現代人追尋更新、更好的技術,希望讓生活可以更加便利、舒適,然而一旦提到科技產業,大部分民眾往往認為科技艱澀難懂而不願了解。因此,本節目旨在拉近民眾與科技產業的距離,請到國內具權威的學者專家,帶領大家一窺科技的奧妙,提供聽眾輕鬆了解科技產業的方法。

  「科技原來那麼近!」用一個小時的時間,打開大家思考的泉源,從貼近生活的智慧型家電到潛藏問題的科技倫理,議題從日常生活出發,令思考步入前瞻。本節目希望能拓寬聽眾視野,進而培養聽眾對科技議題的獨立思考,抱持高度彈性的創新科技思維。在小單元「賽恩斯拓荒者」裡,首先為大家帶入當集主題,請來賓簡單解釋主題,並提出簡單的問題,讓大家可以馬上進入節目狀況,接著來到主題單元「科技零極限」,直接切入主題,由淺入深,打破聽眾與科技知識的藩籬。

 

26
按下收藏,就會將頻道收錄進您的
會員功能 > 收藏頻道
再也不會忘記找不到喔!
我瞭解了