<li id="mmmmm"></li>
  • <li id="mmmmm"><table id="mmmmm"></table></li><li id="mmmmm"><tt id="mmmmm"></tt></li><tt id="mmmmm"><table id="mmmmm"></table></tt>
  • <li id="mmmmm"><table id="mmmmm"></table></li>
  • <tt id="mmmmm"></tt>
  • 阿里首次公布自然語言處理成果

    發布時間:2017-07-20 16:25:17 | 來源:機器之心 | 作者:佚名 | 責任編輯:胡俊

    阿里巴巴AI Labs 將在7月5日發布第一款智能音箱設備的消息引發了國內極大的關注,但讀者們不僅不熟悉阿里巴巴AI Labs,對阿里自然語言處理方面的成果是不是也不理解?這篇文章介紹了阿里巴巴被國際數據挖掘頂會KDD2017收錄的一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》。

    上周,關于阿里巴巴成立 AI Labs 的消息不脛而走。事實上,該機構在 2016 年低調成立,主要負責阿里巴巴集團旗下消費級 AI 產品研發,與iDST的定位有所區別。從機器之心收到的發布會邀請函及其他公開消息看,7 月 5 日,該機構將發布第一款實體產品智能音箱設備,它能夠理解中文語音指令,還能讓阿里巴巴的用戶在淘寶上購物,短期內僅面向中國市場發售。

     

    與此同時,這次為阿里巴巴智能音箱提供技術支持的團隊也首次曝光了其自然語言處理成果。一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》被國際數據挖掘頂會 KDD2017 收錄。在自然語言處理的兩個核心應用場景------文本分類和智能問答上,阿里巴巴這套「即刻喚醒,即刻識別」神經網絡模型的智能問答準確率相比微軟的wikiqa數據集和 IBM 的insuranceqa數據集提升了 2-4%,是目前業內最高水準。

    該論文的作者、阿里巴巴人工智能實驗室資深算法工程師王成龍對機器之心談到這項技術的挑戰,「初期相關模型訓練所需的語料較缺乏,在開發的同時,我們積累起來一批獨有、海量的中文語料,有力支持了我們的模型訓練。神經網絡模型的計算復雜度比較高,性能問題是線上應用的一個主要瓶頸,這一方面,我們針對神經網絡模型的線上部署做了很多的優化工作,保證在大并發請求下依賴能有較好的性能。

    另一方面,基于神經網絡的 NLP 方法都依賴分詞,英文的分詞是天然的,而中文是以「字」為單位,這也使新品技術開發的難度有所提高。王成龍說:「英文的句子結構則更加清晰,而漢語重意合而不重形式,句子結構比較松散,中文相關標準語料集的缺失也是一大瓶頸。


    KDD 2017 將于今年 8 月 13 日召開

    1  2  3  4  5  6  7  8  9  


            
    免费人成网站在线观看欧美