人類語義分析是人工智能的一個分支,是自然語言處理技術的幾個核心任務,涉及語言學、計算語言學、機器學習,以及認知語言等多個學科,語義分析任務有助于促進其他自然語言處理任務的快速發展。
人類語義分析十三大功能:
1、精準采集:對境內外互聯網海量信息實時精準采集,有主題采集與站點采集兩種模式。
2、文檔轉化:對doc、excel、pdf與ppt等進行文本信息轉化,效率達到大數據處理的要求。
3、新詞發現:從文本中挖掘出新詞、新概念。
4、批量分詞:對原始語料進行分詞,自動識別人名地名機構名等未登錄詞,新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。
5、語言統計:針對切分標注結果,系統自動進行一元詞頻統計、二元詞語轉移概率統計。
6、文本聚類:能夠從大規模數據中自動分析出熱點事件,并提供事件話題的關鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。
7、文本分類:根據規則或訓練的方法對大量文本進行分類,可用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多方面。
8、摘要實體:對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;方便用戶快速瀏覽文本內容。
9、智能過濾:對文本內容的語義智能過濾審查,內置國內最全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。
10、情感分析:針對指定的分析對象,系統自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負面的得分和句子樣例。
11、文檔去重:快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重復記錄。
12、全文檢索:支持多種語言文本、數字、日期、字符串等各種數據類型,多字段的高效搜索。
13、編碼轉換:自動識別內容的編碼,并把編碼統一轉換為其他編碼。