王 珺 阮俊斌 葛奕辰 楊顥儀
(上海健康醫(yī)學院 上海 201318)
基于Python的文本分析技術可以看作是語料庫語言學研究的技術拓展。語料庫語言學首先以真實語言使用中的語言事實為研究對象,再借助計算機技術和統計學方法,對語言數據進行定性定量的描寫和概括,從而挖掘語言運用中的規(guī)律[1]。文本分析技術現在已經比較成熟的運用在語料庫語言學的數據處理和分析之中?,F在運用比較普遍的有文本降噪與詞頻分析、詞性標記與分析、語篇詞匯密度、詞長分布等,當然還有基于無監(jiān)督的、有監(jiān)督的學習模型的文本情感分析等等。本文下面介紹的相關代碼技術基于 python3.8.2(64-bit),編輯平臺為 Anaconda2020.07自帶的Spyder平臺。
詞頻分析大致可以分為單個詞、二連詞以及多連詞的詞頻分析,其中單個詞的詞頻對于技術寫作的幫助有待研究,本文主要介紹三連詞的詞頻分析,語料來自斯坦福大學整理的某影片長短影片共計1000條。從實際的技術文本語料中整理提取數據,得到該地區(qū)的用語習慣或者規(guī)律。雖然不同國家地區(qū)語言習慣自然是不同的,但是只要有足夠大的地區(qū)匹配語料作為數據分析的基礎,我們能夠比較直觀的觀察結果,基于Python的NLP支持多種語言的處理與分析,可以滿足各種語言的數據挖掘要求。在不改變真實性和科學性的情況下,當我們在技術寫作的過程中,有意識地融入分析用于習慣之后的用詞,可以在一定程度上讓技術文本更加符合該地區(qū)的用于習慣。換而言之,可以讓比較呆板的技術文本更加接地氣,更加為目標用戶所接受,從而提高技術傳播的效率。
2.2.1 詞性分析理論
首先,詞性是指根據的詞的特點劃分詞類的依據。它是語言中詞的語法分類之一,在語言學上有著重要的地位。根據所表示的實際意義以及語法結構,詞性可以分為實詞和虛詞;按照是否吸收其它詞性來分類,詞性能分為開放詞類和閉合詞類。其中實詞有名詞、動詞、形容詞、數量詞、代詞等,虛詞則有副詞、介詞、連詞、助詞、嘆詞、擬聲詞等等。需要注意的是,漢語中的許多詞的詞性在不同的語境中都會發(fā)生變化;英語中會根據語境變化的則是詞義。其次,詞性分析簡單來說就是一個給每個詞指定一個詞類或者詞匯類別標記的過程?,F下主流的詞性分析方法是利用語料庫對于詞性的規(guī)定以及特殊的統計法來得出文本中各詞匯的詞性。但正如上文所言,由于如漢語等語言中某類詞的詞性會根據某種條件變化而變化,所以我們在做詞性分析時,如果確要追求準確性,那就不能只依靠現成的算法。然而,不同語種間的準確語言轉換并非現在人工或者計算機技術能夠實現的,我們所能做的只有盡量多地收集該語種的語料庫,并在對文章進行降噪后才進行詞性分析的處理。因為,越是龐大的語料庫,就能意味著有越是龐大的詞匯量來貼合文本中的詞匯,而越是準確地去使用停用詞,就能越是能除掉不需要的部分,提取出更為精簡的信息。
2.2.2 詞性分析應用
自然語言處理是利用人類交流所使用的自然語言與機器進行交互通訊的技術,是人工智能與搜索引擎的基礎步驟之一。這一技術在信息檢索和技術傳播中占有舉足輕重的作用。為了能夠將傳播技術較為準確地在傳播方與被傳播方之間進行語言轉換從而達成信息的共享,必須保證自然語言處理過程的正確性、快速性及穩(wěn)定性。在現有的自然語言處理技術中,通過詞性標注是自然語言處理詞法分析中一種較為成熟的技術。在Python算法中,詞性分析的簡要處理步驟為去停用詞(即降噪處理)、分詞、取詞根、詞性標注以及最后的數據處理。Python語言本身具有清晰簡潔、易于讀取的特點,故而在運行時速度快且步驟較為簡單,并直接在相應文檔中生成運算結果。值得注意的是,通過Python計算后所得出的詞性數據相加所得數據為13287字,比原文的11500字多出了1787字,這可能是由于對于詞性的界定不準確所造成的。由于同一個英語單詞可能包含有不同的詞性與詞意,所以只有正確且唯一標注了文章中所有的單詞詞性,才不會在數據處理時出現差錯。就算是只有個位數的數據誤差也會影響到后續(xù)的自然語言處理過程,進而影響被傳播者對于技術的理解。那么,如果我們想要將詞性分析應用于技術傳播,就必須確保一個單詞對應一個詞性。在不造成歧義地進行技術傳播的前提之下,用戶才能在進行信息檢索時也能夠準確檢索到需要的內容并獲取有效信息。[2]
特征文本指的是文本包含某一或者多個具體特征的文本集合,對特征文本進行自然語言的處理很可能能夠得到該特征下的文本數據。其中的關鍵就是“特征”。比如文本均包含某一固定詞匯、比如文本含有某些特定情感特征等等。本文介紹的特征文本的提取就是第一種──包含某一固定詞匯。眾所周知,在進行情感分析之前一般都需要構建語料庫,而爬取評論作為語料數據基礎則是常見的選擇[3]。當有了一定的預料基礎之后,需要從中提取特征文本,這也是情感分析過程的第二個常見步驟。若一個詞作為技術文本的情感分析特征詞,那么這個詞首先是──instruction book(當然其他能夠指代產品技術文本的詞匯也可以作為特征詞)。確定了特征詞之后,我們就可以進行文本的提取了,這個過程難度不大,簡單來講就是對集合文本分句然后遍歷,這樣可以得到我們需要的包含特征詞的相關語料,從而進行下一步的分析。其次,在選擇了常用的 TextBlob和snownlp的情感分析工具進行分析處理之后,應當得到兩部分關于技術文本的數據,一部分是積極的,另一部分則是消極的。有了這樣一份數據,我們就能開始使用它進行我們技術寫作的指導工作了,當然對這些數據我們其實能夠進一步處理,參考詞頻分析,可以進一步得到關于技術文本哪一塊的內容為消費者最為關注的部分,從而有選擇地進行分析。從消費者對技術文本的消極評價,能夠直觀了解技術文本那些地方需要改進,結合詞頻頻率分析,就明白處理技術文本中消費者所關注的難題。
首先,用Python文本分析技術,尋找與熒光成像技術相關的文本進行文本詞頻、詞性分析,提煉技術文本的內在詞性占比以及用詞規(guī)律,發(fā)掘以LED燈為激發(fā)光源的新型熒光顯微鏡,來取代傳統的汞燈熒光顯微鏡,設計表述為精準的熒光顯微方法及提高檢測精度方式。其次,通過對于產品的評價說明,憑借Python技術提取特征詞,進而關注基于目前主流的高壓汞燈熒光顯微鏡的準確度有待提升、使用壽命不長以及造價高燈等問題的產品評論進行情感分析,將開發(fā)新型的以LED為發(fā)射光源的熒光顯微鏡來取代傳統的高壓汞燈顯微鏡的技術優(yōu)勢顯現出來,以完善產品在技術傳播過程中的可行性。其中要表明技術關鍵說明利用LED作為檢測光源的節(jié)能效果和清晰度;LED的環(huán)保及有可持續(xù)性發(fā)展意義。此外,在制作技術文本時,關注其他技術文本中提取、降噪、分詞、詞性分析的運算結果,可利用最優(yōu)關鍵詞制作圖例,強調自主設計的熒光激發(fā)模塊,是根據高量子效率的染料進行熒光波長的優(yōu)化設計,使被檢熒光信號亮度更強,信號點更加突出,并極大的降低背景噪聲,提高檢測信號的對比度,從而提高檢測準確率的功能。
本文從多連詞詞頻到詞性分析再到情感分析進行技術協作的輔助與指導,在國內目前也是一種比較新穎的嘗試,不過具體的對于融入基于Python工具的文本分析技術為以開發(fā)新型LED光源熒光顯微鏡的技術文本的提供了思路。但鑒于Python工具的升級換代,亦可能影響技術文本寫作的方式和方法,值得進一步研究與探索。