孫 妍,任 勇,袁靖飛
(蘇州大學 應用技術學院,江蘇 昆山 215325)
隨著科技的日新月異,科學家們在科技道路上遇到的問題越來越復雜,人們對人工智能解決復雜問題的期望值越來越高,由此應運而生的機器學習相關技術得到迅猛發(fā)展。機器學習技術通過模擬、延伸和擴展等方法,機器學習可以作為人工智能的一個子集。其次機器學習是基于大數據的,它的“智能”需要海量的數據,為了應對COVID-19大流行,美國等主要研究團隊開放了COVID-19研究數據集。COVID-19的資源超過300 000篇學術文章,涉及COVID-19,SARSCoV-2和相關的冠狀病毒。本文采用的就是該數據集,并對這些文獻進行分組,簡化相關出版物的檢索,對聚類的內容進行限定。
TF-IDF通常被用作為信息檢索的加權和文本挖掘的加權。TF-IDF作為一種常用的統計方法,通常被用作評估一份文件集或語料庫中某個字詞的重要程度。這個字詞的重要程度會隨著它在文件集中出現次數的增加呈正比增長,而與它在語料庫中出現次數的增加呈反比增長。TF-IDF通常被用作分類,原因在于:當某一字詞在一份文件集中出現的頻率TF高,而在其他文件集中出現的頻率低時,就可以認為這個字詞可以將兩份文件集有效地區(qū)分開來[1]。
使用TF-IDF,這將把字符串格式化的數據轉換為衡量每個詞對整個文獻中的實例的重要性,矢量化數據。根據正文的內容進行聚類,特征的最大數量將受到限制。只有前212個特征將被使用,本質上作為一個噪聲過濾器。此外,更多的特征會導致長運行時間[2]。
主成分分析(Principal Component Analysis,PCA)是一種常用的數據分析方法。PCA通常被用于高維數據的降維操作,是利用線性變換的方法,將原始的數據轉換為一組線性無關的維度表示,利用這種表示可以提取出相關數據的主要特征分量。PCA可以將數據的維數在保持0.95的方差內投影到多個維數,同時消除嵌入時的噪聲和離群值。通過PCA保持大量的維度,不會破壞很多信息[3]。
t-SNE是用于降維的一種機器學習算法,由Laurens van der Maaten 和 Geoffrey Hinton在2008年提出。作為一種非線性的降維算法,t-SNE算法常被用于流形學習的降維過程。t-SNE算法通常被用于高維數據降維到2或3維數據,便于可視化操作。
使用t-SNE,可以將高維特征向量縮減到2維,通過使用這2個維度作為x,y坐標,可以繪制body_text。t-SNE在降低維度的同時,盡量讓相似的實例靠近,而不相似的實例分開。它主要用于可視化,特別是可視化高維空間中的實例集群[4]。
K均值聚類算法通常被用于數據迭代求解中的聚類分析(見圖1)。聚類是指將數據分組并集中于某些相似的數據成員的過程。人們通常稱這種發(fā)現內在結構的操作為無監(jiān)督學習。K均值聚類算法是將隨機選取的K個對象作為起始的聚類節(jié)點,通過計算其余各個對象與聚類節(jié)點的相對距離,選取各個對象最小的相對距離分配給各自對象。聚類節(jié)點和分配給對象的相對距離就代表一個聚類。所有對象都被分配完成之后,每個聚類相對應的聚類節(jié)點都會被重新計算。重復以上步驟直到滿足相應的條件,這個條件可以為以下任意一種:(1)沒有(或最小數目)對象被重新分配給不同的聚類;(2)沒有(或最小數目)聚類中心再發(fā)生變化;(3)誤差平方和局部最小。
首先,該工具保存為html文件,它可以下載并在本地使用;其次,維度的減小將減小數據集的訪問難度。論文都在圖上,可以通過懸停在它們上面進行快速檢查,如果摘要看起來很有趣,用戶就可以通過點擊該點,得到一個包含更加詳細信息的文本框鏈接。再者,通這些無監(jiān)督的技術可以向人們展示文獻中隱藏的聯系;最后,這項工作可以很容易地根據需要進行復制和修改,以便作為未來項目的基礎。但是研究中也同樣存在著一些問題值得深思,例如可能出現假陽性,難以在主體之間劃出準確的界限;K-means和t-SNE是無監(jiān)督的方法,不一定會以可預測的方式對實例進行分組,同樣正是由于它們的無監(jiān)督性質,對于如何對論文進行聚類,沒有一個“標準的答案”,一旦出現問題,可能很難調試;本文中使用的算法是隨機的,因此結果可能會隨著算法的變化而變化;并且會增加其在大型數據集文獻的運行時間。
對關于COVID-19的文獻進行分組,減少數據集的維度,這樣就得到了一幅散點圖,其中類似主題的文獻被歸為一組,其背后連接著一個更大的主題群。聚類和關鍵詞都是通過無監(jiān)督學習模型找到的,可以揭示人類可能根本沒有想到的模式。在這個項目的任何部分,不必手動組織論文。K-means(用顏色表示)和t-SNE(用點表示)能夠獨立地找到聚類,這表明論文之間的關系可以被識別和測量。在多數情況下,相似的研究領域都被聚類,最后的評估方法是分類,通過用K-means標簽訓練一個分類模型,然后在一個單獨的數據子集上進行測試,可以看到聚類并不是完全任意的。需要說明的是,不評估文獻的質量,僅僅將其分類,創(chuàng)建這個工具是為了幫助專門人員更方便地篩選出許多與新冠病毒有關的文獻,解決他們的需求。