王高佳晨 林國鳳 陳婷婷
(廈門華廈學(xué)院,福建 廈門 361024)
隨著法制社會的推進,人民已經(jīng)學(xué)會拿起法律武器捍衛(wèi)自己的利益。由于法律行業(yè)具有專業(yè)性和區(qū)域性的特點,因此人們在尋找律師時缺少可以參考的依據(jù),通常通過行業(yè)的口碑、熟人推薦等渠道尋求律師的幫助。雖然國內(nèi)有類似法律快車網(wǎng)在線的法律咨詢平臺,但是由于互聯(lián)網(wǎng)規(guī)模和覆蓋面的迅速增長會帶來信息超載的問題,因此用戶很難在法律快車網(wǎng)找到感興趣的內(nèi)容,傳統(tǒng)的搜索算法只能為用戶呈現(xiàn)一樣的排序結(jié)果,無法針對不同用戶的需求提供個性化。
該文針對用戶需求設(shè)計了一套智能推薦與分析系統(tǒng),該系統(tǒng)具備可視化大屏展示的功能。如圖1所示,該系統(tǒng)主要包括4個模塊:數(shù)據(jù)處理模塊、智能推薦模塊、數(shù)據(jù)分析模塊和數(shù)據(jù)可視化模塊。該文涉及的工作主要包括以下4個方面:1) 數(shù)據(jù)處理模塊。包括數(shù)據(jù)采集、數(shù)據(jù)清洗以及數(shù)據(jù)存儲。2) 智能推薦模塊。采用基于協(xié)同過濾的推薦算法實現(xiàn)推薦法律知識和律師服務(wù)的功能,根據(jù)當(dāng)事人對法律快車網(wǎng)的瀏覽記錄為用戶推薦相關(guān)的法律知識和律師服務(wù),從而實現(xiàn)提供個性化服務(wù)的目標(biāo)。3) 數(shù)據(jù)分析模塊?;诩訖?quán)TFIDF算法和聚類分析算法研究某一段時間內(nèi)某地域的熱點事件,實現(xiàn)對地域熱點事件的追蹤,進而實時把握、追蹤社會熱點。采用統(tǒng)計算法分析離婚案件與地域的關(guān)聯(lián)性,適當(dāng)?shù)貫橛脩籼峁┖侠淼膮⒖及咐?,為用戶妥善處理離婚事件提供法律支持。4)數(shù)據(jù)可視化模塊。對基于法律快車網(wǎng)的智能推薦結(jié)果與分析結(jié)果進行前端大屏可視化展示。
圖1 基于法律快車網(wǎng)的智能推薦與分析系統(tǒng)架構(gòu)
使用網(wǎng)絡(luò)爬蟲技術(shù)訪問法律快車網(wǎng)站并采集數(shù)據(jù),通過網(wǎng)絡(luò)爬蟲相關(guān)的頁面解析技術(shù),從訪問頁面中提取價值數(shù)據(jù),數(shù)據(jù)字段包括用戶ID、用戶所在省市、來源關(guān)鍵詞、來源網(wǎng)站、訪問時間、訪問頁面、頁面標(biāo)題、標(biāo)簽、網(wǎng)頁類別、關(guān)鍵詞、律師ID、律師姓名、擅長領(lǐng)域以及律師所在省市等。
對采集的數(shù)據(jù)進行數(shù)據(jù)清洗與存儲,清除關(guān)鍵詞段為空的數(shù)據(jù)以及律師和用戶不可用的數(shù)據(jù)。將清洗規(guī)整的數(shù)據(jù)拆分為5個表(開展不同的分析工作),分別是律師表、用戶表、提問信息表、法律知識表以及綜合信息表。
用戶進入法律快車網(wǎng)網(wǎng)站主頁查找資源,自行尋找位于不同欄目下的目標(biāo)資源相對困難,此時需要網(wǎng)站提供推薦功能,推薦用戶感興趣的頁面(例如讓有法律援助需求的公眾快速找到合適的律師)。該文通過數(shù)據(jù)建模分析用戶事件行為,設(shè)計了基于協(xié)同過濾的法律快車網(wǎng)推薦模型,該模型是基于計算用戶相似度的思想,根據(jù)用戶對信息類別的偏好找到相似用戶,再將相似用戶喜歡的推薦給當(dāng)前用戶。該系統(tǒng)所推薦的內(nèi)容分為2個部分,第一部分是為用戶推薦律師,第二部分是為用戶推薦法律知識。
首先,對常用用戶的瀏覽數(shù)據(jù)進行分類,根據(jù)法律類別的不同來反映用戶的偏好,并對偏好程度進行加權(quán),得到用戶對不同類別信息的總體喜好程度。其次,對目前登陸用戶的歷史瀏覽數(shù)據(jù)進行分析,得到滿足當(dāng)前用戶需求的律師和法律知識,根據(jù)用戶的需求程度計算相似用戶,從而基于相似用戶進行推薦。相似度的基礎(chǔ)計算方法是基于向量的,也是計算2個向量之間的距離,距離越小表示相似度越高。在推薦場景中,可以將用戶瀏覽信息類別偏好看作二維矩陣,將1個用戶對所有物品的偏好作為1個向量,也可以將所有用戶對某個物品的偏好作為1個向量,從而計算物品的之間的相似度。
2個用戶的相似度如公式(1)所示。
式中:和分別為2個不同用戶的維向量,= [,,,...,X](X為向量),=[,,,...,Y](Y為向量);為用戶與用戶的夾角,=0°,其余弦值為1。
當(dāng)2個向量之間的夾角越?。ㄔ节吔?0° ),2個用戶(和)越相似。
完成相似度的計算后,根據(jù)相似度找到用戶-瀏覽信息類別的鄰居。該文采用的算法是挑選固定數(shù)量鄰居的方法。根據(jù)鄰居的相似度權(quán)重以及他們對信息類別的需求,預(yù)測當(dāng)前用戶沒有瀏覽過的律師信息與法律知識,計算網(wǎng)站的訪問次數(shù)的權(quán)重。經(jīng)過加權(quán)計算得到1個排序的物品列表作為推薦,試驗設(shè)置為5,表示將排名前五的律師或類別法律知識推薦給訪問用戶。
需要嚴(yán)密地對網(wǎng)上的突發(fā)輿情信息進行監(jiān)控,希望可以把握和跟蹤最新的社會熱點,并分析其對人們生活造成的影響。發(fā)現(xiàn)熱點事件是要發(fā)現(xiàn)某個以前未知的熱點話題,可以通過不同的聚類算法來發(fā)現(xiàn)話題。但是單純通過聚類算法無法處理文本信息,該文提出的基于聚類分析和TF-IDF加權(quán)的算法能夠很好地解決區(qū)域熱點分析問題。該方法比傳統(tǒng)的單一基于聚類的熱點事件分析方法擁有更高的準(zhǔn)確性。
熱點事件模塊設(shè)計分為以下4個步驟:1) 使用結(jié)巴分詞將數(shù)據(jù)集中提出問題切成詞組。2)TF-IDF找出關(guān)鍵詞。TF詞頻(Term Frequency)和IDF反文檔頻率(Inverse Document Frequency)。TF表示詞條在文檔d中出現(xiàn)的頻率。IDF表示如果包括詞條t的文檔越少,也就是越小且IDF越大,則說明詞條t具有很好的類別區(qū)分能力。反之,詞條t不具有區(qū)分能力。詞頻如公式(2)所示。反文檔頻率如公式(3)所示。為詞條對文檔的重要程度,如公式(4)所示。3)K-means聚類。通過從數(shù)據(jù)中隨機選取個詞條作為初始點質(zhì)心,計算質(zhì)心與數(shù)據(jù)點距離不斷迭代,當(dāng)質(zhì)心的距離小于設(shè)定的閾值,算法終止。4) 合并同類。將同一類別的文件合并,對每個同類文件進行加權(quán)詞頻統(tǒng)計與排序,篩選出排名前位的詞條作為這段時間內(nèi)該區(qū)域的熱門事件。
式中:n為該詞在文件d中出現(xiàn)的次數(shù);∑n為在文件中所有詞出現(xiàn)次數(shù)的和;為文件d中所有詞的數(shù)量。
式中:||為語料庫中的文件總數(shù);|{︰t∈d}|為包括詞語t的文件數(shù)目(即n的文件數(shù)目),如果該詞語不在語料庫中,就會導(dǎo)致被除數(shù)為0。
工業(yè)化與現(xiàn)代化的深入推進給現(xiàn)代社會婚姻家庭關(guān)系所帶來的重大變化之一就是離婚問題日益突出,離婚率趨向上升。該文使用大數(shù)據(jù)分析技術(shù)分析了中國省級與市級之間離婚水平的差別和離婚水平與用戶所在地區(qū)的關(guān)聯(lián)性。
離婚案件分析模塊設(shè)計如下:一個地區(qū)的離婚水平與該地區(qū)所有用戶訪問法律快車網(wǎng)中有關(guān)離婚信息的次數(shù)和所有用戶訪問網(wǎng)站所有信息的次數(shù)的比率與該地區(qū)訪問離婚案件的用戶人數(shù)和總用戶數(shù)的比率有關(guān),地域離婚率,如公式(5)所示。
式中:N為統(tǒng)計離婚咨詢次數(shù);N為該地區(qū)咨詢總數(shù);N為咨詢離婚案件的用戶數(shù);N為總用戶數(shù);與為2個比率的權(quán)重系數(shù)。
在該試驗中,初始化與,表示咨詢次數(shù)比率對地域離婚率的影響占比,用戶人數(shù)的比率對地域離婚率的影響占比,在試驗中分別設(shè)為0.3與0.7。地域離婚率越大,該地區(qū)的離婚案件越多;地域離婚率越小,該地區(qū)的離婚案件越少。
數(shù)據(jù)可視化將數(shù)據(jù)分析模塊進行精美又直接的展示,該文采用可視化大屏的方式對分析與推薦結(jié)果進行展示。在數(shù)據(jù)可視化模塊中展示熱門事件詞云圖、福建省各地區(qū)咨詢離婚次數(shù)、全國各省離婚率占比、用戶地區(qū)分布、相關(guān)律師和法律推薦。
從可視化大屏中直觀獲得用戶總?cè)藬?shù)為36 040人,其中律師總?cè)藬?shù)為6 206人。為了直觀地觀測用戶群體所在的地區(qū),繪制圓環(huán)圖與中國地圖,在地圖中則能夠觀測到各省份用戶的訪問次數(shù)。
對用戶在法律快車網(wǎng)上提出問題的數(shù)據(jù)進行分析,得到時間段內(nèi)出現(xiàn)頻率較高的詞匯數(shù)據(jù),以廈門地區(qū)為例,分析近一個月內(nèi)的高搜索頻率詞條,將其作為熱點事件并通過詞云圖直觀地呈現(xiàn)出來,如圖2所示。
圖2 熱門事件的詞條
圖3用柱狀圖形象地展示了福建省各地區(qū)離婚率的差異,可以直觀地了解離婚案件與地域的關(guān)聯(lián)性。以福建省為例,橫坐標(biāo)為福建省的部分城市,縱坐標(biāo)為訪問離婚案件的次數(shù)(單位:次),福州市的離婚咨詢次數(shù)最高,其次為廈門市和泉州市。其中,三明市的離婚咨詢次數(shù)最低。
圖3 福建省各地區(qū)咨詢離婚次數(shù)
系統(tǒng)智能地為用戶推薦合適的律師與法律知識,試驗結(jié)果如圖4所示。當(dāng)用戶進入網(wǎng)站時,系統(tǒng)會識別用戶ID,匹配與該用戶ID最相似的其他用戶,將相似用戶曾經(jīng)多次訪問過的律師信息推薦給給該用戶。方便用戶快速地查找自己符合自己需求的律師和答案。
圖4 推薦律師與法律知識
該文設(shè)計了基于協(xié)同過濾的法律快車網(wǎng)推薦模型,該模型基于計算用戶相似度的思想,分別對用戶-律師和用戶-法律知識數(shù)據(jù)進行分析,從試驗結(jié)果可知,該模型的推薦結(jié)果能夠滿足用戶的需求。
該文提出基于法律快車網(wǎng)的智能推薦與分析系統(tǒng),該系統(tǒng)能夠幫助用戶簡單快速地在法律快車網(wǎng)中找到感興趣的法律知識和專業(yè)律師。該系統(tǒng)使不同地域的用戶進入系統(tǒng)之后都可以直觀地瀏覽近期該地域的熱點事件,發(fā)揮對社會事件的監(jiān)督作用,具有很大的應(yīng)用價值,還可以為其他網(wǎng)絡(luò)平臺的建設(shè)提供參考。