国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型的新聞話題分類研究

2014-07-28 00:40談成訪汪材印
電腦知識與技術(shù) 2014年16期
關(guān)鍵詞:主題分類

談成訪 汪材印

摘要: 針對部分網(wǎng)站中新聞話題沒有分類或者分類不清等問題, 將LDA模型應(yīng)用到新聞話題的分類中。首先對新聞數(shù)據(jù)集進行LDA主題建模,根據(jù)貝葉斯標準方法選擇最佳主題數(shù),采用Gibbs抽樣間接計算出模型參數(shù),得到數(shù)據(jù)集的主題概率分布;然后根據(jù)JS距離計算文檔之間的語義相似度,得到相似度矩陣;最后利用增量文本聚類算法對新聞文檔聚類,將新聞話題分成若干個不同結(jié)構(gòu)的子話題。實驗結(jié)果顯示表明該方法能有效地實現(xiàn)對新聞話題的劃分。

關(guān)鍵詞: LDA;文本聚類;新聞話題;分類;主題

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)16-3795-03

Abstract: The LDA model is applied to the classification of news topic on the website because of its no classification or unclear classification. Firstly, news dataset is modeled by LDA modeling, the optimal number of topic is chosen according to Bias standard method, and get the topic probability distribution of dataset by using Gibbs sampling to calculate the model parameters; and then similarity matrix is obtained based on the semantic similarity between documents by computing JS distance; finally, the incremental clustering algorithm is used to cluster news document, and the topic is divided into a number of different structure of the sub topic. The experimental results show that this method can realize the division of news topic effectively.

Key words: Latent Dirichlet Allocation; Text Clustering; News Topic; Classification; Topic

1 概述

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,很多門戶網(wǎng)站提供了新聞專題報道欄目,尤其是當某一熱點事件產(chǎn)生時,與該熱點事件相關(guān)聯(lián)的新聞話題通常以專欄形式集中報道發(fā)布,以便于人們及時了解事件的發(fā)展動態(tài)。然而,目前一些網(wǎng)站新聞專題欄目,缺少對新聞話題進行進一步的分類或者分類不夠清晰,從而影響了人們對頁面的瀏覽興趣。因此,如何對新聞話題具體清晰地進行分類具有重要的研究意義。

本文將LDA模型融入新聞話題分類研究中,利用JS距離計算文檔間的語義相似度,在此基礎(chǔ)上進行文檔聚類,實現(xiàn)對新聞話題的進一步劃分。

2 LDA模型

LDA是Blei等[1]提出的一種統(tǒng)計主題模型,包含詞、主題和文檔三層結(jié)構(gòu)。其主要思想是文檔是由若干主題混合而成,每個主題又由一系列的詞匯混合而成[2]。 模型的建立如圖1所示。

其中,[α]代表整個文檔集上主題的Dirichlet先驗分布,[β]代表所有主題上詞語的Dirichlet先驗分布,[N]代表詞語個數(shù),[M]代表整個文檔集中的文檔數(shù)量,[T]代表主題個數(shù)。

假設(shè)文檔集[D]中有[M]個文檔,表示為[D={d1,d2,...,dm}],其中任意一個文檔[d]包含[N]個詞語,表示為[d={w1,w2,...,wn}],因此,一個文檔中詞語[wi]的概率分布計算公式如下:

[p(wi)=j=1Tp(wi|zi=j)p(zi=j)] (1)

其中,[zi]是潛在變量,[p(wi|zi=j)]表示詞語[wi]屬于第[j]個主題的概率,[p(zi=j)]表示文檔[d]中屬于第[j]個主題的概率。

3 基于LDA模型的新聞話題分類方法

基于LDA模型的新聞話題分類過程如圖2所示。

3.1 文本預(yù)處理

預(yù)處理在中文文本分類主要是指中文分詞、詞性標注、去除停用詞等。首先對新聞文檔集進行中文分詞,然后剔除虛詞、停用詞等與主題無關(guān)或者關(guān)聯(lián)非常小的詞,僅僅保留對主題影響較大的名詞和動詞。

3.2 特征選擇和文本表示

本文采用在中文分類中效果較好的MI方法抽取特征[3],單詞[wi]和類別[c]之間的互信息定義為:

[MI(wi,c)=logp(wi?c)p(wi)p(c)] (2)

其中,[p(wi?c)]表示表示[wi]和[c]同時出現(xiàn)的概率,[p(wi)]表示[wi]出現(xiàn)的概率,[p(c)]

則表示[c]出現(xiàn)的概率。

文本表示采用目前應(yīng)用較廣泛的向量空間模型(VSM) 來表示文本。

[Mmi=(w1,w2,...,wn)] (3)

其中[wi]表示第[i]個特征項的權(quán)重,根據(jù)著名的TF-IDF 公式計算權(quán)重:

[Wi(d)=tfi(d)*log(N/ni+0.1)i=1n(tfi(d))2×log2(N/ni+0.1)] (4)

其中, [tfi(d)] 表示第[i]個特征項在文檔[d]中的詞頻, [N]為訓練文本的總數(shù), [ni]為訓練文本集中出現(xiàn)[i]的文本數(shù), 分母為歸一化因子。endprint

3.3 LDA主題建模

3.3.1 模型選擇

由于主題個數(shù)影響LDA模型對文檔集的擬合性能,因此需要確定主題個數(shù)的最佳值。該文采用貝葉斯統(tǒng)計中的標準方法來確定最佳主題個數(shù)。 在LDA 模型中,[α]和[β]分別是[θ]和[φ] 上的Dirichlet 先驗分布,通過對[θ]和[φ]積分可以求取聯(lián)合概率[p(w,z)]的值,計算如下。

根據(jù)公式(6)計算出使用不同主題數(shù)T對數(shù)據(jù)集建模的[p(w|T)]值。由[p(w|T)]值確定最佳主題數(shù)T。

3.3.2 參數(shù)估計

根據(jù)MCMC中的Gibbs抽樣算法進行參數(shù)推理,通過對變量[z]進行Gibbs抽樣間接計算出文本-主題概率分布和主題-詞概率分布,即[θ]和[?][4],計算公式如下:

[θd=nmj+αnd?+Tα] (7)

[?w=nwj+βn?j+Wβ] (8)

其中,[nmj]表示是文檔[dm]中分配給主題[j]的詞數(shù),[nd?]表示文檔[dm]中所有分配了主題的詞數(shù),[nwj]表示詞匯[w]分配給主題[j]的頻數(shù),[n?j]表示分配給主題[j]的所有詞匯數(shù)。

3.4 文本相似度計算

通過LDA模型的構(gòu)建可以得到文本-主題概率分布和主題-詞概率分布,因此,計算兩個文檔的相似度可通過計算與之對應(yīng)的主題概率分布來實現(xiàn)。由于主題是詞向量的混合分布,因此,該文使用JS(Jensen-Shannon)距離來計算主題概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距離,具體的計算公式如下:

[Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

其中[DKL(p,q)=j=1Tpjlnpjqj],p,q為主題概率分布。

3.5 文本聚類

增量文本聚類是話題檢測領(lǐng)域中常用的一種算法,該文采用該算法對新聞話題文檔集進行主題聚類,其算法思想如下[5]:

1) 預(yù)設(shè)一個聚類閾值[k];

2) 計算每個文檔[di]與已識別子話題簇[Cjt]之間的相似度并找到最相似子話題簇,[Sim(di,CMt)=maxSim(di,Cjt)];

3) 若[Sim(di,CMt)>k](預(yù)設(shè)的聚類閾值),則將該文檔[di]加入子話題簇[CMt]中;否則,以該微博文檔[di]作為種子話題創(chuàng)建新的子話題。

4 實驗與分析

4.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)利用網(wǎng)頁爬蟲從新浪新聞爬取“馬航失聯(lián)航班”專題下的相關(guān)報道模塊,時間范圍從2014年3月8日到2014年3月15日的新聞報道共6,321篇。經(jīng)過分詞、剔除無用詞等預(yù)處理后,從中選取3800篇作為實驗數(shù)據(jù)集。

4.2 評估方法

實驗評估方法選擇傳統(tǒng)的評估標準:正確率p、召回率r、F1值、宏平均正確率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。計算公式如下[6]:

其中,[a]表示正確分到一個類別的文本數(shù)量,[b]表示分類結(jié)果中分類錯誤的文本數(shù)量,[c]表示應(yīng)該被分到一個類別但沒有正確分類的文本數(shù)量,[k]表示文本的類別個數(shù)。

4.3 實驗結(jié)果分析

首先使用前面介紹的最佳主題個數(shù)確定方法,根據(jù)[α=50/T],[β=0.01][7] (此為經(jīng)驗值,這種取值在本實驗數(shù)據(jù)集上有較好的效果)。[T]在各種不同的取值下分別運行Gibbs抽樣算法,分析[logP(w|T)]的變化。實驗結(jié)果如圖3所示。

由圖3可知,當[T]= 60 時,[logP(w|T)]最小,此時模型對于文檔集的擬合性能最佳。因此,在實驗中選擇主題個數(shù)[T]為60。

本文將文本表示選擇VSM,采用MI提取特征詞,然后使用增量文本聚類算法分類,作為對比實驗,實驗結(jié)果如表1所示。

5 結(jié)論

本文將LDA模型應(yīng)用到新聞話題分類中,利用LDA模型進行主題建模和文本語義相似度計算,并使用增量文本聚類算法實現(xiàn)對新聞話題的分類,實驗結(jié)果表明,與傳統(tǒng)的向量空間模型相比,通過LDA建模,降低了數(shù)據(jù)稀疏性和特征空間高維性等問題,提高了分類的正確率。在今后的工作中,將進一步研究提高LDA模型的建模和推斷時間,并將其拓展到更多的領(lǐng)域,如信息檢索、微博話題發(fā)現(xiàn)、情感分析等。

參考文獻:

[1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

[2] 談成訪,汪材印,張亞康. 基于LDA的中文微博熱點話題發(fā)現(xiàn)[J]. 宿州學院學學報,2014(4): 71-73.

[3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

[4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

[5] 趙愛華,劉培玉,鄭燕. 基于LDA的新聞話題子話題劃分方法[J]. 小型微型計算機系統(tǒng),2013, 34(4):732-735.

[6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

[7] 姚全珠,宋志理,彭程. 基于LDA的文本分類研究[J]. 計算機工程與應(yīng)用,2011,47(13):150-153.endprint

3.3 LDA主題建模

3.3.1 模型選擇

由于主題個數(shù)影響LDA模型對文檔集的擬合性能,因此需要確定主題個數(shù)的最佳值。該文采用貝葉斯統(tǒng)計中的標準方法來確定最佳主題個數(shù)。 在LDA 模型中,[α]和[β]分別是[θ]和[φ] 上的Dirichlet 先驗分布,通過對[θ]和[φ]積分可以求取聯(lián)合概率[p(w,z)]的值,計算如下。

根據(jù)公式(6)計算出使用不同主題數(shù)T對數(shù)據(jù)集建模的[p(w|T)]值。由[p(w|T)]值確定最佳主題數(shù)T。

3.3.2 參數(shù)估計

根據(jù)MCMC中的Gibbs抽樣算法進行參數(shù)推理,通過對變量[z]進行Gibbs抽樣間接計算出文本-主題概率分布和主題-詞概率分布,即[θ]和[?][4],計算公式如下:

[θd=nmj+αnd?+Tα] (7)

[?w=nwj+βn?j+Wβ] (8)

其中,[nmj]表示是文檔[dm]中分配給主題[j]的詞數(shù),[nd?]表示文檔[dm]中所有分配了主題的詞數(shù),[nwj]表示詞匯[w]分配給主題[j]的頻數(shù),[n?j]表示分配給主題[j]的所有詞匯數(shù)。

3.4 文本相似度計算

通過LDA模型的構(gòu)建可以得到文本-主題概率分布和主題-詞概率分布,因此,計算兩個文檔的相似度可通過計算與之對應(yīng)的主題概率分布來實現(xiàn)。由于主題是詞向量的混合分布,因此,該文使用JS(Jensen-Shannon)距離來計算主題概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距離,具體的計算公式如下:

[Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

其中[DKL(p,q)=j=1Tpjlnpjqj],p,q為主題概率分布。

3.5 文本聚類

增量文本聚類是話題檢測領(lǐng)域中常用的一種算法,該文采用該算法對新聞話題文檔集進行主題聚類,其算法思想如下[5]:

1) 預(yù)設(shè)一個聚類閾值[k];

2) 計算每個文檔[di]與已識別子話題簇[Cjt]之間的相似度并找到最相似子話題簇,[Sim(di,CMt)=maxSim(di,Cjt)];

3) 若[Sim(di,CMt)>k](預(yù)設(shè)的聚類閾值),則將該文檔[di]加入子話題簇[CMt]中;否則,以該微博文檔[di]作為種子話題創(chuàng)建新的子話題。

4 實驗與分析

4.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)利用網(wǎng)頁爬蟲從新浪新聞爬取“馬航失聯(lián)航班”專題下的相關(guān)報道模塊,時間范圍從2014年3月8日到2014年3月15日的新聞報道共6,321篇。經(jīng)過分詞、剔除無用詞等預(yù)處理后,從中選取3800篇作為實驗數(shù)據(jù)集。

4.2 評估方法

實驗評估方法選擇傳統(tǒng)的評估標準:正確率p、召回率r、F1值、宏平均正確率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。計算公式如下[6]:

其中,[a]表示正確分到一個類別的文本數(shù)量,[b]表示分類結(jié)果中分類錯誤的文本數(shù)量,[c]表示應(yīng)該被分到一個類別但沒有正確分類的文本數(shù)量,[k]表示文本的類別個數(shù)。

4.3 實驗結(jié)果分析

首先使用前面介紹的最佳主題個數(shù)確定方法,根據(jù)[α=50/T],[β=0.01][7] (此為經(jīng)驗值,這種取值在本實驗數(shù)據(jù)集上有較好的效果)。[T]在各種不同的取值下分別運行Gibbs抽樣算法,分析[logP(w|T)]的變化。實驗結(jié)果如圖3所示。

由圖3可知,當[T]= 60 時,[logP(w|T)]最小,此時模型對于文檔集的擬合性能最佳。因此,在實驗中選擇主題個數(shù)[T]為60。

本文將文本表示選擇VSM,采用MI提取特征詞,然后使用增量文本聚類算法分類,作為對比實驗,實驗結(jié)果如表1所示。

5 結(jié)論

本文將LDA模型應(yīng)用到新聞話題分類中,利用LDA模型進行主題建模和文本語義相似度計算,并使用增量文本聚類算法實現(xiàn)對新聞話題的分類,實驗結(jié)果表明,與傳統(tǒng)的向量空間模型相比,通過LDA建模,降低了數(shù)據(jù)稀疏性和特征空間高維性等問題,提高了分類的正確率。在今后的工作中,將進一步研究提高LDA模型的建模和推斷時間,并將其拓展到更多的領(lǐng)域,如信息檢索、微博話題發(fā)現(xiàn)、情感分析等。

參考文獻:

[1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

[2] 談成訪,汪材印,張亞康. 基于LDA的中文微博熱點話題發(fā)現(xiàn)[J]. 宿州學院學學報,2014(4): 71-73.

[3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

[4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

[5] 趙愛華,劉培玉,鄭燕. 基于LDA的新聞話題子話題劃分方法[J]. 小型微型計算機系統(tǒng),2013, 34(4):732-735.

[6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

[7] 姚全珠,宋志理,彭程. 基于LDA的文本分類研究[J]. 計算機工程與應(yīng)用,2011,47(13):150-153.endprint

3.3 LDA主題建模

3.3.1 模型選擇

由于主題個數(shù)影響LDA模型對文檔集的擬合性能,因此需要確定主題個數(shù)的最佳值。該文采用貝葉斯統(tǒng)計中的標準方法來確定最佳主題個數(shù)。 在LDA 模型中,[α]和[β]分別是[θ]和[φ] 上的Dirichlet 先驗分布,通過對[θ]和[φ]積分可以求取聯(lián)合概率[p(w,z)]的值,計算如下。

根據(jù)公式(6)計算出使用不同主題數(shù)T對數(shù)據(jù)集建模的[p(w|T)]值。由[p(w|T)]值確定最佳主題數(shù)T。

3.3.2 參數(shù)估計

根據(jù)MCMC中的Gibbs抽樣算法進行參數(shù)推理,通過對變量[z]進行Gibbs抽樣間接計算出文本-主題概率分布和主題-詞概率分布,即[θ]和[?][4],計算公式如下:

[θd=nmj+αnd?+Tα] (7)

[?w=nwj+βn?j+Wβ] (8)

其中,[nmj]表示是文檔[dm]中分配給主題[j]的詞數(shù),[nd?]表示文檔[dm]中所有分配了主題的詞數(shù),[nwj]表示詞匯[w]分配給主題[j]的頻數(shù),[n?j]表示分配給主題[j]的所有詞匯數(shù)。

3.4 文本相似度計算

通過LDA模型的構(gòu)建可以得到文本-主題概率分布和主題-詞概率分布,因此,計算兩個文檔的相似度可通過計算與之對應(yīng)的主題概率分布來實現(xiàn)。由于主題是詞向量的混合分布,因此,該文使用JS(Jensen-Shannon)距離來計算主題概率向量[p=(p1,p2,...,pk)]到[q=(q1,q2,...,qk)]的距離,具體的計算公式如下:

[Djs(p,q)=12[DKL(p,p+q2)+DKL(q,p+q2)]] (9)

其中[DKL(p,q)=j=1Tpjlnpjqj],p,q為主題概率分布。

3.5 文本聚類

增量文本聚類是話題檢測領(lǐng)域中常用的一種算法,該文采用該算法對新聞話題文檔集進行主題聚類,其算法思想如下[5]:

1) 預(yù)設(shè)一個聚類閾值[k];

2) 計算每個文檔[di]與已識別子話題簇[Cjt]之間的相似度并找到最相似子話題簇,[Sim(di,CMt)=maxSim(di,Cjt)];

3) 若[Sim(di,CMt)>k](預(yù)設(shè)的聚類閾值),則將該文檔[di]加入子話題簇[CMt]中;否則,以該微博文檔[di]作為種子話題創(chuàng)建新的子話題。

4 實驗與分析

4.1 實驗數(shù)據(jù)

本文實驗數(shù)據(jù)利用網(wǎng)頁爬蟲從新浪新聞爬取“馬航失聯(lián)航班”專題下的相關(guān)報道模塊,時間范圍從2014年3月8日到2014年3月15日的新聞報道共6,321篇。經(jīng)過分詞、剔除無用詞等預(yù)處理后,從中選取3800篇作為實驗數(shù)據(jù)集。

4.2 評估方法

實驗評估方法選擇傳統(tǒng)的評估標準:正確率p、召回率r、F1值、宏平均正確率Macro-p、宏平均召回率Macro-r、宏平均率Macro-F1值。計算公式如下[6]:

其中,[a]表示正確分到一個類別的文本數(shù)量,[b]表示分類結(jié)果中分類錯誤的文本數(shù)量,[c]表示應(yīng)該被分到一個類別但沒有正確分類的文本數(shù)量,[k]表示文本的類別個數(shù)。

4.3 實驗結(jié)果分析

首先使用前面介紹的最佳主題個數(shù)確定方法,根據(jù)[α=50/T],[β=0.01][7] (此為經(jīng)驗值,這種取值在本實驗數(shù)據(jù)集上有較好的效果)。[T]在各種不同的取值下分別運行Gibbs抽樣算法,分析[logP(w|T)]的變化。實驗結(jié)果如圖3所示。

由圖3可知,當[T]= 60 時,[logP(w|T)]最小,此時模型對于文檔集的擬合性能最佳。因此,在實驗中選擇主題個數(shù)[T]為60。

本文將文本表示選擇VSM,采用MI提取特征詞,然后使用增量文本聚類算法分類,作為對比實驗,實驗結(jié)果如表1所示。

5 結(jié)論

本文將LDA模型應(yīng)用到新聞話題分類中,利用LDA模型進行主題建模和文本語義相似度計算,并使用增量文本聚類算法實現(xiàn)對新聞話題的分類,實驗結(jié)果表明,與傳統(tǒng)的向量空間模型相比,通過LDA建模,降低了數(shù)據(jù)稀疏性和特征空間高維性等問題,提高了分類的正確率。在今后的工作中,將進一步研究提高LDA模型的建模和推斷時間,并將其拓展到更多的領(lǐng)域,如信息檢索、微博話題發(fā)現(xiàn)、情感分析等。

參考文獻:

[1] Blei D M, Lafferty J D. A correlated topic model of science[J].Annals of Applied Statistics, 2007, 1(1):17-35.

[2] 談成訪,汪材印,張亞康. 基于LDA的中文微博熱點話題發(fā)現(xiàn)[J]. 宿州學院學學報,2014(4): 71-73.

[3] Lv Nan,Luo Jun-yong,Liu Yao,et al.Topic three layer model based topic evolution analysis algorithm [J]. Computer Engineering, 2009, 35(23): 71-75.

[4] QUAN X J, LIU G, et al.Short text similarity based on probabilistic topics [J]. Knowledge Information System, 2010, 25(3):473-491.

[5] 趙愛華,劉培玉,鄭燕. 基于LDA的新聞話題子話題劃分方法[J]. 小型微型計算機系統(tǒng),2013, 34(4):732-735.

[6] Chengfang TAN. Short Text Classification Based on LDA and SVM [J]. International Journal of Applied Mathematics and Statistics (IJAMS), 2013, 51(22):205-214.

[7] 姚全珠,宋志理,彭程. 基于LDA的文本分類研究[J]. 計算機工程與應(yīng)用,2011,47(13):150-153.endprint

猜你喜歡
主題分類
分類算一算
垃圾分類的困惑你有嗎
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
淺談中國俠文化背景下的武俠電影
《風雨哈佛路》的主題評析與文化解讀
淺析古詩詞教學中意象教學的策略
農(nóng)村幼兒園“幼小銜接”的“五步走”
巖井俊二的青春片摭談
互助| 濮阳县| 福泉市| 桃江县| 彰武县| 鲁甸县| 莆田市| 仪陇县| 邮箱| 茂名市| 丹巴县| 互助| 德惠市| 阜宁县| 南平市| 青神县| 龙州县| 平阴县| 江山市| 昆山市| 湖北省| 蓬溪县| 昌吉市| 禄丰县| 永丰县| 科尔| 濮阳市| 乳源| 长葛市| 台南县| 眉山市| 时尚| 浪卡子县| 襄城县| 岚皋县| 晋城| 通化市| 金川县| 揭东县| 湖口县| 沂水县|