余海+李斌+王培霞+賈荻+王永吉
摘 要:源代碼注釋是軟件的重要組成部分,研究者往往需要利用人工或自動(dòng)化的方法產(chǎn)生分析注釋,注釋的質(zhì)量評(píng)估也往往是通過人工來完成,這無疑是低效不客觀的。為此,首先從注釋的格式、語言形式、內(nèi)容以及與代碼相關(guān)度4個(gè)方面出發(fā)構(gòu)建注釋評(píng)估準(zhǔn)則;進(jìn)而,基于這一準(zhǔn)則提出了一種基于組合分類算法的注釋質(zhì)量評(píng)估方法。該方法將機(jī)器學(xué)習(xí)以及自然語言處理技術(shù)引入到注釋質(zhì)量評(píng)估中來,利用分類算法將注釋分為不合格、合格、良好、優(yōu)秀四個(gè)等級(jí)。通過對(duì)基本分類算法的組合使用,使得評(píng)估效果進(jìn)一步提高。組合分類算法的準(zhǔn)確率和F1值較單獨(dú)使用某一種分類算法提高20個(gè)百分點(diǎn)左右,除宏平均F1值外,各項(xiàng)指標(biāo)都達(dá)到了70%以上。實(shí)驗(yàn)結(jié)果表明,所提方法能夠很好地應(yīng)用于注釋質(zhì)量評(píng)估。
關(guān)鍵詞:源碼注釋;質(zhì)量評(píng)估;文本分類;組合算法;自然語言處理
中圖分類號(hào):TP311
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2016)12-3448-06