蔡忠哲,曾日威,林承鋮,李韶偉
(臺(tái)州學(xué)院電子與信息工程學(xué)院,浙江 臨海 317000)
Wordle 是《紐約時(shí)報(bào)》推出的一款“猜詞”游戲,因具有趣味性和益智性,深受大眾歡迎。Wordle 玩家可通過(guò)多次的“試錯(cuò)”得到線索,從而猜出“謎底”;而Wordle 依照“試錯(cuò)”的次數(shù)可以給玩家評(píng)分。本文利用該游戲的運(yùn)作原理和單詞的屬性解決兩個(gè)問(wèn)題,以實(shí)現(xiàn)《紐約時(shí)報(bào)》可以預(yù)測(cè)未來(lái)某一天Wordle 游戲的答題情況,并對(duì)“謎底單詞”進(jìn)行難度分類。兩個(gè)問(wèn)題具體如下:
問(wèn)題一:根據(jù)2023 年美國(guó)數(shù)學(xué)建模競(jìng)賽(MCM/ICM)賽題數(shù)據(jù),建立合理的預(yù)測(cè)模型,預(yù)測(cè)2023 年3月1 日的答題情況,并研究單詞屬性對(duì)答題情況的影響。
問(wèn)題二:建立“謎底”單詞的難度分類模型,并說(shuō)明分類結(jié)果的正確性。
因賽題所提供的時(shí)序數(shù)據(jù)中含有線性和非線性成分,預(yù)測(cè)難度較大,所以我們選用了ARIMA-LSTM預(yù)測(cè)模型(自回歸滑動(dòng)平均取值和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的組合模型:Autoregressive Integrated Moving Average,Long Short-Term Memory)[1-2],以便精確地預(yù)測(cè)2023 年3 月1 日的答題結(jié)果。
1.建立ARIMA 模型(自回歸滑動(dòng)平均模型,Autoregressive Integrated Moving Average)。建立過(guò)程包括:數(shù)據(jù)的平穩(wěn)性檢驗(yàn)、差分化、確定參數(shù)、參數(shù)顯著性檢驗(yàn)、模型預(yù)測(cè)。
(1)平穩(wěn)性檢驗(yàn)。依據(jù)自相關(guān)函數(shù)ACF(Autocorrelation Function)和偏自相關(guān)函數(shù)PACF(Partial Autocorrelation Function)[3]的結(jié)果來(lái)量化數(shù)據(jù)的平穩(wěn)性,定義自相關(guān)函數(shù)為
自相關(guān)數(shù)為
其中:ft為當(dāng)天需要該次數(shù)完成游戲的人的比例數(shù),為該段時(shí)間內(nèi)需要該次數(shù)完成游戲的人所占比例數(shù)的平均值,E表示期望,k為滯后系數(shù)。
定義偏自相關(guān)函數(shù)為
根據(jù)原始數(shù)據(jù)描繪圖形,如圖1 所示。由圖1 可直觀看出,原始數(shù)據(jù)的平穩(wěn)性不佳,需要對(duì)其進(jìn)行差分處理。
圖1 原始數(shù)據(jù)圖形
(2)差分化。根據(jù)人們的數(shù)據(jù)處理經(jīng)驗(yàn),對(duì)數(shù)據(jù)差分的階數(shù)不宜過(guò)高。本文對(duì)數(shù)據(jù)經(jīng)過(guò)一階差分處理,即可得到“平穩(wěn)”的數(shù)據(jù),因此確定差分階數(shù)d= 1。
(3)確定參數(shù)。通過(guò)對(duì)自相關(guān)ACF 和偏自相關(guān)PACF 進(jìn)行分析,確定ARIMA 模型的參數(shù)p和q,相關(guān)的數(shù)據(jù)圖形如圖2 所示。
圖2 自相關(guān)圖與偏自相關(guān)圖
從圖2 中的自相關(guān)ACF 圖可以看出,數(shù)據(jù)為3 階拖尾;而從偏自相關(guān)PACF 圖可以看出,數(shù)據(jù)為1階拖尾。因此,可以確定p= 3,q= 1。這樣,模型的3 個(gè)參數(shù)(p,d,q)已全部確定。
(4)參數(shù)顯著性檢驗(yàn)。通過(guò)殘差檢驗(yàn)來(lái)判斷數(shù)據(jù)是否為白噪聲序列,基于假設(shè)檢驗(yàn)H1和H0,通過(guò)構(gòu)建LB(Ljung-Box)統(tǒng)計(jì)量來(lái)分析,即
假設(shè)H1成立時(shí),模型有效性顯著;而假設(shè)H0成立時(shí),殘差序列存在線性關(guān)系,模型的顯著性不足。通過(guò)實(shí)際的數(shù)據(jù)檢驗(yàn)可得H1成立,模型有效性顯著。
(5)ARIMA 模型預(yù)測(cè)。經(jīng)過(guò)上述步驟,模型被確定下來(lái),使用該模型可預(yù)測(cè)得到各類型人數(shù)的比例,即
其中:Yt-j為差分平穩(wěn)序列;Zt-m表示隨機(jī)誤差;p為自回歸系數(shù);q為移動(dòng)平均數(shù)。
經(jīng)過(guò)模型預(yù)測(cè),可得到從2022 年1 月1 日至2023 年3 月1 日的答題情況,如圖3 所示。接著,可進(jìn)一步得到2023 年3 月1 日的預(yù)測(cè)結(jié)果。
圖3 2022 年1 月1 日到2023 年3 月1 日的預(yù)測(cè)結(jié)果
2.構(gòu)建LSTM 模型(長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),Long Short-Term Memory)。建立過(guò)程包括:處理數(shù)據(jù)、參數(shù)設(shè)定、訓(xùn)練與輸出。
(1)處理數(shù)據(jù)。將原始的序列數(shù)據(jù)做類似歸一化處理,得到:
其中:yt1為處理后的數(shù)據(jù),ytmax、ytmin分別為最大值、最小值。
(2)參數(shù)設(shè)定。對(duì)于LSTM 模型中的參數(shù),包括訓(xùn)練窗口數(shù)、節(jié)點(diǎn)數(shù)、迭代訓(xùn)練數(shù)等,為保證預(yù)測(cè)的效果,選用修正線性激活函數(shù)ReLU(Rectified Linear Unit)[4]。
(3)訓(xùn)練與輸出。輸入答題人數(shù)進(jìn)行訓(xùn)練,使用ARIMA 模型預(yù)測(cè)答題情況,經(jīng)反向歸一化后得出預(yù)測(cè)值。為保證預(yù)測(cè)的準(zhǔn)確性,采用加權(quán)平均方法將兩種結(jié)果結(jié)合起來(lái),得到更為合理的預(yù)測(cè)值,如表1 所示。
表1 預(yù)測(cè)結(jié)果
K-means 聚類分析[5]可實(shí)現(xiàn)高效的分類,要依照難度對(duì)“單詞”進(jìn)行分類。首先,要確定每一個(gè)單詞的“難度”。顯然,體現(xiàn)單詞難度的指標(biāo)有很多,例如單詞生僻程度、單詞中重復(fù)字母出現(xiàn)的個(gè)數(shù)等,為避免人為賦值的主觀性,這里采用所有人通過(guò)游戲所需不同次數(shù)的概率Pi來(lái)構(gòu)建難度指標(biāo)。
(1)指標(biāo)選取。對(duì)一個(gè)單詞來(lái)說(shuō),確定簡(jiǎn)單模式的人為V,困難模式的人為T,簡(jiǎn)單模式下不同次數(shù)通過(guò)游戲的人為(v1,v2,...,v7),困難模式下不同次數(shù)通過(guò)游戲的人為(t1,t2,...,t7)。那么,對(duì)該單詞來(lái)說(shuō),第j次通過(guò)的概率為
但是,每個(gè)單詞在困難模式和簡(jiǎn)單模式下耗費(fèi)不同次數(shù)通過(guò)游戲的人數(shù)是未知的,因此上述公式無(wú)法直接求解。對(duì)公式進(jìn)行放縮后得到:
經(jīng)過(guò)變形,上述不等式的兩邊都是可求的,此時(shí)Pj可簡(jiǎn)化為取兩數(shù)的平均值,即
由此下來(lái),每個(gè)單詞的難度指標(biāo)已構(gòu)建完成。根據(jù)選取的指標(biāo),計(jì)算每個(gè)單詞各項(xiàng)難度指標(biāo)值,得出題目所給單詞的難度特征。
(2)原始數(shù)據(jù)標(biāo)準(zhǔn)化。建立原始數(shù)據(jù)與處理后數(shù)據(jù)的關(guān)系式:
其中:X為原始數(shù)據(jù);x為處理后的數(shù)據(jù)。
將處理后的數(shù)據(jù)集分為4 類,在數(shù)據(jù)集中隨機(jī)選取4 個(gè)中心點(diǎn),坐標(biāo)為
(3)計(jì)算距離。計(jì)算得到所有點(diǎn)與中心點(diǎn)的距離:
其中:Dm,i為第m個(gè)點(diǎn)到第i個(gè)中心點(diǎn)的距離;m為數(shù)據(jù)點(diǎn)個(gè)數(shù);為第m個(gè)點(diǎn)第k項(xiàng)指標(biāo)值。
(4)聚類分組。根據(jù)所有的點(diǎn)與各中心點(diǎn)的距離,把所有的點(diǎn)分配給距離其最近的點(diǎn),形成一個(gè)小類群。
(5)中心點(diǎn)的計(jì)算。設(shè)置每個(gè)類群中心點(diǎn)的計(jì)算公式,即
其中:xj,i為該類群中第j個(gè)點(diǎn)第i項(xiàng)分量;M為該類群中點(diǎn)的個(gè)數(shù)。
(6)迭代。不斷重復(fù)上述步驟,直到迭代收斂,所有的點(diǎn)被分為幾個(gè)小類群,也得出了每個(gè)類群的中心點(diǎn)。對(duì)所給點(diǎn)進(jìn)行聚類的結(jié)果如圖4 所示。
圖4 聚類散點(diǎn)圖
由圖4 可知,聚類結(jié)果共分為4 類,各類占比分別為78.552%,16.156%,3.064%,2.228%;將4 類結(jié)果分別命名為簡(jiǎn)單、中等、較難、非常難。經(jīng)驗(yàn)證,該分類結(jié)果與實(shí)際相符,數(shù)據(jù)可靠。
(7)輪廓系數(shù)計(jì)算。為了說(shuō)明分類模型的聚類效果較好,引入衡量聚類效果優(yōu)劣的輪廓系數(shù),它是一個(gè)可以用來(lái)描述聚類后各個(gè)類別輪廓清晰程度的指標(biāo)。
首先,定義內(nèi)聚度,即求出一個(gè)點(diǎn)與所處類群內(nèi)元素的緊密程度,公式為
其中,Dij為第i個(gè)點(diǎn)到第j個(gè)點(diǎn)的距離,內(nèi)聚度越小說(shuō)明結(jié)構(gòu)越緊密。還需要在每一個(gè)類群中計(jì)算bi,計(jì)算方法同aj,但要取其最小值,即
接著,定義輪廓系數(shù),公式為
輪廓系數(shù)的取值在-1~1 之間,輪廓系數(shù)越接近1,說(shuō)明聚類效果越好;反之,效果越差。經(jīng)過(guò)計(jì)算,分類結(jié)果輪廓系數(shù)為0.83,數(shù)值接近1,說(shuō)明分類后輪廓清晰,效果較好。
(8)模型準(zhǔn)確性驗(yàn)證。為了驗(yàn)證分類模型的準(zhǔn)確性,即確定預(yù)測(cè)分類結(jié)果和實(shí)際分類結(jié)果的差異,引入用于顯示預(yù)測(cè)情況與真實(shí)情況差異的混淆矩陣[6]。首先,根據(jù)分類結(jié)果構(gòu)建4×4 的矩陣A(aij)。其中,aij表示實(shí)際屬于第i類而被預(yù)測(cè)為第j類的個(gè)數(shù)。接著,定義幾個(gè)重要的指標(biāo):TP(i)表示實(shí)際為第i類而被預(yù)測(cè)為第i類;FP(i)表示實(shí)際為其他類而被預(yù)測(cè)為第i類;TN(i)表示實(shí)際不是第i類,預(yù)測(cè)也不是第i類;FN(i)表示實(shí)際為第i類而被預(yù)測(cè)為其他類。最后,引入精度和正確率指標(biāo),計(jì)算公式分別為:
其中,M為樣本總數(shù)。分別計(jì)算出4 類結(jié)果的TP(i),F(xiàn)P(i),TN(i),F(xiàn)N(i),如表2 所示。
表2 混淆矩陣的幾個(gè)指標(biāo)
按照式(17-18)分別計(jì)算出分類模型的精度和正確率,如表3 所示。由表3 可知,精度和正確率可以說(shuō)明分類模型的效果,數(shù)值越高說(shuō)明分類模型準(zhǔn)確性越強(qiáng)。從表中正確率可以看出,本模型對(duì)簡(jiǎn)單和中等難度單詞分類的準(zhǔn)確性較高,對(duì)較難和非常難單詞的分類準(zhǔn)確性一般。由于較難和非常難的單詞在所有單詞中占比較低(<5.3%),所以分類結(jié)果不會(huì)對(duì)游戲造成負(fù)面影響。
表3 分類模型的準(zhǔn)確性和精確度
本文首先構(gòu)建了ARIMA-LSTM 模型來(lái)預(yù)測(cè)Wordle 的答題情況。通過(guò)數(shù)據(jù)分析,確定模型的參數(shù)值,再綜合兩個(gè)模型的預(yù)測(cè)值,給出2023 年3 月1 日的預(yù)測(cè)結(jié)果。根據(jù)結(jié)果,3~6 次嘗試的成功率占比總計(jì)達(dá)92.33%,說(shuō)明絕大多數(shù)人需要通過(guò)3~6 次嘗試才能完成比賽。其次構(gòu)建了單詞的“難度”指標(biāo)并進(jìn)行聚類分析。根據(jù)聚類結(jié)果,將所有單詞分為簡(jiǎn)單、中等、較難、非常難4 類,其中簡(jiǎn)單類占比最高;同時(shí)成功利用混淆矩陣引申出的精度和正確率,衡量單詞分類結(jié)果的準(zhǔn)確性。結(jié)果表明:大多數(shù)被選為“謎底”的單詞是較為簡(jiǎn)單的,這也比較符合實(shí)際。因?yàn)槿绻x擇的單詞很難,會(huì)大大削弱玩家的參與熱情和積極性,不利于游戲推廣。因此,Wordle 游戲可采用本文的模型確定備選謎底單詞的“難度”,避免將難度太高的“單詞”作為“謎底”。