李英勇,趙英莉
1. 中國科學(xué)院上海有機(jī)化學(xué)研究所信息中心,上海 200032
數(shù)據(jù)庫(集)基本信息簡(jiǎn)介
數(shù)據(jù)庫(集)名稱 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集 數(shù)據(jù)通信作者 李英勇(liyingyong@sioc.ac.cn) 數(shù)據(jù)作者 李英勇、趙英莉 數(shù)據(jù)時(shí)間范圍 1912–2006年 地理區(qū)域 世界各國 數(shù)據(jù)量 2.75 MB 數(shù)據(jù)格式 *.mdb http://www.sciencedb.cn/dataSet/handle/897 數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp 基金項(xiàng)目 數(shù)據(jù)庫(集)組成 中國科學(xué)院信息化建設(shè)專項(xiàng)(XXH13505-03-103);國家基礎(chǔ)科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)項(xiàng)目(DKA2017-12-02-05);上海市科委項(xiàng)目(18DZ2294000)。 本數(shù)據(jù)集由1 個(gè)ACCESS 文件組成, 包括一個(gè)數(shù)據(jù)表(LabChemPurification表)和3個(gè)檢索窗體(CASRN檢索、名稱檢索和順序?yàn)g覽窗體):共有5747條記錄,包括實(shí)驗(yàn)室化學(xué)品的ID號(hào)、類別、名稱、CASRN號(hào)、分子式、分子量、凝固點(diǎn)、熔點(diǎn)、沸點(diǎn)、相對(duì)密度、折射率、旋光度、比色指數(shù)、電離常數(shù)、純化方法、來源文獻(xiàn)和其他性質(zhì)數(shù)據(jù)。
化學(xué)家和生物化學(xué)家在進(jìn)行實(shí)驗(yàn)研究時(shí),往往會(huì)遇到實(shí)驗(yàn)用化學(xué)品是否需要純化,以及如何純化的問題。有些研究對(duì)化學(xué)品純度要求較低,而有些研究對(duì)化學(xué)品純度卻有較高的要求,必須對(duì)實(shí)驗(yàn)室化學(xué)品進(jìn)行純化,使其理化性質(zhì)數(shù)據(jù)達(dá)到一定的指標(biāo),才能滿足實(shí)驗(yàn)要求。特別是隨著半導(dǎo)體技術(shù)、特殊合金制備以及高生物活性物質(zhì)的分離等方面的快速發(fā)展,對(duì)化學(xué)品純度的要求越來越高。目前,化學(xué)品純化方法信息分散于科技期刊和科技手冊(cè)中,從期刊手冊(cè)中查找數(shù)據(jù)不夠方便,期刊手冊(cè)上的數(shù)據(jù)內(nèi)容也無法及時(shí)補(bǔ)充完善。此外,也沒有相關(guān)的開放數(shù)據(jù)集可供使用。
針對(duì)化學(xué)家與生物化學(xué)家的實(shí)驗(yàn)需求,通過收集整理科技手冊(cè)中的實(shí)驗(yàn)室化學(xué)品純化方法和理化性質(zhì)數(shù)據(jù),建設(shè)完成了實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集。通過此純化方法數(shù)據(jù)集,化學(xué)家與生物化學(xué)家可以方便地查詢實(shí)驗(yàn)用化學(xué)品是否需要純化,如何純化,以及化學(xué)品的理化性質(zhì)數(shù)據(jù)。用戶也可以隨時(shí)補(bǔ)充完善最新的純化方法和理化性質(zhì)數(shù)據(jù),以進(jìn)行橫向比較研究。
實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集的原始數(shù)據(jù)采集自《實(shí)驗(yàn)室化學(xué)品純化手冊(cè)》[1],此手冊(cè)規(guī)范整理了2006 年以前的相關(guān)科技期刊信息,記錄了常用實(shí)驗(yàn)室化學(xué)品的純化方法數(shù)據(jù)和理化性質(zhì)數(shù)據(jù),數(shù)據(jù)格式規(guī)范,內(nèi)容較為詳盡,采用此科技手冊(cè),大大減少了原始數(shù)據(jù)收集、校對(duì)與規(guī)范化處理的工作量。此數(shù)據(jù)集今后會(huì)持續(xù)建設(shè),不定期補(bǔ)充期刊文獻(xiàn)中新發(fā)表的純化方法數(shù)據(jù)和理化性質(zhì)數(shù)據(jù),以持續(xù)反應(yīng)最新的科研成果。
原始數(shù)據(jù)按采集要求錄入后,再對(duì)采集數(shù)據(jù)進(jìn)行規(guī)范化處理和質(zhì)量校驗(yàn),最終得到實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)。
原始數(shù)據(jù)為科技手冊(cè),首先介紹了實(shí)驗(yàn)室化學(xué)品常用的物理純化技術(shù)和化學(xué)純化技術(shù),以及化學(xué)品純化方法的未來發(fā)展方向,然后具體講述了各種化學(xué)品的純化方法,分為有機(jī)化學(xué)品、無機(jī)化合物、金屬有機(jī)化學(xué)品以及生物化學(xué)品。這些純化方法條目長(zhǎng)度不等,有的只有一行,有的約有一頁,甚至更多,如乙腈、苯、乙醇和甲醇等。有些條目還包括了可能的污染物和儲(chǔ)存條件等信息。大多數(shù)條目里插入了與物理性質(zhì)有關(guān)的更多信息,比如熔點(diǎn)、沸點(diǎn)、折射率、相對(duì)密度、旋光度(針對(duì)適用的化合物)和紫外吸收數(shù)據(jù),部分條目有化合物分子量,幾乎所有條目都附有化合物的CAS 登錄號(hào)。原始數(shù)據(jù)如圖1 所示。
根據(jù)原始數(shù)據(jù)的這些類型和特點(diǎn),設(shè)計(jì)了實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集加工數(shù)據(jù)表,采用人工錄入的方式,將原始手冊(cè)中的實(shí)驗(yàn)室化學(xué)品純化方法、理化性質(zhì)和參考文獻(xiàn)等數(shù)據(jù),分別錄入加工數(shù)據(jù)表中。加工數(shù)據(jù)表以化學(xué)品作為實(shí)體,將理化性質(zhì)數(shù)據(jù)、純化方法數(shù)據(jù)和參考文獻(xiàn)數(shù)據(jù)作為其屬性。制訂了具體的數(shù)據(jù)采集錄入規(guī)則:
(1)段落開頭部分若是粗體字,說明這是一個(gè)新化學(xué)品條目;若段落開頭不是粗體字,則此段內(nèi)容屬于上一段的化學(xué)品,在開頭部分加入“$$”段落標(biāo)識(shí),內(nèi)容并入上一段。
(2)新化學(xué)品條目開頭的粗體字部分是化學(xué)品名稱,若此部分結(jié)尾處有括號(hào),則括號(hào)前數(shù)據(jù)是化學(xué)品俗名,括號(hào)中數(shù)據(jù)是化學(xué)品系統(tǒng)名稱。
圖1 原始數(shù)據(jù)示例
(3)化合物名稱后中括號(hào)部分是化學(xué)品的CASRN 號(hào)。
(4)CASRN 號(hào)后面的粗體字部分是化學(xué)品的分子式和理化性質(zhì)數(shù)據(jù),各項(xiàng)間以逗號(hào)分隔,并以句號(hào)結(jié)尾。其中:“M”字符開頭者是化學(xué)品分子量數(shù)據(jù)?!癿”字符開頭者是化學(xué)品熔點(diǎn)數(shù)據(jù)?!癰”字符開頭者是化學(xué)品沸點(diǎn)數(shù)據(jù)?!皃K”字符開頭者是可電離化合物的電離常數(shù)數(shù)據(jù)。若“pK”有上標(biāo),則上標(biāo)數(shù)字是溫度值;若沒有上標(biāo),說明是室溫(約15–25℃),若下標(biāo)有“Est”字符,說明這是電離常數(shù)估計(jì)值?!癧α]”字符開頭者是化學(xué)品旋光度數(shù)據(jù),其上標(biāo)是溫度,下標(biāo)是光源波長(zhǎng)?!皀”字符開頭者是化學(xué)品折射率數(shù)據(jù),其上標(biāo)是溫度,下標(biāo)是光源波長(zhǎng)。所有數(shù)據(jù)項(xiàng)分別錄入數(shù)據(jù)采集表的對(duì)應(yīng)列中。若沒有對(duì)應(yīng)列,則錄入“Other”列。
(5)理化性質(zhì)數(shù)據(jù)之后的部分是化學(xué)品純化方法數(shù)據(jù),其中的中括號(hào)部分是純化方法的來源文獻(xiàn)信息,此部分可能存在多個(gè)純化方法和多個(gè)來源文獻(xiàn)。
原始數(shù)據(jù)經(jīng)采集整理后,錄入實(shí)驗(yàn)室化學(xué)品純化方法加工數(shù)據(jù)表。然后,根據(jù)數(shù)據(jù)集的設(shè)計(jì),對(duì)加工數(shù)據(jù)表中的數(shù)據(jù)項(xiàng)進(jìn)行規(guī)范化處理:去除CASRN 號(hào)中的“-”字符,將其由字符串轉(zhuǎn)換為整型數(shù)字,以便后續(xù)進(jìn)行數(shù)據(jù)校驗(yàn)處理。最后,設(shè)計(jì)實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)表(數(shù)據(jù)表結(jié)構(gòu)信息如表1 所示),將加工數(shù)據(jù)表中的合格數(shù)據(jù)項(xiàng)存入此數(shù)據(jù)表,并添加流水號(hào)作為主鍵。
表1 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)表
序號(hào) 屬性名稱 數(shù)據(jù)類型 屬性說明 8 MP 數(shù)值 熔點(diǎn),單位:℃ 9 BP 數(shù)值 沸點(diǎn),單位:℃ 10 DS 字符 相對(duì)密度,是20℃下目標(biāo)物密度與4℃下水密度的比值。 11 IOR 字符 12 OPR 字符 折射率。以“^<”和“^>”括起來的部分是上標(biāo)數(shù)據(jù);以“^{”和“^}”括起來的部分是下標(biāo)數(shù)據(jù)。缺省溫度是20℃,缺省波長(zhǎng)是鈉D 線平均波長(zhǎng)。 旋光度。以“^<”和“^>”括起來的部分是上標(biāo)數(shù)據(jù);以“^{”和“^}”括起來的部分是下標(biāo)數(shù)據(jù)。缺省溫度是20℃,缺省波長(zhǎng)是鈉D 線平均波長(zhǎng)。 13 Other 字符 其他性質(zhì)數(shù)據(jù) 14 CI 字符 比色指數(shù) 15 DC 字符 電離常數(shù)。以“^<”和“^>”括起來的部分是上標(biāo)數(shù)據(jù);以“^{”和“^}”括起來的部分是下標(biāo)數(shù)據(jù)。缺省溫度是室溫(約15–25℃)。 16 Method 字符 純化方法。其中,以字符“$$”標(biāo)記新行行首。 17 SrcDoc 字符 來源文獻(xiàn)。其中,多個(gè)來源文獻(xiàn)數(shù)據(jù)以分號(hào)分隔。
實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集主要包括實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)表,此數(shù)據(jù)表中存儲(chǔ)了實(shí)驗(yàn)室化學(xué)品的理化性質(zhì)數(shù)據(jù)、純化方法數(shù)據(jù)和來源文獻(xiàn)信息。具體是實(shí)驗(yàn)室化學(xué)品的類別、名稱、CASRN 號(hào)、分子式、分子量、凝固點(diǎn)、熔點(diǎn)、沸點(diǎn)、相對(duì)密度、折射率、旋光度、比色指數(shù)、電離常數(shù)、純化方法和來源文獻(xiàn)數(shù)據(jù),其屬性名稱和數(shù)據(jù)如表2 所示。
表2 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)示例
序號(hào) 屬性名稱 屬性說明 范例 11 IOR 折射率 nD20 = 1.4575 12 OPR 旋光度 [α]546=-123°(c 10,H20,24h 后) 13 Other 其他性質(zhì) 閃點(diǎn):?41.8℃ 14 CI 比色指數(shù) 45160 15 DC 電離常數(shù) pK25 11.29 16 Method 純化方法 本品用水(活性炭脫色)結(jié)晶成黃色針狀晶體。如果其中含有游離酸,那么用二氯甲烷溶解,再用飽和碳酸鈉、鹽水洗滌,之后用硫酸鎂干燥,蒸發(fā)最后將殘留物重結(jié)晶。游離酸的熔點(diǎn)是203–204℃(dec),其pK1<1,pK2=3.70。銨鹽熔點(diǎn)232℃(dec)(用丙酮溶液重結(jié)晶),氨基化合物的熔點(diǎn)239.2℃(用水重結(jié)晶)。 17 SrcDoc 來源文獻(xiàn) Searles et al. J Am Chem Soc 78 4917 1956
為保證實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,在原始數(shù)據(jù)采集錄入過程中制定了數(shù)據(jù)采集規(guī)范。同時(shí)采用抽撿的方式,隨機(jī)抽取數(shù)據(jù)記錄進(jìn)行人工校對(duì),以控制數(shù)據(jù)錄入質(zhì)量。為了解決數(shù)據(jù)的可追溯性問題,在原始數(shù)據(jù)采集時(shí)同時(shí)錄入了數(shù)據(jù)來源號(hào),此來源號(hào)由條目所在頁碼組成。由于工具書籍的編排具有嚴(yán)格的順序性,所以可針對(duì)數(shù)據(jù)項(xiàng)的連續(xù)性進(jìn)行校驗(yàn)。另外,在后續(xù)的數(shù)據(jù)處理中,若發(fā)現(xiàn)有數(shù)據(jù)遺漏或者數(shù)據(jù)質(zhì)量問題,可以根據(jù)數(shù)據(jù)來源號(hào)追溯到原始數(shù)據(jù),以進(jìn)行校對(duì)修正。
對(duì)于數(shù)據(jù)集中的關(guān)鍵數(shù)據(jù)項(xiàng),通過軟件程序進(jìn)行了自動(dòng)校驗(yàn)。根據(jù)美國化學(xué)文摘社發(fā)布的CASRN 號(hào)有效性驗(yàn)證規(guī)范[2],一個(gè)CASRN 最多有十位數(shù)字,由連字符“-”分為三部分,從左邊起的第一部分?jǐn)?shù)字為二到七位數(shù),第二部分?jǐn)?shù)字為兩位數(shù),最后一部分為一個(gè)數(shù)字。最后一部分是整個(gè)CASRN 號(hào)有效性的校驗(yàn)碼,根據(jù)CASRN 號(hào)的校驗(yàn)規(guī)則,數(shù)據(jù)集自主開發(fā)了程序軟件,自動(dòng)驗(yàn)證了錄入CASRN 號(hào)的正確性。
對(duì)于實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集中同時(shí)有分子式和分子量的條目,設(shè)計(jì)了通過化學(xué)品分子式計(jì)算分子量的算法程序,此算法考慮了晶體、有機(jī)鹽和聚合物分子式的特殊性,對(duì)這類分子式進(jìn)行了特殊處理。最終通過分子式計(jì)算得到化學(xué)品的計(jì)算分子量,并與錄入的分子量進(jìn)行比對(duì),以驗(yàn)證錄入的分子式和分子量的正確性。
考慮到手冊(cè)結(jié)尾有化學(xué)品名稱索引和CAS 索引部分,還安排專人將化學(xué)品名稱、CASRN 號(hào)與頁碼信息與加工數(shù)據(jù)表中的相關(guān)信息進(jìn)行校對(duì),以篩選出人工錄入時(shí)的錯(cuò)誤,進(jìn)一步提高了實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集的數(shù)據(jù)質(zhì)量。
實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集采用MDB 格式存儲(chǔ),使用者可以通過Microsoft Office Access?軟件打開數(shù)據(jù)集,然后通過瀏覽或檢索窗體對(duì)數(shù)據(jù)集進(jìn)行查看、檢索和篩選等操作,如圖2–4 所示。數(shù)據(jù)集共有17 個(gè)數(shù)據(jù)項(xiàng),分別是化學(xué)品的ID 號(hào)、類別、名稱、CASRN 號(hào)、分子式、分子量、凝固點(diǎn)、熔點(diǎn)、沸點(diǎn)、相對(duì)密度、折射率、旋光度、比色指數(shù)、電離常數(shù)、純化方法、來源文獻(xiàn)和其他性質(zhì)數(shù)據(jù),均支持檢索和篩選操作。當(dāng)鼠標(biāo)懸停于相對(duì)密度、折射率、旋光度或電離常數(shù)項(xiàng)時(shí),會(huì)有此項(xiàng)的說明信息顯示,如圖2 所示。
化學(xué)專業(yè)數(shù)據(jù)庫網(wǎng)站上也提供了實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集服務(wù)[3],網(wǎng)站檢索頁面如圖5 所示。網(wǎng)站主要提供了三種Web 檢索方式:按化合物名稱檢索、按CASRN 號(hào)檢索和按分子式檢索。另外,網(wǎng)站將本數(shù)據(jù)集與其他數(shù)據(jù)集進(jìn)行了有機(jī)整合,通過網(wǎng)站檢索可以獲得目標(biāo)化學(xué)品更多的性質(zhì)數(shù)據(jù)。
圖2 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集瀏覽窗口示例
圖3 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集名稱檢索示例
圖4 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集CASRN 檢索示例
圖5 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集Web 檢索示例
實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集中的數(shù)據(jù)描述具有一定的專業(yè)性,為了保證數(shù)據(jù)格式的統(tǒng)一,數(shù)據(jù)集中采用某些符號(hào)和縮寫來代替相應(yīng)的專業(yè)名詞;為了滿足在數(shù)據(jù)集中存儲(chǔ)及檢索的需要,特制定了縮寫符號(hào)的數(shù)據(jù)集存儲(chǔ)格式。詳細(xì)說明如表3 所示。
表3 實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集符號(hào)和縮寫說明表
序號(hào) 縮寫符號(hào) 數(shù)據(jù)集存儲(chǔ)格式 說 明 6 Me Me 甲基 7 ε ε 分子消光系數(shù) 8 IR IR 紅外光譜 9 UV UV 紫外光譜 10 NMR NMR 核磁共振 11 λmax λ^{max^} (光譜的)最大吸收波長(zhǎng)
相對(duì)于工具書籍只能根據(jù)目錄和索引來瀏覽和檢索,實(shí)驗(yàn)室化學(xué)品純化方法數(shù)據(jù)集的使用方法更為便捷和靈活。不僅可以根據(jù)化學(xué)品的理化性質(zhì)數(shù)據(jù)進(jìn)行檢索和篩選,而且可以根據(jù)用戶感興趣的純化方法關(guān)鍵詞進(jìn)行篩選和聚類分析。本數(shù)據(jù)集的信息描述言簡(jiǎn)意賅,收集整理的大都是實(shí)驗(yàn)室常用的化學(xué)品信息,可以作為化學(xué)和生物化學(xué)科研人員進(jìn)行實(shí)驗(yàn)研究時(shí)的參考數(shù)據(jù)集。
數(shù)據(jù)作者分工職責(zé)
李英勇(1978—),男,河南南陽人,碩士,高級(jí)工程師,研究方向?yàn)榛瘜W(xué)信息學(xué)。主要承擔(dān)數(shù)據(jù)庫設(shè)計(jì)和數(shù)據(jù)庫建庫工作。
趙英莉(1970—),女,遼寧沈陽人,碩士,副研究館員,研究方向?yàn)榛瘜W(xué)信息學(xué)。主要承擔(dān)數(shù)據(jù)采集、基礎(chǔ)數(shù)據(jù)加工和數(shù)據(jù)管理工作。