五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

邁高科技||matminer的數(shù)據(jù)檢索功能和數(shù)據(jù)特征化功能介紹

2022-08-19 16:18 作者:邁高科技  | 我要投稿

簡(jiǎn)介

matminer是一款基于材料信息學(xué)的交互工具。它包含很多數(shù)據(jù)集和針對(duì)材料數(shù)據(jù)的處理方式。今天主要介紹數(shù)據(jù)集的獲取和基于數(shù)據(jù)集的特征生成。


Matminer是基于python開(kāi)發(fā)的一款用于材料科學(xué)機(jī)器學(xué)習(xí)的開(kāi)源軟件。它是一款多功能的開(kāi)源軟件,比如可以從Materials project等數(shù)據(jù)庫(kù)自動(dòng)獲取相應(yīng)材料的數(shù)據(jù),并將這些材料數(shù)據(jù)轉(zhuǎn)化為可用于機(jī)器學(xué)習(xí)模型訓(xùn)練的可輸入特征進(jìn)行探索性分析。但是Matminer本身并不具備常用的機(jī)器學(xué)習(xí)算法,通常情況下需要配合MatCloud+平臺(tái)或者sklearn等機(jī)器學(xué)習(xí)相關(guān)的開(kāi)源工具使用。

圖1 matminer開(kāi)源工具的功能示意圖[1]

今天,我們來(lái)學(xué)習(xí)它的數(shù)據(jù)獲取功能和特征生成功能吧!

1 數(shù)據(jù)檢索功能

機(jī)器學(xué)習(xí)順利進(jìn)行的首要條件是數(shù)據(jù)集的獲取。在材料科學(xué)領(lǐng)域中已建立起許多個(gè)材料數(shù)據(jù)庫(kù),但是由于不同材料數(shù)據(jù)庫(kù)的數(shù)據(jù)獲取方式不同,因此數(shù)據(jù)庫(kù)的使用也變得復(fù)雜。Matminer的數(shù)據(jù)挖掘模塊通過(guò)提供通用的數(shù)據(jù)庫(kù)數(shù)據(jù)交互方式,通過(guò)數(shù)據(jù)集的獲取、查詢數(shù)據(jù)集的詳細(xì)信息、查看數(shù)據(jù)集的來(lái)源等。

matminer支持可以從Citrination 、Materials Project (MP) 、Materials Data Facility (MDF) 、Materials Platform for Data Science(MPDS)四個(gè)數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)。

下面讓我們來(lái)認(rèn)識(shí)matminer的數(shù)據(jù)獲取功能吧!


圖2 matminer中數(shù)據(jù)獲取功能模塊代碼示例

圖2代碼示例的意思是從matminer.datasets.dataset_retrieval模塊導(dǎo)入10個(gè)數(shù)據(jù)探索的方法,按照順序分別是獲取所有數(shù)據(jù)集的詳細(xì)信息(get_all_dataset_info)、可獲得的數(shù)據(jù)集(get_available_datasets)、數(shù)據(jù)集的貢獻(xiàn)方(get_dataset_attribute)、數(shù)據(jù)集的引用(get_dataset_citations)、數(shù)據(jù)集中列名稱的描述(get_dataset_column_description)、數(shù)據(jù)集中列名稱(get_dataset_columns)、數(shù)據(jù)集的描述(get_dataset_description)、數(shù)據(jù)集的數(shù)據(jù)條目信息(get_dataset_num_entries)、數(shù)據(jù)集的參考文獻(xiàn)信息(get_dataset_reference)、加載數(shù)據(jù)集(load_dataset)。

以下是上述部分功能的簡(jiǎn)要介紹:

數(shù)據(jù)獲取功能:代碼輸出的是matminer中數(shù)據(jù)集的名稱,以列表的形式輸出,一共42份數(shù)據(jù)集。

圖3 get_available_datasets 數(shù)據(jù)集獲取功能代碼運(yùn)行示意圖


默認(rèn)情況下打印的是數(shù)據(jù)集的名稱和簡(jiǎn)介

圖4 get_available_datasets 數(shù)據(jù)獲取功能中,輸出數(shù)據(jù)集名稱和詳細(xì)介紹的代碼示例

使用get_all_dataset_info功能來(lái)查看某一數(shù)據(jù)集的詳細(xì)信息,比如我們查看了數(shù)據(jù)集名稱為’boltztrap_mp’的詳細(xì)信息,打印出了數(shù)據(jù)集的來(lái)源,包含的數(shù)據(jù)條目、數(shù)據(jù)產(chǎn)生的條件和來(lái)源以及相關(guān)的文獻(xiàn)等信息。

圖5 get_all_dataset_info功能代碼示例

使用get_dataset_columns功能查看數(shù)據(jù)集的列名稱(體現(xiàn)的是這個(gè)數(shù)據(jù)集中包含的材料數(shù)據(jù)的類型),使用get_dataset_num_entried功能查看數(shù)據(jù)集的數(shù)據(jù)條目。

圖6 get_dataset_columns和get_dataset_num_entried代碼示例

使用load_dataset功能加載數(shù)據(jù)集并進(jìn)行查看,以數(shù)據(jù)集’boltztrap_mp’為例子,其中data.shape是查看數(shù)據(jù)集的條目,可以看到這個(gè)數(shù)據(jù)集是8924行和9列, data.head()是查看這個(gè)數(shù)據(jù)集的前五行詳細(xì)內(nèi)容。

圖7 load_dataset功能代碼示例


圖7中通過(guò)代碼輸出的信息可以看出,這個(gè)數(shù)據(jù)集的維度是8924*9,即有8924條材料數(shù)據(jù),9列基本信息(分別為mpid:Materials Project identifier;pf_n:n-type thermoelectric power factor in uW/cm2;pf_p:p-type power factor in uW/cm2;s_n:n-type Seebeck coefficient in micro Volts per Kelvin;s_p:p-type Seebeck coefficient in micro Volts per Kelvin;formula:Chemical formula of the entry;m_n:n-type/conduction band effective mass;m_p:p-type/valence band effective mass;structure:pymatgen Structure object describing the crystal structure of the material;)

2 數(shù)據(jù)特征化功能

使用matminer的featurizer模塊,將已經(jīng)獲得的數(shù)據(jù)集進(jìn)行數(shù)值特征化,即使用已獲取數(shù)據(jù)集中的化學(xué)式,構(gòu)建相應(yīng)的特征,用于機(jī)器學(xué)習(xí)的輸入。首先,使用matminer.featurizers.conversions模塊中的StrTocompositon功能將數(shù)據(jù)集中不同的化學(xué)式轉(zhuǎn)化為標(biāo)準(zhǔn)的composition格式,即提取化學(xué)式中的元素組成信息。

圖8 StrTocompositon功能代碼示例

其次,使用matminer.featurizers.conversions模塊中的ElementProperty功能,這個(gè)功能包含了五種特征屬性模塊,分別是magpie、deml、matminer、matscholar、megnet。這里以magpie為例,進(jìn)行特征的生成。

圖9 ElementProperty功能代碼示例

查看此時(shí)的數(shù)據(jù)維度是8924*142,也就是magpie模塊生成了133個(gè)與元素相關(guān)的特征。
查看一下magpie模塊的源碼,可以看到feature來(lái)源于“原子質(zhì)量、周期、數(shù)、族數(shù)等”,計(jì)算方式為“最大值、最小值、范圍、平均值、平均偏差”等方式。

圖 10 magpie中元素信息與計(jì)算方式的代碼示例


總結(jié)

本期內(nèi)容介紹了開(kāi)源材料信息學(xué)matminer的數(shù)據(jù)獲取功能和特征化功能。由于機(jī)器學(xué)習(xí)的第一步就是收集和整理高質(zhì)量數(shù)據(jù),但是Matminer有一定的局限性:
(1)matminer軟件需要在python環(huán)境下安裝和使用,需要使用者必備一定的python代碼編程知識(shí),了解基本的編程語(yǔ)法才可以正常使用

(2)本身并不具備機(jī)器學(xué)習(xí)算法,只可以進(jìn)行常規(guī)材料數(shù)據(jù)集的獲取及數(shù)據(jù)預(yù)處理工作

(3)機(jī)器學(xué)習(xí)模型的建立也需要配合sklearn等機(jī)器學(xué)習(xí)開(kāi)源工具使用,而sklearn等機(jī)器學(xué)習(xí)軟件也需要進(jìn)行安裝和具備相應(yīng)的python編程基礎(chǔ)才可順利使用

相比之下,MatCloud+平臺(tái)的人工智能模塊功能更加齊全:

(1)對(duì)于初學(xué)者來(lái)說(shuō),入門極快,無(wú)需前期了解和學(xué)習(xí)大量的python代碼知識(shí)

(2)不需要額外安裝軟件和部署環(huán)境,界面簡(jiǎn)潔易操作

(3)操作使用瀏覽器在線即可進(jìn)行數(shù)據(jù)處理和機(jī)器學(xué)習(xí)模型的建立及結(jié)果的分析

(4)提供在線計(jì)算資源,對(duì)于使用者來(lái)說(shuō)不需要額外配置其他高性能的計(jì)算軟硬件

因此,我們介紹MatCloud+平臺(tái)這個(gè)可以直接將獲取的數(shù)據(jù)用于機(jī)器學(xué)習(xí)的數(shù)據(jù)獲取方法,MatCloud+平臺(tái)是我國(guó)首個(gè)正式上線的材料基因組高通量材料設(shè)計(jì)平臺(tái)。

所有計(jì)算的物性數(shù)據(jù)均可以直接導(dǎo)入到平臺(tái)的物性數(shù)據(jù)庫(kù),選取所需要的物性數(shù)據(jù)導(dǎo)出到AI數(shù)據(jù)庫(kù)作為機(jī)器學(xué)習(xí)的模型訓(xùn)練數(shù)據(jù),省去了科研工作中對(duì)大批量數(shù)據(jù)整合的時(shí)間。減少了對(duì)數(shù)據(jù)整理不及時(shí)、不完整和難追溯等問(wèn)題?;蛘吒鶕?jù)自己的研究體系的所需數(shù)據(jù)直接導(dǎo)入到機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)AI訓(xùn)練集庫(kù)中作為機(jī)器學(xué)習(xí)的輸入!



邁高科技||matminer的數(shù)據(jù)檢索功能和數(shù)據(jù)特征化功能介紹的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
张北县| 福泉市| 宝应县| 海门市| 肇州县| 松潘县| 昌吉市| 宣威市| 塔河县| 察隅县| 华池县| 甘孜县| 屯昌县| 夏邑县| 平邑县| 三亚市| 隆尧县| 土默特右旗| 长寿区| 涪陵区| 中卫市| 雷山县| 清水河县| 榕江县| 隆昌县| 尚义县| 阳城县| 洞头县| 利辛县| 台南市| 双柏县| 义马市| 衢州市| 永昌县| 临武县| 长子县| 林州市| 甘谷县| 周宁县| 凯里市| 陆丰市|