詳細(xì)介紹
數(shù)據(jù)分析軟件 的實(shí)驗(yàn)形成以及算法
一、實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)分析軟件 的實(shí)驗(yàn)的設(shè)計(jì),即對(duì)實(shí)驗(yàn)的?種安排,需要考慮實(shí)驗(yàn)所要解決的問(wèn)題類型、對(duì)結(jié)論賦予何種程度的普遍性、希望以多?功效作檢驗(yàn)、試驗(yàn)單元的?性、每次試驗(yàn)的耗資耗時(shí)等??,選取適當(dāng)?shù)囊?和相應(yīng)的?平,從?給出實(shí)驗(yàn)實(shí)施的具體程序和數(shù)據(jù)分析的框架。試驗(yàn)設(shè)計(jì)?法有:正交設(shè)計(jì)、*隨機(jī)設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì)、均勻設(shè)計(jì)、響應(yīng)?設(shè)計(jì)。
二、降維算法
機(jī)器學(xué)習(xí)領(lǐng)域中所謂的降維就是指采?某種映射?法,將原?維空間中的數(shù)據(jù)點(diǎn)映射到低維度的空間中。降維的本質(zhì)是學(xué)習(xí)?個(gè)映射函數(shù)f(x)->y,其中x是原始數(shù)據(jù)點(diǎn)的表達(dá),?前最多使?向量表達(dá)形式。y是數(shù)據(jù)點(diǎn)映射后的低維向量表達(dá),通常y的維度?于x的維度(當(dāng)然提?維度也是可以的)。f可能是顯式的或隱式的、線性的或?線性的。
降維算法有:PCA、LDA、LLE、LE、TSNE、ISOMAP。
三、分類算法
數(shù)據(jù)研究的基礎(chǔ)是給數(shù)據(jù)“貼標(biāo)簽”進(jìn)?分類。類別分得越精準(zhǔn),我們得到的結(jié)果就越有價(jià)值。分類是?個(gè)有監(jiān)督的學(xué)習(xí)過(guò)程,?標(biāo)數(shù)據(jù)庫(kù)中有哪些類別是已知的,分類過(guò)程需要做的就是把每?條記錄歸到對(duì)應(yīng)的類別之中。由于必須事先知道各個(gè)類別的信息,并且所有待分類的數(shù)據(jù)條?都默認(rèn)有對(duì)應(yīng)的類別,因此分類算法也有其局限性,當(dāng)上述條件?法滿?時(shí),我們就需要嘗試聚類分析。
分類算法有: LDA、 PLS-DA、BP( PCA-BP、 LDA-BP)、 SVM( PCA-BP、 LDA-BP)、KNN( PCA-KNN、 LDA-KNN)
四、回歸算法
回歸算法是監(jiān)督型算法的?種,通過(guò)利?測(cè)試集數(shù)據(jù)來(lái)建?模型,再利?這個(gè)模型訓(xùn)練集中的數(shù)據(jù)進(jìn)?處理的算法。線性回歸旨在尋找到?根線,這個(gè)線到到達(dá)所有樣本點(diǎn)的距離的和是最?的。常?在預(yù)測(cè)和分類領(lǐng)域。
回歸算法有:PLSR、BP、SVM
五、 聚類算法
聚類分析是?種將數(shù)據(jù)所研究的對(duì)象進(jìn)?分類的統(tǒng)計(jì)?法,事先不知道類別的個(gè)數(shù)和結(jié)構(gòu),據(jù)以進(jìn)?分析的數(shù)據(jù)是對(duì)象之間的相似性和相異性的數(shù)據(jù)。將這些相似(相異)的數(shù)據(jù)可以看成是對(duì)象與對(duì)象之間的“距離”遠(yuǎn)近的?種度量,將距離近的對(duì)象看做?類,不同類之間的對(duì)象距離較遠(yuǎn),這個(gè)可以看作為聚類分析?法的?個(gè)共同的思路。聚類和分類是兩種不同的分析。分類的?的是為了確定?個(gè)點(diǎn)的類別,具體有哪些類別是已知的。聚類的?的是將?系列點(diǎn)分成若?類,事先是沒有類別的。
聚類算法有:歐式距離聚類、閔式距離聚類、??距離聚類、K-Means聚類。
六、 繪圖