聚類分析翻譯多少錢-什么是聚類分析?
日期:2023-03-11 12:39:36 / 人氣: 1014 / 發(fā)布者:成都翻譯公司
聚類分析翻譯了多少:什么是聚類分析?類將目標數(shù)據(jù)放入少數(shù)相對同源的組或“集群”中。分析表達數(shù)據(jù),(1)通過一系列檢驗將一組待測基因的變異標準化,然后成對比較線性協(xié)方差。 (2) 樣本聚類,將譜系*密切的基因放在一起,例如,使用簡單的層次聚類方法。這種聚類也可以擴展到每個實驗樣本,使用一組基因的總線性相關(guān)性聚類分析翻譯了多少:什么是聚類分析?
類將目標數(shù)據(jù)放入少數(shù)相對同源的組或“集群”中。分析表達數(shù)據(jù),(1)通過一系列檢驗將一組待測基因的變異標準化,然后成對比較線性協(xié)方差。 (2) 樣本聚類,將譜系*密切的基因放在一起,例如,使用簡單的層次聚類方法。這種聚類也可以擴展到每個實驗樣本,使用一組基因的總線性相關(guān)性進行聚類。 (3)多維尺度分析(MDS)是一個二維歐氏“距離”,表示實驗樣本的近似相關(guān)程度。 (4) K-means method clustering,一種通過重復重新分配類成員來*小化一個“類”內(nèi)分散程度的方法。
聚類方法有兩個明顯的局限性:第一、為了使聚類結(jié)果清晰,需要分離良好的數(shù)據(jù)。幾乎所有現(xiàn)有算法都從不同的非重疊類數(shù)據(jù)生成相同的集群。但是,如果類是分散的和相互滲透的,則每種算法的結(jié)果都會有些不同。因此,每個算法定義的邊界不明確,每個聚類算法都有自己的*優(yōu)結(jié)果,每個數(shù)據(jù)部分都會產(chǎn)生一條信息。為了說明相同的數(shù)據(jù)由于不同的算法產(chǎn)生不同的結(jié)果,需要注意不同的判斷方式。遺傳學家很難從任何算法(尤其是邊界)中正確解釋聚類內(nèi)容的實際結(jié)果。*終,需要經(jīng)驗可信度來通過序列比較來指導聚類解釋。
第二個限制是由線性相關(guān)引起的。以上所有聚類方法都只分析了簡單的一對一關(guān)系。由于只是成對的線性比較,大大減少了發(fā)現(xiàn)表達類型關(guān)系的計算量,卻忽略了生物系統(tǒng)的多因素和非線性特性。
從統(tǒng)計學的角度來看,聚類分析是一種通過數(shù)據(jù)建模來簡化數(shù)據(jù)的方法。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類、分解、加法、動態(tài)聚類、有序樣本聚類、重疊聚類和模糊聚類。許多著名的統(tǒng)計分析軟件包,如SPSS、SAS等,都加入了使用k-means、k-center point等算法的聚類分析工具。
從機器學習的角度來看,聚類等價于隱藏模式。聚類是搜索聚類的無監(jiān)督學習過程。與分類不同,無監(jiān)督學習不依賴于預定義的類或帶有類標簽的訓練示例。它需要由聚類學習算法自動確定,而分類學習的實例或數(shù)據(jù)對象有類標簽。聚類是觀察學習,而不是示范學習。
從實際應用的角度來看,聚類分析是數(shù)據(jù)挖掘的主要任務之一、就數(shù)據(jù)挖掘功能而言,聚類可以作為一個獨立的工具來獲取數(shù)據(jù)的分布,觀察每個數(shù)據(jù)簇的特征,并針對特定的簇進行進一步分析。
聚類分析也可以作為其他數(shù)據(jù)挖掘任務(如分類和關(guān)聯(lián)規(guī)則)的預處理步驟。
數(shù)據(jù)挖掘領(lǐng)域主要研究高效實用的大型數(shù)據(jù)庫和數(shù)據(jù)倉庫聚類分析算法。
聚類分析是數(shù)據(jù)挖掘中一個非?;钴S的研究領(lǐng)域,已經(jīng)提出了很多聚類算法。
這些算法可以分為劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。
1 分區(qū)方法(PAM:PARTitioningmethod)先創(chuàng)建k個分區(qū),k是要創(chuàng)建的分區(qū)數(shù);然后使用循環(huán)
定位技術(shù)通過將對象從一個分區(qū)移動到另一種質(zhì)量來幫助改進分區(qū)。典型的劃分方法包括:
k-means、k-medoids、CLARA(ClusteringLARgeApplication)、
CLARANS(ClusteringLargeApplicationbaseduponRANdomizedSearch)。 2 分層方法(hierarchicalmethod)創(chuàng)建層次結(jié)構(gòu)來分解給定的數(shù)據(jù)集。這種方法可以分為自頂向下(分解)和自底向上(合并)兩種操作模式。為了彌補分解和合并的缺點,層次整合往往與其他聚類方法相結(jié)合,例如循環(huán)定位。典型的此類方法包括:
第一種是; BIRCH(BalancedIterativeRecingandClusteringusingHierarchies)方法,它首先利用樹的結(jié)構(gòu)來劃分對象集;然后使用其他聚類方法來優(yōu)化這些聚類。
第二種是CURE(ClusteringUsingREprisentatives)方法,用固定數(shù)量的代表對象來表示對應的簇;然后每個集群按照指定的數(shù)量(向集群中心)收縮。

第三種是ROCK方法,利用簇之間的連接來合并簇。
*后一個CHEMALOEN是在層次聚類過程中構(gòu)建一個動態(tài)模型。
3 基于密度方法,根據(jù)密度完成對象的聚類。它根據(jù)對象周圍的密度不斷增長簇(例如
DBSCAN)。典型的基于密度的方法包括:
DBSCAN(Densit-basedSpatialClusteringofApplicationwithNoise):該算法通過不斷增長的具有足夠高密度的區(qū)域來執(zhí)行聚類
;它可以從包含噪聲的空間數(shù)據(jù)庫中找到任意形狀的簇。該方法將簇定義為一組“密度連接”點。
OPTICS (OrderingPointsToIdentifytheClusteringStructure):不顯式生成
簇,而是計算增強的聚類順序以進行自動交互式聚類分析。 .
4 基于網(wǎng)格法,首先將物體空間劃分為有限單元,形成網(wǎng)格結(jié)構(gòu);然后使用網(wǎng)格結(jié)構(gòu)完成聚類。
STING (STatisticalINformationGrid) 是一種使用存儲在網(wǎng)格單元中的統(tǒng)計信息以
為基礎的網(wǎng)格聚類方法。
CLIQUE (ClusteringInQUEst) 和Wave-Cluster 是一種基于網(wǎng)格和基于密度的基于平方5 的模型方法的組合,它假設每個簇的模型并找到適合相應模型的數(shù)據(jù)。典型的
基于模型的方法包括:
統(tǒng)計方法COBWEB:是一種常用且簡單的增量概念聚類方法。它的輸入對象由符號量(屬性-值)對描述。使用分類樹的形式創(chuàng)建層次聚類。
CLASSIT 是 COBWEB 的另一個版本。它可以執(zhí)行連續(xù)值屬性的增量聚合。它為每個節(jié)點中的每個屬性保存了相應的連續(xù)正態(tài)分布(均值和方差);并且采用了改進的分類能力描述方法,即不像COBWEB那樣計算離散屬性(值)
Sum是對連續(xù)屬性的積分。但是CLASSIT方法也有與COBWEB類似的問題。
所以它們不適合集群大型數(shù)據(jù)庫。
- 上一條翻譯一篇1500字英文要多少錢
- 下一條公證處翻譯英文多少錢
相關(guān)閱讀Relate
|
|
|
|
|
熱門文章 Recent
- 小語種翻譯價格,小語種翻譯1000字多少錢2023-03-11
- 日語翻譯公司的收費標準是什么2023-03-11
- 成都翻譯公司價格(個人翻譯和公司翻譯的區(qū)別)2023-03-11
- 日語翻譯價格是多少2023-03-11
- 廈門翻譯一天多少錢2023-03-11
- 成都翻譯公司(影響翻譯價格的因素)2023-03-11
- 文件翻譯價格(翻譯一份文件大概多少錢)2023-03-11
- 德語翻譯的收費標準2023-03-11
- 俄語翻譯一千字多少錢2023-03-11
- 成都翻譯公司(翻譯公司筆譯的收費標準)2023-03-11