什么是混合專家模型？混合專家模型 (MoEs)優(yōu)劣勢分析

技術前沿：AICG——混合專家模型 (MoEs)

什么是混合專家模型？

混合專家模型主要由兩個關鍵部分組成:

稀疏 MoE 層: 這些層代替了傳統 Transformer 模型中的前饋網絡 (FFN) 層。MoE 層包含若干“專家”(例如 8 個)，每個專家本身是一個獨立的神經網絡。在實際應用中，這些專家通常是前饋網絡 (FFN)，但它們也可以是更復雜的網絡結構，甚至可以是 MoE 層本身，從而形成層級式的 MoE 結構。 ? ?

門控網絡或路由: 這個部分用于決定哪些令牌 (token) 被發(fā)送到哪個專家。例如，在下圖中，“More”這個令牌可能被發(fā)送到第二個專家，而“Parameters”這個令牌被發(fā)送到第一個專家。有時，一個令牌甚至可以被發(fā)送到多個專家。令牌的路由方式是 MoE 使用中的一個關鍵點，因為路由器由學習的參數組成，并且與網絡的其他部分一同進行預訓練。

?Switch Transformers paper 論文中的 MoE layer

總結來說，在混合專家模型 (MoE) 中，我們將傳統 Transformer 模型中的每個前饋網絡 (FFN) 層替換為 MoE 層，其中 MoE 層由兩個核心部分組成: 一個門控網絡和若干數量的專家。

盡管混合專家模型 (MoE) 提供了若干顯著優(yōu)勢，例如更高效的預訓練和與稠密模型相比更快的推理速度，但它們也伴隨著一些挑戰(zhàn):

訓練挑戰(zhàn): 雖然 MoE 能夠實現更高效的計算預訓練，但它們在微調階段往往面臨泛化能力不足的問題，長期以來易于引發(fā)過擬合現象。 ? ?

推理挑戰(zhàn): MoE 模型雖然可能擁有大量參數，但在推理過程中只使用其中的一部分，這使得它們的推理速度快于具有相同數量參數的稠密模型。然而，這種模型需要將所有參數加載到內存中，因此對內存的需求非常高。以 Mixtral 8x7B 這樣的 MoE 為例，需要足夠的 VRAM 來容納一個 47B 參數的稠密模型。之所以是 47B 而不是 8 x 7B = 56B，是因為在 MoE 模型中，只有 FFN 層被視為獨立的專家，而模型的其他參數是共享的。此外，假設每個令牌只使用兩個專家，那么推理速度 (以 FLOPs 計算) 類似于使用 12B 模型 (而不是 14B 模型)，因為雖然它進行了 2x7B 的矩陣乘法計算，但某些層是共享的。

混合專家模型簡史

混合專家模型 (MoE) 的理念起源于 1991 年的論文 Adaptive Mixture of Local Experts。這個概念與集成學習方法相似，旨在為由多個單獨網絡組成的系統建立一個監(jiān)管機制。在這種系統中，每個網絡 (被稱為“專家”) 處理訓練樣本的不同子集，專注于輸入空間的特定區(qū)域。那么，如何選擇哪個專家來處理特定的輸入呢？這就是門控網絡發(fā)揮作用的地方，它決定了分配給每個專家的權重。在訓練過程中，這些專家和門控網絡都同時接受訓練，以優(yōu)化它們的性能和決策能力。

在 2010 至 2015 年間，兩個獨立的研究領域為混合專家模型 (MoE) 的后續(xù)發(fā)展做出了顯著貢獻:

組件專家: 在傳統的 MoE 設置中，整個系統由一個門控網絡和多個專家組成。在支持向量機 (SVMs) 、高斯過程和其他方法的研究中，MoE 通常被視為整個模型的一部分。然而，Eigen、Ranzato 和 Ilya 的研究探索了將 MoE 作為更深層網絡的一個組件。這種方法允許將 MoE 嵌入到多層網絡中的某一層，使得模型既大又高效。

條件計算: 傳統的神經網絡通過每一層處理所有輸入數據。在這一時期，Yoshua Bengio 等研究人員開始探索基于輸入令牌動態(tài)激活或停用網絡組件的方法。 ? ?

這些研究的融合促進了在自然語言處理 (NLP) 領域對混合專家模型的探索。特別是在 2017 年，Shazeer 等人 (團隊包括 Geoffrey Hinton 和 Jeff Dean，后者有時被戲稱為 “谷歌的 Chuck Norris”) 將這一概念應用于 137B 的 LSTM (當時被廣泛應用于 NLP 的架構，由 Schmidhuber 提出)。通過引入稀疏性，這項工作在保持極高規(guī)模的同時實現了快速的推理速度。這項工作主要集中在翻譯領域，但面臨著如高通信成本和訓練不穩(wěn)定性等多種挑戰(zhàn)。

?Outrageously Large Neural Network 論文中的 MoE layer

混合專家模型 (MoE) 的引入使得訓練具有數千億甚至萬億參數的模型成為可能，如開源的 1.6 萬億參數的 Switch Transformers 等。這種技術不僅在自然語言處理 (NLP) 領域得到了廣泛應用，也開始在計算機視覺領域進行探索。

最近再次大火的原因，評測超Llama2，混合專家模型（MoE）會是大模型新方向嗎？?

先是 Reddit 上一篇關于 GPT-4 結構的猜測帖，暗示了 GPT-4 可能是由 16 個子模塊組成的專家模型（MoE）的混合體。據說，這 16 個子模塊中的每一個 MoE 都有 1110 億個參數（作為參考，GPT-3 有 1750 億個參數）。盡管不能 100% 確定，但 GPT-4 是一個 MoE 組成的集群這個事很可能是真的。

然后是法國 AI 公司 MistralAI 發(fā)布了全球首個基于混合專家技術的大模型 Mistral-8x7B-MoE，是 8 個 70 億參數規(guī)模大模型的混合。

主要特點如下： ? ?

它可以非常優(yōu)雅地處理 32K 上下文數據；

除了英語外，在法語、德語、意大利語和西班牙語表現也很好；

在代碼能力上表現很強；

指令微調后 MT-Bench 的得分 8.3 分（GPT-3.5 是 8.32、LLaMA2 70B 是 6.86）；

Mistral-7B×8-MoE 是首個被證明有效的開源的 MoE LLM，相比于早期的 Switch Transformer、GLaM 等研究，Mistral-7B×8-MoE 證明了 MoE 真的可以落地，且效果遠好于相同激活值的 Dense 模型。

而在最近的一個評測中，Mistral-8x7B-MoE 經過微調后的表現超過了 Llama2-65B。

到底什么是 MoE，可以參見?Hugging Face 官方對 MoE 的詳細技術解讀。?

01、MoE 的前世今生

混合專家模型（MixtureofExperts：MoE）的思想可以追溯到集成學習，集成學習是通過訓練多個模型（基學習器）來解決同一問題，并且將它們的預測結果簡單組合（例如投票或平均）。集成學習的主要目標是通過減少過擬合，提高泛化能力，以提高預測性能。常見的集成學習方法包括 Bagging，Boosting 和 Stacking。

集成學習在訓練過程中，利用訓練數據集訓練基學習器，基學習器的算法可以是決策樹、SVM、線性回歸、KNN 等，在推理過程中對于輸入的 X，在每個基學習器得到相應的答案后將所有結果有機統一起來，例如通過求均值的方法解決數值類問題，通過投票方式解決分類問題。

MoE 和集成學習的思想異曲同工，都是集成了多個模型的方法，但它們的實現方式有很大不同。與 MoE 的最大不同的地方是集成學習不需要將任務分解為子任務，而是將多個基礎學習器組合起來。這些基礎學習器可以使用相同或不同的算法，并且可以使用相同或不同的訓練數據。 ? ?

MoE 模型本身也并不是一個全新的概念，它的理論基礎可以追溯到 1991 年由 MichaelJordan 和 GeoffreyHinton 等人提出的論文，距今已經有 30 多年的歷史，但至今依然在被廣泛應用的技術。這一理念在被提出來后經常被應用到各類模型的實際場景中，在 2017 年得到了更進一步的發(fā)展，當時，一個由 QuocLe,GeoffreyHinton 和 JeffDean 領銜的團隊提出了一種新型的 MoE 層，它通過引入稀疏性來大幅提高模型的規(guī)模和效率。

大模型結合混合專家模型的方法屬于老樹發(fā)新芽，隨著應用場景的復雜化和細分化，大模型越來越大，垂直領域應用更加碎片化，想要一個模型既能回答通識問題，又能解決專業(yè)領域問題，似乎 MoE 是一種性價比更高的選擇。在多模態(tài)大模型的發(fā)展浪潮之下，MoE 大有可能成為 2024 年大模型研究的新方向之一，而大模型也會帶著 MoE，讓其再次偉大。

下面是近些年一部分 MoE 的應用發(fā)展事件，可以看出早期 MoE 的應用和 Transformer 的發(fā)展時間節(jié)點差不多，都是在 2017 年左右。 ? ?

2017 年，谷歌首次將 MoE 引入自然語言處理領域，通過在 LSTM 層之間增加 MoE 實現了機器翻譯方面的性能提升；

2020 年，Gshard 首次將 MoE 技術引入 Transformer 架構中，并提供了高效的分布式并行計算架構，而后谷歌的 Swtich Transformer 和 GLaM 則進一步挖掘 MoE 技術在自然語言處理領域中的應用潛力，實現了優(yōu)秀的性能表現；

2021 年的 V-MoE 將 MoE 架構應用在計算機視覺領域的 Transformer 架構模型中，同時通過路由算法的改進在相關任務中實現了更高的訓練效率和更優(yōu)秀的性能表現； ? ?

2022 年的 LIMoE 是首個應用了稀疏混合專家模型技術的多模態(tài)模型，模型性能相較于 CLIP 也有所提升。

近期 Mistral AI 發(fā)布的 Mistral 8x7B 模型是由 70 億參數的小模型組合起來的 MoE 模型，直接在多個跑分上超過了多達 700 億參數的 Llama 2。

將混合專家模型（Mixture of Experts：MoE）應用于大模型中似乎是不一個不錯的想法，Mistral AI 發(fā)布的 Mistral 8x7B 模型在各項性能和參數上證明了這一點，使用了更少的參數卻獲得了遠超于 Llama 2 的效果，這為大模型的發(fā)展提供了一種新的思路。

02、MoE 的核心思想：術有專攻

「學有所長，術有專攻」，古人早已將告訴過我們如何將復雜的事物簡單化處理。大模型從早期只處理文本數據，到后來需要同時處理圖像數據和語音數據的發(fā)展過程中，其參數量和模型結構設計也越來復雜和龐大。

如果說單模態(tài)大模型是一個「特長生」，那么多模態(tài)大模型就是一個「全能天才」，想要讓這個「全能天才」學習的更好，那么就需要對其學習任務分類，安排不同科目的老師進行學習任務的輔導，這樣才能讓其高效快速的學習到各科的知識，在考試的時候才有可能在各科成績上有優(yōu)異的表現。

混合專家模型（MixtureofExperts：MoE）正是這樣一個培養(yǎng)「全能天才」的方法，其核心思想就是先把任務分門別類，然后分給各個「專家模型」進行解決?；旌蠈＜夷Ｐ停∕oE）是一種稀疏門控制的深度學習模型，它主要由一組專家模型和一個門控模型組成。MoE 的基本理念是將輸入數據根據任務類型分割成多個區(qū)域，并將每個區(qū)域的數據分配一個或多個專家模型。每個專家模型可以專注于處理輸入這部分數據，從而提高模型的整體性能。

MoE 架構的基本原理非常簡單明了，它主要包括兩個核心組件：GateNet 和 Experts。GateNet 的作用在于判定輸入樣本應該由哪個專家模型接管處理。而 Experts 則構成了一組相對獨立的專家模型，每個專家負責處理特定的輸入子空間。

門控模型（GateNet）：混合專家模型中「門」是一種稀疏門網絡，它接收單個數據元素作為輸入，然后輸出一個權重，這些權重表示每個專家模型對處理輸入數據的貢獻。一般是通過 softmax 門控函數通過專家或 token 對概率分布進行建模，并選擇前 K 個。例如，如果模型有三個專家，輸出的概率可能為 0.5 和 0.4、0.1，這意味著第一個專家對處理此數據的貢獻為 50%，第二個專家為 40%，第二個專家為 10%，這個時候的 K 就可以選擇為 2，我們認為前兩個專家模型的建議會更好，可以用于更加精確的回答中，而第三個專家模型的建議可以用于更加富有創(chuàng)意性的答案中。 ? ?

專家模型（Experts）：在訓練的過程中，輸入的數據被門控模型分配到不同的專家模型中進行處理；在推理的過程中，被門控選擇的專家會針對輸入的數據，產生相應的輸出。這些輸出最后會和每個專家模型處理該特征的能力分配的權重進行加權組合，形成最終的預測結果。

混合專家模型在訓練過程中通過門控模型實現「因材施教」，進而在推理過程中實現專家模型之間的「博采眾長」。MoE 的專家模型可以是小型的 MLP 或者復雜的 LLM。

在傳統的密集模型中，每個輸入都必須經歷完整的計算流程，這導致了在處理大規(guī)模數據時的顯著計算成本。然而，在現代深度學習中，稀疏混合專家（MoE）模型的引入為解決這一問題提供了一種新的方法。在這種模型中，輸入數據只激活或利用了少數專家模型，而其他專家模型保持不活躍狀態(tài)，形成了「稀疏」結構。這種稀疏性被認為是混合專家模型的重要優(yōu)點，不僅在減少計算負擔的同時，還能提高模型的效率和性能。 ? ?

MoE模型的優(yōu)勢在于其靈活性和擴展性。由于可以動態(tài)地調整專家網絡的數量和類型，MoE 模型可以有效地處理大規(guī)模和復雜的數據集。此外，通過并行處理不同的專家網絡，MoE 模型還可以提高計算效率。

在實際應用中，MoE 模型常用于處理需要大量計算資源的任務，如語言模型、圖像識別和復雜的預測問題。通過將大型問題分解為更小、更易管理的子問題，MoE 模型能夠提供更高效和精確的解決方案。

03、MoE 的優(yōu)勢與缺點

混合專家模型的優(yōu)勢顯而易見，通過 MoE 的方式，可以極大的促進大模型的研究和發(fā)展，但也不能忽視其各方面的問題，在實際應用中應該結合具體的需求對各方面的性能和參數進行一個權衡。

混合專家模型（Mixture of Experts，MoE）的優(yōu)勢：

混合專家模型（Mixture of Experts，MoE）具有多方面的優(yōu)勢，使其在深度學習領域得到廣泛應用。以下是一些混合專家模型的優(yōu)勢： ? ?

1. 任務特異性：采用混合專家方法可以有效地充分利用多個專家模型的優(yōu)勢，每個專家都可以專門處理不同的任務或數據的不同部分，在處理復雜任務時取得更卓越的性能。各個專家模型能夠針對不同的數據分布和模式進行建模，從而顯著提升模型的準確性和泛化能力，因此模型可以更好地適應任務的復雜性。這種任務特異性使得混合專家模型在處理多模態(tài)數據和復雜任務時表現出色。

2. 靈活性：混合專家方法展現出卓越的靈活性，能夠根據任務的需求靈活選擇并組合適宜的專家模型。模型的結構允許根據任務的需要動態(tài)選擇激活的專家模型，實現對輸入數據的靈活處理。這使得模型能夠適應不同的輸入分布和任務場景，提高了模型的靈活性。

3. 高效性：由于只有少數專家模型被激活，大部分模型處于未激活狀態(tài)，混合專家模型具有很高的稀疏性。這種稀疏性帶來了計算效率的提升，因為只有特定的專家模型對當前輸入進行處理，減少了計算的開銷。

4. 表現能力：每個專家模型可以被設計為更加專業(yè)化，能夠更好地捕捉輸入數據中的模式和關系。整體模型通過組合這些專家的輸出，提高了對復雜數據結構的建模能力，從而增強了模型的性能。 ? ?

5. 可解釋性：由于每個專家模型相對獨立，因此模型的決策過程更易于解釋和理解，為用戶提供更高的可解釋性，這對于一些對模型決策過程有強解釋要求的應用場景非常重要。

MoE 構架還能向 LLM 添加可學習參數，而不增加推理成本。

6. 適應大規(guī)模數據：混合專家方法是處理大規(guī)模數據集的理想選擇，能夠有效地應對數據量巨大和特征復雜的挑戰(zhàn)，可以利用稀疏矩陣的高效計算，利用 GPU 的并行能力計算所有專家層，能夠有效地應對海量數據和復雜特征的挑戰(zhàn)。其并行處理不同子任務的特性，充分發(fā)揮計算資源，幫助有效地擴展模型并減少訓練時間，提高模型在訓練和推理階段的效率，使其在大規(guī)模數據下具有較強的可擴展性，以更低的計算成本獲得更好的結果。這種優(yōu)勢使得混合專家方法成為在大數據環(huán)境下進行深度學習的強有力工具。 ? ?

混合專家模型通過充分利用多個專家模型的優(yōu)勢，實現了在任務處理、靈活性、計算效率和可解釋性等方面的平衡，使其成為處理復雜任務和大規(guī)模數據的有效工具。

混合專家模型（Mixture of Experts，MoE）的問題：

盡管混合專家模型在許多方面具有優(yōu)勢，但也存在一些問題和挑戰(zhàn)，這些需要在實際應用中謹慎考慮。以下是一些混合專家模型可能面臨的問題：

訓練復雜性：混合專家模型的訓練相對復雜，尤其是涉及到門控網絡的參數調整。為了正確地學習專家的權重和整體模型的參數，可能需要更多的訓練時間。

超參數調整：選擇適當的超參數，特別是與門控網絡相關的參數，以達到最佳性能，是一個復雜的任務。這可能需要通過交叉驗證等技術進行仔細調整。

專家模型設計：專家模型的設計對模型的性能影響顯著。選擇適當的專家模型結構，確保其在特定任務上有足夠的表現力，是一個挑戰(zhàn)。

稀疏性失真：在某些情況下，為了實現稀疏性，門控網絡可能會過度地激活或不激活某些專家，導致模型性能下降。需要謹慎設計稀疏性調整策略，以平衡效率和性能。 ? ?

動態(tài)性問題：在處理動態(tài)或快速變化的數據分布時，門控網絡可能需要更加靈活的調整，以適應輸入數據的變化。這需要額外的處理和設計。

對數據噪聲的敏感性：混合專家模型對于數據中的噪聲相對敏感，可能在一些情況下表現不如其他更簡單的模型。

此外，還有重要的一點是混合專家模型在分布式計算環(huán)境下可能面臨通信寬帶瓶頸的問題。這主要涉及到混合專家模型的分布式部署，其中不同的專家模型或門控網絡可能分布在不同的計算節(jié)點上。在這種情況下，模型參數的傳輸和同步可能導致通信開銷過大，成為性能的一個瓶頸。

04、MoE 相關論文粗讀

MoE 相關論文 ? ?

1. Adaptive mixtures of local experts, Neural Computation'1991

2. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, ICLR'17

3. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, ICLR'21

4. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, JMLR'22

5. GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, 2021

6. Go Wider Instead of Deeper, AAAI'22

7. MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation, NAACL'22

論文 3 GShard 是第一個將 MoE 的思想拓展到 Transformer 上的工作，但論文亮點是提出了 GShard 這個框架，可以方便的做對 MoE 結構做數據并行或者模型并行。 ? ?

我們可以重點看其中提出的MoE結構，論文具體的做法是：把 Transformer 的 encoder 和 decoder 中，每隔一個（every other）的 FFN 層，替換成 position-wise 的 MoE 層，又加了一個分發(fā)器（Gating），使用的是 Top-2 gating network，即不同的 token 每次會發(fā)給至多兩個專家。

文中還提到了很多其他設計：

Expert capacity balancing：強制每個 expert 處理的 tokens 數量在一定范圍內。

Local group dispatching：通過把一個 batch 內所有的 tokens 分組，來實現并行化計算。

Auxiliary loss：也是為了緩解「贏者通吃」問題。

Random routing：在 Top-2 gating 的設計下，兩個 expert 如何更高效地進行 routing。

論文 4 Switch Transformer 的亮點在于它簡化了 MoE 的 routing 算法，每個 FFN 層激活的專家個數從多個變成了一個，提高了計算效率，可以將語言模型的參數量擴展至 1.6 萬億。 ? ?

論文 5 GLaM 是 Google 在 2021 年推出的一個超大模型，比 GPT-3 大三倍，但是由于使用了 Sparse MoE 的設計，訓練成本卻只有 GPT-3 的 1/3，而且在 29 個 NLP 任務上超越了 GPT-3。 ? ?

以上三篇文章（GShard，Switch-Transformer，GLaM）都是希望通過 MoE 的方式把模型做得盡可能的大，大到普通人玩不起（動輒使用幾百個 experts）。

但也有更親民一點的，論文 6 和 7 是關于如何利用 MoE 去壓縮模型、提高效率。

手把手教你，從零開始實現一個稀疏混合專家架構語言模型（MoE）

選自huggingface? ??

本文介紹了實現一個稀疏混合專家語言模型（MoE）的方法，詳細解釋了模型的實施過程，包括采用稀疏混合專家取代傳統的前饋神經網絡，實現 top-k 門控和帶噪聲的 top-k 門控，以及采用 Kaiming He 初始化技術。作者還說明了從 makemore 架構保持不變的元素，比如數據集處理、分詞預處理和語言建模任務。最后還提供了一個 GitHub 倉庫鏈接，用于實現模型的整個過程，是一本不可多得的實戰(zhàn)教科書。

內容簡介

在混合專家模型 Mixtral 發(fā)布后，混合專家模型（MoE）越來越受到人們的關注。在稀疏化的混合專家語言模型中，大部分組件都與傳統的 transformers 相同。然而，盡管看似簡單，但經驗表明，稀疏混合專家語言模型訓練的穩(wěn)定性還存在著一些問題。

像這樣易于修改的小規(guī)模實現可能有助于快速試驗新方法。Hugging Face 上的一篇博客介紹了一種可配置的小規(guī)模稀疏 MoE 實施方法，也許有助于打算在這個方向深耕的研究者們進行快速試驗自己的新方法，并且給出了基于 PyTorch 的詳細代碼：https://github.com/AviSoori1x/makeMoE/tree/main

本文在 makemore 架構的基礎上，進行了幾處更改：

使用稀疏混合專家代替單獨的前饋神經網絡；

Top-k 門控和有噪聲的 Top-k 門控；

參數初始化使用了 Kaiming He 初始化方法，但本文的重點是可以對初始化方法進行自定義，這樣就可以在 Xavier/Glorot 等初始化中進行選擇。

同時，以下模塊與 makemore 保持一致：

數據集、預處理（分詞）部分以及 Andrej 最初選擇的語言建模任務 - 生成莎士比亞文風的文本內容

Casusal 自注意力機制 ? ?

訓練循環(huán)

推理邏輯

接下來逐步介紹實施方案，先從注意力機制開始。

因果縮放點積注意力機制

下面這段代碼展示了自注意力機制的基本概念，并且側重于使用經典的縮放點積自注意力（scaled dot product self-attention.）實現。在這一自注意力變體機制中，查詢矩陣、鍵矩陣和值矩陣都來自相同的輸入序列。同時為了確保自回歸語言生成過程的完整性，特別是在純解碼器模型中，使用了一種掩碼機制。 ? ?

這種掩碼機制非常關鍵，因為它可以掩蓋當前 token 所處位置之后的任何信息，從而引導模型只關注序列的前面部分。這種了遮擋 token 后面內容的注意力被稱為因果自注意力。值得注意的是，稀疏混合專家模型并不局限于僅有解碼器的 Transformer 架構。事實上，這一領域的許多重要的成果都是圍繞 T5 架構展開的，T5 架構也包含了 Transformer 模型中的編碼器和解碼器組件。

#This code is borrowed from Andrej Karpathy's makemore repository linked in the repo.The self attention layers in Sparse mixture of experts models are the same asin regular transformer models

torch.manual_seed(1337)B,T,C = 4,8,32 # batch, time, channelsx = torch.randn(B,T,C)

# let's see a single Head perform self-attentionhead_size = 16key = nn.Linear(C, head_size, bias=False)query = nn.Linear(C, head_size, bias=False)value = nn.Linear(C, head_size, bias=False)k = key(x)?? # (B, T, 16)q = query(x) # (B, T, 16)wei =? q @ k.transpose(-2, -1) # (B, T, 16) @ (B, 16, T) ---> (B, T, T)

tril = torch.tril(torch.ones(T, T))#wei = torch.zeros((T,T))wei = wei.masked_fill(tril == 0, float('-inf'))wei = F.softmax(wei, dim=-1) #B,T,T

v = value(x) #B,T,Hout = wei @ v # (B,T,T) @ (B,T,H) -> (B,T,H)out.shape

torch.Size([4, 8, 16])

然后，因果自注意力和多頭因果自注意力的代碼可整理如下。多頭自注意力并行應用多個注意力頭，每個注意力頭單獨關注通道的一個部分（嵌入維度）。多頭自注意力從本質上改善了學習過程，并由于其固有的并行能力提高了模型訓練的效率。下面這段代碼使用了 dropout 來進行正則化，來防止過擬合。 ? ?

#Causal scaled dot product self-Attention Head

n_embd = 64

n_head = 4

n_layer = 4

head_size = 16

dropout = 0.1

class Head(nn.Module):

"""?one head of self-attention """

def?__init__(self, head_size):???????

super().__init__()???????

self.key = nn.Linear(n_embd, head_size, bias=False)???????

self.query = nn.Linear(n_embd, head_size, bias=False)???????

self.value = nn.Linear(n_embd, head_size, bias=False)???????

self.register_buffer('tril', torch.tril(torch.ones(block_size, block_size)))

self.dropout = nn.Dropout(dropout)

def forward(self, x):

B,T,C?= x.shape

k?= self.key(x)?? # (B,T,C)

q?= self.query(x) # (B,T,C) ? ?

#?compute attention scores ("affinities")

wei?= q @ k.transpose(-2,-1) * C**-0.5 # (B, T, C) @ (B, C, T) -> (B, T, T)

wei?= wei.masked_fill(self.tril[:T, :T] == 0, float('-inf')) # (B, T, T)

wei?= F.softmax(wei, dim=-1) # (B, T, T)

wei?= self.dropout(wei)

#?perform the weighted aggregation of the values

v?= self.value(x) # (B,T,C)

out?= wei @ v # (B, T, T) @ (B, T, C) -> (B, T, C)

return?out

多頭自注意力的實現方式如下：

#Multi-Headed Self Attention

class MultiHeadAttention(nn.Module):

"""?multiple heads of self-attention in parallel """

def?__init__(self, num_heads, head_size):

super().__init__()

self.heads?= nn.ModuleList([Head(head_size) for _ in range(num_heads)])

self.proj?= nn.Linear(n_embd, n_embd)

self.dropout?= nn.Dropout(dropout)

def?forward(self, x):

out?= torch.cat([h(x) for h in self.heads], dim=-1)

out?= self.dropout(self.proj(out)) ? ?

return?out

創(chuàng)建一個專家模塊

即一個簡單的多層感知器

在稀疏混合專家架構中，每個 transformer 區(qū)塊內的自注意力機制保持不變。不過，每個區(qū)塊的結構發(fā)生了巨大的變化：標準的前饋神經網絡被多個稀疏激活的前饋網絡（即專家網絡）所取代。所謂「稀疏激活」，是指序列中的每個 token 只被分配給有限數量的專家（通常是一個或兩個）。

這有助于提高訓練和推理速度，因為每次前向傳遞都會激活少數專家。不過，所有專家都必須存在 GPU 內存中，因此當參數總數達到數千億甚至數萬億時，就會產生部署方面的問題。

#Expert module

class Expert(nn.Module):

"""?An MLP is a simple linear layer followed by a non-linearity i.e. each Expert """

def?__init__(self, n_embd): ? ?

super().__init__()

self.net?= nn.Sequential(

nn.Linear(n_embd,?4 * n_embd),

nn.ReLU(),?

nn.Linear(4?* n_embd, n_embd),

nn.Dropout(dropout),

)

def?forward(self, x):

return?self.net(x)

Top-k 門控的一個例子

門控網絡，也稱為路由，確定哪個專家網絡接收來自多頭注意力的 token 的輸出。舉個例子解釋路由的機制，假設有 4 個專家，token 需要被路由到前 2 個專家中。首先需要通過線性層將 token 輸入到門控網絡中。該層將對應于（Batch size，Tokens，n_embed）的輸入張量從（2，4，32）維度，投影到對應于（Batch size、Tokens，num_expert）的新形狀：（2、4，4）。其中 n_embed 是輸入的通道維度，num_experts 是專家網絡的計數。

接下來，沿最后一個維度，找出最大的前兩個值及其相應的索引。

#Understanding how gating works ? ?

num_experts = 4

top_k=2

n_embed=32

#Example multi-head attention output for a simple illustrative example, consider n_embed=32, context_length=4 and batch_size=2

mh_output = torch.randn(2, 4, n_embed)

topkgate_linear = nn.Linear(n_embed, num_experts) # nn.Linear(32, 4)

logits = topkgate_linear(mh_output)

top_k_logits, top_k_indices = logits.topk(top_k, dim=-1)? # Get top-k experts

top_k_logits, top_k_indices

#output:

(tensor([[[ 0.0246, -0.0190],

[?0.1991,? 0.1513],

[?0.9749,? 0.7185],

[?0.4406, -0.8357]],

[[?0.6206, -0.0503],

[?0.8635,? 0.3784], ? ?

[?0.6828,? 0.5972],

[?0.4743,? 0.3420]]], grad_fn=),

tensor([[[2, 3],

[2,?1],

[3,?1],?

[2,?1]],?

[[0,?2],?

[0,?3],??

[3,?2],?

[3,?0]]]))

通過僅保留沿最后一個維度進行比較的前 k 大的值，來獲得稀疏門控的輸出。用負無窮值填充其余部分，在使用 softmax 激活函數。負無窮會被映射至零，而最大的前兩個值會更加突出，且和為 1。要求和為 1 是為了對專家輸出的內容進行加權。

zeros = torch.full_like(logits, float('-inf')) #full_like clones a tensor and fills it with a specified value (like infinity) for masking or calculations.

sparse_logits = zeros.scatter(-1, top_k_indices, top_k_logits)sparse_logits

#output

tensor([[[?? -inf,??? -inf,? 0.0246, -0.0190],

[?? -inf,? 0.1513,? 0.1991,??? -inf],? ? ?

[?? -inf,? 0.7185,??? -inf,? 0.9749],?

[?? -inf,?-0.8357,? 0.4406,??? -inf]],

[[?0.6206,??? -inf, -0.0503,??? -inf],?

[?0.8635,??? -inf,??? -inf,? 0.3784],?

[?? -inf,??? -inf,? 0.5972,? 0.6828],?

[?0.3420,??? -inf,??? -inf,? 0.4743]]], grad_fn=)

gating_output= F.softmax(sparse_logits, dim=-1)

gating_output

#ouput

tensor([[[0.0000, 0.0000, 0.5109, 0.4891],

[0.0000,?0.4881, 0.5119, 0.0000],

[0.0000,?0.4362, 0.0000, 0.5638],

[0.0000,?0.2182, 0.7818, 0.0000]],

[[0.6617,?0.0000, 0.3383, 0.0000],

[0.6190,?0.0000, 0.0000, 0.3810],

[0.0000,?0.0000, 0.4786, 0.5214],

[0.4670,?0.0000, 0.0000, 0.5330]]], grad_fn=)

使用有噪聲的 top-k 門控以實現負載平衡

# First define the top k router module ? ?

class TopkRouter(nn.Module):

def?__init__(self, n_embed, num_experts, top_k):

super(TopkRouter,?self).__init__()

self.top_k?= top_k

self.linear?=nn.Linear(n_embed, num_experts)

def?forward(self, mh_ouput):

#?mh_ouput is the output tensor from multihead self attention block

logits?= self.linear(mh_output)

top_k_logits,?indices = logits.topk(self.top_k, dim=-1)

zeros?= torch.full_like(logits, float('-inf'))

sparse_logits?= zeros.scatter(-1, indices, top_k_logits)

router_output?= F.softmax(sparse_logits, dim=-1)

return?router_output, indices

接下來使用下面這段代碼來測試程序：

#Testing this out:

num_experts = 4

top_k = 2

n_embd = 32

mh_output = torch.randn(2, 4, n_embd)? # Example input

top_k_gate = TopkRouter(n_embd, num_experts, top_k) ? ?

gating_output, indices = top_k_gate(mh_output)

gating_output.shape, gating_output, indices#

And it works!!

#output

(torch.Size([2, 4, 4]),

tensor([[[0.5284, 0.0000, 0.4716, 0.0000],

[0.0000,?0.4592, 0.0000, 0.5408],

[0.0000,?0.3529, 0.0000, 0.6471],

[0.3948,?0.0000, 0.0000, 0.6052]],

[[0.0000,?0.5950, 0.4050, 0.0000],

[0.4456,?0.0000, 0.5544, 0.0000],

[0.7208,?0.0000, 0.0000, 0.2792],

[0.0000,?0.0000, 0.5659, 0.4341]]], grad_fn=),

tensor([[[0, 2],

[3,?1],

[3,?0]],

[[1,?2],

[2,?0],?

[0,?3],

[2,?3]]])) ? ?

盡管最近發(fā)布的 mixtral 的論文沒有提到這一點，但本文的作者相信有噪聲的 Top-k 門控機制是訓練 MoE 模型的一個重要工具。從本質上講，不會希望所有的 token 都發(fā)送給同一組「受歡迎」的專家網絡。人們需要的是能在開發(fā)和探索之間取得良好平衡。為此，為了負載平衡，從門控的線性層向 logits 激活函數添加標準正態(tài)噪聲是有幫助的，這使訓練更有效率。

#Changing the above to accomodate noisy top-k gating

class NoisyTopkRouter(nn.Module):

def?__init__(self, n_embed, num_experts, top_k):

super(NoisyTopkRouter,?self).__init__()

self.top_k?= top_k

#layer?for router logits

self.topkroute_linear?= nn.Linear(n_embed, num_experts)

self.noise_linear?=nn.Linear(n_embed, num_experts)

def?forward(self, mh_output): ? ?

#?mh_ouput is the output tensor from multihead self attention block

logits?= self.topkroute_linear(mh_output)

#Noise?logits???????

noise_logits = self.noise_linear(mh_output)

#Adding?scaled unit gaussian noise to the logits

noise?= torch.randn_like(logits)*F.softplus(noise_logits)

noisy_logits?= logits + noise

top_k_logits,?indices = noisy_logits.topk(self.top_k, dim=-1)

zeros?= torch.full_like(noisy_logits, float('-inf'))

sparse_logits?= zeros.scatter(-1, indices, top_k_logits)

router_output?= F.softmax(sparse_logits, dim=-1)

return?router_output, indices

再次嘗試代碼：

#Testing this out, again:

num_experts = 8

top_k = 2

n_embd = 16

mh_output = torch.randn(2, 4, n_embd)? # Example input

noisy_top_k_gate = NoisyTopkRouter(n_embd, num_experts, top_k)

gating_output, indices = noisy_top_k_gate(mh_output)

gating_output.shape, gating_output, indices

#It works!!

#output

(torch.Size([2, 4, 8]),

tensor([[[0.4181, 0.0000, 0.5819, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],?

[0.4693,?0.5307, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],

[0.0000,?0.4985, 0.5015, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000],

[0.0000,?0.0000, 0.0000, 0.2641, 0.0000, 0.7359, 0.0000, 0.0000]],

[[0.0000,?0.0000, 0.0000, 0.6301, 0.0000, 0.3699, 0.0000, 0.0000],

[0.0000,?0.0000, 0.0000, 0.4766, 0.0000, 0.0000, 0.0000, 0.5234],

[0.0000,?0.0000, 0.0000, 0.6815, 0.0000, 0.0000, 0.3185, 0.0000],

[0.4482,?0.5518, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000, 0.0000]]],

grad_fn=),

tensor([[[2, 0],?

[1,?0],

[2,?1],

[5,?3]],

[[3,?5], ? ?

[7,?3],

[3,?6],

[1,?0]]]))

創(chuàng)建稀疏化的混合專家模塊

在獲得門控網絡的輸出結果之后，對于給定的 token，將前 k 個值選擇性地與來自相應的前 k 個專家的輸出相乘。這種選擇性乘法的結果是一個加權和，該加權和構成 SparseMoe 模塊的輸出。這個過程的關鍵和難點是避免不必要的乘法運算，只為前 k 名專家進行正向轉播。為每個專家執(zhí)行前向傳播將破壞使用稀疏 MoE 的目的，因為這個過程將不再是稀疏的。

class SparseMoE(nn.Module):

def?__init__(self, n_embed, num_experts, top_k):

super(SparseMoE,?self).__init__()

self.router?= NoisyTopkRouter(n_embed, num_experts, top_k)

self.experts?= nn.ModuleList([Expert(n_embed) for _ in range(num_experts)])?

self.top_k?= top_k

def?forward(self, x):

gating_output,?indices = self.router(x)

final_output?= torch.zeros_like(x)

#?Reshape inputs for batch processing ? ?

flat_x?= x.view(-1, x.size(-1))

flat_gating_output?= gating_output.view(-1, gating_output.size(-1))

#?Process each expert in parallel

for?i, expert in enumerate(self.experts):

#?Create a mask for the inputs where the current expert is in top-k

expert_mask?= (indices == i).any(dim=-1)

flat_mask?= expert_mask.view(-1)

if?flat_mask.any():

expert_input?= flat_x[flat_mask]

expert_output?= expert(expert_input)

#?Extract and apply gating scores

gating_scores?= flat_gating_output[flat_mask, i].unsqueeze(1)?

weighted_output?= expert_output * gating_scores

#?Update final output additively by indexing and adding

final_output[expert_mask]?+= weighted_output.squeeze(1)

return?final_output

運行以下代碼來用樣本測試上述實現，可以看到確實如此！

import torch

import torch.nn as nn

#Let's test this outnum_experts = 8

top_k = 2

n_embd = 16

dropout=0.1

mh_output = torch.randn(4, 8, n_embd)? # Example multi-head attention output

sparse_moe = SparseMoE(n_embd, num_experts, top_k)

final_output = sparse_moe(mh_output)

print("Shape of the final output:", final_output.shape)

Shape of the final output: torch.Size([4, 8, 16])

需要強調的是，如上代碼所示，從路由 / 門控網絡輸出的 top_k 本身也很重要。索引確定了被激活的專家是哪些，對應的值又決定了權重大小。下圖進一步解釋了加權求和的概念。 ? ?

模塊整合

將多頭自注意力和稀疏混合專家相結合，形成稀疏混合專家 transformer 塊。就像在 vanilla transformer 塊中一樣，也要使用殘差以確保訓練穩(wěn)定，并避免梯度消失等問題。此外，要采用層歸一化來進一步穩(wěn)定學習過程。

#Create a self attention + mixture of experts block, that may be repeated several number of times

class Block(nn.Module):

"""?Mixture of Experts Transformer block: communication followed by computation (multi-head self attention + SparseMoE) """

def __init__(self, n_embed, n_head, num_experts, top_k):

#?n_embed: embedding dimension, n_head: the number of heads we'd like

super().__init__()

head_size?= n_embed // n_head

self.sa?= MultiHeadAttention(n_head, head_size) ? ?

self.smoe?= SparseMoE(n_embed, num_experts, top_k)

self.ln1?= nn.LayerNorm(n_embed)

self.ln2?= nn.LayerNorm(n_embed)

def?forward(self, x):

x?= x + self.sa(self.ln1(x))

x?= x + self.smoe(self.ln2(x))

return?x

最后，將所有內容整合在一起，形成稀疏混合專家語言模型。

class SparseMoELanguageModel(nn.Module):

def?__init__(self):

super().__init__()?

#?each token directly reads off the logits for the next token from a lookup table???????

self.token_embedding_table = nn.Embedding(vocab_size, n_embed)

self.position_embedding_table?= nn.Embedding(block_size, n_embed)

self.blocks?= nn.Sequential(*[Block(n_embed, n_head=n_head, num_experts=num_experts,top_k=top_k) for _ in range(n_layer)])

self.ln_f?= nn.LayerNorm(n_embed) # final layer norm

self.lm_head?= nn.Linear(n_embed, vocab_size) ? ?

def?forward(self, idx, targets=None):

B,?T = idx.shape

#?idx and targets are both (B,T) tensor of integers

tok_emb?= self.token_embedding_table(idx) # (B,T,C)

pos_emb?= self.position_embedding_table(torch.arange(T, device=device)) # (T,C)

x?= tok_emb + pos_emb # (B,T,C)

x?= self.blocks(x) # (B,T,C)

x?= self.ln_f(x) # (B,T,C)

logits?= self.lm_head(x) # (B,T,vocab_size)

if?targets is None:

loss?= None???

else:

B,?T, C = logits.shape

logits?= logits.view(B*T, C)

targets?= targets.view(B*T)

loss?= F.cross_entropy(logits, targets)

return?logits, loss

def?generate(self, idx, max_new_tokens):

#?idx is (B, T) array of indices in the current context

for?_ in range(max_new_tokens):

#?crop idx to the last block_size tokens

idx_cond?= idx[:, -block_size:]

#?get the predictions

logits,?loss = self(idx_cond)

#?focus only on the last time step

logits?= logits[:, -1, :] # becomes (B, C)

#?apply softmax to get probabilities

probs?= F.softmax(logits, dim=-1) # (B, C)

#?sample from the distribution

idx_next?= torch.multinomial(probs, num_samples=1) # (B, 1)

#?append sampled index to the running sequence

idx?= torch.cat((idx, idx_next), dim=1) # (B, T+1)

return?idx

參數初始化對于深度神經網絡的高效訓練非常重要。由于專家中存在 ReLU 激活，因此這里使用了 Kaiming He 初始化。也可以嘗試在 transformer 中更常用的 Glorot 初始化。杰里米 - 霍華德（Jeremy Howard）的《Fastai》第 2 部分有一個從頭開始實現這些功能的精彩講座：https://course.fast.ai/Lessons/lesson17.html ? ?

Glorot 參數初始化通常被用于 transformer 模型，因此這是一個可能提高模型性能的方法。

def kaiming_init_weights(m):

if?isinstance (m, (nn.Linear)):

init.kaiming_normal_(m.weight)

model = SparseMoELanguageModel()

model.apply(kaiming_init_weights)

本文作者使用 mlflow 跟蹤并記錄重要指標和訓練超參數。

#Using MLFlow

m = model.to(device)

# print the number of parameters in the modelprint(sum(p.numel() for p in m.parameters())/1e6, 'M parameters')

# create a PyTorch optimizer

optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate)

#mlflow.set_experiment("makeMoE")with mlflow.start_run():

#If?you use mlflow.autolog() this will be automatically logged. I chose to explicitly log here for completeness???

params = {"batch_size": batch_size , "block_size" : block_size, "max_iters": max_iters, "eval_interval": eval_interval,????????????? "learning_rate": learning_rate, "device": device, "eval_iters": eval_iters, "dropout" : dropout, "num_experts": num_experts, "top_k": top_k }??? mlflow.log_params(params)??? for iter in range(max_iters): ? ?

#?every once in a while evaluate the loss on train and val sets

if?iter % eval_interval == 0 or iter == max_iters - 1:

losses?= estimate_loss()

print(f"step?{iter}: train loss {losses['train']:.4f}, val loss {losses['val']:.4f}")

metrics?= {"train_loss": losses['train'], "val_loss": losses['val']}

mlflow.log_metrics(metrics,?step=iter)

#?sample a batch of data

xb,?yb = get_batch('train')

#?evaluate the loss

logits,?loss = model(xb, yb)

optimizer.zero_grad(set_to_none=True)

loss.backward()

optimizer.step()

8.996545 M parameters ? ?

step 0: train loss 5.3223, val loss 5.3166

step 100: train loss 2.7351, val loss 2.7429

step 200: train loss 2.5125, val loss 2.5233...

step 4999: train loss 1.5712, val loss 1.7508

記錄訓練和驗證損失可以很好地指示訓練的進展情況。該圖顯示，可能應該在 4500 次時停止（當驗證損失稍微增加時）

接下來可以使用這個模型逐字符自回歸地生成文本。

# generate from the model. Not great. Not too bad either

context = torch.zeros((1, 1), dtype=torch.long, device=device)

print(decode(m.generate(context, max_new_tokens=2000)[0].tolist()))

DUKE VINCENVENTIO:

If it ever fecond he town sue kigh now,

That thou wold'st is steen 't. ? ?

SIMNA:

Angent her; no, my a born Yorthort,

Romeoos soun and lawf to your sawe with ch a woft ttastly defy,

To declay the soul art; and meart smad.

CORPIOLLANUS:

Which I cannot shall do from by born und ot cold warrike,

What king we best anone wrave's going of heard and good

Thus playvage; you have wold the grace

....

審核編輯：黃飛

閱讀全文

神經網絡(98386) 神經網絡(98386)
AI(263628) AI(263628)
Transformer(5892) Transformer(5892)
自然語言處理(13090) 自然語言處理(13090)
大模型(810) 大模型(810)

從技術角度看工業(yè)機器人當前的優(yōu)劣勢

目前，中國工業(yè)機器人的使用主要集中在汽車工業(yè)和電子電氣工業(yè)、弧焊機器人、點焊機器人、搬運機器人等在生產中被大量采用。下面我們將從技術角度，談談工業(yè)機器人當前的優(yōu)劣勢。

2015-10-12 10:36:04

1074

專家解答混合信號PCB設計難題

的器件模型，并且提供和EESOFT等射頻電路分析仿真工具的雙向接口;在RFLAYOUT模塊中，提供專門用于射頻電路布局布線的圖案編輯功能，也有和EESOFT等射頻電路分析仿真工具的雙向接口，對于分析

2018-09-21 16:46:09

混合動力汽車電子差速控制系統的研究

混合動力汽車電子差速控制系統的研究為了研究混合動力汽車的電子差速特性，通過分析汽車轉向軌跡，提出了一種新的電子差速控制方法。由于汽車轉向行駛時內、外側車輪轉速與轉向角和車體速度之間為非線性關系，采用

2009-05-17 11:44:27

混合式高壓直流斷路器端口等效模型

關注高電壓技術，關注學科發(fā)展本期精選2020年第6期適用于柔性直流電網操作過電壓分析的混合式高壓直流斷路器端口等效模型陳寧，齊磊，崔翔，魏曉光，陳龍龍DOI：10.13336

2021-09-17 09:16:23

Altium Designer的混合電路信號仿真工具介紹

Altium Designer的混合電路信號仿真工具，在電路原理圖設計階段實現對數模混合信號電路的功能設計仿真，配合簡單易用的參數配置窗口，完成基于時序、離散度、信噪比等多種數據的分析。Altium

2019-07-19 07:52:07

Case-Control 關聯分析模型

一、Case-Control關聯分析模型（第一部分主要是在人類中）卡方檢驗舉例邏輯回歸邏輯混合模型二、（動植物）數量性狀關聯分析模型加性模型（GAM）當線性模型的種種條件不能滿足時，就要考慮用平滑性模型來替代。平滑性模型可以對非線性關...

2021-07-23 07:03:13

JAVA專家末端網絡

，規(guī)劃系統設計，組織團隊執(zhí)行，拿到好的結果；3. 對現有系統的不足進行分析，對系統提出模型、設計、性能的優(yōu)化方案并進行落實。任職資格：1. 扎實的編程基礎，精通JAVA開發(fā)語言，熟悉jvm，web開發(fā)

2017-04-27 17:24:59

LDMOS和GaN各有什么優(yōu)劣勢？能理解成完全會是一個時代替換另一個時代嗎？

LDMOS和GaN各有什么優(yōu)劣勢？能理解成完全會是一個時代替換另一個時代嗎？

2015-08-11 14:50:15

SPI協議的特性是什么？具有哪些優(yōu)劣勢？

什么是SPI協議？SPI總線傳輸有哪幾種模式？SPI基本的通訊過程是怎樣的？SPI協議的特性是什么？具有哪些優(yōu)劣勢？

2022-02-17 08:08:12

串聯混合動力城市客車若干關鍵問題的研究

“解放牌混合動力城市客車多能源動力總成控制系統的研制開發(fā)”為依托，對串聯混合動力城市客車開發(fā)的核心問題進行了深入研究。首先，作者客觀分析了混合動力城市客車分別采用串聯布置和并聯布置時的優(yōu)劣，確定采用串聯

2009-12-02 12:35:01

串聯混合動力城市客車若干關鍵問題的研究

控制系統的研制開發(fā)”為依托，對串聯混合動力城市客車開發(fā)的核心問題進行了深入研究。首先，作者客觀分析了混合動力城市客車分別采用串聯布置和并聯布置時的優(yōu)劣，確定采用串聯布置的方案。圍繞所確定的串聯布置方案

2010-12-28 10:25:21

二相混合式步進電機simulink仿真模型怎么搭建？

2021-10-28 07:53:18

二相混合式步進電機開環(huán)細分控制simulink建模仿真含模型文件

細分原理二相混合式步進電機電磁轉矩方程?p-轉子級數;Zr-轉子齒數Zr=2*p;Ta-a相電磁轉矩；Tb-b相電磁轉矩;Td-定位矩（關于二相混合式步進電機的數學模型可參見我的另一篇博客https

2020-06-14 22:33:19

傳感器最主要應用市場之一——物聯網

近年來隨著物聯網、智能手機、汽車電子、醫(yī)療電子等產業(yè)的快速發(fā)展，對陀螺儀、加速度傳感器、MEMS麥克風等傳感器件的需求不斷增加，傳感器產業(yè)進入快速發(fā)展階段。傳感器市場的需求方向是什么?未來的技術走向如何?中國傳感器產業(yè)的優(yōu)劣勢何在?應如何健康發(fā)展?日前，各方專家就上述問題進行了深入探討。

2020-04-23 06:34:13

你如何看待LoRa技術的優(yōu)劣勢？

絡，形成源于LoRaWAN的物聯網標準規(guī)范并大范圍推廣。你認同LoRA技術優(yōu)劣勢的分析嗎？你認為這個技術在中國的市場前景如何？

2016-12-12 17:42:51

關于混合信號設計的藝術與科學的簡要分析

2021-05-20 06:57:59

關于混合動力汽車電子差速控制系統的研究你想知道都在這

本文所設計的混合動力汽車采用輪轂驅動技術，根據輪轂驅動電動汽車的技術特點，提出一種基于神經網絡模型參考自適應的控制方法．實現混合動力驅動汽車的電子差速控制。

2021-05-18 06:24:50

基于ADSP-CM40x 電機控制開發(fā)中基于模型的設計 ADI專家回答精華

分析和綜合：第1至3步創(chuàng)建的模型用于確定工廠模型的動態(tài)特性，系統調諧和配置5 驗證和測試：離線仿真和/或實時仿真，研究動態(tài)系統的時間響應6 部署到嵌入式目標自動代碼生成，測試和驗證[/tr][tr

2018-06-21 11:45:14

基于電流測試的混合電路故障診斷

電路組成的混合電路進行故障模型的研究，其電路模型如圖3所示。通過靈敏度分析可知R1，R2，R5，C1對于電路的影響較大。在電路中設置4個橋接故障、4個開路故障，如表1所示。雖然生產過程中導致電路缺陷

2018-11-05 15:50:13

異步電路原理是什么？有哪些優(yōu)劣勢？

異步電路原理是什么？有哪些優(yōu)劣勢？通過英特爾的Loihi芯片實現異步電路？

2021-06-21 07:17:56

怎么使用混合域示波器進行頻譜分析？

2021-05-11 06:59:22

怎樣去設計基于Simulink的混合動力電動汽車模型

本文件包含使用Simscape、Simscape Electronics、Simscape Driveline和Simscape Power Systems構建的混合動力電動汽車模型，這些模型可以被

2021-08-26 11:35:06

我的數模混合設計難點經驗

普遍接受的模擬電路仿真模型還是SPICE模型，數字電路信號完整性分析使用IBIS模型。多家EDA公司的仿真軟件已經推出支持多種模型的混合模型仿真器，然而擺在設計師案頭的主要困難是器件模型，特別是模擬器

2011-12-02 15:44:34

數模混合電路設計的難點

的有效性以及可能存在的問題，一直沒有檢驗的標準。數模混合電路的仿真，還存在模型的問題。業(yè)界普遍接受的模擬電路仿真模型還是 SPICE模型，數字電路信號完整性分析使用IBIS模型。多家EDA公司的仿真

2016-09-18 23:48:10

有關labview過程控制液罐液位濃度的動態(tài)混合模型的問題

請問圖中的液罐模型是怎么制作的？程序框圖里沒有看出這部分，液罐模型VI是個動態(tài)混合數據模型，不知道怎么轉換成圖像的。請大神請教！

2014-10-16 11:32:25

請問工業(yè)機器人有什么優(yōu)劣勢？

請問工業(yè)機器人有什么優(yōu)劣勢？

2021-06-18 06:04:14

路由器的2.4GHz頻段和5GHz頻段各有什么優(yōu)劣勢？

路由器的2.4GHz頻段和5GHz頻段各有什么優(yōu)劣勢？

2021-06-17 08:59:35

重謝求助混合型無功補償仿真模型咋做

各位專家：大家好！我對電學這快很感興趣，但是在這個領域是個小白。請專家們在百忙中給予指導“混合型無功補償波動圖”的仿真實物圖和實測結果。有重謝！謝謝！

2017-04-08 14:03:27

基于模糊專家模型的神經控制器及應用研究

針對具有嚴重非線性特性的聲中和過程，提出了一種基于模糊專家模型的神經控制策略，這種方法將神經網絡逆控制器與神經元PID控制器相結合，并利用模糊專家模型所得到的預報

2009-03-18 08:47:40

混合型P2P應用層多播模型

針對傳統應用層多播模型中存在的不足，提出一種基于P2P 技術的混合型應用層多播模型。該模型結合2 種不同的應用層多播常用網絡結構，即本地傳遞樹和結構化中樞網絡。每一個

2009-03-20 14:56:48

基于SMP集群的混合并行編程模型研究

提出一種適用于SMP 集群的混合MPI+OpenMP 并行編程模型。該模型貼近于SMP 集群的體系結構且綜合了消息傳遞和共享內存2 種編程模型的優(yōu)勢，能獲得較好的性能。討論該混合模型的實

2009-03-30 09:28:40

一種基于內容的混合模式過濾模型

目前的文本內容過濾系統大多是基于關鍵詞的，在對準確性過濾要求不高的情況下可以完成過濾任務。為進一步提高過濾效率，該文提出一種基于內容的混合模式過濾模型，引入語

2009-04-06 08:48:44

基于混合先驗模型的超分辨率重建

在L1范數圖像超分辨率重建算法框架下，引入參數自適應估計，結合差分圖像統計特性和概率分布模型提出一種基于混合先驗模型的超分辨率重建方法。實驗證明該方法可以彌補L1范

2009-04-11 08:42:05

MUAVs系統的混合組織模型

分析多UAV 系統的協作控制以及2 種基本的組織模型及其優(yōu)缺點，結合大規(guī)模UAVs(MUAVs)系統協作的復雜特征，提出適用于MUAVs 系統的幾種分級混合網絡組織模型以及具有自適應能力

2009-04-17 09:05:43

鏈狀分子流體混合物熱力學性質的預測模型

鏈狀分子流體混合物熱力學性質的預測模型:摘要H 本文在張秉堅Q % R改進S T U V F U I WF X Y F U Z A X微擾理論的基礎上P 將理論推廣應用到鏈狀分子流體混合物熱力學性質的計算[推

2009-05-07 18:26:33

網格與P2P計算混合模型研究

網格和P2P（Peer to Peer）都是分布式計算模型，它們的總體目標相似。利用P2P 與網格技術之間的協同和互補，構造了一個二層的網格和P2P 計算混合模型，上層是網格層，下層是P

2009-08-18 09:33:53

基于高斯比例混合模型的圖像非下采樣Contourlet域去噪

為改善圖像的去噪效果，該文提出了一種基于高斯比例混合模型的圖像非下采樣Contourlet 域去噪算法。該算法首先建立非下采樣Contourlet 系數鄰域的高斯比例混合模型，然后在模型基

2009-11-11 16:02:28

嵌入自聯想神經網絡的高斯混合模型說話人辨認

該文提出了一種嵌入自聯想神經網絡的高斯混合模型，它充分利用了神經網絡和高斯混合模型各自的優(yōu)點，以最大似然概率(ML)為準則，把它們作為一個整體來進行訓練。訓練過程中

2010-03-05 16:27:12

如何分辨投影幕的優(yōu)劣(看完后你也成專家了)

如何分辨投影幕的優(yōu)劣(看完后你也成專家了) 選購常識一　　　　我們知道，家庭影院

2010-02-11 10:01:09

6094

基于P2P和CDN的混合流媒體分發(fā)模型及分析

在CDN和P2P兩種主流的流媒體分發(fā)技術的基礎上,提出了基于系統流量的混合流媒體分發(fā)模型,根據系統中節(jié)點數量和媒體流量之間的關系,在CDN自治域內實現CDN和P2P的混合式服務,并對上述理

2012-04-17 14:53:17

基于改進的混合高斯模型的運動目標跟蹤研究

對傳統混合高斯背景模型作了改進，消除了緩慢運動目標對背景模型的影響，其中提出了目標間差分方法區(qū)分出前后幀變化區(qū)，對不同區(qū)域采用不同的學習權重更新策略。通過實驗證明

2012-04-20 11:23:59

混合動力汽車電池模型辨識及SOC估計方法研究

2017-01-13 13:53:05

專家系統改進模型及其在電機聲學設計中的應用_尚榮艷

2017-01-08 13:38:53

四大存儲方式技術解析其優(yōu)劣勢

四大存儲方式技術解析其優(yōu)劣勢

2017-01-22 13:38:08

基于混合專家網絡的智能檢測系統_張冬至

2017-02-07 15:17:36

基于HMM和小波神經網絡混合模型的Web信息抽取_李少天

2017-03-19 11:38:26

高斯混合交互式多模型容積信息濾波算法_謝會來

2017-03-19 19:04:39

基于混合高斯模型的窄帶目標跟蹤方法_曾綺雯

2017-03-19 19:25:56

風能與光伏混合微電網模型及其仿真

建立包含直驅型風力發(fā)電機、單級式光伏發(fā)電系統和儲能蓄電池的風能與光伏混合微電網模型。混合微電網在并網運行時，通過儲能蓄電池平滑風能和光伏電源的輸出功率波動，維持公共連接點（PCC）電壓

2017-11-10 16:23:31

一種自適應混合背景模型運動目標檢測

針對局部二進制相似度（LBSP）背景建模方法易受外界環(huán)境變化如動態(tài)背景、光照改變、相機抖動等干擾的問題，在融合像素紋理與亮度信息的基礎上，建立一種自適應混合背景模型進行運動目標檢測。首先，利用每個

2017-11-24 11:35:50

結合陰影抑制的混合高斯模型改進算法

混合高斯模型背景法作為運動目標檢測的一種經典方法，已經廣泛應用于智能視頻監(jiān)控系統中。但是，傳統的混合高斯模型背景法容易將陰影誤檢測為運動目標的一部分。因此，針對該方法在區(qū)分陰影和運動目標方面的不足

2017-12-04 15:05:43

混合交互手勢模型設計

的混合手勢輸入方法．基于連續(xù)交互空間的概念，將混合交互手勢、空中手勢、表面觸控手勢進行統一。建立了包括空中層、表面層、混合層的連續(xù)交互空間分層處理模型．給出了統一的信息數據定義及數轉換流程．構建了通用性的手勢

2017-12-26 11:15:59

一個混合的流量預測模型

該文針對傳統預測模型預測精度低、對訓練數據依賴程度高以及不能很好的刻畫網絡流量特征等不足，提出了一個混合的流量預測模型。該模型根據Kohonen神經網絡的學習速率快、分類精度高、抗噪聲能力強等特性

2017-12-26 16:03:15

一種混合Logistic分布模型描述風電功率的波動變化率

來確定模型參數。從不同采樣間隔分布特性以及時間窗分布特性分析該模型性能，并將該分布模型與單一分布模型Normal分布、Logistic分布以及混合高斯分布等模型進行對比，通過利用吉林省某風電場的實測數據仿真實驗，比較其評價指標，驗證了

2017-12-27 09:59:10

混合勵磁發(fā)電機的等效二維解析磁場模型

交錯磁極混合勵磁發(fā)電機由于兩端交錯磁極的不對稱布置，其磁通表現為三維分布特性，尤其是失磁故障下，其磁場分布將進一步發(fā)生明顯變化。在磁路分析的基礎上，利用多個等效二維氣隙磁場解析模型可以較充分地反映

2017-12-29 15:26:34

基于ESCM的動態(tài)主題情感混合模型

針對現有模型無法進行微博主題情感演化分析的問題，提出一種基于主題情感混合模型（ TSCM）和情感周期性理論的主題情感演化模型動態(tài)主題情感混合模型（ DTSCM）。DTSCM通過捕獲不同時間片中

2018-01-02 10:38:34

稀疏數據中基于高斯混合模型的位置推薦框架

協同過濾和概率模型是位置推薦中的常用方法，但前者沒有考慮用戶的移動模式，后者也難以用于稀疏數據集。針對上述問題，面向稀疏數據構建基于高斯混合模型的位置推薦框架GMMSD。按時間段劃分用戶簽到

2018-01-17 10:12:08

新型油氣混合器的流體域模型

針對油氣混合器進油量和進氣量影響潤滑點可靠潤滑的問題，對油氣混合器的工作原理、內部流場、出口管路內油氣兩相流分布情況等方面進行了研究。結合計算流體力學兩相流基本原理，建立了新型油氣混合器的流體域模型

2018-03-15 10:30:09

六種室內定位技術的優(yōu)劣勢分析

本文主要對六種室內定位技術的優(yōu)劣勢進行了分析，另外介紹了室內定位技術當前與未來的應用場景。

2018-05-04 15:31:37

27204

uwb定位技術優(yōu)劣勢有哪些_uwb定位技術的應用

本文首先對UWB定位技術的原理進行了介紹，其次分析了uwb定位技術的優(yōu)劣勢，最后介紹了uwb定位技術的應用場景及前景分析。

2018-05-04 16:12:37

30701

混合云和多云計算模型有什么不同？

。從2017年開始，混合云和多云兩種計算模式就是整個行業(yè)的熱門話題，它們現在的實施比以往更有利于企業(yè)。什么是混合云和多云計算模型？它們又有什么不同？在左側，企業(yè)將其數據發(fā)送到具有云連接服務的基礎架構，這個基礎設施然后

2018-09-12 12:03:01

133

cob封裝的優(yōu)劣勢

COB封裝的應用在照明領域已經應用了多年，其在各方面都存在諸多優(yōu)勢，所以得到了諸多照明企業(yè)的青睞，那么COB封裝技術應用在顯示屏上面，又會擦出怎樣的火花？會不會也有一些層面出現水土不服的現象呢？下面一起來分析一下COB封裝的優(yōu)劣勢。

2019-05-07 17:46:10

6953

工業(yè)機器人四大巨頭的優(yōu)劣勢對比

談及世界工業(yè)機器人，就繞不開以發(fā)那科、庫卡、ABB、安川電機為代表的四大家族，在亞洲市場，它們同樣舉足輕重，更占據有中國機器人產業(yè)70%以上的市場份額。那么，機器人四大家族的產品都有哪些各自的特點，優(yōu)劣勢分別是什么？

2019-06-17 08:55:53

6539

OpenCV的混合高斯背景模型源碼程序免費下載

本文檔的主要內容詳細介紹的使用OpenCV的混合高斯背景模型源碼程序免費下載

2019-10-18 11:55:06

如何使用三維數字地圖實現5G高頻混合信道模型

在近日舉行的ITU-R WP5D#25會議上，中國提出的基于三維數字地圖的混合信道模型，獲得國際電信聯盟ITU專家組認可，進入IMT-2020（5G）技術評估報告框架中，為5G標準的制定貢獻重要力量

2021-01-18 10:29:00

專家稱：在與中國的技術競賽中，美國不愿花錢是其最大的劣勢

網絡安全和技術專家稱，在與中國的技術競賽中，美國不愿花錢是其最大的劣勢。

2020-09-13 09:13:06

1148

一種基于貝葉斯方法的網絡安全態(tài)勢感知混合模型

為全面、準確地分析既定網絡的安全態(tài)勢并給出態(tài)勢等級評定，提出一種基于貝葉斯方法的網絡安全態(tài)勢感知混合模型。對既定網絡環(huán)境中收集到的態(tài)勢指標數據進行離散化預處理，利用不同的評價方法建立相應的態(tài)勢指標

2021-04-01 11:11:55

一種混合自動編碼器高斯混合模型MAGMM

的密度估計任務。為了解決上述問題，文中提出了一種混合自動編碼器高斯混合模型（Miκ ed auto- encoding Gaussian Mixture Model， MAGMM）。MAGMM使用混合自動編碼器來代替單一深度自動編碼器生成串聯的低維表示，因此它可以保存來自輸入樣本的特

2021-04-13 15:33:37

5G上行，各種方案的優(yōu)劣勢對比資料下載

電子發(fā)燒友網為你提供5G上行，各種方案的優(yōu)劣勢對比資料下載的電子資料下載，更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料，希望可以幫助到廣大的電子工程師們。

2021-04-29 08:50:49

基于狄利克雷過程的可擴展高斯混合模型

針對使用高斯混合模型的圖像先驗建模中分量數目難以擴展的問題，構建基于狄利克雷過程的可擴展高斯混合模型。通過聚類分量的新增及歸并機制，使模型復雜度根據數據規(guī)模自適應變化，從而增強先驗模型結構的緊密度

2021-04-29 11:17:49

車聯網環(huán)境中混合車流的車輛換道行為決策模型

車聯網環(huán)境中，交通系統將長期昰現智能網聯汽車和債統人工駕駛車輛混合共存的狀況。針對智能網聯交通環(huán)境下的新型混合車流，建立了車輛的換道行汋決策模型。對于混合車輛交通流引λ最小安全區(qū)琙模型，自主車輛交通

2021-05-07 16:18:06

異構混合并行編程模型及其研究綜述

/ASCⅠ和￠PU/FPGA等簡述了異構混合并行編程模型隨著各類異構混合結構的發(fā)展而做岀的改變，異構混合并行編程模型可以是對現有的一種語言進行改造和重新實現，或者是現有異構編程語言的擴展，或者是使用指導性語句異構編程，或者是容器模式協同

2021-05-13 10:30:35

基于boosting框架的混合秩矩陣分解模型

2021-06-11 14:41:47

基于高斯混合模型的Web代理服務器緩存

2021-06-23 16:46:36

基于果蠅算法的混合小波神經網絡交通流預測模型

2021-07-05 16:52:57

混合疊壓電機的齒槽轉矩分析

考慮到三維仿真時間長，占用資源多，本文利用Ansoft內部計算軟件Rmxprt生成原電機1/8模型。在此基礎上將定子鐵心刪除，替換為混合疊壓定子鐵心，即得到定子混合疊壓再制造電機的仿真模型。

2022-10-24 10:17:11

645

關于陶瓷氣體放電管的電容、電阻、浪涌防護優(yōu)劣勢分析

陶瓷氣體放電管一般采用陶瓷作為密封原料，通常在防雷工程第一級或第二級保護上應用較為廣泛。它可以限制電壓，因為陶瓷是不容易過度充電的物體，當電流通過放電管時，電壓和電流的速度會減慢，從而達到限流限壓的效果。那么，你還知道它有什么特點及優(yōu)劣勢嗎?下面就由優(yōu)恩小編來為大家梳理一下。

2022-11-01 10:38:38

1052

X86嵌入式工控主板與ARM主板優(yōu)劣勢分析

嵌入式市場的發(fā)展趨勢給擴展靈活、功能移植能力強的X86結構產品提供了發(fā)展契機，然而目前ARM結構的主板仍然以其強勢的姿態(tài)占據著嵌入式工業(yè)主板的絕大多數份額。那么X86工控主板與ARM主板的優(yōu)劣勢在哪呢？

2022-12-26 09:26:58

880

Fluent中的多相流模型介紹

Fluent 提供了 4 種多相流模型：VOF （Volume of Fluid）模型、Mixture （混合）模型、Eulerian （歐拉)模型和Wet Steam (濕蒸汽)模型。

2023-05-02 18:15:00

9640

異步電機速度估計-混合模型磁鏈觀測器法

導讀：本期文章主要介紹異步電機速度估計的方法-混合模型磁鏈觀測器法。對該方法的原理進行簡單介紹和進行仿真驗證。

2023-05-18 09:43:14

471

RC modeling的優(yōu)劣勢

FIGURE 6.5講了3種不同的Lumped RC modeling，書中說明了這三種RC modeling的優(yōu)劣勢。

2023-06-19 16:42:20

553

無鉛錫膏和有鉛錫膏的優(yōu)劣勢有哪些?

使用哪種錫膏的，不同的錫膏有不同的作用，適合才是最高的，下面佳金源錫膏廠家為大家里講解一下兩者的優(yōu)劣勢：無鉛錫膏與有鉛錫膏的優(yōu)缺點比較：一、無鉛錫膏1、環(huán)保性無鉛錫膏的一大優(yōu)點就是環(huán)保性，由于有鉛錫膏對

2022-05-06 14:28:48

5444

快速了解固態(tài)光學氧傳感器優(yōu)劣勢

在當前的科技發(fā)展中，傳感器技術在各個領域中起著至關重要的作用。其中，固態(tài)光學氧傳感器作為一種新興的傳感器技術，具有許多優(yōu)勢和劣勢。本文將對固態(tài)光學氧傳感器的優(yōu)劣勢進行探討和分析。首先，固態(tài)光學

2023-06-27 10:11:59

314

FPGA和ASIC的優(yōu)劣勢 FPGA和ASIC的應用場景及前景

　　FPGA和ASIC是數字電路中常見的實現方式，因此人們經常會想要了解哪種芯片在未來的發(fā)展中更具有前途。然而，這取決于具體的應用場景和需求。在本文中，我們將探討FPGA和ASIC的優(yōu)劣勢，并分析哪種芯片在特定的應用場景中更具有優(yōu)勢。

2023-08-14 16:40:20

1029

led恒流和恒壓驅動優(yōu)劣勢

led恒流和恒壓驅動優(yōu)劣勢 LED恒流和恒壓驅動是在LED照明應用中常用的兩種方式。它們各自具有優(yōu)劣勢，根據實際所需來選擇合適方法，這對于LED照明行業(yè)具有非常重要的意義。接下來，本文將詳細介紹

2023-09-04 17:48:28

4780

大模型的優(yōu)劣勢有哪些

一般而言，越復雜的任務，越充裕的資源，應該是各自用更加專業(yè)的方案來做各自的上限才會比較高，大模型能提供的，是一個基礎的、快速的、zero shot或者few shot的baseline方案。

2023-09-07 14:28:00

973

扁平網線的介紹扁平網線的優(yōu)劣勢扁平網線的應用

扁平網線的介紹扁平網線的優(yōu)劣勢 扁平網線的應用扁平網線最好不超過多少米? 扁平網線是一種新型的網絡連接線，相比傳統的圓形網線，它具有更加扁平的外觀。下面將詳細介紹扁平網線的優(yōu)劣勢、應用以及最佳

2023-11-28 14:50:39

585

混合矩陣是干什么用的？高清混合矩陣怎么使用？

可視化，并展示模型的預測正確和錯誤的情況。混合矩陣可以非常直觀地展示模型在不同類別上的表現，幫助我們了解分類器的優(yōu)劣和潛在問題。在機器學習和數據分析領域中，混合矩陣是一種非常常見、重要的評估工具。混合矩陣通常是一個二維矩陣，行表示實際的類別，

2023-12-04 14:40:33

503

軟包電池優(yōu)劣勢有哪些？

軟包電池優(yōu)劣勢有哪些？軟包電池是一種新型的電池類型，相對于傳統的硬包電池有著一些優(yōu)勢和劣勢。第一部分：引言軟包電池是一種采用軟包式包裝的鋰離子電池，近年來在電動汽車、電子設備等領域得到

2024-01-10 10:30:23

395

混合專家模型 (MoE)核心組件和訓練方法介紹

隨著 Mixtral 8x7B (announcement, model card) 的推出，一種稱為混合專家模型 (Mixed Expert Models，簡稱 MoEs

2024-01-13 09:37:33

315

對標OpenAI GPT-4，MiniMax國內首個MoE大語言模型全量上線

MoE 架構全稱專家混合（Mixture-of-Experts），是一種集成方法，其中整個問題被分為多個子任務，并將針對每個子任務訓練一組專家。MoE 模型將覆蓋不同學習者（專家）的不同輸入數據。

2024-01-16 15:34:11

391

蘋果發(fā)布300億參數MM1多模態(tài)大模型

近日，科技巨頭蘋果公司在一篇由多位專家共同撰寫的論文中，正式公布了其最新的多模態(tài)大模型研究成果——MM1。這款具有高達300億參數的多模態(tài)模型系列，由密集模型和混合專家（MoE）變體組成，標志著蘋果在人工智能領域的又一重大突破。

2024-03-19 11:19:30

196

已全部加載完成

搜索歷史

什么是混合專家模型？混合專家模型 (MoEs)優(yōu)劣勢分析

評論

什么是混合專家模型？混合專家模型 (MoEs)優(yōu)劣勢分析