顶部

首页

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构

北晚在线

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构

更新时间：2025-09-21 00:04:51　浏览次数： 258

选自AheadofAI

机器之心编译

自首次提出GPT架构以来，转眼已经过去了七年。

如果从2019年的GPT-2出发，回顾至2024–2025年的DeepSeek-V3和LLaMA4，不难发现一个有趣的现象：尽管模型能力不断提升，但其整体架构在这七年中保持了高度一致。

当然，细节上仍有不少演进。例如，位置编码从最初的绝对位置（AbsolutePositionalEncoding）发展为旋转位置编码（RoPE）；注意力机制也从标准的多头注意力（Multi-HeadAttention）逐步过渡为更高效的分组查询注意力（Grouped-QueryAttention）；而激活函数方面，则从GELU被更高效的SwiGLU所取代。

然而，这些变化中究竟有没有「颠覆性创新」？七年间，大语言模型的架构是否真正迎来了质的飞跃，还是仍在原有框架上不断精雕细琢？

本文博客来自于SebastianRaschka，知名AI研究者和博主、《Python机器学习》作者。

博客详细列举了8个主流大语言模型，包含DeepSeek和Kimi等国产大模型，硬核拆解了每个大模型的架构设计和革新思路，深度介绍了现代最新大语言模型的架构设计以及大模型的架构演进趋势。

图1：本文所涵盖的部分LLM架构示意图。

DeepSeekV3/R1

DeepSeekR1在2025年1月发布时引起了巨大反响。

DeepSeekR1是一个以DeepSeekV3架构为基础构建的推理模型，而DeepSeekV3最初于2024年12月推出。尽管本文重点讨论2025年发布的架构，但作者认为应当将DeepSeekV3纳入其中。

本节将重点介绍DeepSeekV3引入的两项关键架构技术，这些技术提升了其计算效率，也使其在众多大型语言模型中脱颖而出。

若对DeepSeekV3关键技术感兴趣，请参照技术报告：

论文标题：DeepSeek-V3TechnicalReport

论文链接：https://arxiv.org/abs/2412.19437

多头潜在注意力机制(MLA)

在讨论多头潜在注意力机制之前，应从近年来被广泛采用的分组查询注意力机制（GQA）说起，它已成为相较于传统多头注意力机制（Multi-HeadAttention,MHA）更具计算与参数效率的新标准替代方案。

下面是对GQA的简要说明：与MHA中每个注意力头都有自己的一组键（key）和值（value）不同，GQA的做法是将多个注意力头分组，让它们共享相同的key和value投影，从而降低内存使用。

如下图2所示，假设有2组key-value和4个注意力头，那么注意力头1和2可以共享第一组key和value，而注意力头3和4共享第二组。这种做法减少了总的key和value计算量，降低了内存使用，提高了效率。

图2：多头注意力机制（MHA）与分组查询注意力机制（GQA）的对比示意图。

GQA的核心思想是：通过让多个query头共享一组key和value，从而减少key和value的总数。这带来了两个主要好处：

1.降低模型参数总量；

2.在推理时减少KV缓存中key和value张量的内存带宽使用，因为需要存取的键值对变少了。

接下来介绍的多头潜在注意力机制（MLA），则提供了一种不同的内存节省策略，并且它与KV缓存机制的配合更加紧密。

与GQA通过「共享键值头」不同，MLA是将key和value张量压缩到一个低维潜在空间后再存入KV缓存。而在推理过程中，这些压缩张量会被重新投影回原始维度再使用（如图3所示）。这一过程中虽然引入了一次额外的矩阵乘法，但大大节省了内存使用。

图3：多头潜在注意力机制（MLA，应用于DeepSeekV3和R1）与常规多头注意力机制（MHA）的对比。

值得说明的是，MLA并不是DeepSeekV3首创的技术，它的前代模型DeepSeekV2就已经使用（甚至首次提出）了该机制。

MLA是一种非常巧妙的技术手段，能够在提升模型表现的同时，大幅降低KV缓存的内存占用。相比之下，它甚至略优于传统的MHA。接下来将进入下一个架构模块的分析。

Mixture-of-Experts(MoE)

DeepSeek架构中另一个值得重点关注的重要组成部分是它对MoE（Mixture-of-Experts，专家混合）层的应用。虽然MoE并非由DeepSeek首创，但这一技术在2025年迎来了回归，在后文介绍的许多架构中也能看到它的身影。

MoE的核心思想是：将Transformer中的每个前馈模块（FeedForward）替换为多个「专家层」（每个专家层本质上也是一个前馈网络）。也就是说，原本单一的前馈结构被替换为多个并行的前馈子模块，具体如图5所示。

图5：右图展示了DeepSeekV3/R1中Mixture-of-Experts（MoE）模块的结构，对比左图中标准LLM所使用的普通前馈模块。

在Transformer块内部的前馈模块（上图中的深灰色块）通常占据了模型总参数量的很大一部分。

因此，将一个前馈模块替换为多个前馈模块（即构建MoE结构）会显著增加模型的总参数量。不过，关键的技巧在于：并不为每个token启用所有的专家模块（experts），而是由一个「路由器（router）」为每个token挑选出其中一小部分进行激活。MoE的这种设计使得模型拥有极大的参数容量，在训练阶段能吸收更多知识；但在推理时由于稀疏激活，大幅降低了计算开销。

举个例子：DeepSeek-V3每个MoE模块中拥有256个专家，总参数量高达6710亿。但在推理时，每个token实际只激活其中9个专家（1个共享专家+路由选出的8个专家）

关于DeepSeekMoE的更多细节，请参阅以下论文：

论文标题：DeepSeekMoE:TowardsUltimateExpertSpecializationinMixture-of-ExpertsLanguageModels

论文链接：https://arxiv.org/abs/2401.06066

在DeepSpeedMoE论文中首次指出，引入「共享专家」（sharedexpert）可以显著提升模型整体的建模性能。其原理很可能是：对于通用或重复性强的模式，不需要多个专家分别学习；只需由共享专家统一处理，从而释放出其他专家的容量，专注于学习更加专业的知识模式。

OLMo2

由非营利机构AllenInstituteforAI发布的OLMo系列模型，因其在训练数据、代码和技术报告方面的高度透明而备受关注。

OLMo模型结构清晰、设计规范，更重要的是，由于极高的透明度，它们为大语言模型的开发提供了极佳的参考范式。

在OLMo2中有哪些值得注意的架构设计选择呢？

主要集中在归一化策略上：包括RMSNorm层的位置安排，以及QK-norm（Query-Key归一化）的引入。

另一个值得一提的是，OLMo2仍采用传统的多头注意力机制（MHA），并未采用MLA或GQA等新型注意力结构。

关于更多OLMo2的细节信息，请参照论文：

论文标题：2OLMo2Furious

论文链接：https://arxiv.org/abs/2501.00656

归一化层位置选择

总体而言，OLMo2在架构上大体沿用了最初GPT模型的设计，与当前多数主流大型语言模型相似。但它也存在一些值得关注的不同之处，先从归一化层的设计说起。

与Llama、Gemma以及大多数现代LLM一样，OLMo2将归一化方法从LayerNorm替换为RMSNorm。

真正值得讨论的是RMSNorm的位置选择。在最初的Transformer架构中，两个归一化层分别位于注意力模块和前馈模块之后，这种结构被称为Post-LN或后归一化（Post-Norm）。

而GPT及其后大多数的LLM模型，则将归一化层放在注意力模块和前馈模块的之前，这种做法称为Pre-LN或前归一化（Pre-Norm）。

下图展示了Post-Norm与Pre-Norm的结构对比：

图8：Post-Norm、Pre-Norm以及OLMo2采用的Post-Norm变体的对比图。

早在2020年，Xiong等人就指出Pre-LN在模型初始化时可以带来更稳定的梯度。此外，研究人员还提到，Pre-LN即使在不使用学习率预热的情况下也能正常训练，而这是Post-LN通常难以做到的。

在OLMo2中，归一化层并不是放在注意力层和前馈网络之前，而是放在之后，如上图所示。然而，与最初Transformer架构不同的是，这些归一化层仍然嵌套在残差层内部。

那么，他们为何要调整归一化层的位置呢？

原因在于这种设计有助于提升训练的稳定性，这一点将在下图中进行展示。

图9：展示了Pre-Norm（如GPT-2、Llama3等所采用）与OLMo2所采用的Post-Norm变体在训练稳定性方面的对比。

不过遗憾的是，这张图展示的结果同时包含了归一化顺序调整和QK-Norm两个因素，而后者是一个独立的概念。因此很难明确判断，归一化位置的改变对训练稳定性的提升到底贡献了多少。

QK-Norm

QK-Norm本质上是另一个RMSNorm层，它被放置在多头注意力模块内部，在应用旋转位置编码（RoPE）之前，对Query和Key进行归一化处理。

如前所述，QK-Norm与Post-Norm结合使用，有助于稳定训练过程。关于QK-Norm更多细节，请参阅以下论文：

论文标题：ScalingVisionTransformers

论文链接：https://arxiv.org/abs/2106.04560

简而言之，OLMo2架构中的主要设计亮点是RMSNorm的放置方式：将RMSNorm放置在注意力模块和前馈模块之后（属于Post-Norm的一种变体），并在注意力机制中对query和key引入额外的RMSNorm（即QK-Norm）。这两项改动结合使用，有助于稳定训练损失。

下图展示了OLMo2与Llama3的架构对比；可以看到，除了OLMo2仍使用传统的MHA而非GQA外，二者在整体结构上相对接近。

图10：Llama3与OLMo2的架构对比图。

Gemma3

谷歌的Gemma系列模型一直表现非常出色，但相比于Llama系列等热门模型，它们的关注度似乎总是略显不足。

Gemma3在架构上使用了另一种「技巧」来降低计算成本：滑动窗口注意力（slidingwindowattention）。

借助滑动窗口注意力机制，Gemma3团队成功大幅降低了KV缓存的内存需求，具体效果如下图所示。

图11：Gemma3的KV缓存内存节省效果。

如果把常规的自注意力看作一种「全局」注意力机制，因为序列中的每个元素都可以访问其他所有元素，那么滑动窗口注意力则可以看作是一种「局部」注意力机制，因为它限制了当前查询位置周围的上下文范围。下图展示了这一机制的原理。

图12：常规注意力机制（左）与滑动窗口注意力机制（右）的对比图。

需要注意的是，滑动窗口注意力机制既可以与多头注意力配合使用，也可以与分组查询注意力（GQA）一起使用；Gemma3就采用了GQA。

如上所述，滑动窗口注意力也被称为「局部注意力」，因为其关注的上下文仅限于围绕当前查询位置的一个局部窗口，并且该窗口会随着查询位置的移动而滑动。相对地，常规注意力机制则是「全局」的，每个token都可以访问所有其他token。

虽然滑动窗口注意力是Gemma3架构中最显著的特点，但作为对前文OLMo2部分的补充，在此简要介绍一下Gemma3中归一化层的放置方式。

一个小但有趣的细节是：Gemma3在其GQA模块周围同时使用了RMSNorm的Pre-Norm和Post-Norm形式。

这与Gemma2的做法类似，但依然值得强调，因为它不同于以下几种主流做法：

1.原始Transformer架构使用的Post-Norm；

2.由GPT-2推广、并被许多后续架构采用的Pre-Norm；

3.前文在OLMo2中看到的、特殊的Post-Norm变体。

Gemma3的这种双重归一化策略展示了一种不同寻常的归一化设计选择，可能与其在推理效率和训练稳定性之间的权衡有关。

图14：OLMo2与Gemma3的架构对比；请注意Gemma3中额外的归一化层。

这种归一化层的放置方式相对直观，因为它结合了Pre-Norm和Post-Norm的优势。

作者认为，多加一点归一化并无坏处。

关于Gemma3的更多细节，请参阅技术报告：

论文标题：Gemma3TechnicalReport

论文链接：https://arxiv.org/abs/2503.19786

MistralSmall3.1

MistralSmall3.124B于今年3月发布，紧随Gemma3之后。它值得关注的一个原因是，在多个基准测试中，其表现优于Gemma327B，同时推理速度更快。

造成MistralSmall3.1推理延迟低于Gemma3的主要原因，可能在于其定制的分词器（tokenizer），以及更小的KV缓存和更少的层数。除此之外，它整体上采用的是标准架构，如下图所示。

图16：Gemma327B与Mistral3.1Small24B的架构对比图。

有趣的是，早期的Mistral模型曾使用滑动窗口注意力机制，但在MistralSmall3.1中似乎放弃了这一设计。

与使用滑动窗口的Gemma3不同，Mistral采用了常规的GQA。

作者推测，尽管滑动窗口注意力可以降低内存使用，但它并不一定能降低推理延迟，而这正是MistralSmall3.1所优先关注的性能指标。

Llama4

前文对专家混合模型（MoE）的详细介绍又派上用场了。

Llama4同样采用了MoE架构，其余部分则延续了较为标准的设计，整体架构与DeepSeek-V3非常相似，如下图所示。

图17：DeepSeekV3（6710亿参数）与Llama4Maverick（4000亿参数）架构对比图。

尽管Llama4Maverick的整体架构看起来与DeepSeek-V3非常相似，但其中仍有一些值得注意的差异。

首先，Llama4采用了与其前代模型相同的GQA，而DeepSeek-V3则使用了MLA。

这两款模型都是非常庞大的架构，DeepSeek-V3的总参数量大约比Llama4Maverick多出68%。但从实际推理中参与计算的参数数量来看，DeepSeek-V3启用的参数达370亿，是Llama4Maverick（170亿）的两倍多。

在MoE设置方面，Llama4Maverick使用的是更为传统的架构：每次仅激活2个专家，每个专家的隐藏层维度为8192；而DeepSeek-V3每次激活9个专家，每个专家的隐藏层维度为2048。此外，DeepSeek在除了前3层外的每个TransformerBlock中都插入了MoE层，而Llama4则是交替使用MoE模块和密集（Dense）模块，即每隔一个Block加一次MoE。

可以明确的一点是，MoE架构在2025年迎来了显著的发展与普及。

Qwen3

Qwen团队一直以来都在稳定输出高质量的开源大语言模型。在NeurIPS2023的LLM效率挑战赛时，最终获胜的方案全部基于Qwen2构建。

而如今，Qwen3系列再次成为各自参数规模下的榜单冠军，表现依旧亮眼。

Qwen3(Dense)

先来看看Qwen3Dense模型架构。截至目前，Qwen30.6B可能是当前世代中体量最小的开源权重模型之一。

在本地运行时，它具有很高的每秒生成token数（token/sec）和很低的显存占用，非常适合轻量部署。而且因为参数量小，对于想在本地进行训练实验（例如教学用途）的人来说，也非常友好。

图18：Qwen30.6B与Llama31B架构对比图。可以看到，Qwen3架构更深（有更多的transformer层），而Llama3架构更宽（具有更多的注意力头）。

Qwen3(MoE)

如前所述，Qwen3系列还包括两个MoE（Sparse）变体。那么，为什么像Qwen3这样的架构会同时发布普通（Dense）和MoE（Sparse）版本呢？

正如本文开头所提到的，MoE变体旨在降低大规模基础模型的推理成本。提供Dense和MoE两种版本，可以让用户根据不同的目标与资源约束灵活选择。

通过同时发布这两类模型，Qwen3系列能够覆盖更广泛的应用场景：致密模型强调鲁棒性、简单性和可微调性；MoE模型则面向大规模部署中的推理效率。

图19：DeepSeek-V3与Qwen3235B-A22B架构对比。

如上图所示，DeepSeek-V3和Qwen3235B-A22B在架构上非常相似。不过值得注意的是，Qwen3模型取消了共享专家（此前的Qwen2.5-MoE等模型采用了共享专家机制）。

遗憾的是，Qwen3团队并未公开说明他们放弃共享专家的原因。

作者猜测，可能是因为在将专家数量从Qwen2.5-MoE的2个增加到Qwen3的8个之后，训练稳定性已经不再依赖共享专家。因此，他们选择省略共享专家，以节省额外的计算和显存开销（避免从8个增加到8+1个专家）。不过，这并不能解释为何DeepSeek-V3至今仍保留共享专家机制。

SmolLM3

SmolLM3或许不像本文其他提到的大模型那样广为人知，但作者认为它依然值得纳入讨论，因为该模型在仅有约30亿参数的体量下，展现出非常出色的建模性能，定位介于Qwen3的17亿参数模型与40亿参数模型之间，如下图所示。

此外，SmolLM3也像OLMo一样公开了大量训练细节，这在业内并不常见，因此尤为值得称赞。

图20：SmolLM3相较于Qwen31.7B和4B，以及Llama33B和Gemma34B的胜率比较。

如下面的架构对比图所示，SmolLM3的整体结构相对标准。不过，其中最有趣的一点或许是它采用了无位置嵌入（NoPE）机制。

图21：Qwen34B与SmolLM33B的并排架构对比图。

在LLM的背景下，NoPE是一种较早提出的理念，该方法旨在移除显式的位置编码信息注入机制，例如早期GPT架构中常用的绝对位置嵌入，或当前主流的RoPE（旋转位置编码）。

在基于Transformer的语言模型中，位置编码通常是必要的，因为自注意力机制默认对输入序列中的token顺序不敏感，即每个token被独立处理。为了解决这一问题，绝对位置嵌入通过添加一个额外的嵌入层，将位置信息与token嵌入相加，从而为模型提供序列顺序感知能力。

图22：展示了绝对位置嵌入的机制。

相比之下，RoPE通过将Query和Key向量按token的位置进行旋转来注入位置信息。

而在NoPE层中，则完全不加入任何位置编码信息：没有固定的、没有可学习的，也没有相对位置编码——什么都没有。

即使没有显式的位置编码，模型依然可以通过因果注意力掩码知道哪些token是在前面。这个掩码会阻止每个token访问其后的token，从而保证了自回归顺序的正确性。也就是说，位于位置t的token只能「看到」位置小于等于t的token。

总结来说，NoPE不仅不需要注入位置编码，还在序列长度泛化方面更具优势。也就是说，随着输入序列长度的增加，模型的表现下降幅度更小。如下图所示：

图23：展示了NoPE在长度泛化上的优势表现。

正因如此，SmolLM3团队在实际应用中，并未在每一层都使用NoPE，而是选择在每4层中使用一次NoPE（或说每4层省略一次RoPE），作为一种折中策略。

关于NoPE的更多细节，请参阅以下论文：

论文标题：TheImpactofPositionalEncodingonLengthGeneralizationinTransformers

论文链接：https://arxiv.org/abs/2305.19466

KimiK2

KimiK2最近因其出色的性能在AI社区引起了巨大反响。作为一个开源权重模型，它在多个基准测试中表现堪比Google的Gemini、Anthropic的Claude和OpenAI的ChatGPT等顶级闭源模型。

一个值得注意的方面是，它在训练中首次在此规模的生产级模型中使用了Muon优化器的变体，而非传统的AdamW。

据作者所知，这是Muon优化器首次在超大模型中应用（此前仅在最多160亿参数规模上展示过可扩展性）。这一选择带来了极为理想的训练损失曲线，很可能正是KimiK2能在上述各项基准测试中脱颖而出的重要原因。

KimiK2的参数规模达到了1万亿（1T），这无疑令人印象深刻。它可能是目前这一代中最大的LLM（截至本文撰写时），在不考虑尚未发布的Llama4Behemoth、闭源模型以及架构不同的Google1.6万亿SwitchTransformer（其为编码器-解码器模型）前提下，KimiK2几乎是无出其右的。

从架构上看，KimiK2基于本文开头提到的DeepSeek-V3架构，但进行了更大规模的扩展和增强，如下图所示（图略）。这也标志着一种「循环回归」：KimiK2将DeepSeek-V3的设计理念推向了极致。

如上图所示，KimiK2在整体架构上基本与DeepSeekV3保持一致，主要的差异在于：

KimiK2在MoE模块中使用了更多的专家，

在MLA模块中使用了更少的注意力头（heads）。

在历经数年之后，LLM的发布依然充满惊喜与期待。新技术永远让人心潮澎湃，永远期待更多的大模型架构改进的出现。

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构24小时观看热线：122。从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构全市各区点热线号码。☎：122

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构24小时观看热线拥有专业的观看技师，快速的上门，为你的生活排忧解难。如您有以下需要我们来解决的问题请尽快与我们联系。我们能为您排除各种故障，特别是疑难杂症。

1.热情专业的团队

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构是您解决问题的最佳选择。我们拥有一支热情、专业的团队，竭诚为您提供优质的。无论您遇到哪些问题或疑虑，只需拨打122，我们的将会耐心倾听并提供您所需的帮助。您的满意是我们的追求。

2.红色字体，标志品质保障

当您拨打从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构的电话热线122时，您会惊喜地发现号码是以鲜艳的红色字体显示。这不仅是为了吸引您的注意，更是对我们产品卓越品质的保证。红色代表着力量和热情，我们希望通过热情的为您提供最可靠的解决方案，确保您的使用体验无忧无虑。

3.您的需求是我们最大的动力

我们深知客户的需求是我们成长的源泉，因此，您的需求总是我们最关心的问题。无论您遇到什么问题，无论大小，我们都将以最快的速度和最专业的态度进行处理。您只需拨打我们的电话热线，详细描述问题，我们将竭尽全力为您解决。您的满意度是我们工作的最终目标。

4.全方位的解决方案

一旦您拨通了从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构的电话热线122，我们将全面了解您的问题，并提供最合适的解决方案。无论是技术问题、、观看咨询还是其他相关问题，我们都将通过专业分析和经验丰富的团队来解决您的困扰。您的信赖是我们不懈努力的动力。

5.周到贴心的

我们追求卓越品质的同时，也注重周到贴心的。在您使用从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构的过程中，如果遇到了任何问题或需要观看，您只需拨打122，我们将及时安排人员为您提供全程跟踪。我们将无微不至地为您解决问题，确保您的家居生活舒适温暖。

结语

无论是产品质量还是，从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构都以高品质标准来追求客户的满意度。拨打我们的从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构电话热线122，您将得到热情专业的团队的全方位支持。我们将竭诚为您提供最可靠、高效和周到的解决方案，为您带来舒适的家居体验。

5、全部在线支付，方便快捷，保障权益。支持支付宝，微信付款

清远市（清城、清新）

宜昌市（宜都市、长阳土家族自治县、🕑当阳市、😠五峰土家族自治县、西陵区、兴山县、夷陵区、远安县、点军区、枝江市、猇亭区、秭归县、伍家岗区、🍀市辖区）

淮安市（淮安、淮阴、🎽清江浦、🅱️洪泽）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、🐂乌拉特后旗、乌拉特前旗、🏉️市辖区、😡临河区、🐏五原县）

焦作市（解放、中站、马村、山阳）

娄底市（娄星）

鞍山市：📛铁东区、铁西区、🐍立山区、🐷千山区。

郴州市（北湖、苏仙）

牡丹江市：🕦东安区（部分区域未列出）、西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

唐山市（丰润区、🦡丰南区、遵化市、🙌迁安市、🤭️开平区、唐海县、👎滦南县、🖤乐亭县、滦州市、玉田县、🥎迁西县、遵化市、唐山市路南区）

南通市（崇川区，港闸区，开发区，⭐️海门区，🎍海安市。）

厦门市（思明、海沧、💝湖里、😦集美、同安、翔安）

湘西土家族苗族自治州（凤凰县、🐄永顺县、🌛泸溪县、🤞保靖县、😦吉首市、花垣县、龙山县、古丈县）

白山市：浑江区、🗡江源区。

江门市（蓬江、江海、新会）

常熟市（方塔管理区、🍼虹桥管理区、💫琴湖管理区、⚛️兴福管理区、谢桥管理区、💪大义管理区、🙌莫城管理区。）宿迁(宿豫区、🐍宿城区、☮️湖滨新区、洋河新区。)

荆州市（沙市、🙄荆州）

三亚市（淮北、🍑吉阳、天涯、崖州）

廊坊市（安次、广阳）

无锡市从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构电话-400各市区电话（梁溪、滨湖、惠山、新吴、锡山）

宜春市（袁州）

六安市（日照安、🌒裕安、叶集）

锦州市（凌海市、😎义县、☦️黑山县、😤凌河区、♈️市辖区、古塔区、🦈北镇市、☢️太和区）

银川市（永宁县、兴庆区、西夏区、金凤区、🔯贺兰县、灵武市、市辖区）

安康市（宁陕县、🐸白河县、🦅汉阴县、岚皋县、🍋石泉县、☄️市辖区、紫阳县、💜汉滨区、💢旬阳县、镇坪县、🏹平利县）

宜昌市（伍家岗区、西陵区、点军区、🐍猇亭区、🔯夷陵区、💕远安县、🐺兴山县、秭归县、🏓长阳土家族自治县、🥮五峰土家族自治县、🧐宜都市、当阳市、🐥枝江市、❤️虎亭区）

白山市：浑江区、✋江源区。

赣州市（南康区、🥚章贡区、🍫赣县区、🕉信丰县、大余县、上犹县、🦀崇义县、安远县、🕉龙南县、✍️定南县、全南县、宁都县、✡️于都县、兴国县、🎄会昌县、寻乌县、石城县、长征镇、沙洲镇、黄冈镇）

绍兴市（越城、柯桥、上虞）

杭州市（临安、🐨上城、下城、♻️江干、拱野、🉑西湖、滨江、余杭）

揭阳市（榕城、🤛揭东）

鹰潭市（余江县、市辖区、🍧贵溪市、😯月湖区）

邯郸市（邯山、🍇丛台、🚬复兴、🌓峰峰矿、肥乡、永年）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、🤙乌拉特后旗、乌拉特前旗、⛳️市辖区、🍯临河区、♏️五原县）

宜昌市（伍家岗区、西陵区、点军区、猇亭区、夷陵区、🍢远安县、兴山县、秭归县、🐑长阳土家族自治县、😴五峰土家族自治县、🍃宜都市、🐡当阳市、枝江市、虎亭区）

襄阳市（樊城区、襄州区、老河口市、💝‍宜城市、南漳县、谷城县、保康县、😄‍枣阳市、定南县、🥚随州市、白浪镇、城关镇、⚛️赵家镇、东津镇、堰头镇）

湖州市（南湖、秀洲）

马鞍山市（花山、雨山）

邢台市（柏乡县、临西县、任县、👵‍新河县、🍢宁晋县、南宫市、♌️内丘县、清河县、😁‍巨鹿县、🕓临城县、🐍隆尧县、😨南和县、威县、桥东区、邢台县、🥣市辖区、平乡县、桥西区、👦广宗县、沙河市）

银川市（永宁县、💪兴庆区、🌏西夏区、🍆金凤区、贺兰县、🌱灵武市、市辖区）

遵义市（汇川区、红花岗区、遵义县、☯️桐梓县、绥阳县、正安县、道真仡佬族苗族自治县、☘️务川县、✊凤冈县、🍟湄潭县、余庆县、习水县、🚱‍赤水市、⭐️仁怀市、土家族苗族自治县、😇铜仁市、🐏松桃苗族自治县、万山区、黔西县）

襄阳市（襄城、😒樊城、😇‍襄州）

长春市（南关、宽城、🌝️朝阳、二道、🐁绿园、双阳）

桂林市（象山区、叠彩区、🥓‍七星区、☢️️临桂区、阳朔县、🐖灵川县、全州县、兴安县、灌阳县、荔浦市、♋️资源县、平乐县、恭城瑶族自治县、龙胜各族自治县、永福县）

重庆市（绵阳、🦠涪陵、渝中、🙌大渡口、㊗️️江北、🔯沙坪坝、👎️九龙坡、南岸、北培、万盛、双桥、渝北、巴南）

鞍山市（铁西区、海城市、台安县、岫岩满族自治县、立山区、🌕铁东区、🍹‍市辖区、⚜️千山区）

蚌埠市（五河县、🍬️固镇县、🦜市辖区、淮上区、龙子湖区、蚌山区、怀远县、禹会区）

襄阳市（襄城、🌻樊城、襄州）

太原市（小店、🦙迎泽、杏花岭、尖草坪、🦔万柏林、🍛️晋源）

南昌市（青山湖区、🕡️红谷滩新区、✋东湖区、西湖区、😛青山湖区、🍨‍南昌县、进贤县、🍣安义县、湾里区、🚱地藏寺镇、🥮瑶湖镇、铜鼓县、昌北区、✊青云谱区、🕡‍望城坡镇）

宁波市（海曙、🐖️江东、🍶江北、🤜北仑、🍫镇海）

甘肃省兰州市（城关区、🐚七里河区、西固区、🍚安宁区、红古区、永登县、皋兰县、榆中县、兰州新区、皋兰县、😲雁滩区）

抚顺市：⛔️顺城区、新抚区、🐅东洲区、望花区。

衡阳市（珠晖、雁峰、🐽石鼓、🍴蒸湘、南岳）

咸宁市（通山县、😌咸安区、崇阳县、通城县、👽市辖区、赤壁市、嘉鱼县）

新竹县（新丰乡、🦔峨眉乡、湖口乡、☀️关西镇、新埔镇、🤗横山乡、尖石乡、北埔乡、竹东镇、♓️宝山乡、芎林乡、😾五峰乡、👏竹北市）

太仓市(城厢镇、金浪镇、🕟沙溪镇、璜泾镇、浏河镇、浏家港镇；)

南通市（崇州、港闸、通州）

宜昌市（西陵、伍家岗、🌰‍点军、猇亭、🐵️夷陵）

铁岭市：🍭银州区、👺清河区。

贵州省安顺市（西秀区、🐒平坝区、普定县、镇宁布依族苗族自治县、😕关岭布依族苗族自治县、🐆紫云苗族布依族自治县、🛐安顺市、开阳县）

抚顺市：顺城区、新抚区、🚭东洲区、🤞望花区。

济南市（历下、市中、槐荫、天桥、🥧历城、长清）

珠海市（香洲区、斗门区、⚾️金湾区、👊横琴新区、万山区、😎珠海高新区、♑️唐家湾镇、😏三灶镇、白石镇、🥗前山镇、🌖南屏镇、😍珠海港镇、金鼎镇）

铁岭市：☣️银州区、清河区。

南昌市（东湖区、🏑西湖区、🌩青山湖区、红谷滩新区、南昌县、新建区、🥄安义县、进贤县、🤪️湾里区、♑️昌北区）

南投县（信义乡、🌎竹山镇、👌中寮乡、🍯水里乡、🐪‍草屯镇、🏓仁爱乡、名间乡、🥬埔里镇、❓鹿谷乡、国姓乡、鱼池乡、💫集集镇、南投市）

榆林市（榆阳区,横山区）朝阳市（双塔区、龙城区）

上饶市（信州、广丰、广信）

益阳市（南县、资阳区、💝‍桃江县、🍿市辖区、🍏‍沅江市、赫山区、安化县）

南昌市（东湖区、西湖区、😌青山湖区、红谷滩新区、南昌县、🤥安义县、进贤县、经开区、青山湖区、湾里区、🍼赣江新区、青云谱区、🆑浔阳区）

临沂市（兰山区、💅️罗庄区、🆑️河东区、沂南县、郯城县、🍕苍山县、🚳‍费县、🕓蒙阴县、临沭县、💘兰陵县、莒南县、平邑县、沂水县、🚱临沂高新技术产业开发区）

本溪市：平山区、明山区、😬溪湖区、南芬区。

乐山市（市中、🤪沙湾、五通桥、日照口河）

鹤壁市（淇县、♈️鹤山区、🍝浚县、山城区、市辖区、淇滨区）

白山市（靖宇县、💅浑江区、江源区、长白朝鲜族自治县、抚松县、🦎临江市、☺️市辖区）

贵州省安顺市（西秀区、平坝区、普定县、镇宁布依族苗族自治县、🉑关岭布依族苗族自治县、😞紫云苗族布依族自治县、安顺市、🕔开阳县）

九江市（莲溪、🌥浔阳）

牡丹江市：东安区（部分区域未列出）、💪西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

东莞市（莞城、🧑南城、💞万江、东城,石碣、🦓石龙、😳‍茶山、🤣石排、🙁企石、横沥、桥头、谢岗、🌹东坑、🤔常平、💓寮步、🍊大朗、黄江、清溪、塘厦、凤岗、🆎长安、🤝惠东、🕉厚街、🥋沙田、道窖、洪梅、🕘麻涌、🚱中堂、⛔️高步、🐼樟木头、🤞大岭山、😊望牛墩）

通辽市（科尔沁区、♌️扎鲁特旗、🔰开鲁县、霍林郭勒市、市辖区、🐫科尔沁左翼中旗、🏈库伦旗、科尔沁左翼后旗、🈴奈曼旗）

桂林市（秀峰区、🍽️象山区、七星区、雁山区、👈临桂区、☸️阳朔县、资源县、平乐县、灌阳县、🍽荔浦市、灵川县、全州县、👇永福县、🍉龙胜各族自治县、😈恭城瑶族自治县）：⚾️

嘉兴市（海宁市、🍤市辖区、☪️秀洲区、😏平湖市、🦖桐乡市、南湖区、⭕️嘉善县、海盐县）

常熟市（方塔管理区、♓️虹桥管理区、琴湖管理区、🕘兴福管理区、谢桥管理区、大义管理区、莫城管理区。）宿迁(宿豫区、🌼宿城区、🙈湖滨新区、洋河新区。)

台州市（椒江、🚷黄岩、🌻️路桥）

泰州市（海陵区、🍱高港区、姜堰区、兴化市、🐆泰兴市、🐩靖江市、😕扬中市、丹阳市、泰州市区、姜堰区、😟️海安镇、周庄镇、👿东进镇、世伦镇、🙈‍青龙镇、杨湾镇、🈶️马桥镇）

牡丹江市：东安区（部分区域未列出）、🌙️西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

雅安市（汉源县、市辖区、🈺名山区、✴️石棉县、🐍荥经县、宝兴县、天全县、🍵芦山县、🐈雨城区）

南充市（顺庆区、❕高坪区、😹‍嘉陵区、💫‍南部县、☪️营山县、蓬安县、🐐仪陇县、🤩西充县、🐲阆中市、抚顺县、阆中市、♊️‍南充高新区）

郴州市（宜章县、🍇嘉禾县、☯️永兴县、🌱汝城县、市辖区、桂东县、北湖区、桂阳县、苏仙区、🌦临武县、安仁县、资兴市）

山南市（错那县、琼结县、🌾洛扎县、🥧贡嘎县、🕒️桑日县、😬曲松县、🐘浪卡子县、🐐市辖区、隆子县、🎍加查县、😡扎囊县、乃东区、措美县）

南昌市（青山湖区、红谷滩新区、东湖区、🥋西湖区、青山湖区、南昌县、进贤县、安义县、🐘湾里区、🍻地藏寺镇、瑶湖镇、☦️铜鼓县、😲昌北区、青云谱区、望城坡镇）

株洲市（荷塘、芦淞、石峰、♑️天元）

辽阳市（文圣区、🌶宏伟区、⚾️弓长岭区、太子河区、🦌灯塔市、☯️️辽阳县、白塔区、广德镇、双台镇、桥头镇、长春镇、⚠️合德镇、😪兴隆镇、安平镇、辛寨镇、🆘黄土岭镇）

舟山市（市辖区、🍷定海区、嵊泗县、普陀区、🌳️岱山县）

玉溪市（澄江县、💪江川县、易门县、华宁县、新平彝族傣族自治县、♉️元江哈尼族彝族傣族自治县、😀通海县、抚仙湖镇、红塔区、♈️龙潭街道、南北街道、白石街道）

三明市（梅列、🍳三元）

柳州市（柳北区、柳南区、柳江县、柳城县、🐣️鹿寨县、融安县、😻融水苗族自治县、三江侗族自治县、城中区、鱼峰区、柳东新区、柳市镇）

保定市（莲池、竞秀）

德州市（陵城区、乐陵市、宁津县、庆云县、🍱️临邑县、🦖平原县、🤤武城县、夏津县、禹城市、德城区、🐳禹城市、🍅齐河县、⛈开封县、双汇镇、👽东风镇、商丘市、阳谷县、🥑共青城市、城南新区）

昆山市（昆山开发、高新、🤞综合保税）

许昌市（魏都）

济南市（历下、市中、🏈槐荫、📵️天桥、☦️历城、长清）

安康市（宁陕县、🌨白河县、汉阴县、🙀️岚皋县、石泉县、市辖区、紫阳县、❗️汉滨区、👺️旬阳县、镇坪县、平利县）

常州市（天宁、🈷️钟楼、新北、武进、日照坛）

郑州市（中原、二七、管城、日照水、🍒上街、惠济）

中卫市（沙坡头区、海原县、中宁县、♈️市辖区）

金华市（武义县、东阳市、磐安县、浦江县、🥙‍兰溪市、💜永康市、婺城区、义乌市、☸️市辖区、金东区）

长沙市（芙蓉、✌天心、岳麓、🏈开福、🦝雨花、望城）

葫芦岛市：龙港区、🌐南票区、🍷连山区。

沧州市（新华区、运河区、🤬沧县、青县、🔪东光县、海兴县、盐山县、肃宁县、南皮县、👇吴桥县、献县、🤝‍孟村回族自治县、河北沧州高新技术产业开发区、沧州经济技术开发区、☝任丘市、黄骅市、🦄河间市、泊头市）

邢台市（邢台县、🌒南和县、清河县、临城县、🎍广宗县、威县、宁晋县、🦁柏乡县、🌩任县、🌖内丘县、南宫市、沙河市、任县、邢东区、邢西区、🍤平乡县、🕡️巨鹿县）

巴彦淖尔市（杭锦后旗、磴口县、🍈乌拉特中旗、乌拉特后旗、🍔乌拉特前旗、🍛市辖区、临河区、五原县）

连云港市（连云、海州、赣榆）

淮安市（淮阴区、清河区、淮安区、🕸涟水县、✳️洪泽区、🤣️盱眙县、金湖县、楚州区、🙁️淮安区、🤑海安县、🍨亭湖区、☣️淮安开发区）

玉林市（玉州）

柳州市（城中、👎鱼峰、💪柳南、柳北、🍞柳江）

新竹县（新丰乡、🦛峨眉乡、👏湖口乡、关西镇、新埔镇、💘横山乡、尖石乡、🙀北埔乡、🍿竹东镇、宝山乡、🤕芎林乡、五峰乡、竹北市）

临沂市（兰山、👎罗庄、河东）

连云港市（连云、🐆海州、🕸赣榆）

廊坊市（安次、广阳）

赣州市（南康区、🐘‍赣县区、于都县、兴国县、🌷章贡区、龙南县、大余县、🐸信丰县、安远县、全南县、☪️宁都县、🕠定南县、上犹县、🏈崇义县、🥑南城县）

玉溪市（澄江县、江川县、通海县、🍠华宁县、🚸易门县、峨山彝族自治县、抚仙湖镇、新平县、元江哈尼族彝族傣族自治县、红塔区、🐽玉溪县、👌敖东镇、🤪珠街镇）

宜昌市（宜都市、😂长阳土家族自治县、当阳市、五峰土家族自治县、西陵区、兴山县、🍕夷陵区、远安县、点军区、🤜枝江市、🍢猇亭区、秭归县、♊️伍家岗区、🍪市辖区）

绵阳市（江油市、🖤北川羌族自治县、梓潼县、市辖区、盐亭县、涪城区、安州区、🐁三台县、😥平武县、游仙区）

湘潭市（雨湖、😫岳塘）

漳州市（芗城、🥝龙文）

嘉义县（朴子市、♒️‍番路乡、民雄乡、竹崎乡、梅山乡、义竹乡、大林镇、🥯布袋镇、新港乡、太保市、六脚乡、🖖大埔乡、☺️鹿草乡、🤘️溪口乡、水上乡、😵中埔乡、阿里山乡、🍅东石乡）

和远气体：补选公司董事证券日报网讯9月18日晚间，和远气体发布公告称，公司于2025年9月18日召开第五届董事会第十三次会议，董事会拟提名汤宁先生为公司第五届董事会非独立董事候选人。（文章来源：证券日报）海量资讯、精准解读，尽在新浪财经APP

还没有人评论过，快来抢首评

抢首评

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构

推荐阅读

平江灾情前所未有

李敏镐发福变双下巴

花间一梦 2025-09-21 00:04:51 553

印度踩踏事件致90死

错转226万被全退回

正在变老的明显特征

韩国医生辞职潮持续

平江灾情前所未有

小区20多栋楼遭倒灌

基金经理离职创新高

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构

从 DeepSeek-V3 到 Kimi K2 , 一文看懂 LLM 主流架构

长按复制以下链接，粘贴给好友吧！

平江灾情前所未有

李敏镐发福变双下巴

花间一梦 2025-09-21 00:04:51 553

印度踩踏事件致90死

错转226万被全退回

正在变老的明显特征

韩国医生辞职潮持续

平江灾情前所未有

小区20多栋楼遭倒灌

基金经理离职创新高