> **来源:[研报客](https://pc.yanbaoke.cn)** # 大/小/微模型赋能先进制造:实践与思考 Large/Small/Micro AI Models for Manufacturing (AI4M): Applications and Insights 宋学官 大连理工大学 机械工程学院 # 汇报提纲 一、AI4M的背景意义 三、AI4M的基础知识 三、AI4M的研究进展 四、AI4M的案例展示 五、AI4M的瓶颈所在 六、AI4M的科学问题 七、AI4M的发展方向 八、思考与总结 # 一、AI4M的背景意义 二、AI4M的基础知识 三、AI4M的研究进展 四、AI4M的案例展示 五、AI4M的瓶颈所在 六、AI4M的科学问题 七、AI4M的发展方向 八、思考与总结 # AI4M的背景意义 □先进制造是指采用高新技术和先进设备来改善制造业过程和生产效率的统称,是衡量一个国家科技发展水平的重要标志,关乎国民经济发展和国防安全建设。 # AI4M的背景意义 □《中国制造2025》:加快推进制造业转型升级,到2035年整体达到世界制造强国中等水平 口2022年10月,美国发布《国家先进制造业战略》,先进制造业是美国经济和国家安全引擎 # AI4M的背景意义 # “AI4M”已成为工业4.0的核心技术之一,世界主要工业强国的重点发展布局方向 <table><tr><td>年份</td><td>国家</td><td>重大计划或布局名称</td><td>目标</td></tr><tr><td>2023</td><td>美国</td><td>《美国国家人工智能研究和发展战略 计划》</td><td>明确把AI作为国家优先事项,持续推动通用AI在包括智能设计在内的多个关键领域发展。</td></tr><tr><td>2018</td><td>德国</td><td>《联邦政府人工智能战略要点》</td><td>形成“人工智能德国制造”产业品牌,积极推动AI知识与技术向中小企业转移,强调通过智能设计提升创新活力。</td></tr><tr><td>2021</td><td>法国</td><td>《国家人工智能第二阶段发展战略(2021-2025年)》</td><td>将“推动法国成为嵌入式AI和可信AI领域领导者”作为三大目标之一。通过设立跨学科研究中心,统筹推进智能制造发展。</td></tr><tr><td>2020</td><td>日本</td><td>《制造业基础技术的振兴政策》</td><td>强调数字化、智能化转型是“日本制造”的关键,将AI技术作为推进产品设计制造环节应用的核心。</td></tr><tr><td>2021</td><td>中国</td><td>《“十四五”智能制造发展规划》</td><td>将设计仿真、混合建模、多目标协同优化等作为设计领域的聚焦重点,将AI、大数据等在工业领域内的适用性技术作为攻关核心之一。</td></tr></table> # AI4M的背景意义 □ 人工智能(AI): 科学研究的第四范式, 正深刻重塑先进制造全生命周期技术体系 一、AI4M的背景意义 三、AI4M的基础知识 三、AI4M的研究进展 四、AI4M的案例展示 五、AI4M的瓶颈所在 六、AI4M的科学问题 七、AI4M的发展方向 八、思考与总结 # AI的发展历程 # □ AI经过数十年发展才实现规模应用,在制造业的落地始终伴随着传感器和物联网技术的迭代升级。 # AI的发展历程 □ 人工智能经历三次热潮与两次寒冬,技术在挫折中不断演进,当前正迈向以大模型为核心的新阶段。 热度 # AI的不同分类方式 # 人脸识别识别 # 目标检测 # 图像分割 # 图像生成 # 音乐合成 # 文本声音互转 # AI的不同分类方式 # 语言描述 Describes without errors A person riding a motorcycle on a dirt road. A group of young people playing a game of frisbee. # 人机对话 C: A dog with grouper is in a meteorite size can. is monodromy moving or still? A: It's good. D: What kind of dog is it? A: Look like beautiful pit pit m What color is it? A light tan with white paint that runs up to bottom of his chin # 视频解析 An elderly man is playing the piano in front of a crowd. A woman walks to the piano and briefly talks to the elderly man. The woman starts singing along with the pianist. Another man starts dancing to the music, gathering attention from the crowd. Eventually the elderly man finishes playing and hugs the woman, and the crowd applaud. # 姿态估计 # 视频生成 # 内容创作 deepseek ChatGPT # AI的不同分类方式 口 AI可以根据学习方式、参数规模、功能类型和实时性要求等不同维度进行分类 # AI的不同分类方式 □ AI可以根据模型结构复杂度和智能实现方式的差异进行系统性划分。 # AI的不同分类方式 □ AI可以根据模型深度、学习策略和学习方式的不同进行系统性划分。 # 最小二乘法 # 口一种简单有效的非线性拟合方法,适合低维、平滑、连续且样本适中的数据 # 问题描述: 给定一组数据点 $(x_{i},y_{i}),i = 1,2,\dots n$ ,我们希望找到一个m次多项式: $$ y (x) = w _ {0} + w _ {1} x + w _ {2} x ^ {2} \dots + w _ {m} x ^ {m} $$ 使得误差平方和最小: $E = \sum_{i = 1}^{n}\left(y_{i} - P(x_{i})\right)^{2}$ # 构建误差函数: 将多项式带入误差函数: $$ E \left(w _ {0}, w _ {1}, \dots , w _ {m}\right) = \sum_ {i = 1} ^ {n} \left(y _ {i} - \sum_ {j = 0} ^ {m} w _ {j} x _ {i} ^ {j}\right) ^ {2} $$ # 最小化误差: 为了最小化 $E$ ,对每个系数 $\mathbf{w}_k$ 求偏导并令其为零: $$ \frac {\partial E}{\partial w _ {k}} = 0, k = 0, 1, \dots m $$ 计算偏导数: $$ \frac {\partial E}{\partial w _ {k}} = - 2 \sum_ {i = 1} ^ {n} \left(y _ {i} - \sum_ {j = 0} ^ {m} w _ {j} x _ {i} ^ {j}\right) x _ {i} ^ {k} = 0 $$ $$ \sum_ {i = 1} ^ {n} y _ {i} x _ {i} ^ {k} = \sum_ {j = 0} ^ {m} w _ {j} \sum_ {i = 1} ^ {n} x _ {i} ^ {j + k}, k = 0, 1, \dots m $$ # 方程组: 将上述方程写成矩阵形式(正规方程组): $$ \left\{ \begin{array}{c} w _ {0} + w _ {1} \sum x _ {i} + w _ {2} \sum x _ {i} ^ {2} + \dots + w _ {m} \sum x _ {i} ^ {m} = \sum y _ {i} \\ w _ {0} \sum x _ {i} + w _ {1} \sum x _ {i} ^ {2} + w _ {2} \sum x _ {i} ^ {3} \dots + w _ {m} \sum x _ {i} ^ {m + 1} = \sum y _ {i} x _ {i} \\ w _ {0} \sum x _ {i} ^ {m} + w _ {1} \sum x _ {i} ^ {m + 1} + w _ {2} \sum x _ {i} ^ {m + 2} \dots + w _ {m} \sum x _ {i} ^ {2 m} = \sum y _ {i} x _ {i} ^ {m} \end{array} \right. $$ 用矩阵表示: $$ X ^ {T} X w = X ^ {T} y $$ 其中: $$ X = \left[ \begin{array}{c c c c c} 1 & x _ {1} & x _ {1} ^ {2} & \dots & x _ {1} ^ {m} \\ 1 & x _ {2} & x _ {2} ^ {2} & \dots & x _ {2} ^ {m} \\ \dots & \dots & \dots & \dots & \dots \\ 1 & x _ {n} & x _ {n} ^ {2} & \dots & x _ {n} ^ {m} \end{array} \right], w = \left[ \begin{array}{c} w _ {0} \\ w _ {1} \\ \vdots \\ w _ {m} \end{array} \right], y = \left[ \begin{array}{c} y _ {0} \\ y _ {1} \\ \vdots \\ y _ {n} \end{array} \right] $$ # 求解系数: 解方程组: $$ w = \left(X ^ {T} X\right) ^ {- 1} X ^ {T} y $$ # 关键点: 当 $m < n - 1$ 时,通常有唯一解。 矩阵 $X^T X$ 是对称且正定的(如果X列满秩)。 # 示例: $$ \left\{ \begin{array}{l} w _ {0} n + w _ {1} \sum x _ {i} = \sum y _ {i} \\ w _ {0} \sum x _ {i} + w _ {1} \sum x _ {i} ^ {2} = \sum y _ {i} x _ {i} \end{array} \right. $$ 解得: $$ w _ {1} = \frac {n \sum x _ {i} y _ {i} - \sum x _ {i} \sum y _ {i}}{n \sum x _ {i} ^ {2} - (\sum x _ {i}) ^ {2}}, w _ {0} = \frac {\sum y _ {i} - w _ {1} \sum x _ {i}}{n} $$ # 多项式拟合 # 口一种简单有效的非线性拟合方法,适合低维、平滑、连续且样本适中的数据 # 构造多项式特征: 模型:二阶多项式模型 $$ \hat {y} = w _ {0} + w _ {1} x _ {1} + w _ {2} x _ {2} + w _ {3} x _ {1} ^ {2} + w _ {4} x _ {1} x _ {2} + w _ {5} x _ {2} ^ {2} $$ 数值案例:输入x=[1,2]T,目标输出:y=10 初始参数: $w(0) = \begin{bmatrix} 0.1 & 0.1 & 0.1 & 0.1 & 0.1 & 0.1 \end{bmatrix}^T$ 学习率: $\eta = 0.01$ 输入向量扩展为多项式特征向量: $$ \phi (x) = \left[ \begin{array}{l l l l l} 1 & x _ {1} & x _ {2} & x _ {1} ^ {2} & x _ {1} x _ {2} \\ & & & & x _ {2} ^ {2} \end{array} \right] ^ {T} = \left[ \begin{array}{l l l l l l} 1 & 1 & 2 & 1 & 2 & 4 \end{array} \right] ^ {T} $$ 计算初始预测值: $$ \begin{array}{l} \hat {y} ^ {(0)} = w ^ {(0)} \cdot \phi (x) = 0. 1 \times 1 + 0. 1 \times 1 + 0. 1 \times 2 \\ + 0. 1 \times 1 + 0. 1 \times 2 + 0. 1 \times 4 = 1. 1 \\ \end{array} $$ # 损失函数: 计算损失函数,使用均方误差(MSE): $$ L = (\hat {y} - y) ^ {2} = (1. 1 - 1 0) ^ {2} = 7 9. 2 1 $$ # 反向传播: 梯度计算: 损失函数对权重的梯度: $$ \frac {\partial L}{\partial w _ {i}} = (\hat {y} - y) \cdot \phi (i) $$ 所以每一项的梯度: $$ \frac {\partial L}{\partial w} = (1. 1 - 1 0) \cdot \left[ \begin{array}{l} 1 \\ 1 \\ 2 \\ 1 \\ 2 \\ 4 \end{array} \right] = \left[ \begin{array}{l} - 8. 9 \\ - 8. 9 \\ - 1 7. 8 \\ - 8. 9 \\ - 1 7. 8 \\ - 3 5. 6 \end{array} \right] $$ # 参数更新: $$ \begin{array}{l} w ^ {(1)} \leftarrow w ^ {(0)} - \eta \cdot \nabla L \\ = \left[ \begin{array}{l} 1 \\ 1 \\ 1 \\ 1 \\ 1 \\ 1 \end{array} \right] - 0. 1 \cdot \left[ \begin{array}{l} - 8. 9 \\ - 8. 9 \\ - 1 7. 8 \\ - 8. 9 \\ - 1 7. 8 \\ - 3 5. 6 \end{array} \right] = \left[ \begin{array}{l} 1. 8 9 \\ 1. 8 9 \\ 2. 7 8 \\ 1. 8 9 \\ 2. 7 8 \\ 4. 5 6 \end{array} \right] \\ \end{array} $$ # 计算结果: 对上述过程重复100次,输出y和MSE <table><tr><td>迭代次数</td><td>输出y</td><td>MSE</td></tr><tr><td>1</td><td>1.10</td><td>79.21</td></tr><tr><td>2</td><td>3.48</td><td>42.50</td></tr><tr><td>...</td><td>...</td><td>...</td></tr><tr><td>100</td><td>≈1</td><td><10^5</td></tr></table> # 浅层神经网络 # 口 模型结构简单,训练速度快,适用于小数据集,适合低维数据分类/回归。 输入层 隐藏层 输出层 模型架构:输入层(1个神经元) 隐藏层(2个神经元,激活函数为ReLU) 输出层(1个神经元,线性激活) 数值案例:输入x=[1,2],输出:y=10 初始参数: $W_{1} = \begin{bmatrix} 0.1 & 0.2\\ 0.3 & 0.4 \end{bmatrix}, b_{1} = [0.0\quad 0.0]^{T}$ $$ W _ {2} = [ 0. 5 \quad 0. 6 ], h _ {2} = 0. 0 $$ 学习率: $\eta = 0.01$ # 前向传播: 隐藏层输入: $z_{1} = W_{1}x + b_{1} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix} = \begin{bmatrix} 0.1 + 0.4 \\ 0.3 + 0.8 \end{bmatrix} = \begin{bmatrix} 0.5 \\ 1.1 \end{bmatrix}$ 隐藏层输出: $a_1 = ReLU(z_1) = \begin{bmatrix} 0.5 \\ 1.1 \end{bmatrix}$ ,激活函数 $ReLU = \begin{cases} 0, & x < 0 \\ x, & x \geq 0 \end{cases}$ 输出层输入: $z_{2} = W_{2}a_{1} = [0.5 \quad 0.6] \cdot \left[ \begin{array}{l} 0.5 \\ 1.1 \end{array} \right] = 0.25 + 0.66 = 0.91$ 网络输入: $\hat{y} = z_{2} = 0.91$ # 损失函数: $$ L = \frac {1}{2} (y - \hat {y}) ^ {2} = \frac {1}{2} (1 0 - 0. 9 1) ^ {2} = \frac {1}{2} \cdot 8 2. 8 1 \approx 4 1. 4 0 $$ # 反向传播: 输出层误差: $\delta_{2} = \hat{y} - y = 0.91 - 10 = -9.09$ 输出层梯度: $\frac{\partial L}{\partial W_2} = \delta_2 \cdot a_1^T = -9.09 \cdot [0.5 \quad 1.1] = [-4.545 \quad -9.999]$ $$ \frac {\partial L}{\partial b _ {2}} = \delta_ {2} = - 9. 0 9 $$ 隐藏层误差: $$ \delta_ {1} = \left(W _ {2} ^ {T} \cdot \delta_ {2}\right) \cdot R e L U ^ {\prime} \left(z _ {1}\right)\rightarrow \left[\begin{array}{l}0. 5\\0. 6\end{array}\right] \cdot (- 9. 0 9) = \left[\begin{array}{l}- 4. 5 4 5\\- 5. 4 5 4\end{array}\right] = \delta_ {1} $$ 隐藏层梯度: $\frac{\partial L}{\partial w_{1}} = \delta_{1} \cdot x^{T} = \begin{bmatrix} -4.545 \\ -5.454 \end{bmatrix} [1 2] = \begin{bmatrix} -4.545 & -9.090 \\ -5.454 & -10.908 \end{bmatrix}$ $$ \frac {\partial L}{\partial b _ {1}} = \delta_ {1} = \left[ \begin{array}{l} - 4. 5 4 5 \\ - 5. 4 5 4 \end{array} \right] $$ # 参数更新: $$ \begin{array}{l} = [ 0. 5 \quad 0. 6 ] - 0. 0 1 \cdot [ - 4. 5 4 5 - 9. 9 9 9 ] \\ = [ 0. 5 4 5 4 - 0. 6 9 9 9 ] \\ \end{array} $$ $$ \begin{array}{l} W _ {2} \leftarrow W _ {2} - \eta \frac {\partial t}{\partial W _ {2}} \\ = [ 0. 5 \quad 0. 6 ] - 0. 0 1 \cdot [ - 4. 5 4 5 - 9. 9 9 9 ] \\ = [ 0. 5 4 5 4 - 0. 6 9 9 9 ] \\ b _ {2} \leftarrow b _ {2} - \eta \cdot (- 9. 0 9) = 0 + 0. 0 9 0 9 = 0. 0 9 0 9 \\ W _ {1} \leftarrow W _ {1} - \eta \cdot \frac {\partial L}{\partial w _ {1}} = \left[ \begin{array}{l l} 0. 1 4 5 4 5 & 0. 2 9 0 9 0 \\ 0. 3 5 4 5 4 & 0. 5 0 9 0 8 \end{array} \right] \\ b _ {1} \leftarrow b _ {1} - \eta \cdot \delta_ {1} = \left[ \begin{array}{l} 0. 0 4 5 4 5 \\ 0. 0 5 4 5 4 \end{array} \right] \\ \end{array} $$ # 计算结果: 对上述过程重复100次,输出和MSF <table><tr><td>迭代次数 1</td><td>输出y 0.91</td><td>MSE 82.80</td></tr><tr><td>2</td><td>1.83</td><td>66.60</td></tr><tr><td>...</td><td>...</td><td>...</td></tr><tr><td>100</td><td>9.998</td><td><10-5</td></tr></table> # 深度学习神经网络 (DNN) # 口 模型结构层次深,特征提取能力强,适用于大规模数据集,专为图像识别等数据设计。 输入层 隐藏层1 隐藏层2 隐藏层3 输出层 模型架构:输入层(1个神经元) 隐藏层1(3个神经元,激活函数为ReLU) 隐藏层2(2个神经元,激活函数为ReLU) 隐藏层3(1个神经元,激活函数为ReLU) 输出层(1个神经元,线性激活) 数值案例:输入x=[1,2]T,目标输出:y=10 $$ \text {初 始 参 数 :} W _ {1} = \left[ \begin{array}{l l} 0. 1 & 0. 2 \\ 0. 3 & 0. 4 \\ 0. 5 & 0. 6 \end{array} \right], b _ {1} = \left[ \begin{array}{l l l} 0 & 0 & 0 \end{array} \right] ^ {\prime} $$ $$ W _ {2} = \left[ \begin{array}{l l l} 0. 1 & 0. 2 & 0. 3 \\ 0. 4 & 0. 5 & 0. 6 \end{array} \right], b _ {2} = [ 0 \quad 0 ] ^ {r} $$ $$ W _ {3} = \left[ \begin{array}{l l} 0. 1 & 0. 2 \end{array} \right], b _ {3} = 0 $$ $$ W _ {4} = [ 0. 3 ], b _ {4} = 0 $$ 学习率: $\eta = 0.01$ # 前向传播: 隐藏层1输入: $z_{1} = W_{1}x + b_{1} = \begin{bmatrix} 0.1 & 0.2\\ 0.3 & 0.4\\ 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 1\\ 2 \end{bmatrix} + \begin{bmatrix} 0\\ 0\\ 0 \end{bmatrix} = \begin{bmatrix} 0.5\\ 1.1\\ 1.7 \end{bmatrix}$ 隐藏层1输出: $\alpha_{1} = ReLU(z_{1}) = \begin{bmatrix} 0.5 \\ 1.1 \\ 1.7 \end{bmatrix}$ 隐藏层2输入: $z_{2} = W_{2}x + b_{2} = \begin{bmatrix} 0.1 & 0.2 & 0.3 \\ 0.4 & 0.5 & 0.6 \end{bmatrix} \begin{bmatrix} 0.5 \\ 1.1 \\ 1.7 \end{bmatrix} + \begin{bmatrix} 0 \\ 0 \end{bmatrix} = \begin{bmatrix} 0.78 \\ 1.77 \end{bmatrix}$ 隐藏层2输出: $a_2 = ReL U(z_2) = \begin{bmatrix} 0.78\\ 1.77 \end{bmatrix}$ 隐藏层3输入: $z_{3} = W_{3}x + b_{3} = [0.1\quad 0.2]$ [0.78] + 0 = 0.432 隐藏层3输出: $a_3 = R e L U(x_3) = 0.432$ 输出层输入: $z_{4} = W_{4}a_{3} = 0.3\times 0.432 + 0 = 0.1296$ 网络输入: $\hat{y} = x_{1} = 0.1296$ # 损失函数: $$ L = \frac {1}{2} (y - \hat {y}) ^ {2} = \frac {1}{2} (1 0 - 0. 1 2 9 6) ^ {2} = \frac {1}{2} \times 9. 8 7 0 4 ^ {2} \approx 4 8. 7 1 $$ # 反向传播: 输出层误差: $\delta_{4} = \frac{\partial L}{\partial z_{4}} = \hat{y} - y = 0.1296 - 10 = -9.8704$ 隐藏层3误差: $\delta_3 = (W_1\cdot \delta_1)\odot ReLI^{\prime}(z_3)$ $$ = 0. 3 \times (- 9. 8 7 0 4) \times 1 = - 2. 9 6 1 1 $$ 隐藏层2误差: $\delta_{2} = (W_{3}\cdot \delta_{3})\odot ReLU^{\prime}(z_{2})$ $$ \begin{array}{l} = \left[ \begin{array}{l} 0. 1 \\ 0. 2 \end{array} \right] \times (- 2. 9 6 1 1) \odot \left[ \begin{array}{l} 1 \\ 1 \end{array} \right] \\ = \left[ \begin{array}{l} - 0. 2 9 6 1 \\ - 0. 5 9 2 2 \end{array} \right] \\ \end{array} $$ 隐藏层1误差: $\delta_{1} = (W_{2}\cdot \delta_{2})\odot ReLU^{\prime}(z_{1})$ $$ \begin{array}{l} = \left(\left[ \begin{array}{l l} 0. 1 & 0. 4 \\ 0. 2 & 0. 5 \\ 0. 3 & 0. 6 \end{array} \right] \left[ \begin{array}{l} - 0. 2 9 6 1 \\ - 0. 5 9 2 2 \end{array} \right]\right) \odot R e L U ^ {\prime} \left(\left[ \begin{array}{l} 0. 5 \\ 1. 1 \\ 1. 7 \end{array} \right]\right) \\ = \left[ \begin{array}{l} - 0. 2 6 6 4 9 \\ - 0. 3 5 5 3 2 \\ - 0. 4 4 4 1 5 \end{array} \right] \\ \end{array} $$ 输出层梯度: $\frac{\partial I}{\partial W_4} = \delta_4 \cdot a_3 = 0.432 \times (-9.8704)$ $$ \begin{array}{l} = - 4. 2 6 3 \\ \frac {\partial L}{\partial b _ {4}} = \delta_ {4} = - 9. 8 7 0 4 \\ \end{array} $$ 隐藏层3梯度: $\frac{\partial L}{\partial W_3} = \delta_3 \cdot a_2 = -2.9611 \times \left[ \begin{array}{c} 0.78 \\ 1.77 \end{array} \right]$ $$ = \left[ \begin{array}{l} - 2. 3 0 9 6 \\ - 5. 2 4 3 3 \end{array} \right] $$ # 深度学习神经网络 (DNN) # 口 模型结构层次深,特征提取能力强,适用于大规模数据集,专为图像识别等数据设计。 $$ \frac {\partial L}{\partial b _ {3}} = \delta_ {3} = - 2. 9 6 1 1 $$ 隐藏层2梯度: $\frac{\partial L}{\partial W_2} = a_1 \cdot \delta_2^T = \begin{bmatrix} 0.5 \\ 1.1 \\ 1.7 \end{bmatrix} \times [-0.2961 - 0.5922] = \begin{bmatrix} -0.1481 & -0.2961 \\ -0.3257 & -0.6514 \\ -0.5034 & -1.0067 \end{bmatrix}$ $$ \frac {\partial L}{\partial b _ {2}} = \delta_ {2} = \left[ \begin{array}{l} - 0. 2 9 6 1 \\ - 0. 5 9 2 2 \end{array} \right] $$ 隐藏层1梯度: $\frac{\partial L}{\partial W_1} = x \cdot \delta_1^r = \begin{bmatrix} 1 \\ 2 \end{bmatrix} \times [-0.26649 - 0.35532 - 0.44415]$ $$ = \left[ \begin{array}{l l l} - 0. 2 6 6 4 9 & - 0. 3 5 5 3 2 & - 0. 4 4 4 1 5 \\ - 0. 5 3 2 9 8 & - 0. 7 1 0 6 4 & - 0. 8 8 8 3 0 \end{array} \right] $$ $$ \frac {\partial L}{\partial b _ {1}} = \delta_ {1} = \left[ \begin{array}{l} - 0. 2 6 6 4 9 \\ - 0. 3 5 5 3 2 \\ - 0. 4 4 4 1 5 \end{array} \right] $$ 参数更新: $$ W _ {l} = W _ {l} - \eta \cdot \frac {\partial l}{\partial W _ {l}} $$ $$ b _ {l} = b _ {l} - \eta \cdot \frac {\partial l}{\partial b _ {l}} $$ 输出层更新: $W_{4} = 0.3 - 0.01 \times (-4.263) = 0.3426$ $$ b _ {4} = 0 - 0. 0 1 \times (- 9. 8 7 0 4) = 0. 0 9 8 7 $$ 隐藏层3更新: $W_{3} = \begin{bmatrix} 0.1\\ 0.2 \end{bmatrix} -0.01\times \begin{bmatrix} -2.3096\\ -5.2433 \end{bmatrix} = \begin{bmatrix} 0.1231\\ 0.2524 \end{bmatrix}$ $$ b _ {3} = 0 - 0. 0 1 \times (- 2. 9 6 1 1) = 0. 0 2 9 6 $$ 隐藏层2更新: $W_{2} = \begin{bmatrix} 0.1 & 0.4 \\ 0.2 & 0.5 \\ 0.3 & 0.6 \end{bmatrix} - 0.01 \times \begin{bmatrix} -0.1481 & -0.2961 \\ -0.3257 & -0.6514 \\ -0.5034 & -1.0067 \end{bmatrix} = \begin{bmatrix} 0.1015 & 0.4029 \\ 0.2033 & 0.5065 \\ 0.3050 & 0.6101 \end{bmatrix}$ 隐藏层1更新: $W_{1} = \begin{bmatrix} 0.1 & 0.3 & 0.5 \\ 0.2 & 0.4 & 0.6 \end{bmatrix} - 0.01 \times \begin{bmatrix} -0.26649 & -0.35532 & -0.44415 \\ -0.53298 & -0.71064 & -0.88830 \end{bmatrix}$ $$ \begin{array}{l} b _ {2} = \left[ \begin{array}{l} 0 \\ 0 \end{array} \right] - 0. 0 1 \times \left[ \begin{array}{l} - 0. 2 9 6 1 \\ - 0. 5 9 2 2 \end{array} \right] = \left[ \begin{array}{l} 0. 0 0 2 9 6 \\ 0. 0 0 5 9 2 \end{array} \right] \\ = \left[ \begin{array}{l l l} 0. 1 0 2 6 6 & 0. 3 0 3 5 5 & 0. 5 0 4 4 4 \\ 0. 2 0 5 3 3 & 0. 4 0 7 1 1 & 0. 6 0 8 8 8 \end{array} \right] \\ b _ {1} = \left[ \begin{array}{l} 0 \\ 0 \\ 0 \end{array} \right] - 0. 0 1 \times \left[ \begin{array}{l} - 0. 2 6 6 4 9 \\ - 0. 3 5 5 3 2 \\ - 0. 4 4 4 1 5 \end{array} \right] = \left[ \begin{array}{l} 0. 0 0 2 6 6 \\ 0. 0 0 3 5 5 \\ 0. 0 0 4 4 4 \end{array} \right] \\ \end{array} $$ # 计算结果: 对上述过程重复100次,输出y和MSE <table><tr><td>迭代次数</td><td>输出y</td><td>MSE</td></tr><tr><td>1</td><td>0.1296</td><td>96.84</td></tr><tr><td>2</td><td>0.3448</td><td>93.24</td></tr><tr><td>...</td><td>...</td><td>...</td></tr><tr><td>100</td><td>10.6241</td><td>0.3895</td></tr></table> # 卷积神经网络(CNN) □ 模型通过局部连接和权值共享机制,能够高效提取图像局部特征,适用于机械制造中的视觉检测任务,如零件表面划痕检测、尺寸精度测量和装配完整性检查等。 模型架构:输入层: 卷积层:1个3*3卷积核,步长1,输出大小3*3(ReLU激活函数) 池化层:2*2最大池化,步长2,输出1*1 全连接层:1个隐藏神经元,ReLU 输出层:1个神经元 数值案例:输入X = $\begin{bmatrix} 1 & 2 & 3 & 0 & 1 \\ 0 & 1 & 2 & 3 & 1 \\ 1 & 0 & 1 & 2 & 0 \\ 2 & 1 & 0 & 1 & 3 \\ 1 & 2 & 3 & 0 & 2 \end{bmatrix}$ ,输出:y=10 学习率: $\eta = 0.01$ # 卷积层: 权重和偏置: 卷积核: $K = \begin{bmatrix} 0.1 & 0.2 & 0.1\\ 0.0 & 0.1 & 0.2\\ 0.2 & 0.1 & 0.0 \end{bmatrix}$ $b_{2} = 0$ # 前向传播: 以左上角 $3^{*}3$ 区域为例 对应元素乘积后求和: $$ \begin{array}{l} Z _ {0, 0} = \sum_ {m - 0} ^ {2} \sum_ {n - 0} ^ {2} K _ {m, n} \cdot K _ {i + m, j + n} + b \\ = (1 \times 0. 1 + 2 \times 0. 2 + 3 \times 0. 1) \\ + (0 \times 0. 0 + 1 \times 0. 1 + 2 \times 0. 2) \\ + (1 \times 0. 2 + 0 \times 0. 1 + 1 \times 0. 0) \\ = (0. 1 + 0. 4 + 0. 3) + (0 + 0. 1 + 0. 4) + (0. 2 + 0 + 0) \\ = 1. 5 \\ \end{array} $$ 以上述方式逐个计算区域与卷积核的乘积之和, 卷积层输出: $$ Z _ {c o n v} = \left[ \begin{array}{l l l} 1. 5 & 1. 7 & 1. 3 \\ 1. 1 & 1. 5 & 1. 2 \\ 0. 7 & 1. 3 & 1. 8 \end{array} \right] $$ 卷积核 卷积层输入 卷积层输出 激活函数(ReLU): $\varLambda_{conv}=max(0,Z_{conv})=Z_{conv}$ # 池化层: 取前 $2^{*}2$ 区域: $$ \begin{array}{l} p o o l i n g r e g i n \\ = \max \left\{ \begin{array}{l l} Z _ {2 i, 2 j} & Z _ {2 i, 2 j + 1} \\ Z _ {2 i + 1, 2 j} & Z _ {2 i + 1, 2 j + 1} \end{array} \right\} \\ = \max \left[ \begin{array}{l l} 1. 5 & 1. 7 \\ 1. 1 & 1. 5 \end{array} \right] \\ \rightarrow A _ {p o o l} = 1. 7 \\ \end{array} $$ # 全连接层 (ReLU) : 权重: $W_{fc} = 0.5$ 偏置: $b_{fc} = 0.5$ $$ \begin{array}{l} Z _ {f c} = W _ {f c} \cdot A _ {\text {p o o l}} + b _ {f c} = 0. 5 \times 1. 7 + 0. 5 = 1. 3 5 \\ A _ {f c} = \max (0, Z _ {f c}) = 1. 3 5 \\ \end{array} $$ # 输出层: 权重: $W_{out} = 0.3$ 偏置: $b_{out} = 0$ $$ \begin{array}{l} Z _ {o u t} = W _ {o u t} \cdot A _ {f c} + b _ {o u t} = 0. 3 \times 1. 3 5 + 0 = 0. 4 0 5 \\ \hat {y} = Z _ {o u t} = 0. 4 0 5 \\ \end{array} $$ # 卷积神经网络 (CNN) □ 模型通过局部连接和权值共享机制,能够高效提取图像局部特征,适用于机械制造中的视觉检测任务,如零件表面划痕检测、尺寸精度测量和装配完整性检查等。 # 损失函数: $$ L = (y - \hat {y}) ^ {2} = (1 0 - 0. 4 0 5) ^ {2} \approx 9 2. 0 6 4 $$ # 反向传播: 输出层: $\frac{\partial L}{\partial y} = 2(y - y) = -19.19$ $$ \frac {\partial L}{\partial w _ {o u t}} = \frac {\partial L}{\partial y} \cdot A _ {f c} = - 1 9. 1 9 \times 0. 8 5 = - 1 6. 3 1 1 5 $$ 全连接层: $\frac{\partial L}{\partial z_{fc}} = \frac{\partial L}{\partial a_{fc}} \cdot W_{out} = -19.19 \times 0.3 = -5.757$ $$ \frac {\partial L}{\partial w _ {f c}} = - 5. 7 5 7 \cdot A _ {p o o l} = - 5. 7 5 7 \times 1. 7 = - 9. 7 8 6 9 $$ 回传至池化层: $\frac{\partial t}{\partial A_{conv}[0,1]} = -5.757\times 0.5 = -2.8785$ 回传至卷积核: $\frac{\partial L}{\partial K} = -2.8785 \cdot \begin{bmatrix} 2 & 3 & 0 \\ 1 & 2 & 3 \\ 0 & 1 & 2 \end{bmatrix}$ $$ = \left[ \begin{array}{c c c} - 5. 7 5 7 & - 8. 6 3 5 5 & 0 \\ - 2. 8 7 8 5 & - 5. 7 5 7 & - 8. 6 3 5 5 \\ 0 & - 2. 8 7 8 5 & - 5. 7 5 7 \end{array} \right] $$ # 参数更新: $$ \begin{array}{l} W _ {o u t} = W _ {o u t} - \eta \cdot \frac {\partial L}{\partial W _ {o u t}} \leftarrow 0. 3 - 0. 0 1 \times (- 1 6. 5 6 6 5) = 0. 4 6 5 6 6 5 \\ W _ {f c} = W _ {f c} - \eta \cdot \frac {\partial L}{\partial W _ {f c}} \leftarrow 0. 5 - 0. 0 1 \times (- 9. 9 3 9 9) = 0. 5 9 9 3 9 9 \\ \end{array} $$ $$ \begin{array}{l} K _ {n e w} = \left[ \begin{array}{c c c} 0. 1 & 0. 2 & 0. 1 \\ 0. 0 & 0. 1 & 0. 2 \\ 0. 2 & 0. 1 & 0. 0 \end{array} \right] - 0. 0 1 \cdot \left[ \begin{array}{c c c} - 5. 7 5 7 & - 8. 6 3 5 5 & 0 \\ - 2. 8 7 8 5 & - 5. 7 5 7 & - 8. 6 3 5 5 \\ 0 & - 2. 8 7 8 5 & - 5. 7 5 7 \end{array} \right] \\ = \left[ \begin{array}{c c c} 0. 1 5 7 5 7 & 0. 2 8 6 3 5 5 & 0. 1 \\ 0. 0 2 8 7 8 5 & 0. 1 5 7 5 7 & 0. 2 8 6 3 5 5 \\ 0. 2 & 0. 1 2 9 7 8 5 & 0. 0 5 7 5 7 \end{array} \right] \\ \end{array} $$ # 计算结果: 对上述过程重复100次,输出y和MSE <table><tr><td>迭代次数</td><td>输出y</td><td>MSE</td></tr><tr><td>1</td><td>0.405</td><td>94.965</td></tr><tr><td>2</td><td>0.3448</td><td>93.24</td></tr><tr><td>...</td><td>...</td><td>...</td></tr><tr><td>100</td><td>9.547</td><td>0.103</td></tr></table> # 图神经网络(GNN) □ 图神经网络(Graph Neural Network)突破传统CNN对规则数据的限制,通过图结构直接建模机械系统的复杂物理关系,成为智能机械研究的新范式。 # 口 模型擅长处理拓扑关系数据,适用于机械系统故障传播分析等复杂系统分析。 模型架构:输入为图 $G = (V,E)$ ,共3个节点,每个节点输入为一个2维向量一层图卷积层,一层全连接输出层 节点特征输入: $X = \begin{bmatrix} x_1\\ x_2\\ x_3 \end{bmatrix} = \begin{bmatrix} 1 & 2\\ 0 & 1\\ 3 & 1 \end{bmatrix}$ 输出: $y = 10$ 邻接矩阵:A= 0 1 0 1 0 GCN结构: $H = AXW_{1} + b_{1}$ 初始参数:图卷积权重 $W_{1} = \begin{bmatrix} 0.1 & 0.2\\ 0.3 & 0.4 \end{bmatrix}$ 偏置 $b_{1} = [0.0, 0.0]^T$ 回归层权重 $W_{fc} = [0.5, 0.6]$ ,偏置 $b_{fc} = 0$ 学习率: $\eta = 0.01$ # 前向传播 (以节点2为例): 节点2的邻居是 $\{v_{1} v_{3}\}$ ,对应的特征是 $\{x_{1} x_{3}\}$ 计算邻接传播: $AX = \begin{bmatrix} 0 & 1 & 0\\ 1 & 0 & 1\\ 0 & 1 & 0 \end{bmatrix} \begin{bmatrix} 1 & 2\\ 0 & 1\\ 3 & 1 \end{bmatrix} = \begin{bmatrix} 0 & 1\\ 4 & 3\\ 0 & 1 \end{bmatrix}$ 图卷积输出: $H = AXW_{1} + b_{1} = \begin{bmatrix} 0 & 1\\ 4 & 3\\ 0 & 1 \end{bmatrix} \begin{bmatrix} 0.1 & 0.2\\ 0.3 & 0.4 \end{bmatrix} = \begin{bmatrix} 0.3 & 0.4\\ 1.3 & 2.0\\ 0.3 & 0.4 \end{bmatrix}$ 全图平均池化(取所有节点的平均): $$ \bar {H} = \frac {1}{3} \sum_ {i = 1} ^ {3} H _ {i} = \frac {1}{3} \left[ 0. 3 + 1. 3 + 0. 3 \quad 0. 4 + 2. 0 + 0. 4 \right] = \left[ \begin{array}{l l} 0. 6 3 3 3 & 0. 9 3 3 3 \end{array} \right] $$ 输出层: $\hat{y} = W_{fc}\cdot \overline{H} +b_{fc} = [0.5\quad 0.6]\cdot \left[ \begin{array}{c}0.6333\\ 0.9333 \end{array} \right] = 0.8767$ # 损失函数: $$ L = (y - \hat {y}) ^ {2} = (1 0 - 0. 8 7 6 7) ^ {2} = 8 3. 0 0 7 $$ # 反向传播: 输出层一阶导数: $\frac{\partial L}{\partial y} = \hat{y} - y = 0.8767 - 10 = -9.1233$ 输出层权重梯度: $\frac{\partial L}{\partial w_{fc}} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial w_{fc}} = -9.1233 \cdot \overline{H}$ $$ = - 9. 1 2 3 3 \cdot [ 0. 6 3 3 3 \quad 0. 9 3 3 3 ] = [ - 5. 7 7 8 7 \quad - 8. 5 1 4 5 ] $$ # 图神经网络 (GNN) # 口 模型擅长处理拓扑关系数据,适用于机械系统故障传播分析等复杂系统分析。 回归层偏置梯度: $$ \frac {\partial L}{\partial b _ {f c}} = \frac {\partial L}{\partial \hat {y}} = - 9. 1 2 3 3 $$ 更新回归层参数: $$ \begin{array}{l} W _ {f c} \leftarrow W _ {f c} - \eta \cdot \frac {\partial L}{\partial w _ {f c}} \\ = [ 0. 5 \quad 0. 6 ] - 0. 0 1 \cdot [ - 5. 7 7 8 7 \quad - 8. 5 1 4 5 ] \\ = [ 0. 5 8 0 6 \quad 0. 7 9 3 4 ] \\ \end{array} $$ $$ \begin{array}{l} b _ {f c} \leftarrow b _ {f c} - \eta \cdot \frac {\partial L}{\partial h _ {f c}} \\ = 0 - 0. 0 1 \times (- 9. 1 2 3 3) = 0. 0 9 1 2 \\ \end{array} $$ 回归层输出: $$ \hat {y} = W _ {f c} \cdot \bar {H} + b _ {f c} $$ $$ b _ {f c} = 0 $$ $$ \rightarrow \frac {\partial L}{\partial \bar {H}} = \frac {\partial L}{\partial \hat {y}} \cdot W _ {f c} = - 9. 1 2 3 3 \times [ 0. 5 \quad 0. 6 ] = [ - 4. 5 6 1 7 \quad - 5. 4 7 4 0 ] $$ 平均池化是对3个节点取平均: $$ \frac {\partial t}{\partial H _ {i}} = \frac {1}{3} \cdot \frac {\partial t}{\partial \bar {H}} = \frac {1}{3} \cdot [ - 4. 5 6 1 7 - 5. 4 7 4 0 ] = [ - 1. 5 2 0 6 - 1. 8 2 4 7 ] $$ # 参数更新: 令损失对图卷积权重 $W_{1}$ 的梯度为: $$ \frac {\partial L}{\partial w _ {1}} = (A X) ^ {T} \cdot \frac {\partial L}{\partial H} = \left[ \begin{array}{l l l} 0 & 4 & 0 \\ 1 & 3 & 1 \end{array} \right] \cdot \left[ \begin{array}{l l} - 1. 5 2 0 6 & - 1. 8 2 4 7 \\ - 1. 5 2 0 6 & - 1. 8 2 4 7 \\ - 1. 5 2 0 6 & - 1. 8 2 4 7 \end{array} \right] = \left[ \begin{array}{l l} - 6. 0 8 2 5 & - 7. 2 9 8 8 \\ - 6. 0 8 2 5 & - 9. 1 2 3 5 \end{array} \right] $$ 更新图卷积权重 $$ \begin{array}{l} W _ {1} \leftarrow W _ {1} - \eta \cdot \frac {\partial t}{\partial W _ {1}} \\ = \left[ \begin{array}{l l} 0. 1 & 0. 2 \\ 0. 3 & 0. 4 \end{array} \right] + 0. 0 1 \times \left[ \begin{array}{l l} 6. 0 8 2 5 & 7. 2 9 8 8 \\ 6. 0 8 2 5 & 9. 1 2 3 5 \end{array} \right] \\ = \left[ \begin{array}{l l} 0. 1 6 0 8 & 0. 2 7 2 9 \\ 0. 3 6 0 8 & 0. 4 9 1 2 \end{array} \right] \\ \end{array} $$ # 计算结果: 对上述过程重复100次,输出y和MSE <table><tr><td>迭代次数</td><td>输出y</td><td>MSE</td></tr><tr><td>1</td><td>0.8767</td><td>83.007</td></tr><tr><td>2</td><td>2.5347</td><td>55.773</td></tr><tr><td>...</td><td>...</td><td>...</td></tr><tr><td>100</td><td>≈10.0</td><td><10-5</td></tr></table> # 长短期记忆网络(LSTM) # 口 模型擅长处理时序依赖,适用于信号分析、寿命预测等时间序列数据处理任务。 模型架构:输入:2个神经元(向量 $x_{t} \in \mathbb{R}^{2}$ ) 隐状态维度:1(即 $h_t \in \mathcal{R}$ ) 仅1个LSTM单元(单时间步) 输出层:1个神经元,线性输出 激活函数:simgoid:σ(z)=1+e-z $$ s i g m o i d: \sigma (z) = \frac {e ^ {x} - e ^ {- x}}{e ^ {z} + e ^ {- z}} $$ 卷积层:1个3*3卷积核,步长1 输出大小3*3 (ReLU激活函数) 池化层:2*2最大池化,步长2,输出1*1 全连接层:1个隐藏神经元,ReLU 输出层:1个神经元 数值案例:输入x=[1.0],目标输出:y=10 学习率: $\eta = 0.01$ 初始参数: <table><tr><td>遗忘门</td><td>\( W_f \)</td><td>\( |0.1| \)</td><td>\( |0.2| \)</td><td>\( U_f \)</td><td>\( |0.3| \)</td><td>\( h_f \)</td><td>0.1</td></tr><tr><td>输入门</td><td>\( W_i \)</td><td colspan="2">\( [0.2|0.3] \)</td><td>\( U_i \)</td><td>\( [0.1|0.0] \)</td><td>\( h_i \)</td><td>0.1</td></tr><tr><td>候选状态</td><td>\( W_c \)</td><td colspan="2">\( [0.1|0.2] \)</td><td>\( U_c \)</td><td>\( [0.0] \)</td><td>\( h_c \)</td><td>0.0</td></tr><tr><td>输出门</td><td>\( W_0 \)</td><td colspan="2">\( [0.2|0.1] \)</td><td>\( U_0 \)</td><td>\( [0.2|0.2] \)</td><td>\( h_0 \)</td><td>0.1</td></tr><tr><td>输出层</td><td>\( W_y \)</td><td colspan="2">\( [0.5] \)</td><td>\( b_y \)</td><td>0</td><td></td><td></td></tr></table> # 前向传播: 遗忘门: $W_{f}x_{t} = 0.1\times 1 + 0.2\times 2 = 0.5$ $$ f _ {t} = \sigma \left(W _ {f} x _ {t} + U _ {f} h _ {t - 1} + b _ {f}\right) $$ $$ = \sigma (0. 5 + 0 + 0. 1) = \sigma (0. 6) \approx 0. 6 4 5 $$ 输入门: $W_{i}x_{i} = 0.2\times 1 + 0.3\times 2 = 0.8$ $$ U _ {i} h _ {t - 1} = 0 $$ $$ i _ {t} = \sigma \left(W _ {i} x _ {t} + U _ {i} h _ {t - 1} + b _ {i}\right) $$ $$ = \sigma (0. 8 + 0 + 0. 1) = \sigma (0. 9) \approx 0. 7 1 1 $$ 候选记忆: $W_{c}x_{t} = 0.1\times 1 + 0.2\times 2 = 0.5$ $$ \begin{array}{l} U _ {c} h _ {\tau - 1} = 0 \\ \tilde {C} _ {t} = \tanh \left(W _ {c} x _ {t} + U _ {c} h _ {t - 1} + b _ {c}\right) \\ = \tanh (0. 5) \approx 0. 4 6 2 \\ \end{array} $$ 更新细胞状态: $C_{t} = f_{t}\cdot C_{t - 1} = 0.645\times 0 + 0.711\times 0.462\approx 0.329$ 输出门: $W_{o}x_{t} = 0.2\times 1 + 0.1\times 2 = 0.4$ $$ \hat {U} _ {o} h _ {t - 1} = 0 $$ $$ o _ {t} = \sigma \left(W _ {o} x _ {t} + U _ {o} h _ {t - 1} + b _ {o}\right) = \sigma (0. 5) \approx 0. 6 2 2 $$ 隐藏状态: $\tanh (C_t) = \tanh (0.329)\approx 0.318$ $$ h _ {t} = a _ {t} \cdot \tanh (C _ {t}) = 0. 6 2 2 \times 0. 3 1 8 = 0. 1 9 8 $$ 隐藏状态: $\hat{y}_t = W_0x_t + b_y = 0.5\times 0.198 + 0 = 0.099$ # 损失函数: 遗忘门: $L = \frac{1}{2} (y - \hat{y})^2 = \frac{1}{2} (10 - 0.099)^2\approx 49.01$ # 反向传播: 输出层误差: $\delta_y = y - \hat{y} = 0.099 - 10 = -9.901$ 输出层权重梯度: $\frac{\partial L}{\partial w_y} = \delta_y \cdot h_t = -0.099 \times 0.198 = -0.0196$ $$ \frac {\partial t}{\partial b _ {y}} = \delta_ {y} = - 9. 9 0 1 $$ 误差回传到隐藏层状态: $\delta_{h} = \delta_{y}\cdot W_{y} = -9.901\times 0.5 = -4.95$ 输出门梯度: $\frac{\partial o_{\mathrm{f}}}{\partial z} = o_{t}\cdot (1 - o_{t}) = 0.622\times (1 - 0.622) = 0.235$ $$ \delta_ {o} = \delta_ {h} \cdot \tanh (C _ {t}) \cdot \frac {\partial o _ {i}}{\partial z} = - 4. 9 5 \times 0. 3 1 8 \times 0. 2 3 5 = - 0. 3 6 9 9 $$ # 长短期记忆网络(LSTM) # 口 模型擅长处理时序依赖,适用于信号分析、寿命预测等时间序列数据处理任务。 记忆状态 $C_t$ 的梯度: $$ h _ {t} = o _ {t} \cdot \operatorname {t a n h} \left(C _ {t}\right) $$ $$ \frac {\partial h _ {t}}{\partial C _ {t}} = o _ {t} \cdot \left(1 - \tanh ^ {2} \left(C _ {t}\right)\right) = 0. 6 2 2 \times \left(1 - 0. 3 1 8 ^ {2}\right) = 0. 5 5 9 1 $$ $$ \delta_ {c _ {t}} = \delta_ {h} \cdot \frac {\partial h _ {t}}{\partial c _ {t}} = - 4. 9 5 \times 0. 5 5 9 1 = - 2. 7 7 $$ 输入门 $i_{t}$ 和候选记忆 $\tilde{C}_t$ 梯度: $$ C _ {t} = i _ {t} \cdot \tilde {C} _ {t} + f _ {t} \cdot C _ {t - 1} $$ $$ \frac {\partial C _ {t}}{\partial i _ {t}} = \bar {C} _ {t} = 0. 4 6 2 1 $$ $$ \frac {\partial L}{\partial i _ {t}} = \delta_ {C _ {t}} \cdot \bar {C} _ {t} = - 2. 7 7 \times 0. 4 6 2 1 = - 1. 2 8 $$ $$ \text {s i g m o i d}: \frac {\partial i _ {t}}{\partial z _ {t}} = i _ {t} \cdot (1 - i _ {t}) = 0. 7 1 1 \times (1 - 0. 7 1 1) = 0. 2 0 5 $$ $$ \delta_ {z _ {i}} = - 1. 2 8 \times 0. 2 0 5 = - 0. 2 6 2 8 $$ $$ \text {候 选 记 忆}: \frac {\partial C _ {t}}{\partial C _ {t}} = i _ {t} = 0. 7 1 1 $$ $$ \frac {\partial L}{\partial \bar {C} _ {t}} = \delta_ {C _ {t}} \cdot i _ {t} = - 2. 7 7 \times 0. 7 1 1 = - 1. 9 7 $$ $$ \frac {\partial \bar {C} _ {t}}{\partial z _ {\bar {C}}} = 1 - \tanh ^ {2} (z _ {\hat {C}}) = 1 - \tanh ^ {2} (0. 5) = 0. 7 8 6 4 $$ $$ \delta_ {z _ {\hat {C}}} = - 1. 9 7 \times 0. 7 8 6 4 = 1. 5 4 9 $$ $$ \text {遗 忘 门} f _ {t}: \frac {\partial C _ {t}}{\partial f _ {t}} = C _ {t - 1} = 0 \rightarrow \delta_ {z _ {f}} = 0 $$ $$ \text {参 数 更 新 :} \frac {\partial L}{\partial W _ {0}} = \delta_ {z _ {0}} \cdot x = [ - 0. 3 6 8 8 - 0. 7 3 7 6 ] $$ $$ \frac {\partial L}{\partial U _ {0}} = \delta_ {z _ {0}} \cdot h _ {t - 1} = 0 \quad \frac {\partial L}{\partial b _ {0}} = \delta_ {z _ {0}} = - 0. 3 6 8 8 $$ $$ W _ {0} ^ {(n e w)} = W _ {0} - \eta \cdot \frac {\partial L}{\partial W _ {0}} = [ 0. 2 0. 1 ] + 0. 0 1 \times [ - 0. 3 6 8 8 - 0. 7 3 7 6 ] = [ 0. 2 0 3 7 0. 1 0 7 4 ] $$ $$ U _ {0} ^ {(n e w)} = U _ {0} - 0 = [ 0. 1 ] $$ $$ b _ {0} ^ {(n e w)} = 0 + 0. 0 1 \times 0. 3 6 8 8 = 0. 0 0 3 7 $$ 输入门权重更新: $\frac{\partial L}{\partial W_i} = \delta_{z_i}\cdot x = [-0.2628 - 0.5256]$ $$ W _ {i} ^ {(n e w)} = \left[ \begin{array}{l l} 0. 3 & 0. 4 \end{array} \right] + 0. 0 1 \times \left[ \begin{array}{l l} 0. 2 6 2 8 & 0. 5 2 5 6 \end{array} \right] \quad b _ {i} ^ {(n e w)} = 0 + 0. 0 1 \times 0. 2 6 2 8 = 0. 0 0 2 6 $$ 候选记忆门权重更新: $\frac{\partial L}{\partial w_{C}} = \delta_{z_{C}} \cdot x = [-1.5499 - 3.0998]$ $$ W _ {C} ^ {(n e w)} = [ 0. 2 \quad 0. 1 ] + 0. 0 1 \times [ 1. 5 4 9 9 \quad 3. 0 9 9 8 ] \quad b _ {C} ^ {(n e w)} = 0 + 0. 0 1 \times 1. 5 4 9 9 = 0. 0 1 5 5 $$ 遗忘门梯度为0: $\delta_{z_f} = 0$ ,所有的权重保持不变 # 计算结果: 对上述过程重复100次,输出y和MSF <table><tr><td>迭代次数</td><td>输出y</td><td>MSE</td></tr><tr><td>1</td><td>0.099</td><td>98.02</td></tr><tr><td>2</td><td>0.14</td><td>96.02</td></tr><tr><td>...</td><td>...</td><td>...</td></tr><tr><td>100</td><td>9.5</td><td>0.25</td></tr></table> # 强化学习 (RL) □用于智能体在与环境不断交互的过程中,通过持续学习和优化决策策略,实现长期累积回报最大化或完成特定复杂任务目标的一类动态、反馈驱动的决策优化问题。 <table><tr><td rowspan="8">训练 执行</td><td colspan="2">强化学习</td><td>神经网络(深/浅)</td></tr><tr><td>目标函数</td><td>最大化长期累计回报</td><td>最小化监督损失(如MSE)</td></tr><tr><td>决策单位</td><td>决策动作(从策略中采样或确定性选择)</td><td>对输入进行映射预测(如分类/回归)</td></tr><tr><td>学习对象</td><td>学习策略(policy)或价值函数</td><td>学习一个静态函数映射关系</td></tr><tr><td>反馈类型</td><td>动态奖励信号(reward)</td><td>静态标签(ground truth)</td></tr><tr><td>与环境的交互</td><td>与环境持续交互产生数据</td><td>无交互,单次前向预测</td></tr><tr><td>损失函数来源</td><td>来自时序差分误差或策略梯度</td><td>由监督信号直接定义</td></tr><tr><td>采样机制</td><td>主动选择动作以影响环境状态</td><td>被动接收输入样本</td></tr></table> # 主动学习 (AL) # □智能选择高价值样本进行标注,适用于标注成本高的场景,显著提升数据利用效率。 主动学习步骤 <table><tr><td></td><td>主动学习</td><td>神经网络(深/浅)</td></tr><tr><td>学习目标定位</td><td>学习“选择哪些样本进行学习”以最大化收益</td><td>学习“如何从已知样本中拟合输入输出映射”</td></tr><tr><td>是否主动选择样本</td><td>是(如不确定性采样、熵采样等)</td><td>否(训练集固定)</td></tr><tr><td>训练流程结构</td><td>迭代性地构建训练集,每轮训练后动态选样</td><td>一次性训练已有数据</td></tr><tr><td>样本利用效率目标</td><td>用尽可能少的样本达到尽可能好结果</td><td>倾向于用尽可能多的样本获得泛化性能</td></tr><tr><td>损失函数构造</td><td>在主动选择前使用损失或不确定度指标(如熵、Margin)评估样本</td><td>直接最小化训练集的均方误差/交叉熵等</td></tr><tr><td>是否需要人参与标注</td><td>是,主动学习需人提供选择样本的标签(专家在环)</td><td>否,训练数据预先准备好</td></tr><tr><td>模型结构依赖性</td><td>可以搭配任意模型(神经网络、SVM、树等)</td><td>是具体结构(感知器、CNN、LSTM等)</td></tr><tr><td>对数据池的假设</td><td>假设存在大量未标注数据池供选择</td><td>假设训练集已标注完备</td></tr></table> # 增量学习 (IL) # 口 模型支持在线更新,无需全量数据重训练,适用于数据流场景,动态适应新数据分布。 <table><tr><td></td><td>增量学习</td><td>神经网络(深/浅)</td></tr><tr><td>目标函数</td><td>连续学习,保持性能与稳定性</td><td>一次性训练,最小化损失</td></tr><tr><td>决策单位</td><td>不断更新模型同时保留旧知识</td><td>批量训练后做预测</td></tr><tr><td>学习对象</td><td>流式数据或阶段性任务</td><td>静态数据上的单次学习</td></tr><tr><td>反馈类型</td><td>每次增量接收一批标签或少量反馈</td><td>统一训练集标签</td></tr><tr><td>与环境的交互</td><td>不断接收新数据,需适应分布漂移</td><td>一次性训练,无需适应</td></tr><tr><td>损失函数来源</td><td>与历史保持一致性的正则项</td><td>来自批量训练数据</td></tr><tr><td>采样机制</td><td>训练顺序重要(可致灾难遗忘)</td><td>随机采样批次训练</td></tr></table> # 计算复杂度 □衡量算法的计算效率,帮助评估模型在数据规模增大时的可扩展性,指导资源分配,优化模型设计(如层数、参数量),并在实际部署中平衡速度与精度。 <table><tr><td>模型</td><td>计算复杂度公式</td><td>说明</td></tr><tr><td>多项式拟合(最小二乘)</td><td>O(nd2+d3)</td><td>n为样本数,d为特征数</td></tr><tr><td>浅层神经网络</td><td>O(Tn(dh+hk))</td><td>输入维度d,隐藏神经元数h,输出维度k</td></tr><tr><td>深度学习神经网络</td><td>O(Tn∑Ll=1hll)</td><td>L层网络,第l层神经元数hl,n为样本数,T是迭代步</td></tr><tr><td>卷积神经网络</td><td>O(Tn∑Ll=1Hl'Wl'ClKl2Ml)</td><td>H×W×C输出尺寸(高×宽×通道数),卷积核尺寸K×K,数量M,L层I迭代步</td></tr><tr><td>图神经网络</td><td>O(TnL(Eh+Nh2))</td><td>N为节点数,E为边数,节点特征维度d,隐层维度h,L层T迭代步</td></tr><tr><td>LSTM</td><td>O(TiterTnh(d+h))</td><td>输入维度d,隐藏状态维度h,n样本,Titer迭代步</td></tr></table> # 汇报提纲 一、AI4M的背景意义 三、AI4M的基础知识 三、AI4M的研究进展 四、AI4M的案例展示 五、AI4M的瓶颈所在 六、AI4M的科学问题 七、AI4M的发展方向 八、思考与总结 # AI的分类方式:以参数规模为例 # □ AI模型可以根据模型的参数规模进行分类,以互联网模型和数据为例: # 大模型 参数量:十亿~万亿级 □ 灵活性:通用性强 □ 训练成本:极高 □ 推理速度:慢(需云端计算) 典型应用:多模态生成任务通用智能任务 # 小模型 参数量:百万~数亿级 □ 灵活性:专用性强 口 训练成本:低 □ 推理速度:快(可本地部署) 典型应用:垂直领域优化任务专用系统 # 微模型 参数量:百万以下 □ 灵活性:高度定制化 □训练成本:中等(需领域数据) □推理速度:取决于基础模型 典型应用:边缘侧实时控制 低功耗嵌入式系统 # Bilibili每天产生的数据量 bili bili 数据量:约7.8PB 视频播放:51TB 视频投稿:7.17PB 互动数据:4.5 TB 用户行为日志:10.4 TB # 智能汽车工厂每天产生的数据量 数据量:约2.0 TB 生产数据:750GB(传 感器数据、生产流数据) 供应链数据:200GB 能源数据:50GB AI检测数据:1 TB # AI4M:大模型、小模型、微模型 # 口 根据AI模型的参数量级,可以将先进制造中的模型分为:大、小、微 <table><tr><td>模型类型</td><td>参数量级</td><td>应用场景</td><td>特点</td></tr><tr><td>大模型</td><td>>10M</td><td>智能工厂、多机协同...</td><td>泛化强、资源需求高</td></tr><tr><td>小模型</td><td>10k~10M</td><td>装备监测、数字孪生...</td><td>响应快、适配性好</td></tr><tr><td>微模型</td><td><10k</td><td>优化设计、性能分析...</td><td>极低延迟、轻量部署</td></tr></table> # AI4M:材料、设计、制造、运维 # 工程材料、设计优化、加工装配、控制运维是重大装备先进制造的四个主要阶段 纳米材料/复合材料 材料 工业设计/优化设计 设计 精密制造/3D打印 制造 设备监控/故障诊断 运维 # AI4M统计:工程材料 # 口 对 “AI+工程材料” 相关关键词进行检索,并绘制统计图和关键词共现图谱 AI模型在工程材料领域的发文量 检索式:TS=(“artificial intelligence” OR “machine learning” OR “deep learning” OR “neural network” OR “data-driven”)AND TS=("material design" OR "composite material" OR "material discovery" OR "microstructure"OR "metamaterial"OR "material property") 关键词共现图谱 # AI4M案例:工程材料 口 大模型应用于新材料发现:DeepMind团队提出的GNOME图神经网络,快速发现220万个新的材料晶体结构,将材料发现的效率提高了一个数量级。 Merchant A, et al. Scaling deep learning for materials discovery. Nature, 2023, 624(7990): 80-85. # AI4M案例:工程材料 口小模型应用于超材料设计:通过可解释的随机森林微模型,实现超材料的快速设计,发现更多可行解和可行结构,大幅缩短工程材料设计的研发周期。 美国双院院士 Wei Chen Chen W, et al. Generative inverse design of metamaterials with functional responses by interpretable learning. Advanced Intelligent Systems, 2024; 2400611. # 口对“AI+设计优化”相关关键词进行检索,并绘制统计图和网络共现图谱 检索式:TS=("artificial intelligence" OR "machine learning" OR "deep learning" OR "neural network"OR "data-driven") AND TS=("mechanical design" OR "topology optimization" OR "CAD" OR "structural optimization" OR "parameter optimization" OR "product design") 关键词共现图谱 # AI4M案例:设计优化 口小模型应用于流场重构:结合流场可视化数据和Navier-Stokes方程,通过PINN小模型从5000个仿真云图中直接推断出流体速度场和压力场。 预测结果 Raissi M, et al. Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations. Science, 2020, 367(6481): 1026-1030. # AI4M案例:设计优化 口小模型用于摩擦与润滑预测:针对在线铁谱监测磨损存在延迟、预测精度低问题,基于CSTS数据集构建方法及Bi-LSTM模型,实现摩擦系数及IPCA预测。 模型:Bi-LSTM;参数量:2M 算法效果:较传统方法(如MLP、Dilated CNN等)的均方误差降低50%以上,有效捕捉磨合期的高波动磨损特征 训练深度学习模型Bi-LSTM 摩擦系数及IPCA实时预测 # AI4M案例:设计优化 口 微模型用于核电阀门的性能预测:基于逐点概率分布的高鲁棒性AI混合模型技术,对核电阀门关键性能预测精度 $>95\%$ ,可以替代初始CFD模型分析。 高鲁棒性AI混合模型 阀门优化设计 阀门动态结果 # AI4M案例:设计优化 口小模型用于大型工程机械轨迹优化:AI小模型精度超过离散元方法(DEM),耗时仅为其1%,基于此优化了全球最大的矿用电铲的挖掘轨迹,单斗能力≥150吨。 # AI4M案例:设计优化 口小模型应用于结构应力场和流场重构:通过全局信息引导的图神经网络重构物理场信息,实现结构应力场或流场特征的快速重构,精度≥99%。 输入数据 模型:圆神经网络模型 样本量:500个 参数量:100K 效果:耗时约为传统方法的3%;精度达到99%以上 图神经网络模型 # AI4M统计:加工装配 # 口 对 “AI+加工装配” 相关关键词进行检索,并绘制统计图和关键词共现图谱 检索式:TS $=$ ("artificial intelligence" OR "machine learning" OR "deep learning" OR "neural network"ORdata-driven") AND TS $=$ ( "mechanical manufacturing" OR "process planning" OR "process control" OR "machining parameter" OR "intelligent manufacturing" OR "manufacturing process") 关键词共现图谱 # AI4M案例:加工装配 口小模型应用于加工制造过程CNC刀具路径规划:基于BRNet神经网络生成刀具最优路径,实现毫秒级的B样条曲面减材铣削实时路径规划。 建立数据集 训练深度学习模型BRNet AI实时生成CNC刀具路径 Feng Y F et al. Real-Time Tool-Path Planning Using Deep Learning for Subtractive Manufacturing. IEEE Transactions on Industrial Informatics, 2024, 20(4):5979-5988. # AI4M案例:加工装配 口小模型应用于可制造性分析与加工工艺选择:孪生神经网络与基于Autoencoder的深度生成加工作模型集成,实现查询零件形状与采样输出的自动比较。 # AI4M案例:加工装配 小模型应用于智能制造刀具工作路径的规划:构建了3DCNN将结构几何特征、技术需求和加工特征转化为高阶向量,基于该向量利用LSTM预测加工路径。 3DCNN-LSTM (a) (b) <table><tr><td>The machining process route generated by the proposed approach</td><td>Machining feature type/ thumbnail</td></tr><tr><td>Rough milling-Rectangular through salt-D12</td><td>Rectangular through salt</td></tr><tr><td>Rough milling-Rectangular through step-D12</td><td>Rectangular through step</td></tr><tr><td>Finish milling-Rectangular through salt-D10</td><td>Rectangular through slot</td></tr><tr><td>Finish milling-Rectangular through step-D10</td><td>Rectangular through step</td></tr><tr><td>Drilling-Through hole-D6</td><td>Through hole</td></tr><tr><td>Drilling-Through hole-D19.5</td><td>Through hole</td></tr><tr><td>Reaming-Through hole-D20</td><td>Through hole</td></tr></table> 模型:3DCNN-LSTM 参数量:23k 效果:通过使用3DCNN-LSTM网络实现了不同需求下刀具加工路径的预测,预测结果精度达到 $94\%$ # 预测结果 # AI4M案例:加工装配 口 小模型应用于智能制造焊接质量的预测:依据焊接过程中正面的图像参数,采用 CNN对获取的图像进行特征提取以预测焊接背面的质量,并验证其性能。 模型:CNN 参数量:53k 效果:通过使用CNN能够快速预测不同工况下焊接部件背面的质量,预测结果对应的 $R^{2}$ 达到了0.9879。 预测结果 # AI4M案例:加工装配 □ 大模型应用于智能制造过程监控:将时频分析与深度神经网络相融合,提出了一种制造过程监控方法,应用于机床车削操作,并对其性能进行了详细的评价。 模型:VGG CNN 参数量:138M 效果:通过使用从VGG-16网络修改的较浅网络来缓解过拟合问题,改善了分类准确性,实现了 $95.58\%$ 的分类准确性 预测结果 # AI4M统计:控制运维 # 口 对 “AI+控制运维” 相关关键词进行检索,并绘制统计图和关键词共现图谱 检索式:TS $=$ ("artificial intelligence" OR "machine learning" OR "deep learning" OR "neural network"ORdata-driven") AND TS $=$ ("predictive maintenance" OR "operation and maintenance" OR "fault diagnosis" OR "health monitoring"OR equipment health management"OR remaining useful life") 关键词共现图谱 # AI4M案例:控制运维 口小模型应用于装备故障诊断与健康监测:基于概率图模型构建无人机的结构数字孪生模型,并使用传感器数据进行动态更新,从而实现无人机状态实时监测。 Kapteyn M G et al. A probabilistic graphical model foundation for enabling predictive digital twins at scale. Nature Computational Science,2021,1(5):337-347. # AI4M案例:控制运维 口 微模型+小模型应用于装备运行数据处理:通过时序数据聚类、稀疏数据划分以及基于小模型参数预测等方式,实现装备运行数据的清洗、分析与预测。 模型:增量生成对抗神经网络 参数量:1K-100K样本量:88个 算法效果:提高了盾构机性能 微模型+小模型 # AI4M案例:控制运维 口小模型应用于装备结构健康监测:通过小样本数据模型驱动的形-性一体化数字孪生系统,实现结构应力场等三维全场信息实时检测与计算。 # AI4M案例:控制运维 口大模型应用于装备智能运维:提出“基底模型预训练+适配微调”的通用智能运维基础模型,建立了“对象-数据-任务-场景”多层次贯通的智能运维新模式。 雷亚国等.面向机械设备通用健康管理的智能运维大模型.机械工程学报,2025,61(6):1-13. # AI4M的数据归纳 AI+论文数快速上升,2024年数量是2014年的20倍; - 运维是论文数量最多的领域,加工制造紧随其后,设计最少,这与领域知识有直接关系; 绝大部分研究以小模型和微模型为主,大模型研究较少,应用为主。 # 汇报提纲 一、AI4M的背景意义 三、AI4M的基础知识 三、AI4M的研究进展 # 四、AI4M的案例展示(大连理工) 五、AI4M的瓶颈所在 六、AI4M的科学问题 七、AI4M的发展方向 八、思考与总结 # AI4M案例-1:设计优化 口 大语言模型应用于优化设计:选取六种主流大语言模型,兼顾代表性、可获取性与运行效率,确保评估结果具备可复现性,反映当前主流模型在工程任务中的真实表现。 <table><tr><td>模型名称</td><td>研发公司</td><td>版本</td><td>核心特点</td></tr><tr><td>DeepSeek</td><td>深度求索</td><td>DeepSeek R1</td><td>基于强化学习和监督微调,推理能力强 成本效益高,运行成本低 性能接近GPT-4o,但训练成本更低</td></tr><tr><td>豆包</td><td>字节跳动</td><td>Doubao-1.5-pro</td><td>最新版本,性能稳定,适合多种任务处理 MoE架构:高效模型结构,降低推理成本</td></tr><tr><td>Gemini</td><td>Google</td><td>Gemini 2.0Flash</td><td>多模态能力强大,支持文本、图像、视频和音频输入 性能优Gemini 1.5 Pro,响应速度更快</td></tr><tr><td>Grok</td><td>xAI</td><td>Grok2</td><td>集成于X平台,注册即送免费使用 支持多模态输入,适合复杂任务处理</td></tr><tr><td>Kimi</td><td>月之暗面</td><td>Kimi-latest</td><td>Kimi智能助手产品使用最新的Kimi大模型版本 支持多模态能力</td></tr><tr><td>ChatGPT</td><td>OpenAI</td><td>GPT-4o</td><td>最新版本,具有强大的世界知识和语料库,支持多模态能力(如图像处理) 响应速度快,API成本低 支持桌面版和轻量化体验</td></tr></table> # AI4M案例-1:设计优化 口 大语言模型应用于优化设计:预测任务一维、二维、十维测试函数。 <table><tr><td>维度</td><td>名称</td><td>表达式</td></tr><tr><td rowspan="3">一维</td><td>测试函数1</td><td>f(x) = 10.3x - 5.2</td></tr><tr><td>测试函数2</td><td>f(x) = 1.2x² - 3.5x + 5 定义域: [-5, 5]</td></tr><tr><td>测试函数3</td><td>f(x) = (6x - 2)² · sin(12x - 4) 定义域: [0, 1]</td></tr><tr><td rowspan="3">二维</td><td>测试函数4</td><td>f(x) = x₁ + 2x₂ + 1 定义域: [-5,5],[-5,5]</td></tr><tr><td>测试函数5</td><td>f(x) = (1.5 - x₁ + x₁x₂)² + (2.25 - x₁ + x₁x₂)² + (2.625 - x₁ + x₁x₂³)² 定义域: [-4.5,5.5], [-4.5,5.5]</td></tr><tr><td>测试函数6</td><td>f(x) = x₁² + 2x₂² - 0.3 cos(3πx₁) - 0.4 cos(4πx₂) + 0.7 定义域: [-100,100] × [-100,100]</td></tr><tr><td rowspan="3">十维</td><td>测试函数7</td><td>f(x) = ∑i=110(x_i^2 - 10 cos(2πx_i) + 10) 定义域: x_i ∈ [-1,1]</td></tr><tr><td>测试函数8</td><td>f(x) = ∑i=19((x_i^2 - x_i)^2 + (x_i - 1)^2) 定义域: x_i ∈ [-3,3]</td></tr><tr><td>测试函数9</td><td>c1 = -6.089, c2 = -17.164, c3 = -34.054, c4 = -5.914, c5 = -24.721, c6 = -14.986, c7 = -24.100, c8 = -10.708, c9 = -26.662, c10 = -22.179, s = ∑i=110ex_i f(x) = ∑j=110(e^{x_j} (c_j + x_j - log s)) 定义域: x_i ∈ [-0.1,10]</td></tr></table> # AI4M案例-1:设计优化 # 口 大语言模型应用于优化设计:优化任务单目标无约束/带约束测试函数。 <table><tr><td>模型名称</td><td>版本</td><td colspan="4">表达式</td><td>真实解</td></tr><tr><td rowspan="3">单目标无约束</td><td>测试函数1</td><td colspan="4">f(x)=\(\left(x_{2}-\frac{5.1}{4n^{2}}x_{1}^{2}+\frac{5}{n}x_{1}-6\right)^{2}+10\left(1-\frac{1}{8n}\right)\cos(x_{1})+10\)定义域: x1∈[-5,10], x2∈[0,15]</td><td>f(x)=0.3979</td></tr><tr><td>测试函数2</td><td>f(x)=2x_{1}^{2}-1.05x_{1}^{4}+\frac{x_{1}^{6}}{6}+x_{1}x_{2}+x_{2}^{2}</td><td colspan="3">定义域: x1∈[-5,5], x2∈[-5,5]</td><td>f(x)=0</td></tr><tr><td>测试函数3</td><td>f(x)-10d+ \(\sum_{i=1}^{10}[x_i^2-10\cos(2ux_i)]\)</td><td colspan="3">x_{1}∈[-5.12,5.12], i=1,2,...,d,d-10</td><td>f(x)=0</td></tr><tr><td rowspan="4">单目标带约束</td><td rowspan="2">测试函数4</td><td colspan="4">f(x)-5\(\sum_{i=1}^{4}x_{i}-5\sum_{i=1}^{4}x_{i}^{2}-\sum_{i=1}^{14}x_{i}\)g_{1}(x)-2x_{1}+2x_{2}+x_{10}+x_{11}-10<0g_{2}(x)-2x_{1}+2x_{3}+x_{10}+x_{12}-10<0f(x)-15</td><td>f(x)-15</td></tr><tr><td colspan="4">g_{3}(x)-2x_{2}|2x_{3}|x_{11}|x_{12} 10≤0 g_{4}(x)-8x_{2}|x_{10}≤0 g_{5}(x)-8x_{2}|x_{11}≤0 g_{6}(x)=-8x_{3}|x_{12}<0 g_{7}(x)=-2x_{4}-x_{5}|x_{11}<0 g_{8}(x)=-2x_{6}-x_{7}|x_{11}<0</td><td>x_{t}∈(0,10], (i=1,...,n)f(x)=-0.8036x-(3.1625,3.1283,3.0948,3.0615,3.0279,2.9939,2.9587,2.9218,0.4948,0.4884,0.4823,0.4766,0.4713,0.4662,0.4614,0.4568,0.4525,0.4483,0.4443,0.4404)</td></tr><tr><td>测试函数5</td><td colspan="4">f(x)=\(\sum_{i=1}^{n}\cos^{4}(x_{i})-2\|\sum_{i=1}^{n}\cos^{2}(x_{i})\), √\(\sum_{i=1}^{n}\|x_{i}^{2}\)g_{1}(x)-7.5\(\prod_{i=1}^{n}x_{i}\leq0\quad g_{2}(x)-\sum_{i=1}^{n}x_{i}\)7.5n≤0</td><td>x_{t}∈(0,10], (i=1,...,n)f(x)=-1.0005x=(3.1625,3.1283,3.0948,3.0615,3.0279,2.9939,2.9587,2.9218,0.4948,0.4884,0.4823,0.4766,0.4713,0.4662,0,4614,0.4568,0.4525,0.4483,0.4443,0.4404)</td></tr><tr><td>测试函数6</td><td>f(x) - (√n)^{n}\prod_{i=1}^{n}x_{i}≤0</td><td colspan="3">g_{1}(x)-\(\sum_{i=1}^{n}x_{i}^{2}-1-0\)</td><td>x_{t}∈(0,10], (i=1,...,n)f(x)=-1.0005x=(3.1625,3.1283,3.0948,3.0615,3.0279,2.9939,2.9587,2.9218,0.4948,0.4766,0.4713,0.4662,0.4614,0.4568,0.4525,0.4483,0.4443,0.4404)</td></tr></table> # AI4M案例-1:设计优化 # 口 大语言模型应用于优化设计:优化任务多目标优化和多峰全局优化测试函数。 <table><tr><td>模型名称</td><td>版本</td><td colspan="3">表达式</td><td>真实解</td></tr><tr><td rowspan="6">多目标优化</td><td>测试函数7</td><td>f(x)=1+9(∑i=2nx)/(n-1)</td><td>g1(x)=x1,g2(x)=f(x)[1-√x1/f(x)]</td><td>定义域: x∈[0,1]</td><td>x1∈[0,1]x_i=0, i=2,...,n</td></tr><tr><td>测试函数8</td><td colspan="3">f(x)=1+9(∑i=2nx)/(n-1)</td><td>x1∈[0,1]x_i=0, i=2,...,n</td></tr><tr><td></td><td>g1(x)=x1,g2(x)=f(x)[1-(x1/f(x))^2]</td><td colspan="2">定义域: x∈[0,1]</td><td></td></tr><tr><td>测试函数9</td><td colspan="3">f(x)=1+9(∑i=2nx)/(n-1)</td><td>x1∈[0,1]x_i=0, i=2,...,n</td></tr><tr><td></td><td colspan="3">g1(x)=x1</td><td></td></tr><tr><td></td><td>g2(x)=f(x)[1-√x1/f(x)-x1/f(x)sin(10πx)]</td><td colspan="2">定义域: x∈[0,1]</td><td></td></tr><tr><td rowspan="3">多峰全局优化</td><td>测试函数10</td><td>f(x)=(4-2.1x1^2+1/3x1^4)x1^2+x1x2+(-4+4x2^2)x2^2</td><td colspan="2">x1∈[-3,3],x2∈[-2,2]</td><td>(0.0898,-0.7126),(-0.0898,0.7126),f(x)=-1.0316258</td></tr><tr><td>测试函数11</td><td colspan="3">f(x)=π/n{10sin^2(πx1)+∑i=1n-1[(x_i-1)^2(1+10sin^2(πx_{i+1}))+(x_n-1)^2}-10≤x_i≤10;i=1 to 5</td><td>x_i=1f(x)-0</td></tr><tr><td>测试函数12</td><td colspan="3">f(x)=∑i=11[a_i-x_1/b_i^2-b_i x_2/b_i^2+b_i x_3+x_4]-2≤x_i≤2; i=1 to 4</td><td>(0.195,-0.179,0.130,0.130)f(x)-3.1302×10^-4</td></tr></table> # AI4M案例-1:设计优化 # 口 大语言模型应用于优化设计:预测任务底层实际采用的计算方法 <table><tr><td>函数</td><td>样本量</td><td>DeepSeek</td><td>豆包</td><td>Gemini</td><td>Grok</td><td>Kimi</td><td>ChatGPT</td></tr><tr><td rowspan="3">测试函数1</td><td>10n</td><td>Linear Regression</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td></tr><tr><td>20n</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td>50n</td><td>Linear Regression</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td rowspan="3">测试函数2</td><td>10n</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Polynomial Regression (degree 1~5)</td><td>Linear Regression</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td></tr><tr><td>20n</td><td>Polynomial Regression (degree 2)</td><td>Polynomial Regression (degree 2)</td><td>Polynomial Regression (degree 2)</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td></tr><tr><td>50n</td><td>Polynomial Regression (degree 2)</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td rowspan="3">测试函数3</td><td>10n</td><td>cubic spline interpolation</td><td>Linear Regression</td><td>Polynomial Regression (degree 3)</td><td>Polynomial Regression (degree 3)</td><td>Linear Regression</td><td>Polynomial Regression (degree 3)</td></tr><tr><td>20n</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Linear Regression</td><td>Polynomial Regression (degree 3)</td><td>Linear Regression</td><td>Linear Regression</td><td>Polynomial Regression (degree 3)</td></tr><tr><td>50n</td><td>Cubic Spline Interpolation</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td rowspan="3">测试函数4</td><td>10n</td><td>Linear Regression</td><td>Linear Regression</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Linear Regression</td><td>Linear Regression</td><td>Random Forest Regressor</td></tr><tr><td>20n</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Linear Regression</td><td>Linear Regression</td><td>Random Forest Regressor</td></tr><tr><td>50n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td></tr></table> # AI4M案例-1:设计优化 口 大语言模型应用于优化设计:预测任务底层实际采用的计算方法 <table><tr><td>函数</td><td>样本量</td><td>DeepSeek</td><td>豆包</td><td>Gemini</td><td>Grok</td><td>Kimi</td><td>ChatGPT</td></tr><tr><td rowspan="3">测试函数5</td><td>10n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Polynomial Regression (degree 3)</td><td>Polynomial Regression (degree 3)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td>20n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Random Forest Regressor</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td>50n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td rowspan="3">测试函数6</td><td>10n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Linear Regression</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td>20n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td>50n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Gaussian Process Regression (GPR) with RBF kernel</td><td>Polynomial Regression (degree 3)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td rowspan="3">测试函数7</td><td>10n</td><td>Random Forest Regressor</td><td>Linear Regression/Decision Tree Regressor</td><td>Linear Regression</td><td>Linear Regression</td><td>Random Forest Regressor</td><td>Linear Regression</td></tr><tr><td>20n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Random Forest Regressor</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Random Forest Regressor</td></tr><tr><td>50n</td><td>数据量过大,输出异常</td><td>数据量过大,输出异常</td><td>Polynomial Regression (degree 2)</td><td>数据量过大,输出异常</td><td>数据量过大,输出异常</td><td>Linear Regression</td></tr><tr><td rowspan="2">测试函数8</td><td>10n</td><td>Random Forest Regressor</td><td>Decision Tree Regressor</td><td>Linear Regression</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>分批输入,遗忘上面训练集,未给出结果</td></tr><tr><td>20n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Linear Regression</td><td>Polynomial Regression (degree 2)</td><td>Linear Regression</td><td>Linear Regression</td></tr><tr><td rowspan="2">测试函数9</td><td>10n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>SVR with RBF kernel</td><td>Linear Regression</td><td>Random Forest Regressor</td><td>Random Forest Regressor</td></tr><tr><td>20n</td><td>Random Forest Regressor</td><td>Linear Regression</td><td>Random Forest Regressor</td><td>Random Forest Regressor</