当前位置：首页 > news >正文

[07.28学习笔记] Self-attetion Cross-attetion - Luna

news 2025/9/16 10:37:27

Self-Attention

Scaled Dot-Product Attention（缩放点积注意力）：

Self-Attention允许模型在处理一个输入序列时，关注序列内部的每个元素之间的关系。每个元素既作为查询（Query），又作为键（Key）和值（Value），通过计算自身与其他元素的相关性来更新表示

Cross-Attention

Cross-Attention用于建模两个不同序列之间的关系。一个序列提供查询（Query），另一个序列提供键（Key）和值（Value），它通常用于需要融合来自不同数据源或模态的信息的任务
在 Transformer解码器中，查询来自目标语言序列，键-值来自源语言序列（如将“Je t’aime”翻译为“I love you”时对齐“aime”和“love”）

原文

https://blog.csdn.net/qq_41990294/article/details/147746522

http://www.vanclimg.com/news/422.html

相关文章：

【LLM】Transformer各模块PyTorch简单实现Demo

如何在FastAPI中玩转Schema版本管理和灰度发布？

C++ Qt开发QUdpSocket网络通信组件

fhq-treap学习笔记

Bruce Momjian 深圳 meetup 回顾

sqlite3 本地数据库可视化工具

[题解] P5743 【深基7.习8】猴子吃桃

gds 格式文档

微服务学习-02-微服务技术栈整理

JUC线程池: ScheduledThreadPoolExecutor详解

[题解] P5735 【深基7.例1】距离函数

uv命令怎么安装并且让gitlab-runner用户可以执行

NRF54L15 TAMPC — Tamper controller 作用介绍

线上故障的排查清单，运维小哥拿走不谢！

NRF54L15 AAR作用介绍

NRF54L15 CCM功能

恭贺开源之夏 2025 IvorySQL 项目中选学生

自用学习笔记：机器学习入门速览【第三章】

浅谈MCU的启动

KMU — Key management unit 作用

NRF54L15 GRTC 优点；

MS14-019漏洞修复：通过.cmd或.bat文件实现二进制劫持的解决方案

浅谈北京市海淀区七年级下册期末数学试卷T16第二小问

利用Amazon Bedrock生成AI增强设备维护建议

SAP为何将S/4HANA更名为SAP Cloud ERP？

NRF54L15 关机状态功耗；

JUC学习-22-浅谈线程池参数原理

C/C++环境搭建