transformer
-
【原创】AIGC之ChatGPT工作原理
AIGC是什么 AIGC – AI Generated Content (AI生成内容),对应我们的过去的主要是 UGC(User Generated Content)…
-
调用openai 的文生图功能,用中文制作图片
通过今天学习 OpenAI API,你将能够访问 OpenAI 的强大模型,用于创建和编辑原始图像的 DALL-E。 这篇文章的例子将用Pyhon编写。 1、生成 API 密钥 在…
-
使用QLoRA对Llama 2进行微调的详细笔记
使用QLoRA对Llama 2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的,大…
-
加速attention计算的工业标准:flash attention 1和2算法的原理及实现
transformers目前大火,但是对于长序列来说,计算很慢,而且很耗费显存。对于transformer中的self attention计算来说,在时间复杂度上,对于每个位置,模…
-
LLaMA-2论文阅读
1. 基本介绍 LLaMA-2是2023年7月24日Meta发布的LLaMA第二代,跟LLaMA-1几个显著区别: 免费可商用版本的大模型 context上下文增加了一倍,从2K变…
-
MAMBA介绍:一种新的可能超过Transformer的AI架构
有人说,“理解了人类的语言,就理解了世界”。一直以来,人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式,但进展始终不大。因为人类的语言太复杂,太多样,而组成它背后的…
-
【Transformer】Transformer 网络解析(Self-Attention 、Multi-Head Attention、位置编码、Mask等)
【Transformer】Transformer 网络解析(Self-Attention 、Multi-Head Attention、位置编码、Mask等) 文章目录 【Trans…
-
transformer概述和swin-transformer详解
目录 1.transformer架构transformer的整体网络架构如下: 其中具体分为:输入,输出,编码器,解码器 输入:源文本嵌入层+位置编码 目标文…
-
LLM各层参数详细分析(以LLaMA为例)
网上大多分析LLM参数的文章都比较粗粒度,对于LLM的精确部署不太友好,在这里记录一下分析LLM参数的过程。 首先看QKV。先上transformer原文 也就是说,当h(head…
-
大模型微调踩坑记录 – 基于Alpaca-LLaMa+Lora
前言 为了使用开放权重的LLM(大语言模型),基于自己的训练集,微调模型,会涉及到如下一些技术要点: 配置运行环境 下载、加载基础模型 收集语料、微调训练 检验训练效果 在实施过程…