transformer

【原创】AIGC之ChatGPT工作原理

AIGC是什么 AIGC – AI Generated Content （AI生成内容），对应我们的过去的主要是 UGC（User Generated Content）…

xiaoxingxing
IT 2024年1月3日
3300
调用openai 的文生图功能，用中文制作图片

通过今天学习 OpenAI API，你将能够访问 OpenAI 的强大模型，用于创建和编辑原始图像的 DALL-E。这篇文章的例子将用Pyhon编写。 1、生成 API 密钥在…

心中带点小风骚
IT 2023年12月29日
3700
使用QLoRA对Llama 2进行微调的详细笔记

使用QLoRA对Llama 2进行微调是我们常用的一个方法，但是在微调时会遇到各种各样的问题，所以在本文中，将尝试以详细注释的方式给出一些常见问题的答案。这些问题是特定于代码的，大…

乘风
IT 2023年12月29日
4300
加速attention计算的工业标准：flash attention 1和2算法的原理及实现

transformers目前大火，但是对于长序列来说，计算很慢，而且很耗费显存。对于transformer中的self attention计算来说，在时间复杂度上，对于每个位置，模…

乘风
IT 2023年12月27日
3600
LLaMA-2论文阅读

1. 基本介绍 LLaMA-2是2023年7月24日Meta发布的LLaMA第二代，跟LLaMA-1几个显著区别: 免费可商用版本的大模型 context上下文增加了一倍，从2K变…

xiaoxingxing
IT 2023年12月23日
5100
MAMBA介绍：一种新的可能超过Transformer的AI架构

有人说，“理解了人类的语言，就理解了世界”。一直以来，人工智能领域的学者和工程师们都试图让机器学习人类的语言和说话方式，但进展始终不大。因为人类的语言太复杂，太多样，而组成它背后的…

扎眼的阳光
技术文章 2023年12月20日
7300
【Transformer】Transformer 网络解析（Self-Attention 、Multi-Head Attention、位置编码、Mask等）

【Transformer】Transformer 网络解析（Self-Attention 、Multi-Head Attention、位置编码、Mask等）文章目录【Trans…

扎眼的阳光
技术文章 2023年12月14日
7500
transformer概述和swin-transformer详解

目录 1.transformer架构transformer的整体网络架构如下：其中具体分为：输入，输出，编码器，解码器输入：源文本嵌入层+位置编码目标文…

xiaoxingxing
技术文章 2023年12月14日
4900
LLM各层参数详细分析（以LLaMA为例）

网上大多分析LLM参数的文章都比较粗粒度，对于LLM的精确部署不太友好，在这里记录一下分析LLM参数的过程。首先看QKV。先上transformer原文也就是说，当h（head…

乘风
IT 2023年12月14日
4600
大模型微调踩坑记录 – 基于Alpaca-LLaMa+Lora

前言为了使用开放权重的LLM(大语言模型)，基于自己的训练集，微调模型，会涉及到如下一些技术要点：配置运行环境下载、加载基础模型收集语料、微调训练检验训练效果在实施过程…

乘风
IT 2023年12月14日
6300