transformer

【文生视频】Diffusion Transformer：OpenAI Sora 原理、Stable Diffusion 3 同源技术

文生视频 Diffusion Transformer：Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构提出背景输入输出生成流程变换器的…

xiaoxingxing

IT 2024年4月1日

5000

LLaMA 模型中的Transformer架构变化

目录 1. 前置层归一化（Pre-normalization） LLaMA模型采用了前置层归一化策略，这意味着在每个子层（自注意力层和前馈网络）的输入之前进行层归一化。这与…

扎眼的阳光

IT 2024年4月1日

2400

AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析

AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析学习前言源码下载地址网络构建一、什么是Diffu…

社会演员多

IT 2024年4月1日

2800

【论文阅读】Mamba：具有选择状态空间的线性时间序列建模

Mamba: Linear-Time Sequence Modeling with Selective State Spaces Mamba：基于选择状态空间的线性时间序列建模论…

扎眼的阳光

IT 2024年4月1日

1700

AIGC实战——Transformer模型

AIGC实战——Transformer模型 0. 前言 1. T5 2. GPT-3 和 GPT-4 3. ChatGPT 小结系列链接 0. 前言我们在 GPT (Gener…

xiaoxingxing

IT 2024年4月1日

2300

AIGC实战——GPT(Generative Pre-trained Transformer)

AIGC实战——GPT 0. 前言 1. GPT 简介 2. 葡萄酒评论数据集 3. 注意力机制 3.1 查询、键和值 3.2 多头注意力 3.3 因果掩码 4. Transfor…

青葱年少

IT 2024年4月1日

2700

快速上手！LLaMa-Factory最新微调实践，轻松实现专属大模型

1.为什么要对Yuan2.0做微调？ Yuan2.0（https://huggingface.co/IEITYuan）是浪潮信息发布的新一代基础语言大模型，该模型拥有优异的数学…

心中带点小风骚

IT 2024年2月19日

4000

AGI和AIGC傻傻分不清楚，一篇文章带你get

Look！👀我们的大模型商业化落地产品 📖更多AI资讯请👉🏾关注 Free三天集训营助教在线为您火热答疑👩🏼‍🏫 什么是 AGI(人工通用智能)? AGI 是 Artificial…

心中带点小风骚

IT 2024年2月19日

2100

在自定义数据集上微调Alpaca和LLaMA

本文将介绍使用LoRa在本地机器上微调Alpaca和LLaMA，我们将介绍在特定数据集上对Alpaca LoRa进行微调的整个过程，本文将涵盖数据处理、模型训练和使用流行的自然语言…

乘风

IT 2024年1月11日

4900

Swin Transformer详解

继vit之后，进一步证明了Transformer可以在视觉领域广泛应用，并且可以应用到半监督以及自监督中。 Swin Transformer：Hierarchical Visio…

乘风

技术文章 2024年1月11日

6100