#01
Alpaca/LLaMA(Meta/Stanford)
斯坦福 Alpaca:一个遵循指令的 LLaMA 模型。
以下是基于 Meta 的 LLaMA 项目或斯坦福大学的 Alpaca 项目的复制品或相关项目:在你的设备上本地快速运行一个类似于 ChatGPT 的模型。下面的录屏并未加速,而是实际运行在一台配有 4GB 权重的 M2 MacBook Air 上。这个代码库包含了用低秩适应(LoRA)方法复现斯坦福 Alpaca 结果的代码。我们为树莓派(用于研究)提供了一个与 text-davinci-003 相似质量的 Instruct 模型,并且代码可以轻松地应用于 13b、30b 和 65b 模型。AlpacaGPT4-LoRA-7B-OpenLLaMABaize 是一个使用低秩适应(LoRA)进行微调的开源聊天模型。它利用了由 ChatGPT 自我对话产生的 100,000 个对话数据。同时,我们还使用了 Alpaca 的数据来提高其性能表现。目前已经发布了 7B、13B 和 30B 的模型。为了推动中文 NLP 社区大模型的开放研究,该项目开源了中文 LLaMA 模型和经过指令微调的 Alpaca 大型模型。这些模型在原始 LLaMA 的基础上,扩展了中文词汇表并使用中文数据进行二次预训练,从而进一步提高了对中文基本语义理解的能力。同时,中文 Alpaca 模型还进一步利用中文指令数据进行微调,明显提高了模型对指令理解和执行的能力。GPT4-x-Alpaca 是一个经过 GPT4 对话与 GPTeacher 精细调整的 LLaMA 13B 模型。关于其训练和性能方面的资料相对较少。作为基础模型,采用了 https://huggingface.co/eachadea/vicuna-13b-1.1。对 Teknium 的 GPTeacher 数据集、未发布的 Roleplay v2 数据集、GPT-4-LLM 数据集以及 Nous Research Instruct 数据集进行了微调。大约包含 180,000 条来自 GPT-4 的指令,已清除所有 OpenAI 审查 /“作为 AI 语言模型” 等相关内容。这是一个训练助手式大语言模型的演示,基于 LLaMa,使用约 800k 个 GPT-3.5 Turbo 生成数据。使用 GPTQ 对 LLaMA 进行 4 位量化。GPTQ 是 SOTA 的单次权重量化方法。Koala 是基于 LLaMa 微调的语言模型。这篇文章介绍了下载、恢复 Koala 模型权重以及在本地运行 Koala 聊天机器人的过程。使用纯 C/C++ 实现 LLaMa 模型的推理过程。支持三种模型:LLaMA、Alpaca 和 GPT4AllLLaMA 独立实现,完全开源且遵循 Apache 2.0 许可证。这个实现是在 nanoGPT 的基础上构建的。这是 OpenAlpaca 项目的代码仓库,旨在基于 OpenLLaMA 构建并分享一个指令跟随模型。与 OpenLLaMA 一样,OpenAlpaca 采用 Apache 2.0 许可证进行授权。该仓库包含以下内容:OpenBuddy:面向所有人的开放式多语言聊天机器人OpenBuddy 是一个功能强大的开源多语言聊天机器人模型,旨在为全球用户提供无缝的英语、中文和其他语言的会话 AI 和多语言支持。该模型基于 Facebook 的 LLAMA 模型构建,通过微调扩展了词汇表、增加了常用字符和改进了令牌嵌入。OpenBuddy 利用这些改进和多轮对话数据集提供了一个强大的模型,可以回答各种语言的问题并执行翻译任务。Pygmalion 7B 是一个对话模型,基于 Meta 的 LLaMA-7B 模型构建。这是版本 1。使用 Pygmalion-6B-v8-pt4 数据集的一个子集对模型进行了微调,对于熟悉该项目的人而言,这一点很重要。我们自豪地介绍 StableVicuna,这是第一个通过强化学习从人类反馈中训练的大规模开源聊天机器人(RHLF)。StableVicuna 是 Vicuna v0 13b 的进一步指令微调和 RLHF 训练版本,而 Vicuna v0 13b 则是指令微调的 LLaMA 13b 模型。The Bloke alpaca-lora-65B-GGML对 changusung Alpaca-lora-65B 进行了 4 位和 2 位量化的 GGML 模型,以便在 CPU 上进行推理,同时使用 llama.cpp 实现。The Bloke’s StableVicuna-13B-GPTQ这个代码仓库包含 CarterAI StableVicuna 13B 的 4 位 GPTQ 格式量化模型。这个模型的生成过程首先将上述代码仓库中的增量与原始的 Llama 13B 权重合并,然后使用 GPTQ-for-LLaMa 进行 4 位量化。The Bloke’s WizardLM-7B-uncensored-GPTQ这些文件是 Eric Hartford “未经审查” 的 WizardLM 模型的 GPTQ 4 位模型文件,是使用 GPTQ-for-LLaMa 进行 4 位量化的结果。Eric 使用 WizardLM 方法对经过编辑的数据集进行了新的 7B 训练,该数据集删除了所有 “我很抱歉……” 类型的 ChatGPT 响应。一款开源聊天机器人,能达到 ChatGPT 90% 的能力。这个代码仓库包含使用 Hugging Face 的 PEFT 库提供的低秩适应(LoRA)方法,复现了斯坦福大学 Alpaca 的法语版本的代码。除了 LoRA 技术之外,我们还使用 bitsandbytes 提供的 LLM.int8() 来将预训练语言模型(PLMs)量化为 int8。将这两种技术结合起来,使我们能够在单个消费级 GPU(如 RTX 4090)上微调 PLMs。这是一个使用 Evol-Instruct 技术的指令跟随 LLM 模型,使得大型预训练语言模型能够遵循复杂的指令。
BigCode 是一个开放的科学合作项目,旨在负责任地训练大语言模型,以应用于编码领域。你可以在主要网站上找到更多信息,也可以在 Twitter 上关注 BigCode。
在这个组织中,你可以找到这个合作项目的工件,包括 StarCoder,一个用于编码的最先进的语言模型,The Stack,可用的最大的预训练数据集,包含宽容的代码,以及 SantaCoder,一个参数达到 1.1B 的编码模型。
BigScience大型开放科学开放获取多语言模型。
针对各种 Instruct-Tuning 数据集的低秩适应方法。使用分布式的 176B 参数的 BLOOM 或 BLOOMZ 生成文本,并对其进行微调以适应自己的任务。#04
Cerebras-GPT(Cerebras)
这是一系列开放、计算高效的大语言模型。Cerebras 开源了七个 GPT-3 模型,参数从 1.11 亿到 130 亿不等。这些模型使用了 Chinchilla 公式进行训练,创造了精度和计算效率的新标准。
#05
Flamingo(Google/Deepmind)
使用单一视觉语言模型处理多项任务。
以下是基于 Flamingo 项目的复现或衍生项目:这是 Flamingo 项目的 Pytorch 实现,它是一种最先进的少样本视觉问答注意力网络。该实现包括 Perceiver Resampler(包括学习查询,以供键/值被关注,以及媒体嵌入),专门的掩码交叉注意力块,以及交叉注意力末端的 tanh 门控和相应的前馈块。欢迎使用我们的 DeepMind Flamingo 模型的开源版本!在这个仓库中,我们提供了一个 PyTorch 实现,用于训练和评估 OpenFlamingo 模型。我们还提供了一个经过训练的初始 OpenFlamingo 9B 模型,该模型是在一个新的 Multimodal C4 数据集上训练的(即将推出)。有关详细信息,请参阅我们的博客文章。这个代码库包含用于生成指令调整数据集集合的代码。第一个数据集是原始的 Flan 2021,它记录在《Finetuned Language Models are Zero-Shot Learners》中,第二个数据集是扩展版本,称为 Flan Collection,它在《The Flan Collection: Designing Data and Methods for Effective Instruction Tuning》中描述,并用于生成 Flan-T5 和 Flan-PaLM。
我们很高兴地推出 FastChat-T5:这是一个紧凑而商业友好的聊天机器人!它是从 Flan-T5 微调而来,可用于商业应用,并且使用的参数比 Dolly-V2 少 4 倍,性能更好。这个仓库包含代码,用于将 Stanford Alpaca 的合成指令微调方法扩展到已有指令微调模型(如 Flan-T5)。预训练模型和演示都可以在 HuggingFace 上获取。这是一个基于 T5 架构的编码器 - 解码器模型,名为 Flan-UL2。它使用了去年早些时候发布的 UL2 模型相同的配置,并使用了 “Flan” 提示微调和数据集合集进行微调。
根据 Mitchell 等人(2018)的研究,本模型卡提供有关 GALACTICA 模型的信息,包括其训练方式和预期使用情况。有关模型的训练和评估的详细信息可以在发布的论文中找到:https://galactica.org/paper.pdf
这是在 Alpaca 数据集上微调的 30B GALACTICA 模型。#08
GLM(General Language Model)
GLM 是一个通用的语言模型,使用自回归填空目标进行预训练,可以在各种自然语言理解和生成任务上进行微调。
ChatGLM-6B 是基于通用语言模型(GLM)框架的开源双语言模型,具有 62 亿个参数。通过量化技术,用户可以在消费级图形卡上进行本地部署(在 INT4 量化级别下仅需要 6GB 的 GPU 内存)。GPT-J 是由 EleutherAI 开发的开源人工智能语言模型。GPT-J 在各种零样本下游任务上的表现与 OpenAI 的 GPT-3 非常相似,并且甚至可以在代码生成任务上胜过它。最新版本 GPT-J-6B 是一种基于数据集 The Pile 的语言模型。The Pile 是一个开源的 825 gibibyte 语言建模数据集,分为 22 个较小的数据集。GPT-J 的功能类似于 ChatGPT,尽管它不作为聊天机器人,只作为文本预测模型。
Databricks 的 Dolly 是一个在 Databricks 机器学习平台上训练的大语言模型,它展示了一个两年前的开源模型(GPT-J)经过仅 30 分钟的针对 50k 个记录的专注语料库的微调后,可以展现出不同于基于其构建的基础模型的惊人高质量的指令跟随行为。我们认为这一发现非常重要,因为它表明了创建强大的人工智能技术的能力比以前意识到的要容易得多。GPT-J-6B instruction-tuned on Alpaca-GPT4这个模型是在 Alpaca 提示的 GPT-4 生成上使用 LoRA 进行微调的,共进行了 30,000 步(批量大小为 128),在四个 V100S 上花费了超过 7 小时的时间。Hugging Face:https://huggingface.co/vicgalle/gpt-j-6B-alpaca-gpt4?text=My+name+is+Teven+and+I+am此仓库包含了基于 GPT-J 构建的开源助手式大语言模型的演示、数据和训练代码。该代码库记录了 EleutherAI 在 GPU 上训练大规模语言模型的库。我们目前的框架基于 NVIDIA 的 Megatron 语言模型,并已经添加了 DeepSpeed 的技术以及一些新的优化技巧。我们的目标是将这个仓库作为一个集中且易于访问的地方,汇集大规模自回归语言模型训练技术,并加速大规模训练的研究。
我们的目标是创建全球最好的开源 GPT!
HuggingGPT 是一个协作系统,由 LLM 作为控制器和众多来自 HuggingFace Hub 的专家模型作为协作执行者组成。
MPT-7B 是一款 GPT 风格的模型,是 MosaicML 基础系列中的第一款模型。它是由 MosaicML 策划的数据集中的 1T 标记训练而成的,是开源的、商用可用的,并且在评估指标上等同于 LLaMa 7B。MPT 架构包含了所有最新的 LLM 建模技术 - 快闪式注意力(Flash Attention)实现高效率、Alibi 用于上下文长度的外推、以及稳定性改进来减轻损失的波动。基础模型和几个变体,包括一个 64K 上下文长度的微调模型都是可用的。
#14
Nvidia NeMo(GPT-2B-001)
GPT-2B-001 是一种基于 transformer 的语言模型。GPT 是指一类类似于 GPT-2 和 3 的 transformer 解码模型,而 2B 则指可训练参数总数(20 亿)。该模型是使用 NeMo 在 1.1T 个标记上进行训练的。
每个人都能使用的对话型人工智能。
在这个代码库中,我们发布了 Meta AI 的 LLaMA 大语言模型的开源复现版本,采用宽松许可证。在此版本中,我们发布了经过训练的 2000 亿标记的 7B OpenLLaMA 模型的公共预览版。我们提供了预训练的 OpenLLaMA 模型的 PyTorch 和 Jax 权重,以及评估结果和与原始 LLaMA 模型的比较。请继续关注我们的更新。
#17
Palmyra Base 5B(Writer)
Palmyra Base 主要使用英文文本进行预训练。请注意,仍然有一小部分非英语数据存在于通过 CommonCrawl 访问的训练语料库中。在模型的预训练过程中,采用了因果语言建模(CLM)目标。与 GPT-3 类似,Palmyra Base 是仅包含解码器的模型系列的成员。因此,它是通过自监督的因果语言建模目标进行预训练的。Palmyra Base 使用 GPT-3 的提示和一般实验设置,以便根据 GPT-3 进行评估。
介绍一下 Camel-5b,它是一个最先进的指令跟随大语言模型,旨在提供卓越的性能和多功能性。Camel-5b 基于 Palmyra-Base 的基础架构进行了优化,专门针对不断增长的先进自然语言处理和理解需求进行了设计。这是一篇有关多语言平衡能力的大语言模型的介绍。已经发布了各种多语言模型,如 mBERT,BLOOM 和 XGLM。因此,有人可能会问:“为什么我们需要再次制作多语言模型?” 在回答这个问题之前,我们想问:“为什么世界各地的人们会用自己的语言制作单语言模型,即使已经有很多多语言模型了?” 我们想指出当前多语言模型的非英语语言性能不佳是最重要的原因之一。因此,我们希望制作具有更高非英语语言性能的多语言模型。这就是我们需要再次制作多语言模型并将它们命名为 “Polyglot” 的原因。
跨时间和尺度解释自回归 Transformer。
Dolly 2.0 是一个使用 EleutherAI Pythia 模型家族作为基础、仅在新的高质量人类生成的指令追踪数据集上进行微调的 12B 参数语言模型,该数据集由 Databricks 员工进行了众包。replit-code-v1-3b 是一个专注于代码补全的 27 亿因果语言模型。该模型是在 Stack Dedup v1.2 数据集的子集上训练的,训练混合包括以下 20 种语言,按标记数量降序排列:
Markdown、Java、JavaScript、Python、TypeScript、PHP、SQL、JSX、reStructuredText、Rust、C、CSS、Go、C++、HTML、Vue、Ruby、Jupyter Notebook、R、Shell该模型的训练数据集包含总计 1750 亿个标记,重复使用 3 个时代,因此 replit-code-v1-3b 已经在 5250 亿个标记上进行了训练(每个参数大约 195 个标记)。#21
The RWKV Language Model
RWKV 是一个可以并行运行的循环神经网络,其性能相当于 Transformer-level 的大语言模型(LLM),名称来自其四个主要参数:R、W、K 和 V,发音为 “RwaKuv”。
“Segment Anything Model(SAM)”能够根据输入的提示,例如点或框,产生高质量的对象掩模,并可用于生成图像中所有对象的掩模。它已经在一个包含 1100 万张图片和 11 亿个掩模的数据集上进行了训练,并在各种分割任务的零样本情况下表现出强大的性能。
StableLM 是一种新的开源语言模型,其 Alpha 版本提供了 30 亿和 70 亿参数版本,之后还会推出 150 亿到 650 亿参数的模型。开发者可以自由地检查、使用和调整我们的 StableLM 基础模型,用于商业或研究目的,但需要遵守 CC BY-SA-4.0 许可协议的条款。
StableLM 是在建立在 The Pile 上的新实验数据集上训练的,数据集大小为原来的三倍,包含了 1.5 万亿个内容单元。这个数据集的丰富性使得 StableLM 在对话和编程任务方面表现出了出乎意料的高性能,尽管它的参数规模只有 3 到 7 亿(相比之下,GPT-3 有 1750 亿个参数)。
#24
Together’s RedPajama-INCITE 3B and 7B
我们发布了基于 RedPajama 数据集训练的第一批模型,包括 3B 和 7B 参数的基础模型,旨在尽可能精准地复制 LLaMA 模型的架构。此外,我们还发布了完全开源的指令调优和对话模型。
XGLM 模型是在 “Few-shot Learning with Multilingual Language Models” 中提出的。
couchpotato888
Hugging Face:https://huggingface.co/KnutJaegersbergLaMini-LM:来自大规模指令的多样化压缩模型群LaMini-LM 是一系列小型、高效的语言模型,它们是从 ChatGPT 中提取并经过训练的,训练数据集包含 258 万条指令。我们尝试了不同的模型架构、大小和检查点,并在各种 NLP 基准测试和人类评估中广泛评估了它们的性能。