您可以在不使用互联网的情况下,利用智能手机上LLM 的强大功能,最大限度地加强隐私和控制。
大语言模型(LLM)需要大量的计算资源,这些资源通常局限于功能强大的服务器。然而,新一代的紧凑模型让您可以直接在智能手机上运行这些强大的语言模型。有意思的是,您不需要互联网就可以在智能手机上使用LLM。
下面这六种开源LLM经训练和优化后,可以在智能手机上使用。
Gemma 2B:谷歌针对移动语言任务的紧凑型高性能LLM。
Phi-2:微软的小型模型比规模大25倍的大型模型表现得还好。
Falcon-RW- 1B:面向资源受限的移动设备的高效1B参数模型。
StableLM-3B:Stability AI兼顾性能和效率的模型,用于处理手机上的各种语言任务。
TinyLlama:紧凑版Llama模型,在手机上提供出色的结果。
LLaMA-2-7B:Meta功能强大的7B模型,用于处理高端智能手机上的高级任务。
1. Gemma 2B
谷歌的Gemma 2B是一种紧凑型语言模型,尽管小巧,却提供了出色的性能。它利用多查询注意力机制,有助于减少推理期间对内存带宽的需求。
这尤其有利于内存带宽通常有限的设备端场景。仅用20亿个参数,Gemma 2B在语言理解、推理和安全等方面的学术基准测试上取得了出色的成绩。
在18项基于文本的任务中,它在11项上的表现胜过大小相似的开放模型。
2. Phi-2
Phi-2有27亿个参数,在某些基准测试中,其性能比大25倍的模型更胜一筹。它擅长处理涉及常识推理、语言理解和逻辑推理的任务。
Phi-2可以量化到更低的位宽,比如4位或3位精度,从而将模型大小显著缩小到1.17GB-1.48 GB,以便在内存和计算资源有限的移动设备上高效运行。
Phi-2的主要优点之一是它能够执行常识推理。该模型已使用庞大的互联网数据语料库进行了训练,因而能够理解并推理日常概念和关系。
3. Falcon-RW-1B
Falcon-RW-1B是Falcon语言模型系列的一部分,以高效和性能出名。RW代表“精炼的Web”,表示筛选的训练数据集注重质量而非数量。
Falcon-RW-1B的架构改编自GPT-3,但结合了ALiBi(具有线性偏差的注意力)和FlashAttention等技术来提高计算效率。这些优化机制使得Falcon-RW-1B非常适合在智能手机等资源受限的设备上进行设备端推理。
Falcon-RW-1B-Chat模型旨在为Falcon-RW-1B-Instruct-OpenOrca模型增加会话功能,以提高用户参与度、扩大使用范围,并为智能手机等资源受限的环境提供可访问性。
4. StableLM-3B
StableLM-3B由Stability AI开发,有30亿个参数的模型,兼顾了性能和效率。StableLM-3B最大的优点在于,尽管使用较少的token进行训练,但在一些基准测试中,其表现胜过使用70亿个参数进行训练的模型。
StableLM-3B可以量化到更低的位宽,如4位精度,将模型大大显著缩小到3.6 GB左右,使其可以在智能手机上高效运行。有用户提到,StableLM-3B的性能超过了Stable自己的7B StableLM-Base-Alpha-v2。
5. TinyLlama
TinyLlama利用FlashAttention和RoPE位置嵌入等优化机制来提高计算效率,同时保持强大的性能。它与Llama架构兼容,可以整合到基于Llama的现有移动应用程序中,基本上不需要改动。
TinyLlama可以量化到更低的位宽,比如4位或5位精度,将模型大小显著缩小到550MB-637 MB左右。一位用户在分享使用TinyLlama方面的经验时提到,在华硕ROG之类的中端手机上,TinyLlama每秒可以生成6-7个token。
6. LLaMA-2-7B
LLaMA-2-7B模型量化到4位宽和16位激活,使其适用于智能手机上的设备端部署。这种量化将模型大小缩小到3.6GB,从而可以在内存充足的移动设备上加载和运行。
移动端的LLaMA-2-7B模型需要设备至少有6GB内存。在推理过程中,三星Galaxy S23 Ultra上的峰值内存使用量在316MB到4785MB。这表明,虽然该模型可以在6GB以上内存的设备上运行,但拥有更大的内存可以获得更好的性能,并降低内存不足错误的风险。
虽然LLaMA-2-7B模型需要设备有足够的内存,其速度可能无法与基于云的模型相匹配,但它为希望创建直接在智能手机上运行的基于语言的智能功能的开发人员提供了一个诱人的选择。