首篇大模型压缩综述来啦!!!
来自中国科学院和人民大学的研究者们深入探讨了基于LLM的模型压缩研究进展并发表了该领域的首篇综述《A Survey on Model Compression for Large Language Models》。
Abstract
大型语言模型(LLMs&a…
相关论文 2009.PP-OCR: A Practical Ultra Lightweight OCR System 2109.PP-OCRv2: Bag of Tricks for Ultra Lightweight OCR System 2206.PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System 2308.PP-OCRv4:目前代码已发布(…
A Survey of Quantization Methods for Efficient Neural Network Inference
Abstract
一旦抽象的数学计算适应了数字计算机的计算,在这些计算中如何有效地表示、处理和传递数值的问题就出现了。与数字表示问题密切相关的是量化问题:一组连续的实值数应该以何种方…
论文地址:Channel Pruning for Accelerating Very Deep Neural Network
代码地址:https://github.com/yihui-he/channel-pruning
1. 卷积通道剪枝
论文的主要思想是,通过最小化裁剪后特征图和裁剪前特征图之间的误差,尽可能的减…