By Chungyeh Wang
生成式人工智慧 (Generative AI) 鋪天蓋地的進入我們的生活當中,裡面最關鍵的就是進行自然語言處理 (Natural Language Processing) 的大型語言模型 (Large Language Model/LLM)了! LLM動輒數億到上千億的參數量,對執行模型推論的設備所需投入的資金以及消耗的能源非常的可觀,也不是一般大眾可以負擔的起的. 把模型最佳化到可以運行在大家都可以四處取得的設備,尤其是Edge AI裝置,是AI民主化關鍵的推力. Intel OpenVINO toolkit 以及Neural Network Compression Framework (NNCF), 不只提供了許多模型最佳化的演算法, 例如Quantization, Pruning, …等,也提供了讓這些最佳化後模型得以用最高效率執行的軟硬體環境.這一節我們將透過一些實例的分享,讓大家瞭解模型最佳化的威力,以及讓LLM執行在Edge AI設備的方法.
講者
Chungyeh Wang
https://www.linkedin.com/in/chungyeh-wang-5bb23447/ Chungyeh Wang runs AI software & OpenVINO on Intel Deep Learning Accelerators customer enabling for Intel. He loves to dig into customer problems and solve with technology. I have been working on optimizing deep learning applications and collaborating with ecosystem to drive AI revolution.