【发现者网】6月27日消息,微软最近发布了一款名为phi-1的语言模型,据称其表现胜过拥有千亿参数的GPT 3.5。微软团队在仅仅4天的时间内,利用包括来自网络的高品质"教科书等级"数据和经过处理的逻辑严密的内容,以及8个英伟达A100 GPU,完成了phi-1模型的训练。该模型基于Transformer架构,并通过提升训练数据集的质量来提高模型的准确率和效率,而非增加模型的参数量。经过测试,phi-1的得分达到50.6%,优于拥有1750亿参数的GPT 3.5(得分为47%)。
据发现者网了解,微软团队计划在HuggingFace平台开源phi-1模型。这不是微软第一次开发小型语言模型,此前他们推出了名为Orca的拥有130亿参数的模型,该模型采用了由GPT-4合成的数据进行训练,并展现出比ChatGPT更好的性能。
微软的这一举措强调了训练数据质量在语言模型性能方面的重要性,与盲目追求增加模型参数的做法形成鲜明对比。通过使用高品质的数据集,微软成功地提升了模型的效果,并在测试中展现出优于大型模型的表现。
phi-1的开源将为研究人员和开发者提供一个有价值的工具,以探索和应用先进的语言模型技术。微软的努力也有助于推动语言模型领域的进步和创新,为自然语言处理相关应用的发展提供更加可靠和高效的解决方案。