新闻动态

重要通知 更多>>

“川外书院·求真学术讲坛”语料库语言学第十一讲成功举办

发布时间:2024-12-10 访问次数:

 


2024年12月5日晚上7点,由我校外国语文研究中心主办的“川外书院·求真学术讲坛”之语料库语言学系列第十一讲于线上举行。此次讲座特邀中国人民大学要新乐博士为我校师生开展了题为“大语言模型时代的语料库语言学:挑战与前景”的学术讲座。本次讲座由外国语文研究中心的苏杭教授主持,吸引了校内外两百余名师生积极参与。


苏杭教授主持讲座



要新乐博士作学术讲座

讲座开篇,要新乐博士就人工智能、自然语言处理、大语言模型和语料库语言学四大核心概念进行了介绍,并借助图表清晰展示了它们之间的紧密联系。她指出,大语言模型和语料库语言学在数据处理方面有相似的理念。在此基础上,要博士深入剖析了大语言模型发展历程中的标志性架构——“Transformer”,详细探讨了其词嵌入方法(word embeddings)与自注意力机制(self-attention mechanism)两大核心特性,并从历史视角出发,指出大语言模型的预训练过程高度依赖于大规模的语料库支持,而计算机算力的持续增强与真实语料资源的日益丰富,为大语言模型的诞生与发展奠定了坚实基础。

在讲座的第二部分,要博士借助多个案例,从多个角度对比了ChatGPT产生的语言和真实自然语言之间的差异。首先,她以“brat”一词为例展示如何利用大语言模型生成语料库索引行。尽管结果未完全符合预期,但模型生成的文本具有明显特征,有效降低了自然语言(语料库)处理的难度。接着,要博士揭示了大语言模型在语言研究中的优势与局限,并强调其具体应用需结合研究实际进行调整。最后,要博士采用Biber的五个维度比较了大语言模型生成的语料库与真实语料库,发现ChatGPT生成语言在内容精细度、风格倾向、叙事性、说服性、态度与情感表达及交互性等方面存在不足。

在讲座的第三部分,要新乐博士将话题引向了大语言模型时代语言研究路径的探索。她认为,大语言模型时代要求我们采用新的语料、情境、方法和视角来进行语料库语言学研究。随着研究工具的显著进步,如何有校利用这些工具以推动学科发展,成为我们研究者面临的重大课题。

讲座尾声,苏杭教授对要新乐博士的精彩讲座表达了衷心感谢,并对讲座内容进行了简要总结。他指出,要博士提出的关于大语言模型的见解对语言学习者和研究者具有启发性,值得深入思考。随后,要新乐博士与线上师生进行了深入互动,耐心回答了大家提出的各类问题,进一步促进了学术交流与思想碰撞。

至此,本次讲座圆满落下帷幕。

1