更新时间:2026-02-02 12:46:23 浏览: 次
数据科学发展给多个行业带来重要影响,采用数据驱动(Data driven)/AI方法开展研究已经成为越来越多领域的重要研究范式之一。但是,随之而来也带来很多新的挑战,
可重复性是科学研究的核心,传统的试验研究或理论研究论文已经形成了很成熟的论文可重复性要求。比如试验研究论文要求详细给出试件设计、试验装置、加载工况等信息,阅读完论文后读者可以在实验室重复出论文的研究。经验丰富的审稿人也可以在论文评阅阶段准确识别出论文中可能缺失的内容,保障试验的可重复性。理论研究论文也类似,我们经常会收到非常负责任的审稿人返回的审稿记录,非常认真的推导投稿论文中的计算过程,并指出推导过程或者假设条件中可能存在的问题。
但是采用数据驱动或者AI方法的论文,其可重复性问题比传统论文要复杂很多。这些论文所得到的模型往往依赖庞大的数据库训练得到,最后训练出来的模型参数量也非常庞大(几百万至几百亿)。这些数据无法在短短十几页论文中表达。论文中只能非常简略的介绍论文采用的模型结构、训练策略、关键超参数等有限内容,审稿人和读者也无法测试和验证模型,给论文的可重复性带来重大挑战,严重制约了科学研究的进步。
所有数据驱动方法,都要进一步研究其数学和物理规律,并提供与既有方法的对比以展示其独特和突出的优势(demonstrate the superiority or unique advantages)




行业新闻