Transformer 统治的时代,为什么 LSTM 并没有被完全替代?

发表时间:2023-04-09 19:49作者:沃恩智慧

LSTM和Transformer都是当下主流的特征抽取结构,被应用到非常多的领域,当然每一种都各有它的优缺点。关于LSTM与Transformer结构的强弱争论,在很长一段时间可以说甚嚣尘上。

虽然绝大部分人都认为在很多场景下,Transformer都优于LSTM RNN,但是依然也有很多研究者抱持不同意见。

一方面,从Transforemr的核心self-attention来看,是将序列中的每个输入与所有输入做attention,构建自己与其他输入之间的关系。它的第一个场景是替代lstm/rnnself-attention构建时序信息,缓解partial observation问题,但是,在学术界,理论研究方面Partial observation问题只算是一个衍生问题,并不主流,而各种实验研究的env在PO问题上并不算特别复杂,Transformer暂时没有体现出比LSTM更好的结果。而在工业界,Partial observation问题在大部分游戏下都不是AI能力的重要瓶颈,通过特征构造可以在一定程度上缓解PO问题。

另一方面,目前的强化学习里深度网络很少用Transformer ,更多的是LSTM RNN这类网络。因为,Transformer目前的训练速度较慢,资源消耗较大;而且当时序上下文窗口过大时,需要相对较长的时间去计算动作,实时控制场景中很难部署应用。所以当需要处理纯粹的反应型环境,且数据维度较低时,使用Transformer架构的优势并不明显。

3月22日,人工智能科学家方老师,从神经元网络讲起,梳理发展脉络,讲解RNN、LSTM、注意力机制,以机器翻译作为场景切入,带大家一起探讨Transformer和LSTM孰强孰弱。

方老师拥有超30年程序设计、软件开发、计算机科研和教育培训经验。曾独立开发成功通用问题求解框架、零和博弈框架、自动微分系统、Java编译器和反编译器等系统软件。在科研上揭示了神经元网络的本质和局限,提出了强人工智能的可能路径,独立证明了神经网络能够拟合任意连续函数,提出了样本质量的四个要素,揭示了过拟合、欠拟合的本质。

扫码预约直播

领取深度学习值得一读论文

很多童鞋的终极目标是拿着论文当敲门砖,去某某大厂开启人生新篇章。

那么剩下的问题就是,怎么发论文?

想要快速发论文有两点至关重要。

1.紧跟风口。

想发文章最容易的方法就是紧跟风口,顺着领域内的研究趋势确定自己的方向,毕竟在热门领域内,创新点和idea远比其他非热门领域多。

2.有一位有经验有能力的前辈指导。

大家都在努力的设计新网络、新策略、新Training算法,只要能够在某一问题上做到一个很好的Performance,论文就水到渠成。而想要快速达到,来自前辈的指点不可或缺。

所以,要解决的问题就是:

1.找到风口

2.找到领域内的大神做导师

扫码免费领取论文指导攻略

快速打通写论文的任督二脉

(文末福利


创新是论文的灵魂,有的学术文章可以很快被录用并被见刊,而有的文章屡次被拒稿,迟迟不能发表,很重要的一个决定因素就是论文的创新点,就拿博士来说,不少高校都要求博士毕业论文至少要有3-5个创新点

没有多少科研经验的小白和从业新手,想在学术论文和科研中少走弯路,想要保证创新性,搞定论文,获得必要的科研指导是不可或缺的

创新点主要有以下表现形式:

  ①第一次用书面文字的形式把新信息的主要部分记录下来,这可以称为"发现"。

  ②继续前人做出的独创性工作。

  ③将某一方法应用于新的研究领域。

  ④使用已有的材料作出新的解释。

  ⑥使用不同的方法在交叉学科进行研究

…………

一个有想象力的idea对科研人的重要性不言而喻。那么如何获取一个值得死磕的idea?

idea的形式多种多样,有原创的突破性工作,就像发明衬衫;也有排列组合、迁移、渐进的补充性工作,就像给衬衫装上纽扣和前衣口袋;而灌水就像是在衣服背后缝了个口袋。

当然关于如何写一篇不水的论文,如何找到创新点,需要关注的远不止这些。

写论文对于每一个童鞋都不容易。那些你所踩过的坑,需要避免再次踏入,那些你还没有碰到过的问题,要被指导如何规避。

扫码免费领取论文指导攻略

快速打通写论文的任督二脉

(文末福利


文末福利





作为日常为了论文而忙碌的科研人,小编知道大家一定很需要一些资料。因此,小编精心整理了一份超过20GAI顶会论文大礼包!包含顶会论文、书籍等资料,以及英文论文写作指导保姆级资料,从文献阅读到论文写作全部帮你整理好~


扫码免费领课程资料↑

-END-

分享到: