Skip to main content
 Web开发网 » 站长学院 » 浏览器插件

机器学习研究者需要能够在多久之内复现出一篇paper?

2021年11月04日6090百度已收录

谢邀

其实这个是一种手艺吧,并且同样是强组,大组和小组各有特点。我是大组呆过,小组也呆过,各有特点,都难以取舍。本身Team Work的话我听说有些配合的非常好的组(大牛+大牛组合,无打杂拖进度的)能早上九点看论文,晚上就能复现完测一轮,在这先把Team Work放下不表。

如果是一个人做的话,比较不稳定,毕竟假如那天打游戏打卡住了或者其他情况导致心情极其糟糕(烦躁)就会特别难受,然后就可能理解出现了偏差。这个时候动手多半和作者意图不合。不过也不排除有的大佬(在这儿就不说名字了),一手啤酒一手键盘喝的贼High,然后一口气写完全部并且毫无bug,而且好像特么效果还贼好?(明指Goodfellow.jpg)另外,我认为是否理解,其实对于有些动手能力变态的人而言毫无影响,可以先做出来再对着代码理解。

不过其实从一个Nobody到一个徒手用MXNet搭自己的模型,挺快的(deeplearning.ai还有cs231n再加上一些经典结构都懂)一个多月足矣,重要看天分和愿不愿意自己跳出自己的舒适区。我见过一个月几乎毫无产出,结果灵感来了之后跟我打电话聊了一晚上,第二天再告诉我【我准备了serveral篇顶会,你看看】。

就熟手而言,一般情况的话,以自己比较熟的CV领域来说吧,很多所谓的【新东西】其实都是排列组合,我自己写了个小框架,高度集成PyTorch。无非是一个简单的CV框架,而后有attention有dilate的各种东西作为一种选项等等。PyTorch的API本身还是足够满足大多数要求的。比较可怕的是自己哗啦啦写了一堆loss,很多情况要结构本身做出大改,网络图画出来之后都会写一半砍掉重来。比如最近几篇很漂亮的GAN,从CycleGAN这类的东西开始就属于各种loss满天飞然后结构做的特别蛋疼。并且有一些loss甚至看不明白意义何在。而一些RL或者TL的东西,会让人很痛苦,甚至有的TL的研究居然是拍脑门,然后试一下总之就很好用,然后就是不知道为啥。我还特意打个电话问一作,一作直接告诉我说是打游戏的时候想的(隐私问题,不方便告诉是哪一篇)。。。这种情况你就只能骂娘或者你可以自己帮他想思路。另外其实不是所有论文都能复现的,NIPS甚至有大佬开腔骂人,根本无法复现。

一般的paper不被我贴上bull shit的文章,复现起来三五天还是得要的。但是如果只是那种排列组合,恕我直言如果我没理解错的话我可以用2分钟(这个时间主要取决于以你电脑开IDE的时间以及scp到服务器上的时间)——真·改几个参数就做好。然后你就可以优雅的说一句【哦,这篇论文啊?秒了。】。

但是有的时候论文本身有问题,比如说之前在研究的一篇GAN loss,作者哗啦啦说了很多,然后真正操作的时候就会遇到一种蛋疼的感觉,跑起来之后不收敛,我看着奔放的不得了的loss图会肉疼。

目的不是复现,而是验证思想。你会发现很多paper就是bull shit所以不值得你复现,另外一些就是简单的排列组合出的好效果,我们为他们鼓掌(大哥你们真有钱)。而往往值得复现的好东西,都是一堆的琐事细节。有的时候写paper的人都没意识到漏掉了重点的细节,所以我老板在做研究的时候警告我——把事情做好的标志就是别人可以轻松的明白。而这些其实对于paper work的要求其实不低。

问题就怕很多人,明明就是灌水,却非要装逼,不过我擦居然还能中顶会oral?

这届XXX不行啊。

评论列表暂无评论
发表评论
微信