“什么意思?”
这回李导发现大家好像都是在帮忙解决问题,语气都没那么冲了。
“你想想强化学习的学习机制,就是对输入的文字做出一个输出的动作来最大化最终获得的奖励”
卡纳说到这里就不说了,他贱贱的用眼神示意李导,叫他当捧哏。
李导看了差点气死,但是处于学习的目的,他还是开捧了。
“那与这个又有什么关系呢?”
“主要问题出在奖励上,我看了下令和的设计,他给的奖励太少了,反倒是惩罚程序一大堆”
“这对于人工智能来说就是,你给出诊断,错了,要赔命,对了,什么都不会发生”
“在开药得到的奖励极低且容易得到较高惩罚的时候,这个程序,它就会选择摆烂”
“也就是所谓的,诶,我知道怎么治,但是我就是不治,我就是玩”
“这和现实生活还挺像,治不好,要医闹,治好了,是你的本分”,卡纳被自己逗笑了,“你这程序做到最后还开始反讽现实了,真有意思”
“那,要怎么解决呢?加大奖励力度?”李导虚心求教,毕竟他对这方面真的不是很懂,卡纳才是这方面的强者。
“欸,兄弟,也给我个在李教授面前装逼的机会”,轩宇用手肘戳戳卡纳。
卡纳闻言,后退一小步,把舞台让给满脸自信的轩宇。
“奖励问题只是其中的一部分,Ape-X很容易出现明明基线算的没问题,但是实操起来就是不行的情况,你可以用double DQN算法加上连续奖励”…
轩宇侃侃而谈,安科两眼一抹黑。
这特么讲的是个啥?
然后看上去就很令人智熄的卡纳也过来掺和了一脚。
“你这个算法基线震荡会很剧烈,容易崩掉,这还得调低学习率…”
我果然是个智障,是吧?
不过这里这么想的不止安科,还有抱着电脑差点哭出来的令和。
这讲的是什么?没听过啊!
被教授们降维打击的他如同一条咸鱼,直接失去梦想。
“不过他这个明明算出来了,是不是可以通过改动…”,李导琢磨着问。
“我觉得可以,来我办公室一趟,我那里也有类似的模型,看看大家集思广益能不能把这个东西调得更好”,轩宇招呼着往自己办公室走,其他教授迅速跟上。
“令和,听得懂吗?”
轩宇突然回过头。
令和一听差点泪流满面,他疯狂的摇晃着自己的一头白毛,表示自己完全没听懂。
“没事,我那里也有书,大概十本,你看完就懂了”
安科记得,轩宇的书架上,每一本书都有新华字典那么厚,并且,它的长宽是新华字典的三倍。
希望令和人没事。
“师兄,我去做毕业论文了”,见教授们提溜着令和远去,安科急忙开溜。
“你不去听?”被叫住的门师兄有些不解的回过头。
“我还是个孩子,等我长大后再学习”
“哈?”
……
下午五点半,国科院旁边农科院的天台。
略带刺眼的阳光打在被烤了一天的滚烫天台上,暑气蒸腾,地上的砖石被晒得发白,好像着了火。
远处的大树上,蝉声时断时续的出现,仿佛在预示着什么,又宛若观众在摇旗呐喊。
天空没有一丝云,地上没有一点风,在灼热而扭曲的空气中,浓浓的火药味弥漫开来。
“你来了”,院长手握美洲大蠊,站在屋顶凸起的房梁上淡淡的说。
这个b装得其实不错,如果他头发没有那么服帖的粘在脸上,脸上没有那么多汗,一副快要中暑的亚子,就更好了。
“我来了”,他的对面,李导拿着根黑白相间的鞭子立在另外一个正对院长的屋顶凸起上,热浪对他没有任何影响,他依然西装革履,头上的发胶都没乱。
“你不应该来的”,院长眼神犀利的看着对面云淡风轻的李导,手里的美洲大蠊之刃慢慢抬起,棕色的刀刃在阳光下反射出刺眼的光。
“我已经来了”,李导嘴角上扬,冷笑一声,也抬起鞭子,那根哑光的鞭子在空中划过一道满月般的弧度,似是下一秒就要抽碎什么。
“你笑是什么意思?”院长俯下身,挑衅式的举起刀,热得令人窒息的空气仿佛在这一刻被冷气凝固住。
“我笑是笑的意思”,李导站在原地没动,漫不经心的接下他的话茬,并且用瞅你咋地的语气回应着他。
大战一触即发。
“卖农科院的西瓜了,不是从他们大棚偷的,是新的研究成果,大热天,观战和西瓜更配哦”
卡纳这声从喇叭里传出来的谷歌翻译直接把气氛给干没了,院长一转头,好家伙,天台上围着他们站了一大群观战的人,在角落还有一大车西瓜,也不知道怎么运上来的。
不仅如此,那个角落的温度明显低上许多,凉丝丝的冷气从那里飘来,搞得都不像是在同一空间里。
趁院长分心的时候,李导抡圆了鞭子朝着院长就是一下,然后又是一套不讲武德的连招,把院长打得哭爹喊娘。