单项选择题
Dropout函数的作用是什么()
A.随机失活单元,防止过拟合B.代价函数C.动态优化器D.交叉熵函数
单项选择题 每个Transformer编码器中的第一层是()
判断题 seq2seq和Transformer的模型结构是完全不相同。
判断题 BERT可以处理的最长序列是768。