单项选择题
Transformer的突破点在哪()
A.将Attention机制发挥到了机制,完全摒弃了CNN/RNNB.更加深层的使用了RNN系列的模型C.使用了LSTM作为了特征提取D.模型中的encoder层和decoder层的结构完全一样
单项选择题 seq2seq有什么样的缺点()
单项选择题 特征提取器Transformer为什么使用多头机制()
判断题 BERT和ELMO使用的都是是单向的Transformer。