单项选择题
每个Transformer编码器中的第一层是()
A.前馈神经网络B.AttentionC.Self-Attention
判断题 seq2seq和Transformer的模型结构是完全不相同。
判断题 BERT可以处理的最长序列是768。
判断题 Transformer的encoder中先进行前馈神经网络,然后将处理后的数据输入到Self-Attention中。