相关考题
-
单项选择题
每个Transformer编码器中的第一层是()
A.前馈神经网络
B.Attention
C.Self-Attention -
判断题
seq2seq和Transformer的模型结构是完全不相同。 -
判断题
BERT可以处理的最长序列是768。
