多项选择题
Transformer如何体现出的参数共享()
A.Encoder和Decoder间的Embedding层B.Decoder中Embedding层和FC层权重共享C.没有任何层参数进行了共享D.以上都正确
单项选择题 以下哪个模型使用了双向的Transformer作为特征提取()
单项选择题 Transformer中的Q,K,V为什么用不同的权重矩阵生成()
单项选择题 RNN和CNN都可以处理文本,哪个处理长文本效果更好()