单项选择题
Transformer中的Q,K,V为什么用不同的权重矩阵生成()
A.无实际的意义B.减小表达能力C.降低了泛华能力D.这样可以在不同的空间上进行投影,增加表达能力
单项选择题 RNN和CNN都可以处理文本,哪个处理长文本效果更好()
单项选择题 传统的RNN存在哪些问题()
单项选择题 Transformer的突破点在哪()