单项选择题

A.BERT中使用了Transformer加入了Attention机制
B.在语义层面上提取到了更好的信息
C.不会出现梯度消失的情况
D.以上都正确