多项选择题

A.视觉-语义模型
B.语音-视觉模型
C.Transformer
D.Autoencoder
E.BERT