在GLUE中,ALBERT拿到了89.4的分数,在SQUAD中拿到了92.2、在RACE中拿到89.4。
SQUAD 2.0人类平均表现分则为89.452。
据悉,SQuAD2.0结合了SQuAD1.1的10万个问题和5万多个新的、无法回答的问题。为了在SQuAD2.0做到更好,系统不仅必须在可能的情况下回答问题,而且还必须确定段落中什么时候不支持回答并避免回答。
ALBERT使用参数降低技术来减少内存消耗并提高BERT的训练速度。
论文写道:“我们提出的方法使得模型的规模比原来的BERT要好得多。我们还使用了一种自我监督的缺失,这种缺失侧重于对句子间连贯进行建模,并表明其始终有助于下游任务的多句输入。”
据了解,这种技术在互联网上阅读大量文本并提供连贯答案方面有着显著的应用,这可以为搜索引擎来带来一个明显的好处。