Distilling Task-Specific Knowledge from BERT into Simple Neural Networks

Devs

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks | Read Paper on Bytez