Ключевые моменты

В статье приведен обзор DSTC с 1го по 3й.
Описано как собирали данные для них. Оказывается DSTC 1 получился дорогим - ушло несколько тысяч долларов на создание корпуса.
Описана типизация ошибок которую делают трекеры состояния (correct, missing, extra, wrong).
Описаны методы набирающие лучшие результаты - в DSTC 2&3 победили нейросети.
Описан evaluation.
DSTC 1-3 оценивает качество на основе human-machine interaction, в то время как DSTC 4, 5 - human-human.

Provide feedback