正常解問答題時,常以1文章1問題1答案為單位進行,但準備資料集時為省空間,常依實際1文章多問題多答案格式來存放案例。 故在利用底層BERT(雙向變形器編碼表現法)微調模型及預測問答時,須將1文章多問題多答案資料,還原成1文章1問題1答案格式, 才能進行微調及預測。
百度ChineseQA-with-BERT套件可基於BERT預訓練模型作問答題微調。 其run_dureader.py可接受的訓練檔json格式,可用來存放1文章1問題1答案內容,或1文章多問題多答案內容。
其中,訓練案例的各欄位路徑如下: ․問題編號: data/paragraphs/qas/id ․文章: data/paragraphs/context ․問題: data/paragraphs/qas/question ․答案: data/paragraphs/qas/answers/text 以下舉例說明此格式用來存放1文章1問題1答案的json格式長相。 { "data": [ { "paragraphs": [ { "context": "文章", "qas": [ { "answers": [ { "answer_start": 答案起點下標, "text": "答案" } ], "is_impossible": false, "id": 問題編號, "question": "問題" } ] } ], "title": "N.A." } ] }
沒有留言:
張貼留言