正常解問答題時,常以1文章1問題1答案為單位進行,但準備資料集時為省空間,常依實際1文章多問題多答案格式來存放案例。 故在利用底層BERT(雙向變形器編碼表現法)微調模型及預測問答時,須將1文章多問題多答案資料,還原成1文章1問題1答案格式, 才能進行微調及預測。
百度ChineseQA-with-BERT套件可基於BERT預訓練模型作問答題微調。 其run_dureader.py可接受的訓練檔json格式,可用來存放1文章1問題1答案內容,或1文章多問題多答案內容。
其中,訓練案例的各欄位路徑如下:
․問題編號: data/paragraphs/qas/id
․文章: data/paragraphs/context
․問題: data/paragraphs/qas/question
․答案: data/paragraphs/qas/answers/text
以下舉例說明此格式用來存放1文章1問題1答案的json格式長相。
{
"data": [
{
"paragraphs": [
{
"context": "文章",
"qas": [
{
"answers": [
{
"answer_start": 答案起點下標,
"text": "答案"
}
],
"is_impossible": false,
"id": 問題編號,
"question": "問題"
}
]
}
],
"title": "N.A."
}
]
}