Seke Blog: 12月 2019

正常解問答題時，常以1文章1問題1答案為單位進行，但準備資料集時為省空間，常依實際1文章多問題多答案格式來存放案例。故在利用底層BERT(雙向變形器編碼表現法)微調模型及預測問答時，須將1文章多問題多答案資料，還原成1文章1問題1答案格式，才能進行微調及預測。

百度ChineseQA-with-BERT套件可基於BERT預訓練模型作問答題微調。其run_dureader.py可接受的訓練檔json格式，可用來存放1文章1問題1答案內容，或1文章多問題多答案內容。

其中，訓練案例的各欄位路徑如下:

․問題編號: data/paragraphs/qas/id
․文章: data/paragraphs/context
․問題: data/paragraphs/qas/question
․答案: data/paragraphs/qas/answers/text

以下舉例說明此格式用來存放1文章1問題1答案的json格式長相。
{
    "data": [
        {
            "paragraphs": [
                {
                    "context": "文章",
                    "qas": [
                        {
                            "answers": [
                                {
                                    "answer_start": 答案起點下標,
                                    "text": "答案"
                                }
                            ],
                            "is_impossible": false,
                            "id": 問題編號,
                            "question": "問題"
                        }
                    ]
                }
            ],
            "title": "N.A."
        }
   ]
}

Seke Blog

json format for ChineseQA-with-BERT

Building a Lightweight Streamlit Client for Local Ollama LLM Interaction

總網頁瀏覽量