How to extract text from many webpage files and form a dabase file?

How to extract text from many webpage files and form a dabase file? 
There are many html files, each one contain information of Title|Author|Author Affiliation|Source|Abstract|Descriptors|Keywords|Geographic Descriptors|Geographic Region|Accession Number, how can I extract all part of contents and form a text with format "yyy1|yyy2|yyy3|yyy4....|yyy10"? 
Input Sample:
each html contain: 
<dt>Title:</dt><dd xxx>yyy1</dd> 
<dt>Author:</dt><dd xxx>yyy2</dd> 
<dt>Author Affiliation:</dt><dd xxx>yyy3</dd> 
<dt>Source:</dt><dd xxx>yyy4</dd> 
<dt>Abstract:</dt><dd xxx>yyy5</dd> 
<dt>Descriptors:</dt><dd xxx>yyy6</dd> 
<dt>Keywords:</dt><dd xxx>yyy7</dd> 
<dt>Geographic Descriptors:</dt><dd xxx>yyy8</dd> 
<dt>Geographic Region:</dt><dd xxx>yyy9</dd> 
<dt>Accession Number:</dt><dd xxx>yyy10</dd>
Output Sample:
yyy1|yyy2|yyy3|yyy4....|yyy10 (from file1) 
yyy1|yyy2|yyy3|yyy4....|yyy10 (from file2) 
yyy1|yyy2|yyy3|yyy4....|yyy10 (from file3) 
Hint: You need to Download and install "Replace Pioneer" on windows platform to finish following steps.
1. ctrl-h open 'Replace' dialog 
* in 'Search for Pattern' enter: 
* in 'Replace with Pattern' enter: 
* uncheck "print unmatched unit" option 
* between "Output Page" and "Output File" entry at right bottom, change the symbol ">" to ">> Append" 
2. Click "Batch..." button to open "Batch Runner" window 
3. Drag all html files from windows file explorer to "Batch Runner" window. 
4. Check "Set output file name" option, and change "${FILENAME}" to "result.txt" at the following entry. 
5. Click "Batch Replace" button, all the desired content of html will be extract and put to result.txt.
