【專(zhuān)利類(lèi)型】外觀設(shè)計(jì)【申請(qǐng)人】上海頂新箱包有限公司【申請(qǐng)人類(lèi)型】企業(yè)【申請(qǐng)人地址】201500上海市金山區(qū)朱涇鎮(zhèn)亭楓公路3168號(hào)【申請(qǐng)人地區(qū)】中國(guó)【申請(qǐng)人城市】上海市【申請(qǐng)人區(qū)縣】金山區(qū)【申請(qǐng)?zhí)枴緾N200630039700.8【申請(qǐng)日】
【摘要】 本發(fā)明涉及一種基于HTML特征的文本內(nèi)容提取方法,該方法實(shí)現(xiàn)的步驟包括:1)使用標(biāo)簽把輸入的HTML網(wǎng)頁(yè)進(jìn)行分解成多個(gè)模塊;2)如果1)中分解的模塊還能繼續(xù)再分解而且沒(méi)有出現(xiàn)Table或Div標(biāo)簽混雜的情況,那么再把它送到步驟1)繼續(xù)分解;3)把輸入的模塊根據(jù)在布局中的不同位置給與不同位置得分;4)計(jì)算每個(gè)模塊的鏈接文字長(zhǎng)度和每個(gè)模塊超鏈接內(nèi)文本的長(zhǎng)度;5)根據(jù)公式:綜合得分=位置得分×文字長(zhǎng)度/鏈接文字長(zhǎng)度得出每個(gè)模塊得綜合得分。與現(xiàn)有技術(shù)相比,提高了網(wǎng)頁(yè)布局的解析效率;提高了文本聚類(lèi)和文本分類(lèi)、自動(dòng)摘要的準(zhǔn)確性。。關(guān)注公眾號(hào)馬 克 數(shù) 據(jù) 網(wǎng) 【專(zhuān)利類(lèi)型】發(fā)明申請(qǐng) 【申請(qǐng)人】上海新納廣告?zhèn)髅接邢薰?【申請(qǐng)人類(lèi)型】企業(yè) 【申請(qǐng)人地址】200050上海市長(zhǎng)寧路1027號(hào)42F 【申請(qǐng)人地區(qū)】中國(guó) 【申請(qǐng)人城市】上海市 【申請(qǐng)人區(qū)縣】長(zhǎng)寧區(qū) 【申請(qǐng)?zhí)枴緾N200610028064.8 【申請(qǐng)日】2006-06-22 【申請(qǐng)年份】2006 【公開(kāi)公告號(hào)】CN101093487A 【公開(kāi)公告日】2007-12-26 【公開(kāi)公告年份】2007 【IPC分類(lèi)號(hào)】G06F17/30 【發(fā)明人】金駿; 胡創(chuàng)義 【主權(quán)項(xiàng)內(nèi)容】1.基于HTML特征的文本內(nèi)容提取方法,其特征在于,該方法實(shí)現(xiàn)的步 驟包括: 1)使用標(biāo)簽把輸入的HTML網(wǎng)頁(yè)進(jìn)行分解成多個(gè)模塊; 2)如果1)中分解的模塊還能繼續(xù)再分解而且沒(méi)有出現(xiàn)Table或Div標(biāo)簽 混雜的情況,那么再把它送到步驟1)繼續(xù)分解; 3)把輸入的模塊根據(jù)在布局中的不同位置給與不同位置得分; 4)計(jì)算每個(gè)模塊的鏈接文字長(zhǎng)度和每個(gè)模塊超鏈接內(nèi)文本的長(zhǎng)度; 5)根據(jù)公式:綜合得分=位置得分×文字長(zhǎng)度/鏈接文字長(zhǎng)度得出每個(gè)模 塊得綜合得分,綜合得分最高的為內(nèi)容模塊。 【當(dāng)前權(quán)利人】上海新納廣告?zhèn)髅接邢薰?【當(dāng)前專(zhuān)利權(quán)人地址】上海市長(zhǎng)寧路1027號(hào)42F 【專(zhuān)利權(quán)人類(lèi)型】有限責(zé)任公司 【被引證次數(shù)】23 【被他引次數(shù)】23.0 【家族被引證次數(shù)】23
未經(jīng)允許不得轉(zhuǎn)載:http://m.duba2008.cn/1775442684.html
喜歡就贊一下






