企業(yè)做網(wǎng)站識別商品屬性信息設計
日期 : 2020-12-06 15:52:40
識別商品屬性信息設計。在電子商務(wù)網(wǎng)頁(yè)中對商品信息的描述中,包含商品的特征詞,因此結合超文本標記語(yǔ)言以及統計學(xué)規則,可以自動(dòng)識別商品屬性信息的所在位置,設計流程為:

檢索電子商務(wù)網(wǎng)頁(yè)中商品屬性特征詞典中的每一個(gè)詞匯,若找到相配詞匯,則將該詞匯所在節點(diǎn)添加到候選集合中。再對后先集合中的每一個(gè)節點(diǎn)中,查詢(xún)與其距離最近的上一級別的節點(diǎn),若未能成功找到則將該節點(diǎn)排除,若能夠找到則從上一級別的節點(diǎn)集合中將屬于該節點(diǎn)的子節點(diǎn)刪除。

利用統計學(xué)的規則,并結合提取規則,計算出節點(diǎn)中的表格子節點(diǎn)以及文本內容的子節點(diǎn),并通過(guò)計算獲得其數量的所占比例,若比值大于75%,則將該節點(diǎn)加入到提取集合當中,若小于75%,則將該節點(diǎn)排除。

檢索電子商務(wù)網(wǎng)頁(yè)中商品屬性特征詞典中的每一個(gè)詞匯,若找到相配詞匯,則將該詞匯所在節點(diǎn)添加到候選集合中。再對后先集合中的每一個(gè)節點(diǎn)中,查詢(xún)與其距離最近的上一級別的節點(diǎn),若未能成功找到則將該節點(diǎn)排除,若能夠找到則從上一級別的節點(diǎn)集合中將屬于該節點(diǎn)的子節點(diǎn)刪除。

利用統計學(xué)的規則,并結合提取規則,計算出節點(diǎn)中的表格子節點(diǎn)以及文本內容的子節點(diǎn),并通過(guò)計算獲得其數量的所占比例,若比值大于75%,則將該節點(diǎn)加入到提取集合當中,若小于75%,則將該節點(diǎn)排除。