textrank-jieba 算法復(fù)現(xiàn)

imingyu 發(fā)布于2019-07-30 16:20 / 880人閱讀

摘要：根據(jù)算法的思路，手動(dòng)復(fù)現(xiàn)算法。根據(jù)窗口大小，組合共現(xiàn)詞和頻率，頻率代表共現(xiàn)權(quán)重。正反雙向共現(xiàn)詞。根據(jù)每個(gè)詞的權(quán)重的迭代公式，采用冒泡排序的方法，將一個(gè)詞的所有共現(xiàn)詞的權(quán)重代入公式。迭代次，使每個(gè)詞的權(quán)重收斂。根據(jù)權(quán)重排序，輸出。

根據(jù)jieba textrank算法的思路，手動(dòng)復(fù)現(xiàn)textrank算法。
思路：1.分詞，確定窗口大小。
 2.根據(jù)窗口大小，組合共現(xiàn)詞和頻率，頻率代表共現(xiàn)權(quán)重。
      trick:正反雙向共現(xiàn)詞。
 3.根據(jù)textrank 每個(gè)詞的權(quán)重的迭代公式，采用冒泡排序的方法，將一個(gè)詞的所有共現(xiàn)詞的權(quán)重代入公式。
 4.迭代10次，使每個(gè)詞的權(quán)重收斂。
 5.根據(jù)權(quán)重排序，輸出top words。

import collections
import sys
import jieba
import jieba.posseg as psg
from operator import itemgetter


class UndirectWeightedGraph:
    d=0.85
    def __init__(self):
        self.edges=collections.defaultdict(list)
    def add_edge(self,start,end,weight):
        self.edges[start].append((start,end,weight))
        self.edges[end].append((end,start,weight))
    def rank(self):
        ws=collections.defaultdict(float)
        outSum=collections.defaultdict(float)

        wsdef=1.0/(len(self.edges) or 1.0)
        for n,elem in self.edges.items():
            outSum[n]=sum([e[2] for e in elem])
            ws[n]=wsdef

        for epoch in range(10):
            for n,elems in self.edges.items():
                s=0
                for elem in elems:
                   s+=elem[2]/outSum[elem[1]]*ws[elem[1]]
                ws[n]=s

        min_rank,max_rank=sys.float_info[0],sys.float_info[3]
        for n,w in ws.items():
            if wmax_rank:
                max_rank=w

        for n,w in ws.items():
            ws[n]=((n-min_rank)/10.0)/((max_rank-min_rank)/10.0)
        return ws

class TextRank(object):
    def __init__(self):
        self.stopwords=[]
        self.pos_filter=[]
        self.span=5
    def pairfilter(self,wp):
        return wp.flag in self.pos_filter and len(wp.word)>=2 and wp.word.lower not in self.stopwords
    def textrank(self,sentence,topk=20):
        uwg=UndirectWeightedGraph()
        words=psg.lcut(sentence)
        wm=collections.defaultdict(int)
        for word_index,wp in enumerate(words):
            if self.pairfilter(wp):
                for index_assit in range(word_index+1,word_index+5):
                    if index_assit>=len(words):
                        break
                    if not self.pairfilter(words[index_assit]):
                        continue
                    wm[(wp,words[index_assit])]+=1
                    # uwg.add_edge(wp.word,words[index_assit].word,1)
        for words_tuple,w in wm.items():
            uwg.add_edge(words_tuple[0],words_tuple[1],w)
        g=uwg.rank()
        g=sorted(g.items(),key=itemgetter(1),reverse=True)
        return g[:topk]

GPU云服務(wù)器云服務(wù)器 docker 逃逸漏洞復(fù)現(xiàn) gpu云服務(wù)器免費(fèi)復(fù)現(xiàn)代碼 gpu云服務(wù)器怎么復(fù)現(xiàn)代碼數(shù)據(jù)結(jié)構(gòu) 算法算法

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://www.hztianpu.com/yun/41618.html

發(fā)表評論

登陸后可評論

0條評論

imingyu

男|高級講師

我要關(guān)注我要私信

TA的文章

＜LeetCode天梯＞Day026 反轉(zhuǎn)鏈表（遞歸法+（迭代法）雙鏈表法） | 初級算法 | Py

閱讀 808·2021-11-17 09:33
EtherNetservers：洛杉磯VPS主機(jī)$12/年起,支持支付寶/PayPal

閱讀 3856·2021-09-01 10:46
Css Module介紹

閱讀 1851·2019-08-30 11:02
《CSS重構(gòu)：樣式表性能調(diào)優(yōu)》讀書筆記

閱讀 3357·2019-08-29 15:05
Cookie, Session, LocalStorage, SessionStorage, Eta

閱讀 1456·2019-08-26 11:39
react配置less,并使用less module（webpack.config.js配置）

閱讀 2361·2019-08-23 17:04
事件循環(huán)

閱讀 2035·2019-08-23 15:43
編寫可維護(hù)的代碼

閱讀 1427·2019-08-23 14:12

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

textrank-jieba 算法復(fù)現(xiàn)

相關(guān)文章

漫話：如何給女朋友解釋滅霸的指響并不是真隨機(jī)"消滅"半數(shù)宇宙人口的？

觀遠(yuǎn)AI實(shí)戰(zhàn) | 機(jī)器學(xué)習(xí)系統(tǒng)的工程實(shí)踐

某查詢企業(yè)信息平臺的接口破解記錄

發(fā)表評論

0條評論

imingyu

男|高級講師

TA的文章

＜LeetCode天梯＞Day026 反轉(zhuǎn)鏈表（遞歸法+（迭代法）雙鏈表法） | 初級算法 | Py

EtherNetservers：洛杉磯VPS主機(jī)$12/年起,支持支付寶/PayPal

Css Module介紹

《CSS重構(gòu)：樣式表性能調(diào)優(yōu)》讀書筆記

Cookie, Session, LocalStorage, SessionStorage, Eta

react配置less,并使用less module（webpack.config.js配置）

事件循環(huán)

編寫可維護(hù)的代碼

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

textrank-jieba 算法復(fù)現(xiàn)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！