• 请不要在回答技术问题时复制粘贴 AI 生成的内容
miaoblyat
V2EX  ›  程序员

如何从句子提取关键词

  •  
  •   miaoblyat · Jun 3, 2024 via iPhone · 2512 views
    This topic created in 724 days ago, the information mentioned may be changed or developed.

    需求是从句子中提取指定关键词或者关键词近似的词语;目前用 jieba 提取效果不是很理想.可能我用法不对;有人做过类似的关键词提取吗

    15 replies    2024-06-05 00:26:10 +08:00
    miaoblyat
        1
    miaoblyat  
    OP
       Jun 3, 2024
    # 提取句子中的关键词及其近似词
    def extract_keywords_and_similars(sentence, custom_keywords, similarity_threshold=0.5):
    words = jieba.lcut(sentence)
    result = {}

    for keyword in custom_keywords:
    extracted_words = [word for word in words if is_similar(keyword, word, similarity_threshold) or keyword == word]
    if extracted_words:
    result[keyword] = extracted_words

    return result
    MelodYi
        2
    MelodYi  
       Jun 3, 2024
    先用大模型试试?
    murmur
        3
    murmur  
       Jun 3, 2024
    少量的句子连人都看不懂怎么提取关键字
    BiChengfei
        4
    BiChengfei  
       Jun 3, 2024
    前提:你要有一个关键字字典
    指定关键词:使用上面的字典,构建字典树,进行语句提取,或者循环比较
    相似关键字:循环字典,求相似度
    miaoblyat
        5
    miaoblyat  
    OP
       Jun 3, 2024 via iPhone
    现在用了 Chinese-word- vector 作关键词字典
    miaoblyat
        6
    miaoblyat  
    OP
       Jun 3, 2024
    @BiChengfei sentence: 这里发生车辆碰撞,有人受伤
    keyword: {'车祸': ['受伤']}--0.5
    sentence: 这里有条狗被撞了,无人受伤
    keyword: {'车祸': ['撞', '受伤']}--0.5
    sentence: 高速上塞车了,不知道什么原因
    keyword: {}--0.5
    miaoblyat
        7
    miaoblyat  
    OP
       Jun 3, 2024
    @miaoblyat 感觉近似词不是很准,就想着怎么能更精准
    BiChengfei
        8
    BiChengfei  
       Jun 3, 2024
    {'车祸': ['受伤']}--0.5
    {'车祸': ['撞', '受伤']}--0.5
    你这不能使用相似度算法了,需要根据语义,进行文本分类吧(这个我不懂,等有缘人解惑吧)
    BiChengfei
        9
    BiChengfei  
       Jun 3, 2024
    miaoblyat
        10
    miaoblyat  
    OP
       Jun 3, 2024 via iPhone
    好的感谢🙏
    meshell
        11
    meshell  
       Jun 3, 2024
    jr55475f112iz2tu
        12
    jr55475f112iz2tu  
       Jun 3, 2024   ❤️ 1
    你应该把最原始的需求/最终的目的说出来,而不是这个经过解读后的需求

    中文 NLP 过去绝大部分的做法,在大语言模型出来之后基本上都失去了意义,还用老套路来做只是缘木求鱼
    rabbbit
        13
    rabbbit  
       Jun 3, 2024
    同有这个需求,也许可以解决模型知识库命中率低的问题。
    macaodoll
        14
    macaodoll  
       Jun 4, 2024 via Android
    我们也有文本提取的需求,之前 NLP 错的太多了,这些文本提取类的交给大模型很舒服的
    miaoblyat
        15
    miaoblyat  
    OP
       Jun 5, 2024 via iPhone
    @macadoll 用了哪个大模型,方便说吗;目前我用了 bert-Chinese 感觉还是差点意思
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3364 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 466ea39e · 45ms · UTC 11:12 · PVG 19:12 · LAX 04:12 · JFK 07:12
    ♥ Do have faith in what you're doing.