实施相似性搜索算法

获取数据

import pandas as pd   descripciones = [         'all users must reset passwords every 90 days.',         'passwords need to be reset by all users every 90 days.',         'admin access should be restricted.',         'passwords must change for users every 90 days.',         'passwords must change for users every 80 days.'     ]  # cargar el dataset data = pd.dataframe({     'rule_id': range(1, len(descripciones) + 1),     'description': descripciones })

登录后复制

词汇相似度

from sklearn.feature_extraction.text import tfidfvectorizer from sklearn.metrics.pairwise import cosine_similarity  ! # vectorización de las descripciones con tf-idf vectorizer = tfidfvectorizer().fit_transform(data['description'])  # calcular la matriz de similitud de coseno cosine_sim_matrix = cosine_similarity(vectorizer)  # crear un diccionario para almacenar las relaciones sin duplicados def find_related_rules(matrix, rule_ids, threshold=0.8):     related_rules = {}     seen_pairs = set()  # para evitar duplicados de la forma (a, b) = (b, a)      for i in range(len(matrix)):         related = []         for j in range(i + 1, len(matrix)):  # j comienza en i + 1 para evitar duplicados             if matrix[i, j] &gt;= threshold:                 pair = (rule_ids[i], rule_ids[j])                 if pair not in seen_pairs:                     seen_pairs.add(pair)                     related.append((rule_ids[j], round(matrix[i, j], 2)))         if related:             related_rules[rule_ids[i]] = related      return related_rules  # aplicar la función para encontrar reglas relacionadas related_rules = find_related_rules(cosine_sim_matrix, data['rule_id'].tolist(), threshold=0.8)  # mostrar las reglas relacionadas print("reglas relacionadas por similitud:") for rule, relations in related_rules.items():     print(f"rule {rule} es similar a:")     for related_rule, score in relations:         print(f"  - rule {related_rule} con similitud de {score}")

登录后复制

语义相似度

!pip install sentence-transformers from sentence_transformers import SentenceTransformer, util   # Load the pre-trained model for generating embeddings model = SentenceTransformer('all-MiniLM-L6-v2')  # Generate sentence embeddings for each rule description embeddings = model.encode(data['Description'], convert_to_tensor=True)  # Compute the semantic similarity matrix cosine_sim_matrix = util.cos_sim(embeddings, embeddings).cpu().numpy()  # Function to find related rules based on semantic similarity def find_related_rules(matrix, rule_ids, threshold=0.8):     related_rules = {}     seen_pairs = set()  # To avoid duplicates of the form (A, B) = (B, A)      for i in range(len(matrix)):         related = []         for j in range(i + 1, len(matrix)):  # Only consider upper triangular matrix             if matrix[i, j] &gt;= threshold:                 pair = (rule_ids[i], rule_ids[j])                 if pair not in seen_pairs:                     seen_pairs.add(pair)                     related.append((rule_ids[j], round(matrix[i, j], 2)))         if related:             related_rules[rule_ids[i]] = related      return related_rules  # Apply the function to find related rules related_rules = find_related_rules(cosine_sim_matrix, data['Rule_ID'].tolist(), threshold=0.8)  # Display the related rules print("Reglas relacionadas por similitud semántica:") for rule, relations in related_rules.items():     print(f"Rule {rule} es similar a:")     for related_rule, score in relations:         print(f"  - Rule {related_rule} con similitud de {score}")

登录后复制

以上就是实施相似性搜索算法的详细内容，更多请关注php中文网其它相关文章！

四平甲倪网络网站制作专家

获取数据

词汇相似度

语义相似度

作者: nijia

发表回复取消回复

联系我们

微信扫一扫关注我们

获取数据

词汇相似度

语义相似度

给这篇文章的作者打赏

作者: nijia

相关文章

C语言如何计算两个字符串的匹配字符的数目

python远程登录云主机的方法是什么

python怎么创建虚拟环境

Python中数据存储的形式有哪些

C语言如何规定当解析器在 XML 文档中找到符号声明时被调用的函数

python怎么读取mongodb数据

发表回复 取消回复

联系我们

微信扫一扫关注我们

发表回复取消回复