您好,欢迎来到时间财富网
项 目
OR
立即发布需求
所有分类

开发语言:python、html(根据自身情况而定)

一、搜索功能:根据关键字,利用“多线程并发”技术,从百度中搜索爬取新闻网站的相关新闻文本,可以存为txt文件或MySQL数据库中。测试10条线程以内,多少条线程的采集效果最佳,以单位时间内采集到的新闻文本数来衡量,测试过程和结果对比表要加入“说明书”。


二、过滤功能:将爬取到的新闻文本,建议流程如下

1.分词、去停用词

2.词袋模型向量化文本

3.TF-IDF模型向量化文本

4.LSI模型向量化文本

利用jieba、gensim等库来计算相文本似度,只保留下相似度最高的新闻文本。如有其他文本相似度计算方法,也可商量。测试该计算方法下不同关键词的新闻文本集合在过滤功能后的 准确率(过滤结果中的最相关文本数/过滤结果中的所有文本数)、召回率(过滤结果中的最相关文本数/过滤前的相关新闻文本总数)、F1(2*准确率*召回率 / 准确率 召回率),


三、说明书:系统使用说明、重要代码功能实现、系统逻辑流程图表



附件:https://d14file.680.com/item/2021-4/25/20210425637434272_0.PNG
【查看雇主联系方式,直接沟通】 您需要 登录 或者 注册 才能参与报价。
所有报价(2)
投标编号:8907960
提交于2021-04-27
钻石四级
积分:2152分
四川 - 成都
竞标报价:¥*****(仅雇主可见)
开发周期:45
报价内容暂不公开
投标编号:8906565
提交于2021-04-25
竞标报价:¥*****(仅雇主可见)
开发周期:5
报价内容暂不公开
浏览数量519
竞标数量2
分享可赚钱,赶快告诉您的朋友吧
类似需求
¥1000-5000
¥1000
软件开发 3人投标
¥10000-30000
软件开发 5人投标
¥0
¥0
软件开发 2人投标
¥2500-3000
软件开发 2人投标
关于我们 | 联系我们 | 使用帮助 | 支付方式 | 商标注册 | APP下载 | 网站公告 | 商标设计 | 网站地图
蜀ICP备15035644号 Copyright(©)2006-2019 www.680.com All rights reserved.