数说技术 | 让算法“教导”数据,以数字化内容洞察消费者
大数据在企业中的分析与应用离不开背后的算法平台支撑,获取数据仅仅是大数据应用的第一步。企业如何按照不同的需求筛选、分类数据,提取最有效的部分进行分析?只有经年积累的算法和机器学习技术,才能让数据真正“活”起来。
其中,文本类型数据的内容、意图和情感分析是文本数据挖掘中的重点分析对象。DataStory依托持续更新的机器学习能力和文本挖掘引擎,在海量互联网数据的支撑下,结合不同行业的大数据实践,不断完善自有的机器学习与文本处理算法。
本文将展开介绍DataStory算法平台 - 数说罗盘,一个集“算法测试演示 - 标注 - 模型训练上线”三位一体的智能持续优化系统平台。
算法展示与测试
DataStory提供业界领先的基础文本分析算法:中文分词、中文句法分析、关键词提取、实体识别、通用内容分类、内容摘要、垃圾广告判断、情感判断。
DataStory拥有专利技术的观点提取算法 - 三元组提取技术,提供细粒度的维度情感判断。通过多领域的专业三元组模型建立,能够支持不同领域定制化的观点提取分析。除此之外,DataStory还提供通用的智能提取模块,达到快速的分析模块构建。
互联网的数据的一个常见特征是数据类型纷杂无序,通过关键词进行数据搜索,会带来大量的噪音。DataStory针对性的开发了歧义词识别算法,以达到有效的噪音消除。
社交网络营销的主阵地 - 微博,存在大量的水军以及僵尸账号,这对企业的数据分析会造成非常的大的影响。DataStory通过60+维度的水军特征,通过机器学习的算法判断微博用户的水军可能性。
出于商业分析的需要,DataStory会大量的根据爬虫协议对全网新闻数据进行采集。面对海量的站点,开发专用爬虫模板的成本会非常大,DataStory通过研发通用新闻提取算法,能够到达多核心字段>95%的准确率。
除此之外,聚类分析、人脸检测与识别、知识图谱的相关模块也是不可或缺的。
数据标注
DataStory研发了一套基于active-learning算法的数据标注工具。数据标注不再是一次性大量数据标注,变成了迭代式的、打怪升级式的标注。每一个迭代,算法自动判断收敛,和筛选最有价值的数据进行下一次标注。
为了进一步的加快数据标注的速度,DataStory深度优化标注的过程,使得用户可以通过简单的快捷键、清晰明显的数据展示,进行快速的标注。
当模型标注达到收敛时,可以一键点击模型训练,后台会自动训练模型并且发布上线。
互联网信息爆炸的状况让快速、便捷的信息呈现显得愈发重要,而这一点有赖于智能机器算法的不断升级。作为人工智能领域的探索者,DataStory对算法不断开发和迭代,目前已经完成大部分算法自动化训练部署。配合智能化的标注,DataStory最终将实现算法全链条的打通,让数据学会思考,助力人工智能技术在不同商业场景下的应用实践。
评论
评论
推荐评论
暂无评论哦,快来评论一下吧!
全部评论(0条)