数据挖掘中的决策树探讨

数据挖掘中的决策树探讨

一、数据挖掘中决策树的探讨(论文文献综述)

黄心依[1](2021)在《机器学习在数据挖掘中的应用研究》文中研究说明在信息技术高速发展的今天,所产生的数据信息量不断增加,随之产生了海量数据的处理问题。数据挖掘指的是通过对数据的分析以及算法来对数据中隐藏的有价值的信息进行挖掘,实现数据信息价值的最大化。机器学习是数据挖掘问题的主要解决方法,能够通过算法促使计算机具有发现数据中潜在规律以及特征的能力,所以机器学习在数据挖掘中有着广泛的应用。文章在阐述数据挖掘和机器学习的基础上,分析了机器学习的相关算法和应用原理,并且总结了机器学习算法中向量机和卷积神经网络在数据挖掘中的应用。

阎臻泰[2](2021)在《DRGs视角下胃癌手术住院医疗费用分析》文中研究表明胃癌(gastric carcinoma)是起源于胃黏膜上皮的恶性肿瘤,在全世界范围内,消化系统肿瘤发病率最高,约在50%-60%,在所有的肿瘤发病率中排名第三。我国每年的胃癌发病率以及死亡率,约占全球的1/2,由于其治疗周期长,常采用综合性治疗手段,常规住院费用通常较其他疾病高,且因肿瘤疾病的难治愈性,肿瘤患者需要反复住院,这给社会和家庭带来了严重的经济负担,而影响住院费用的关键便是合理的医疗保险支付模式,因此,本文开展胃癌患者诊断相关分组(DRGs)及其住院费用预测的研究。该研究对完善和推进我国胃癌的DRGs付费制度具有实践意义,同时也可为医保部门、医院的合理控费提供参考。本研究以CN-DRGs为参考,引用历史数据法作为搜集数据的手段,通过对福建省某三甲医院2017-2019年主要诊断为胃癌的手术患者病案首页数据进行分析,基于DRGs理念构建住院费用分析预测模型并对相关结果进行总结与思考。具体研究内容如下:首先,本文应用数据挖掘的相关知识,对搜集到的原始数据进行数据的预处理、包括数据集成、数据转换、数据清理,为后续DRGs的分组以及住院费用分析的展开奠定基础,保证分组和住院费用的可分析性和科学性。其次,通过统计学方法中的非参数检验和多元线性回归分析,找出影响胃癌住院费用的显着因素,将这些显着因素作为卡方自动交互检测的分类节点,建立Drgs病例分组模型。最后,在分组的基础上确定相应的偿付标准和费用范围,并筛选出不合理费用的阈值。最后对不合理费用做进一步的分析,利用数据挖掘技术中的关联规则分析方法,挖掘不合理费用和产生不合理费用的可能因素之间的规则。

董帅[3](2021)在《结核病患者诊疗与管理系统的研究与实现》文中提出我国作为全球第二大结核病高负担国家,防治工作中面临着诸多的问题与挑战。首先,在一些偏远地区因医治条件的限制,结核病患者发现、治疗与管理难度大。其次,结核病患者大多数是通过居家服药和定期检查进行治疗,但服药和定期检查依从性整体水平较差。此外,目前临床医生在选择结核病患者治疗方案时,选择依据单一,常造成方案选择不合理,使患者产生耐药性。为应对以上问题,对患者有效的诊疗与管理就变得十分重要了。通过将电子药盒、手机等智能设备与计算机技术相结合,论文设计并实现了结核病患者诊疗与管理系统。论文的主要研究工作包括了两部分:一是决策树在结核病治疗方案选择中的研究与应用,首先对采集的数据集进行数据清洗、数据变换等预处理,使其完整且规范;然后进行特征选择,选择出最相关的属性进行模型训练;接着使用SPSS Modeler软件构建并输出可视化决策树模型,并使用决策树C5.0算法进行数据训练,验证模型的准确性和决策树算法在该应用场景的适用性;最后,进行评估模型,并抽取模型规则集应用于系统。二是系统设计与实现,以微信小程序技术栈为基础,实现了移动端应用;以Go语言、Java语言、JavaScript 语言为基础,结合 Spring Boot、Go-kit、React 开发框架与 Ant Design UI 库设计并实现了 Web端诊疗与管理系统;通过第三方接口为移动端与Web端系统接入电子药盒端;优化或解决了 Web端首屏加载缓慢、权限控制与系统安全控制等问题。系统包括患者推介、患者追踪、患者管理、访视管理、服药管理、预约复诊、分级诊疗、停止治疗、密接者管理、数据统计监测和数据大屏等主要功能。论文研究并实现的结核病患者诊疗与管理系统已经投入实际使用,极大地方便了定点医院、基层机构、疾控中心对结核病患者的管理,切实提高了结核病患者的服药依从性,并且决策树的应用为结核病患者治疗方案的选择提供了参考,达到了预期研究的目标。

梅鹏江[4](2021)在《混合式教学下学生学业水平预测模型的研究》文中进行了进一步梳理混合式教学结合在线教学和线下教学的优势,在一定程度上打破时空的限制,体现了“以学生为中心”教学范式的转变。伴随着混合式教学规模的扩大,如何通过学习者学习行为数据来分析和挖掘出有用的信息,帮助学习者提高学习效率,改善教师教学水平和质量,成为迫切需要解决的问题。针对上述问题,本文对学生在混合式教学过程中产生的学习行为数据进行分析和挖掘,构建了学习行为数据分析-特征选择-Stacking融合的学业预测模型分析。主要工作如下:首先,在混合式教学的研究中,学者大多都致力于课程的设计和改进,忽略了对学生行为数据的统计、分析及学业成绩的预测。故本文对学生在混合式教学过程中产生的学习行为数据,包括课堂、课后行为等数据进行了统计和分析,讨论了学习行为数据所反映的学生学习习惯,最后通过特征相关性分析和特征重要性排序找出了对学生学业水平影响较大的特征,从而最大程度地保留有效特征,避免数据损失。其次,本文创新性地提出将Stacking融合模型应用于混合式教学中学生学业水平的预测。在构建Stacking融合模型过程中,为摆脱基模型准确率对融合模型产生的影响,利用决策树、随机森林、极限梯度提升作为模型,用三种算法分别建立学生学业水平预测模型,通过混淆矩阵对模型评估,选出适合融合的两个基模型进行融合;经实验分析,直接使用数据得到的预测准确率相对较低,故以两个模型中表现较好的模型对数据进行特征重要性排名,结合特征相关性进行特征选择,过滤冗余特征;特征选择后依次在随机森林、极限梯度提升和Stacking融合模型上进行实验,并对模型参数调优。实验表明通过特征选择与Stacking融合模型的结合,经交叉验证后模型准确率相较于特征选择前的随机森林模型提高了3.6%,极限梯度提升模型提高了2%,Stacking模型也提高了0.8%。可见选择表现较好的特征和基模型进行行为分析和选择,可以保证算法的准确性和优越性。最后,构建学生个人画像。以学生各类行为数据和基本信息建立标签集合,对学生各类数据进行分析,检测学生学业异常并及时预警,为师生提供个性化的服务。

周彪[5](2021)在《面向社交网络的隐私保护方法研究》文中研究表明得益于互联网和大数据等技术的快速发展,蕴含在社交网络中的海量数据可以给社会的生产生活带来巨大的价值,但在社交网络的数据发布和数据挖掘过程中可能会引发隐私泄露的问题。因此,如何做到在不泄露社交网络隐私信息前提下,进行安全有效且有价值的数据发布和数据挖掘是当前一个研究热点。差分隐私作为一种重要且有效的隐私保护方法,目前已被应用在社交网络隐私保护。本文针对社交网络隐私保护和差分隐私方法的结合展开相应研究,并做了如下工作:(1)本文介绍了社交网络的概念及其特点和差分隐私基本理论,分析了社交网络中面临的隐私泄露问题,说明了社交网络的隐私保护要求,总结了针对社交网络中的常见的隐私保护方法,阐明了差分隐私具备的数据保护能力,并回顾了近几年领域内的相关学术成果。(2)针对社交网络数据在直方图发布过程中存在的隐私泄漏和查询精度低问题,本文基于差分隐私保护模型,提出了一种相邻桶分组划分方法(Adjacent Group Bucket Dividing,AGBD)。采用图映射方法对社交网络进行节点差分隐私处理,同时针对映射方法在直方图发布过程中存在的引入过量噪声问题,本文提出的AGBD方法使用贪心策略,并结合Laplace机制对相邻桶进行分组划分以减少由于添加过量噪声对直方图发布质量的影响。同时利用排列保序方法优化直方图发布,提升直方图发布查询的精确性。实验结果显示本文提出的AGBD方法可以提升直方图发布后的查询精度。(3)针对社交网络数据中在分类模型的训练和预测过程中面临的隐私泄露问题,本文利用差分隐私保护模型和自适应增强集成学习策略,提出了一种基于差分隐私的集成学习方法(Differential Privacy Ensemble Learning,DPEL)。该方法的核心思想是在基于决策树的个体分类器构建完毕后,结合噪声添加机制,然后将预先分配好的隐私预算加入到个体分类器的组合过程中,最后得到带隐私保护的强分类器,并对DPEL进行ε-差分隐私性证明。实验结果表明本文提出的DPEL方法可以在保证一定数据隐私信息的前提下,使分类模型仍然具备较高的分类准确度。

郝玲,张佩,史逸民,刘瑞翔,王伟健,朱云凤[6](2021)在《基于机器学习的江苏省冬小麦气象产量客观区划及歉年预测》文中研究表明利用江苏省统计局提供的全省75个县(市、区)1981—2018年的冬小麦产量,基于灰色系统滑动模型得到各县(市、区)冬小麦气象产量。采用K-means算法对全省各县(市、区)冬小麦气象产量进行聚类分析,将全省客观划分为南、北2个冬小麦种植区,区域连续且相互独立。通过C4.5决策树算法,基于130项前期春季气候因子对2个种植区的冬小麦气象产量"是否歉年"分别建立决策树预测模型。在北种植区冬小麦是否歉年的预测中,决策树模型的自学习准确率为82.0%,测试准确率为90.9%;在南种植区冬小麦是否歉年的预测中,决策树模型的自学习准确率为92.5%,测试准确率为91.67%。结果表明,K-means算法和C4.5算法对江苏省冬小麦气象产量区划和预测具有良好效果,可为江苏省冬小麦产量预测提供有意义的参考。

王细韵[7](2021)在《非财务信息在制造业收入舞弊识别中的运用研究 ——基于数据挖掘》文中研究指明收入是企业常见舞弊领域,舞弊方法多样且隐蔽。如今,各行各业都已经进入大数据时代,企业各方面的信息都以电子数据的形式得以储存。大数据时代使得非财务信息的获取和处理更加容易,将非财务信息运用到收入舞弊识别中,能够更好地帮助审计人员识别出舞弊迹象。本文研究的正是如何利用大数据技术在收入舞弊识别中发挥非财务信息的作用。本文首先对收入舞弊识别、非财务信息应用、数据挖掘运用三方面的文献进行梳理,发现将收入舞弊、非财务信息和数据挖掘三个方面联系起来的研究较少,有较大的空白领域需要填补。在前人理论的基础上,本文对非财务信息、制造企业收入舞弊识别和数据挖掘三个方面的相关理论进行分析研究。根据非财务信息的定义、内容和特点,结合制造企业收入舞弊特点、手段和痕迹,以及数据挖掘流程和算法的特性,选择了背景、股权、人员、生产和销售五个方面的非财务信息用于收入舞弊识别。其次,根据所选择出的非财务信息的类型,分别详细阐述了需要收集哪些非财务信息、这些非财务信息与制造企业收入舞弊的关系、如何收集以及如何使用这些非财务信息进行收入舞弊识别。然后,借鉴数据挖掘的方法,使用决策树作为基础模型,根据选择出的五类非财务信息与制造业收入舞弊的密切程度,依次运用销售、生产、背景、人员、股权五个方面的非财务信息进行收入舞弊分析,构建出使用非财务信息进行制造企业收入舞弊识别的程序,用于辅助审计人员识别收入舞弊。最后,本文将通过将构建出的制造企业收入舞弊识别程序应用于昆明机床舞弊案例,证实了该程序的实用价值。本文基于数据挖掘方法,利用非财务信息构建出一个制造企业收入舞弊识别程序,辅助审计人员进行收入舞弊识别。本文的研究丰富了收入舞弊研究内容,为使用非财务信息进行财务舞弊识别扩宽了思路。

刘占玉[8](2021)在《基于数据挖掘的电力客户投诉预测模型研究与应用》文中指出伴随电力市场改革的不断深入,人们对供电能力和服务品质的要求也日益提高。在大数据背景下,使用数据挖掘技术理解市场需求与客户诉求,全面提升供电服务质量,已成为各国家电网公司的共识。本文以某国家电网公司客户为研究对象,“95598历史工单”为数据基础,应用数据挖掘技术对电力客户投诉问题展开研究。主要研究工作如下:(1)为了给电力客户投诉预测模型挖掘有价值的特征,提出特征构建方法。分析电力客户投诉影响因素,结合“95598历史工单”数据特点和挖掘需求,提出从轨迹、时间、业务和客户情绪四个不同角度进行特征构建的思路,然后采用该思路设计了以数据挖掘技术为基础的特征构建方法。(2)针对电力客户工单存在正负样本严重不平衡的问题,提出基于SMOTE和贝叶斯优化算法改进的随机森林算法,即BSMOTE-RF算法。选择经典的数据挖掘分类算法与BSMOTE-RF算法进行实验对比分析,结果表明,BSMOTE-RF算法在大数据集上的分类精度及处理正负样本不平衡问题都优于SVM、朴素贝叶斯和随机森林算法。(3)利用BSMOTE-RF算法设计电力客户投诉预测模型,并将其应用于真实电力客户服务数据中,预测电力客户在未来是否会发起投诉。通过实验证明,该模型可以高效、精确的预测电力客户在未来是否会发起投诉,可以协助国家电网公司开展服务工作,提升客户满意度。提出的特征构建方法和BSMOTE-RF算法比较适合电力客户投诉预测,实验证明它们有助于高效的预测出电力客户是否会发起投诉。

孙聪慧[9](2021)在《非独立同分布下异构数据KNN算法研究》文中研究表明数据挖掘顾名思义就是从海量数据中挖掘出对于企业或者个人来说有用的信息,因为数据挖掘能够为企业创造出更大的利益,所以数据挖掘的相关算法与技术层出不穷,并且已经广泛应用到了许多领域,成为推动大数据发展不可或缺的动力。分类分析是数据挖掘算法中的经典算法之一,其中KNN算法因其原理简单易懂又易于实现等特点被广泛的应用到数据挖掘领域。但因其也存在一些缺陷,如训练样本不均衡问题、冗余特征等会对分类结果产生影响,故而众多学者对其提出改进。然而传统KNN算法及众多改进算法均基于独立同分布,而现实生活中的数据大多数是以非独立同分布的形式存在的,也就是说数据对象之间、数据对象的属性之间以及属性值之间都会存在一定的相互联系,这些相互联系如果被忽略则会错失一些重要信息,从而导致分类结果不准确。因此本文基于非独立同分布思想对KNN算法进行了相关改进。本文的主要研究工作包括以下三点:第一,针对数值型数据,为解决传统KNN算法中因为训练样本不均衡和易受单个属性影响导致分类结果不准确的问题,提出一种基于类隶属度和特征权重的CFW-KNN算法。该算法通过计算数据密度确定球中心点和半径建立最小包围球,并根据训练样本所处位置确定类隶属度,再通过Relief F算法思想进行特征权重的计算,最后根据训练样本的类隶属度和特征权重更新类别决策规则,从而确定待分类样本的类别。实验结果表明,CFW-KNN算法能够使分类结果更加准确,提高分类准确率。第二,针对数值型数据,在改进后的CFW-KNN算法中运用非独立同分布思想,通过对数据集中各类隐含关系的挖掘,提出一种非独立同分布下的NIID_CFW_KNN算法。该算法首先利用改进后的Pearson相关系数公式整合出数据对象的耦合相似度矩阵,将原始数据集转化为具有耦合关系的新数据集,并将新数据集应用于CFW-KNN算法进行分类分析。实验结果表明,NIID_CFW_KNN算法的分类准确率有进一步的提升。第三,针对异构型数据,在NIID_CFW_KNN算法的基础上运用非独立同分布思想对类别型数据和数值型数据进行全局耦合关系分析,提出一种非独立同分布下针对异构型数据的NIID_MCFW_KNN算法。该算法充分挖掘出存在于类别型数据内部、数值型数据内部以及类别型数据和数值型数据之间的耦合关系,并将具有耦合关系的新数据集应用于CFW-KNN算法进行分类分析。实验结果证明,NIID_MCFW_KNN算法对异构型数据具有较好的分类效果。

李明龙[10](2021)在《基于决策树改进算法的脑卒中辅助诊断系统的研究》文中进行了进一步梳理脑卒中又称“中风”,属于急性脑血管疾病。脑卒中死亡率和致残率高,完全康复和痊愈的难度较大,对患者的患病后很长一段时间的健康自主生活会产生消极影响。目前国内已经建立了疾病诊疗电子管理系统,积累了大量脑卒中患者就诊、治疗、康复等医疗数据,如何挖掘这些数据中的价值,建立诊疗辅助决策系统,是现阶段提升医疗效率和智能化水平的重要路径,也是本文研究的重点。在对国内外医学数据挖掘、脑卒中诊疗、辅助决策系统设计等研究现状进行梳理和总结的基础上,本文的研究工作如下:(1)通过K均值聚类算法(K-means clustering algorithm,K-Means)将实例数据进行分组,随机抽样组成训练集,保证每个分组中都有一定数量的实例,数据集的信息获取更加精准,再通过K-Means均值迭代聚类,有效发现给定的数据集中的K个类,在数值均值分析基础上获得聚类中心。验证结果表明聚类处理之后决策树的准确率能够明显的提升。(2)提出了基于K-Means聚类抽样的决策树改进算法(Improved Decision Tree Algorithm based on Cluster Sampling,IDTACS),在K-Means聚类的基础上,利用ID3决策树算法,对聚类后的数据进行决策分析,根据信息熵下降的速度,选择测试属性标准,在每一个决策节点选择尚未选择的信息增益最高的属性为决策树的划分标准,直至最终生成决策树。通过数据分析,有效地挖掘了高血压、高血脂、患者年龄、患者吸烟史、患者家庭脑卒中病史、高同型半胱氨酸症史、糖尿病史等高危因素与脑卒中发病之间的决策树关系。(3)在决策树改进算法分析基础上,基于百色市人民医院积累的大量一手的脑卒中疾病数据,依托现有数据库,利用决策树改进算法,分析脑卒中诊疗中的内在关联关系,发现脑卒中数据中存在的隐含知识,构建专家知识库,建立脑卒中诊疗辅助诊断系统,较好地提高疾病诊断准确率和诊疗效率。基于决策树改进算法的脑卒中辅助诊断系统有利于对脑卒中的早期诊断,对基层医生诊断的支持以及对脑卒中患者的长期动态监控。百色市人民医院的疾病患者多为滇黔桂三省交界少数民族居民,具有极强的区域特性,对该区域少数民族脑卒中数据挖掘和专家系统的研究具有重要的指导和实践意义。

二、数据挖掘中决策树的探讨(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、数据挖掘中决策树的探讨(论文提纲范文)

(1)机器学习在数据挖掘中的应用研究(论文提纲范文)

1引言
2数据挖掘及机器学习概述
    2.1 数据挖掘
    2.2 机器学习
3机器学习的相关算法
    3.1 朴素贝叶斯算法
    3.2 K-近邻法
    3.3 决策树算法
4机器学习在数据挖掘中的应用原理
    4.1 神经网络
    4.2 向量机
    4.3 推荐算法
5机器学习在数据挖掘中的应用
    5.1 机器学习中向量机的应用
    5.2 机器学习中的卷积神经网络的应用
6结语

(2)DRGs视角下胃癌手术住院医疗费用分析(论文提纲范文)

摘要
Abstract
引言
第一章 概述
    1.1 研究背景与研究意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 DRGs的概念
    1.3 DRGs产生背景及其原理
    1.4 DRGs在国内外的发展
第二章 资料与方法
    2.1 研究对象
        2.1.1 资料来源与处理
        2.1.2 资料内容
    2.2 研究方法
        2.2.1 描述性分析
        2.2.2 非参数假设检验
        2.2.3 多因素分析法
        2.2.4 CHAID分析
        2.2.5 关联规则分析
    2.3 研究框架
第三章 胃癌手术患者DRGs分析
    3.1 住院费用及其单因素分析
    3.2 住院费用及其多因素分析
        3.2.1 多重线性回归模型
        3.2.2 多重线性回归模型应用条件及分析步骤
        3.2.3 胃癌手术患者住院费用多重线性回归分析
第四章 决策树选择及DRGs的分组
    4.1 决策树的概念及选择
    4.2 CHAID方法下的DRGs分组
        4.2.1 DRGs分组过程及结果
        4.2.2 DRGs分组效果评价
第五章 DRG组中的不合理费用分析
    5.1 不合理费用的总体评价及构成分析
    5.2 不合理费用的关联规则分析
第六章 研究结论与对策
    6.1 研究结论
        6.1.1 住院天数对患者住院费用的影响
        6.1.2 手术级别对患者住院费用的影响
        6.1.3 性别对患者住院费用的影响
        6.1.4 年龄对患者住院费用的影响
        6.1.5 DRGs预分组成果
    6.2 对策与建议
        6.2.1 预防为主,降低胃癌发生率
        6.2.2 降低住院天数,把控住院总费用
        6.2.3 调控医疗服务收费标准
        6.2.4 加强病案首页质量管理与人才培养
        6.2.5 定期总结与反馈DRG分组情况
    6.3 研究特色与不足
        6.3.1 研究特色
        6.3.2 研究不足
参考文献
文献综述 DRGs视角下胃癌手术住院医疗费用分析
    参考文献
致谢
作者简历

(3)结核病患者诊疗与管理系统的研究与实现(论文提纲范文)

摘要
abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 本论文的主要研究内容
    1.4 本文的组织结构
2 相关理论与技术
    2.1 决策树
        2.1.1 决策树算法概述
        2.1.2 决策树的核心问题
        2.1.3 常用决策树算法
    2.2 React框架
    2.3 移动APP开发技术
    2.4 本章小结
3 结核病患者诊疗与管理系统需求分析与总体设计
    3.1 系统需求分析
        3.1.1 业务需求分析
        3.1.2 功能需求分析
        3.1.3 非功能性需求
    3.2 系统总体设计
        3.2.1 系统架构设计
        3.2.2 软件结构设计
        3.2.3 主要模块总体设计
        3.2.4 数据库设计
    3.3 本章小结
4 结核病患者治疗方案选择研究
    4.1 问题描述
    4.2 基于决策树的治疗方案选择模型实现
        4.2.1 决策树C5.0算法原理
        4.2.2 数据集采集与处理
        4.2.3 结核病方案选择模型构建
        4.2.4 模型训练
    4.3 模型分析与应用
    4.4 本章小结
5 结核病患者诊疗与管理系统实现
    5.1 开发环境介绍
    5.2 系统实现难点与解决方案
        5.2.1 首屏加载缓慢
        5.2.2 权限控制
        5.2.3 系统安全控制
    5.3 系统Web端主要功能模块实现
        5.3.1 系统登录模块
        5.3.2 患者推介模块
        5.3.3 患者追踪模块
        5.3.4 患者诊疗模块
        5.3.5 患者管理模块
        5.3.6 数据大屏模块
    5.4 APP功能实现
        5.4.1 登录与注册
        5.4.2 患者端
        5.4.3 工作人员端
    5.5 系统测试
        5.5.1 功能测试
        5.5.2 性能测试
    5.6 系统部署
    5.7 本章小结
6 总结与展望
    6.1 工作总结
    6.2 工作展望
致谢
参考文献
攻读硕士学位期间主要研究成果

(4)混合式教学下学生学业水平预测模型的研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 国内研究现状
        1.2.2 国外研究现状
        1.2.3 研究现状总结
        1.2.4 研究目的
    1.3 论文主要工作和组织架构
        1.3.1 论文主要工作
        1.3.2 论文的组织结构
第二章 相关概念及技术
    2.1 数据挖掘概述
    2.2 数据准备及预处理
        2.2.1 数据预处理
        2.2.2 特征变换
        2.2.3 特征选择
    2.3 数据挖掘
        2.3.1 决策树模型
        2.3.2 随机森林模型
        2.3.3 极限梯度提升模型
    2.4 模型融合
    2.5 模型评估
        2.5.1 模型的评估方法
        2.5.2 模型的评估指标
    2.6 用户画像
        2.6.1 用户画像简介
        2.6.2 用户画像构建方法
    2.7 本章小结
第三章 混合式教学下学生数据处理与分析
    3.1 数据的采集与预处理
        3.1.1 学生数据的采集
        3.1.2 学生数据的预处理
    3.2 学生行为数据统计分析
        3.2.1 成绩数据统计分析
        3.2.2 课后在线学习行为数据统计分析
        3.2.3 课堂行为数据统计分析
    3.3 特征变换
        3.3.1 离散特征的变换
        3.3.2 连续特征的变换
    3.4 特征相关性分析
    3.5 本章小结
第四章 学业水平预测模型的构建
    4.1 模型的构建
        4.1.1 决策树预测模型构建
        4.1.2 随机森林预测模型构建
        4.1.3 极限梯度提升预测模型构建
    4.2 模型的评估和选择
    4.3 模型参数调优
        4.3.1 决策树模型调优
        4.3.2 随机森林模型调优
        4.3.3 极限梯度提升模型调优
    4.4 特征选择
    4.5 Stacking融合模型的构建
        4.5.1 Stacking模型融合构建过程简介
        4.5.2 Stacking融合模型构建
    4.6 本章小节
第五章 特征删除后模型的构建与分析
    5.1 特征删除后模型的构建
    5.2 实验环境
    5.3 实验结果对比
    5.4 Stacking融合模型参数分析
        5.4.1 随机森林模型调优
        5.4.2 极限梯度提升模型调优
    5.5 本章小结
第六章 构建学生画像
    6.1 画像指标的确立
        6.1.1 基础属性
        6.1.2 课堂学习
        6.1.3 课后学习
        6.1.4 学业水平预测指标
    6.2 学生画像的建立
        6.2.1 学生标签数据
        6.2.2 可视化展示
    6.4 本章小结
第七章 总结与展望
    7.1 总结
    7.2 不足与展望
致谢
参考文献
研究生学习期间完成的科研情况

(5)面向社交网络的隐私保护方法研究(论文提纲范文)

摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 研究现状
        1.2.2 研究现状总结
    1.3 研究内容
    1.4 论文结构
第二章 相关理论
    2.1 社交网络
        2.1.1 社交网络概念
        2.1.2 社交网络结构
        2.1.3 社交网络隐私
        2.1.4 社交网络攻击
        2.1.5 社交网络隐私保护技术
    2.2 差分隐私
        2.2.1 相关概念
        2.2.2 实现机制
        2.2.3 相关性质
        2.2.4 保护框架
    2.3 本章小结
第三章 社交网络中满足节点差分隐私的直方图发布方法
    3.1 社交网络图映射处理
        3.1.1 节点差分隐私
        3.1.2 图映射
        3.1.3 复杂度分析
        3.1.4 敏感度分析
    3.2 满足差分隐私的直方图发布方法
        3.2.1 直方图发布
        3.2.2 基于差分隐私的相邻桶分组划分方法
        3.2.3 排列保序
    3.3 实验分析
        3.3.1 实验环境
        3.3.2 实验数据集
        3.3.3 评价标准
        3.3.4 实验结果和分析
    3.4 本章小结
第四章 社交网络中满足差分隐私的集成学习方法
    4.1 社交网络中基于分类任务的隐私泄露
    4.2 分类算法
        4.2.1 基于差分隐私的分类模型
        4.2.2 分类算法执行过程
        4.2.3 决策树
        4.2.4 集成学习
    4.3 满足差分隐私的集成学习方法
        4.3.1 自适应增强集成学习策略
        4.3.2 噪声添加机制
        4.3.3 构造个体分类器
        4.3.4 基于差分隐私的集成学习方法
        4.3.5 隐私性分析
    4.4 实验分析
        4.4.1 实验环境
        4.4.2 实验数据集
        4.4.3 评价标准
        4.4.4 实验结果和分析
    4.5 本章小结
第五章 总结与展望
    5.1 工作总结
    5.2 工作展望
致谢
参考文献
作者简介及攻读硕士期间的学术成果

(6)基于机器学习的江苏省冬小麦气象产量客观区划及歉年预测(论文提纲范文)

1 材料与方法
    1.1 资料来源
    1.2 方法介绍
        1.2.1 K-means聚类算法
        1.2.2 C4.5算法
2 基于K-means算法的江苏省冬小麦气象产量的区域划分
3 基于C4.5决策树算法的江苏省不同种植区冬小麦气象产量是否歉年的预测模型
    3.1 试验数据的预处理
    3.2 预测模型的构建与检验
4 结论与讨论

(7)非财务信息在制造业收入舞弊识别中的运用研究 ——基于数据挖掘(论文提纲范文)

摘要
abstract
第一章 绪论
    第一节 研究背景及意义
        一、研究背景
        二、研究意义
    第二节 研究路线与研究方法
        一、研究路线
        二、研究方法
    第三节 创新点与局限性
        一、创新点
        二、局限性
第二章 文献综述
    第一节 收入舞弊识别研究
        一、收入舞弊的动机
        二、收入舞弊的识别
    第二节 非财务信息应用研究
        一、非财务信息的定义
        二、非财务信息与舞弊识别
    第三节 数据挖掘运用研究
        一、数据挖掘的定义
        二、信息收集与审计
        三、数据分析与审计
    第四节 文献述评
第三章 非财务信息、制造业收入舞弊及数据挖掘相关理论
    第一节 非财务信息
        一、非财务信息内容
        二、非财务信息来源
        三、选择非财务信息的原因
    第二节 制造业收入舞弊
        一、制造业收入类型及特点
        二、制造业收入舞弊手段
        三、制造业收入舞弊痕迹
        四、收入准则变更影响
    第三节 数据挖掘
        一、数据挖掘概念
        二、数据挖掘流程
        三、决策树算法
第四章 运用非财务信息识别制造业收入舞弊
    第一节 运用背景信息识别制造业收入舞弊
        一、宏观经济环境
        二、行业情况
        三、企业经营战略
    第二节 运用股权信息识别制造业收入舞弊
        一、股东持股信息
        二、管理层持股信息
    第三节 运用人员信息识别制造业收入舞弊
        一、董事会信息
        二、管理层人员信息
        三、普通员工信息
    第四节 运用生产信息识别制造业收入舞弊
        一、原材料相关
        二、水电、工人及生产设备
        三、仓储相关
        四、生产物流
    第五节 运用销售信息识别制造业收入舞弊
        一、关联方
        二、产品销售
        三、产品评价
        四、销售物流
第五章 构建制造业收入舞弊识别程序
    第一节 信息收集与预处理
        一、信息收集
        二、信息预处理
    第二节 舞弊识别
        一、算法选择
        二、决策树构建
        三、信息分析
第六章 非财务信息在昆明机床收入舞弊识别中的运用
    第一节 昆明机床收入舞弊案例简介
        一、案例回顾
        二、收入舞弊特点
    第二节 昆明机床收入舞弊识别
        一、信息收集
        二、使用收入识别舞弊程序
    第三节 案例小结
第七章 结论与展望
    第一节 结论
    第二节 展望
参考文献
附录
附录A 非财务信息收集
    一、非财务信息收集
    二、采访信息收集
    三、实地调研信息收集
附录B 昆明机床案例分析补充资料
    一、信息收集
    二、部分资料
致谢

(8)基于数据挖掘的电力客户投诉预测模型研究与应用(论文提纲范文)

摘要
abstract
第一章 绪论
    1.1 课题研究背景及意义
    1.2 国内外研究现状
    1.3 课题研究内容
    1.4 研究论文组织结构
第二章 数据挖掘技术相关理论基础
    2.1 数据挖掘技术简述
    2.2 文本挖掘技术
        2.2.1 情感分析
        2.2.2 LDA主题模型
    2.3 关联分析
    2.4 分类算法
        2.4.1 支持向量机算法
        2.4.2 随机森林算法
        2.4.3 朴素贝叶斯算法
    2.5 本章小结
第三章 电力客户投诉特征构建
    3.1 电力客户投诉影响因素分析
    3.2 特征构建的思路
        3.2.1 基于轨迹因素的特征构建思路
        3.2.2 基于时间因素的特征构建思路
        3.2.3 基于业务因素的特征构建思路
        3.2.4 基于客户情感因素的特征构建思路
    3.3 特征构建方法
    3.4 本章小结
第四章 基于SMOTE和贝叶斯优化算法改进的RF算法
    4.1 改进的RF算法(BSMOTE-RF)
        4.1.1 BSMOTE-RF算法的相关概念和定义
        4.1.2 BSMOTE-RF算法的基本思想
    4.2 BSMOTE-RF算法的详细设计
    4.3 BSMOTE-RF算法的实验对比分析
        4.3.1 实验环境简介
        4.3.2 实验数据集
        4.3.3 BSMOTE-RF算法性能对比分析
    4.4 本章小结
第五章 基于BSMOTE-RF算法的电力客户投诉预测模型设计
    5.1 模型的总体设计
    5.2 模型的详细设计
        5.2.1 数据预处理
        5.2.2 特征构建及选取
        5.2.3 电力客户投诉挖掘
    5.3 本章小结
第六章 基于BSMOTE-RF算法的电力客户投诉预测模型的应用
    6.1 数据获取
    6.2 模型的应用
        6.2.1 数据预处理
        6.2.2 特征构建及选取
        6.2.3 电力客户投诉挖掘
    6.3 模型的性能评价
        6.3.1 模型评估指标
        6.3.2 模型评估与实验结果分析
    6.4 本章小结
第七章 总结与展望
    7.1 总结
    7.2 展望
致谢
参考文献
攻读学位期间参加科研情况及获得的学术成果

(9)非独立同分布下异构数据KNN算法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文主要内容
    1.4 论文组织结构
第2章 分类方法概述与分析
    2.1 数据挖掘概述
    2.2 分类分析技术概述
    2.3 决策树分类
    2.4 贝叶斯分类
        2.4.1 朴素贝叶斯分类法
        2.4.2 贝叶斯信念网络
    2.5 支持向量机分类
        2.5.1 线性可分支持向量机
        2.5.2 非线性可分支持向量机
    2.6 KNN分类算法
        2.6.1 KNN分类算法的三大要素
        2.6.2 KNN分类算法的主要流程
        2.6.3 KNN分类算法的优缺点
    2.7 人工神经网络
        2.7.1 人工神经元
        2.7.2 人工神经网络结构
        2.7.3 学习过程
    2.8 本章小结
第3章 非独立同分布学习的相关知识
    3.1 非独立同分布思想概述
    3.2 非独立同分布学习框架
    3.3 非独立同分布方法的相关研究
    3.4 非独立同分布下的KNN算法
    3.5 本章小结
第4章 CFW_KNN算法
    4.1 CFW_KNN算法基本思想
    4.2 CFW_KNN算法实现
        4.2.1 计算类隶属度
        4.2.2 计算特征权重
        4.2.3 更新类别决策规则
    4.3 CFW_KNN算法描述
    4.4 实验结果与分析
        4.4.1 算法评价指标
        4.4.2 实验数据
        4.4.3 实验结果分析
    4.5 本章小结
第5章 NIID_CFW_KNN算法
    5.1 非独立同分布下数值型数据耦合关系表示
        5.1.1 改进Pearson相关系数公式
        5.1.2 属性的内耦合表示
        5.1.3 属性间耦合表示
        5.1.4 数据对象的耦合表示
    5.2 NIID_CFW_KNN算法描述
    5.3 实验结果与分析
        5.3.1 算法评价指标
        5.3.2 实验数据
        5.3.3 实验结果分析
    5.4 本章小结
第6章 NIID_MCFW_KNN算法
    6.1 非独立同分布下异构数据耦合关系表示
        6.1.1 类别型数据的属性耦合表示
        6.1.2 类别型属性与数值型属性的耦合表示
        6.1.3 异构型数据对象的耦合表示
    6.2 NIID_MCFW_KNN算法描述
    6.3 实验结果与分析
        6.3.1 算法评价指标
        6.3.2 实验数据
        6.3.3 实验结果分析
    6.4 本章小结
第7章 总结和展望
    7.1 全文总结
    7.2 工作展望
参考文献
致谢
在学期间主要科研成果
    一、发表学术论文
    二、获奖情况

(10)基于决策树改进算法的脑卒中辅助诊断系统的研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 课题的研究背景
    1.2 选题的研究目的和意义
        1.2.1 研究目的
        1.2.2 研究意义
    1.3 国内外研究现状
        1.3.1 脑卒中辅助决策研究现状
        1.3.2 医学专家系统研究
    1.4 拟采取的研究方法
    1.5 研究的内容
第二章 研究分析相关理论
    2.1 脑卒中及诊疗相关原理
    2.2 数据挖掘概念及相关理论
        2.2.1 聚类分析
        2.2.2 决策树算法
    2.3 数据关联性分析
    2.4 数据挖掘在医学领域的应用
    2.5 小结
第三章 基于决策树改进算法的脑卒中数据分析
    3.1 数据分析基础
    3.2 基于K-means聚类抽样的决策树改进算法
        3.2.1 改进的决策树算法
        3.2.2 改进算法结果验证分析
    3.3 基于改进决策树算法的脑卒中诊疗规则分析
        3.3.1 数据收集与预处理
        3.3.2 决策树分析
    3.4 小结
第四章 基于决策树改进算法的脑卒中辅助诊断系统的设计与实现
    4.1 系统设计目标
    4.2 系统需求分析
        4.2.1 功能性需求
        4.2.2 非功能性需求
    4.3 系统设计
        4.3.1 系统功能设计
        4.3.2 系统数据库设计
    4.4 系统实现
    4.5 小结
第五章 结论与展望
    5.1 工作总结
    5.2 展望
参考文献
致谢
攻读学位期间发表论文情况

四、数据挖掘中决策树的探讨(论文参考文献)

  • [1]机器学习在数据挖掘中的应用研究[J]. 黄心依. 信息记录材料, 2021(08)
  • [2]DRGs视角下胃癌手术住院医疗费用分析[D]. 阎臻泰. 福建中医药大学, 2021(09)
  • [3]结核病患者诊疗与管理系统的研究与实现[D]. 董帅. 西安理工大学, 2021(01)
  • [4]混合式教学下学生学业水平预测模型的研究[D]. 梅鹏江. 南京信息工程大学, 2021(01)
  • [5]面向社交网络的隐私保护方法研究[D]. 周彪. 南京信息工程大学, 2021(01)
  • [6]基于机器学习的江苏省冬小麦气象产量客观区划及歉年预测[J]. 郝玲,张佩,史逸民,刘瑞翔,王伟健,朱云凤. 江苏农业科学, 2021(12)
  • [7]非财务信息在制造业收入舞弊识别中的运用研究 ——基于数据挖掘[D]. 王细韵. 云南财经大学, 2021(09)
  • [8]基于数据挖掘的电力客户投诉预测模型研究与应用[D]. 刘占玉. 西安石油大学, 2021(09)
  • [9]非独立同分布下异构数据KNN算法研究[D]. 孙聪慧. 齐鲁工业大学, 2021(10)
  • [10]基于决策树改进算法的脑卒中辅助诊断系统的研究[D]. 李明龙. 广西大学, 2021(12)

标签:;  ;  ;  ;  ;  

数据挖掘中的决策树探讨
下载Doc文档

猜你喜欢