工欲善其事,必先利其器,使用恰当的数据结构去解决问题能事半功倍。因本人没有任何C++的基础,但在刷题的过程中遇到了一些数据结构的经典应用,且能借助STL中的容器很好的实现并解决任务。因此总结常用容器的用法,以供下次使用。
从分词到自然语言的世界
本文字数: 4.2k 阅读时长 ≈ 4 分钟
在上个世纪,规则派的思想制约了自然语言处理的发展。比如主语后面是谓语,还有各种时态规则,加上当时并不是很强大的处理器,自然语言处理根本做不起来。在编译原理中,即使只有很少的语法,处理起来也很困难,更别说要规则话自然语言的语法了。那么统计派的学者登上历史舞台,解决了这个问题,甚至可以说是开创了现代人工智能世界的大门。
起初并不对NLP的东西感兴趣,但是还是回归思想。数学和计算机的应用层出不穷,但背后的数学思维值得学习和借鉴。本文收录:
- 简单分词(基于维特比算法)
- 统计语言模型
- 词嵌入模型:负采样、Word2Vec,Skip Gram等
其实我总在思考,感觉编译原理中对句法成分分析的东西也不是不能用到NLP中,不过最近事太多了,有时间再去研究吧。应该有前人的研究成果的,到时候读论文先。
编程与数学的结晶:简易搜索引擎
本文字数: 3.6k 阅读时长 ≈ 3 分钟
内容简介:在阅读了数据结构的一本教材《大话数据结构》后,学到了新的姿势:用于搜索引擎的数据结构——倒排索引,又想起了曾经在《数学之美》上阅读过的如何在搜索引擎中取得高质量的网页和最相关的内容。涉及到了简单的分词、矩阵相乘、信息熵的简单应用,特来整理,即使我做不出一个搜索引擎。但是在现实世界中的应用多种多样,背后的数学思维却是可以借鉴的。(注明:本文只是将两书的内容融会贯通并整理。如有遗漏使得内容看起来不连贯,可以阅读原书,计算机专业推荐这两本书都读,非计算机专业只推荐阅读《数学之美》)
黄山相册
有机会买个单反吧,手机拍摄质量差。
去的路上看了一本叫《文化苦旅》的书,杭州宣言和黄州突围。一个地区总有属于自己的内涵文化,而且我文字功底也差,就不写狗屁的散文游记了,单纯的留个相册作为纪念然后就溜。
C++数据结构篇『二』顺序容器:向量、链表与双端队列
本文字数: 4.6k 阅读时长 ≈ 4 分钟
发现每个数据结构都单独成文会显得文章有点多,且内容不充实。于是决定分组放了,下一部分就是『集合、映射和栈了』,基础数据结构复习完毕后,刷题就提上日程。在进入之前,先扯一点STL的东西。
黄山自由行攻略
本文字数: 3.3k 阅读时长 ≈ 3 分钟
- 江南烟雨下的青石古木
- 古巷里的袅袅炊烟
- 天青色等烟雨下的黑白风徽州style
- 小桥流水人家的无言守护
- 云海翻腾的婉约黄山
那些年建模的时光
本文字数: 11k 阅读时长 ≈ 10 分钟
记录这建模一年半至两年以来的收获,如果想学习建模请往他处,如果想看扯淡就点击阅读全文。未完待续。这篇文章始创于2018.12.03,当时写的未完待续,今天2019.4.19,想必可以结束了。
我为什么参加2019的美赛,当时我也问了我的老师,老师说:
如果我不参加,那么他只带一个队(我校一个老师只能带两个队),如果我参加,他就把最后一个名额留给我,别的队找他他都没同意。他知道我的实力,我可以找任何人参加比赛,只要我看着顺眼就行。
当时感动了好久好久。就这样,带了一个没有建模经验的人参加了比赛(前提是什么都会的那种),就这样,拿奖了我的建模之路也结束了。
获奖:
- 2017校赛二等奖(三分之决策+层次分析)
- 2017亚太一等奖(高斯和模型+数理方程推导)
- 2018美赛二等(主成分分析+卷积模型)
- 2018泰迪杯二等(数据挖掘非数学建模,相似性分析+隐马尔科夫)
- 2018小美赛二等(逻辑分析)
- 2019美赛一等(pagerank+传染病模型+隐马尔科夫+信息熵)
关于成功参赛:
- 2017 mathorcup成功参赛(遗传算法+多目标规划)
- 2018 五一联赛成功参赛(支持向量机分类+经济和模型)
- 2017,2018两年国赛成功参赛(2017国赛博弈论+KNN分类+反距离加权,2018国赛优先级调度)
- 2018深圳杯弃赛(结果做的不尽人意)
- 电工杯,华中赛没来得及参加。
关于赛前培训模拟:
- 2011 国赛A题,城市表层土壤重金属污染分析(插值拟合+反距离加权)
- 2013 国赛B题,碎纸片拼接(模拟退火+部分手动)
- 2015 国赛A题,太阳影子定位(就各种优化算法算来算去)
- 2016 国赛A题,系泊系统的设计(各种方程写上去求解)
- 2015 美赛A题,埃博拉病毒的传播与治疗(设置规则,元胞自动机直接模拟)
- 2016 美赛C题,对大学的评估(数据清洗,评价,回归)
- 2018 美赛C题,能源分析(数据清洗,评价,预测)
如果你要说,国赛做了这么多模拟题还是没拿奖,别的组抄或者造数据都能拿奖,那努力是不是没啥用。那我和你不是一类人,本文剩下的内容你也不必浪费时间。
每一道题我们都是认真做和讨论的,并不像其他组学生那样几天内完成,学生做不出来就去抄,没有任何意义。每一行代码都是我们自己认真写的,从不造结果;每一道模拟题我们也写了论文并让老师审查。写这篇文章的时候,真的发现自己已经老了,建模居然是很多年前的事情了。于 2022 年修改,记录当时的内心活动。
个人擅长数据挖掘类题目,队友编程也厉害。别的组还在费劲的用excel处理数据时,我们python已经得到所有想要的各种数据并有初步结果了;加上我丰富的对数据处理的想象力,大数据的题目很容易挖出花来。所以2019年美赛其他题都没看直接上C题,果然是一等奖。以下可能是以倒叙的方式来叙述我两年来的建模之旅。