2023-9-10-daily
2023-9-10 日记
小结-大作业
最近的事情实在太多了, 有小学期程设的大作业, 要5天内写一个爬虫+web网页+新闻数据分析, 每天都在调试代码, 最狠的那几天每天睡了5个小时. 不过好歹结束了…
这个大作业深深打动了我, 坚定了我不想走计算机方向打工人的心情. 无他, 真的烦人!
清晰地记得, 那时为了搭一个网页, 首先是去爬取新闻. 然而这一步就已经开始恶心了. 首先肯定市面上的新闻不会简简单单地给你爬取, 人家就靠这个吃饭引流呢, 被你爬走就没价值了. 然后这些反爬机制恶心了我半天, 什么限流啊动态加载啊乱七八糟的, 说白了就是不让你爬, 最后求助老师才整了一个便宜网站爬取.
接下来是搭网页. 不得不说清华很有水平, FlyBitch~~(某种放养式教学)~~的课程属实有点硬核, Django确实能方便你搭网页, 但是3天入门是不是有点过分, 而且我还不是全天有空, 同时比别人多一门课的情况下实在是吃紧. 这就像是蓝翔技校有一套独门挖掘机技术, 你知道学成天下无敌, 但是3天就必须出师是不是有点太过分, 而且出师的时候还给你打个分, 要是被认证为次品还影响未来的人生就业 ...
无题
KNN和K-Means的实践–以Iris为例
KNN
Code
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273#在iris上跑KNN算法#代码来源于https://scikit-learn.org/stable/auto_examples/neighbors/plot_classification.html#sphx-glr-auto-examples-neighbors-plot-classification-py#引入绘图相关的库import matplotlib.pyplot as pltimport seaborn as snsfrom matplotlib.colors import ListedColormap#引入sklearn算法库,数据集,可视化库from sklearn import datasets, neighborsfrom sklea ...
爬虫相关整理
Python爬虫相关
一. 写在前面的话
首先, 爬虫这个东西, 确实处于灰色地带, 互联网上充斥着爬虫, 有合法的和不合法的, 基本上是没法靠法律追溯并且管制的, 很大程度上靠的是网站的反爬技术本身.
其次, 我觉得爬虫本身促进web技术的发展, 比如前后端分离的设计模式, 客户端渲染等等, 有一定程度上是为了保护服务器不被海量的不合法请求瘫痪和破坏, 以及保护数据安全.
最后, 虽然爬虫听起来似乎很厉害, 但本质上就是个体力活, 方便一点的可以requests库爬取 静态网页, 难受一点就用selenium爬取动态网页, 本质上优化的是人手动Ctrl+c/v这个过程, 其实不高端. 真正困难的是分析网页结构来自动化整个过程.
你真正需要的是:
强大的web能力, 大量html在你眼中自动变得清晰明了
长期的一线经历, 熟悉最新框架和反爬机制
小强般的精神, 没有什么问题不是分类解决不了的, 如果有, 那就再分一类. (指遇到不同的框架
钻研精神, 说到底你是在与开发人员斗智斗勇, 矛盾之争
一头茂盛的头发
胃药
咖啡和茶
舒服但是坐久了不舒服的椅子
etc
二. 爬虫的基本操作 ...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick Start
Create a new post
1$ hexo new "My New Post"
More info: Writing
Run server
1$ hexo server
More info: Server
Generate static files
1$ hexo generate
More info: Generating
Deploy to remote sites
1$ hexo deploy
More info: Deployment
sklearn学习笔记-1
sklearn 学习笔记-1
一、简单介绍
sklearn库是Python中自带的开源机器学习库,全称scikit-learn。 基于Numpy、SciPy、Matplotlib等数值计算库实现高效应用, 包括了大部分主流的机器学习算法。
官网链接: [scikit-learn](scikit-learn: machine learning in Python — scikit-learn 1.3.0 documentation)
当然在此之前最好弄清楚机器学习和深度学习的区别,sklearn并不是做深度学习的。
sklearn的基本模块介绍(来自官网+个人翻译):
分类Classification:识别某个对象属于哪个类别。常见的应用有:垃圾邮件识别、图像识别。
回归Regression:预测与对象相关联的连续值属性。常见的应用有:药物反应,预测股价。
聚类Clustering:将相似对象自动分组。常见的应用有:客户细分,分组实验结果。
降维Dimensionality reduction:减少要考虑的随机变量的数量。常见的应用有:可视化,提高效率。
模型选择Model se ...
病态方程组检验-基于matlab
病态方程组检验-基于matlab
一. 病态方程组是什么
假设我们有一个线性方程组要求解, 记为
Ax=bAx = b\\
Ax=b
虽然理论上可能是有解的, 甚至可能是唯一解
但是在误差分析的时候, 我们给bbb一些小扰动, 会导致xxx的剧烈变化, 以至于准确解和近似解之间相差太多
而通过数值分析的学习, 我们知道现实中求解基本都是近似解, 因此病态方程组是很难获得一个误差不大的准确解的
同时还取决于方程的数量, 也就是矩阵的大小, 线性空间的维数.
二. matlab实际展示
一个典型的病态矩阵例子是HilbertHilbertHilbert矩阵, 一般定义如下:
Hn=[1112…1n1213…1n+1⋮⋮⋱⋮1n1n+1…12n−1]H_n = \begin{bmatrix}
\frac 11 & \frac 12 & \dots & \frac 1n \\
\frac 12 & \frac 13 & \dots & \frac1{n+1}\\
\vdots & \vdots & \ddots & \vd ...
在Github用PicX搭建图床, 放弃难用的PicGo
今天终于搞好了图床, 只能说所谓的PicGo真难用, 差评…
建议以后都直接用这个网站PicX
唯一的小问题就是不能直接传markdown文件, 图片和文本要分开传, 有点烦人, 希望作者跟进
来一张桌面截图试试
2023-8-25-daily
2023-8-25 日记
小结
今日学习内容:
Python学习了 pandas 的 Dataframe
Python 学习了 numpy 的 ndarray
数值分析课学习了: 概率论初步和贝叶斯
完成 sklearn 机器学习部分的 knn k-means学习
部署一个 chatglm2-6B
待办
python 大作业第一部分 爬虫 完成时间 2023.9.4
大数据与经济分析 大作业两篇论文阅读复现 完成时间 2023.9.3
王自干老师项目 爬虫+数据清洗任务 持续跟进
唐杰老师 AgentAI相关 联系+论文阅读 近期介入
数值分析课 sklearn初探 2day以内
数值分析课 病态方程组 验证研究 3day以内
数值分析课 讲义整理复习
概统预习 暂缓
大物B2预习 暂缓
英语六级试题 逐渐开始
未来规划思考
目前来看过早的介入科研是不利于学习的, 不仅是平时成绩有影响, 而且科研本身也很难做好, 所以大二上的任务还是尽量保证课内学习, 科研方面王自干的项目优先于唐杰, 社工方面包括计算机TMS和情系 ...
fisrt-blog
这是第一篇博客
开始喽!
upd:2023/8/28
博客设置采用github+hexo的方式搭建, 网上资料很齐全就不赘述了哈
有了博客后的心情:
这是我的娃我要养, 谁都别动手, 谁动我急谁
实际上:
哎呀不想写了, 这段就复制别人的博客吧, 反正自己的也没人看hhhh
总之很难说未来会怎么样
先这样吧
引用一下当年洛谷的标语
每一个伟大的存在, 都有一个微不足道的起点
共勉
