微博图床禁止外链?不存在的!

微博图床使用的是最基本的限制第三方引用策略,这个问题倒是很好解决,

编辑pelicanthemes/你的主题/templates/base.html,在两个<head>标签之间插入

<meta name="referrer" content="no-referrer" />

这样就禁止网页的引用信息,从而让微博无法拿到这个字段,但目前已知的问题是某些流量统计、方可追踪的脚本可能无法正常运行。

微博此举也可能只是警告一下,之后会不会再次加强限制不得而知,所以上上策还是赶紧备份图片,迁移到一个便宜又靠谱的图床去。

参考

  1. 报!微博图床挂了 ??
➟ 查看全文

使用Numba为Python提速10+倍

前一阵写了一个获取股票数据的程序,准备玩玩预测,在添加指标时,有一个指标我是这么定义的

指标名称:当前位置

描述:当天收盘价在过去300天内的位置百分比

算法:(当前收盘价 - 过去300天内最低价的最小值) / (过去300天内最高价的最大值- 过去300天内最低价的最小值 )

按说这么容易的一个指标,一个Pandas rolling函数就搞定了,但是我为什么没选择rolling函数?原因如下:

  1. rolling函数只能操作一列数据,比如只能在close这一列应用函数,而无法同时处理三列(low,high,close)。

  2. rolling函数会使你的数据减少window-1个天数,类似于MA指标,但是MA我最大只用到60日线,而这个window要被设置为300天,为了这么一个指标平白损失299个数据我觉得不值得。

综上,所以我决定手撸一个方法,修改一点规则作为变通

如果当前日之前的数据个数不足window个,那么就取[0,T]这段时间

数据如下,这个指标其实只用到了三列,这里用了上证指数作为例子,数据都存储为DataFrame格式。

from read_data import ReadData

TIME_STEP = 300
index_day = ReadData.index_day …
➟ 查看全文

Git设置代理

查看git连接方式

使用下面命令查看连接方式

$ git remote -v
origin  git@github.com:username/reponame.git (fetch)
origin  git@github.com:username/reponame.git (push)

像上面这种就是SSH方式

http代理

如果你是使用http/https方式连接git那么就要用这种方式设置代理,

编辑用户目录下的.gitconfig文件,添加http代理信息

vim ~/.gitconfig

[http]
        proxy = socks5://IP:PORT
[https]
        proxy = socks5://IP:PORT

需要说明一点,据说git是不认https代理的,所以只需要添加http代理即可,但是加上也没有问题。

sock5代理

如果是使用SSH方式连接git,那么就要通过设置SSH配置文件来达到目的

首先确定系统里有没有nc …

➟ 查看全文

Julia编译Arpack失败的解决办法

最近想学一门新语言,对于数据处理/算法/深度学习来说,除了Python外,Julia算是一门很有吸引力的语言,但是在安装绘图库Gadfly的时候遇到报错。

julia> using Gadfly
[ Info: Precompiling Gadfly [c91e804a-d5a3-530f-b6f0-dfbca275c004]
ERROR: LoadError: No deps.jl file could be found. Please try running Pkg.build("Arpack").
Currently, the build command might fail when Julia has been built from source
and the recommendation …
➟ 查看全文

对比三种tf-idf提取关键词的效果

tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。(WikiPedia)

在我的工作流程中,中文分词后往往最重要的事情是提取关键词,正如文章开头写到的,tf-idf法作为历史悠久的统计方法,效果优秀,原理和实现简单,成为必须尝试的提取关键词方法之一。而Python中能提供该方法的库有很多,哪种效果最优,哪种速度最快一直是我想要比较的,今天抽出时间写个对比小程序来看看结果,本次测试对比三种方法:jieba、sklearn、gensim。

测试方法

  1. 数据使用我自己爬的投融资类新闻,共计14100篇。
  2. 使用jieba_fast替代结巴,加快分词和tf-idf速度,jieba使用默认词频文件,不需建模。
  3. 所有需要建模的方法都提前对新闻数据使用jieba分词,使用精确模式,同时加载我自己的词库,用于发现未登录词。
  4. 随机选择三篇文章 …
➟ 查看全文