机器学习到word2vec

最近发现,NLP(自然语言处理)很适合机器学习入门,适用场景丰富,功能强大,蕴藏着丰富的数学知识;又不至于让人陷入过多的细节,进而怀疑人生。最早看fastText,意外的清晰易懂;随后踏进交叉熵和SVM的泥沼,差点淹死。入门选择格外重要,PRML太墨迹了,陷进数学细节说的就是这本书;上来就看LDA,可能会疯。

word2vec作为优秀的词向量生成工具,自带精炼源码,背后的思想也具备很强的通用性。希望能借这篇文章,详述几个问题:机器学习是什么以及如何解决实际问题、词向量的价值、word2vec的原理,最好还能把损失函数、LR、神经网络和降纬这几个常见概念说清楚;内容皆以我的理解为基础,不一定标准且精确(尽量不跑偏),算一篇入门小总结。