首页 > 查重知识

如何用Python爬取数据？

写个论文 2023-02-28 19:38:32

论文降重独有的降重技术

免费使用，100%过查重，多种降重模式，1小时轻松搞定论文

论文查重检测与学校相同

一站式聚合查重平台，含知网、万方、维普等，正品价格便宜

问：如何用Python爬取数据？

答：方法/步骤
- 在做爬取数据之前，你需要下载安装两个东西，一个是urllib,另外一个是python-docx。
  请点击输入图片描述
- 然后在python的编辑器中输入import选项，提供这两个库的服务
  请点击输入图片描述
- urllib主要负责抓取网页的数据，单纯的抓取网页数据其实很简单，输入如图所示的命令，后面带链接即可。
  请点击输入图片描述
- 抓取下来了，还不算，必须要进行读取，否则无效。
  请点击输入图片描述
- 5
  接下来就是抓码了，不转码是完成不了保存的，将读取的函数read转码。再随便标记一个比如XA。
  请点击输入图片描述
- 6
  最后再输入三句，第一句的意思是新建一个空白的word文档。
  第二句的意思是在文档中添加正文段落，将变量XA抓取下来的东西导进去。
  第三句的意思是保存文档docx，名字在括号里面。
  请点击输入图片描述
- 7
  这个爬下来的是源代码，如果还需要筛选的话需要自己去添加各种正则表达式。
答：可以先利用搜索引擎学习。
简单爬虫不难，无非发起http访问，取得网页的源代码文本，从源代码文本中抽取信息。
首先要自己会写代码。
学习爬虫可以从下面一些知识点入手学习。
1、http相关知识。
2、浏览器拦截、抓包。
3、python2 中编码知识，python
3 中bytes 和str类型转换。
4、抓取javascript 动态生成的内容。
5、模拟post、get，header等6、cookie处理，登录。
7、代理访问。
8、多线程访问、python 3 asyncio 异步。
9、正则表达式、xpath等。。。。
10、scrapy requests等第三方库的使用。

问：用沐神的方法阅读PyTorch FX论文？

答：作者丨BBuf

来源丨GiantPandaCV

编辑丨极市平台

torch.fx 对于PyTorch来说确实是一个比较好的工作，因为它消除了一些动态图和静态图的Gap。比如在图改写方面， torch.fx 让PyTorch想做一些其它静态图框架的算子融合优化非常容易。并且 torch.fx 让后训练量化和感知训练量化以及AMP等的实现难度大大降低，这得益于我们可以直接在Python层操作这个IR，所以我认为这是一个不错的工作。尤其是对使用PyTorch开发的算法工程师来说，现在可以基于这个特性大开脑洞了。 torch.fx 的卖点就是，它使用纯Python语言实现了一个可以捕获PyTorch程序的计算图并转化为一个IR的库，并且非常方便的在这个IR上做Pass，同时提供将变换后的IR Codegen合法的Python代码功能。我觉得算是达到了在Eager下写Pass就像做链表插入删除题目一样顺滑。

PyTorch FX论文的链接在： https://arxiv.org/pdf/2112.08429.pdf 。

下面我就以沐神的论文阅读顺序来分享一下阅读体验，帮助大家搞清楚PyTorch FX这个特性到底是什么，以及它可以在PyTorch中发挥什么作用。

摘要部分简单指明了像PyTorch这种基于动态图执行模式的深度学习框架虽然提升了用户的易用性。但是在一些真实场景中，用户可能是需要捕获和变换程序结构（也可以直接理解为神经网络的结构）来进行性能优化，可视化，分析和硬件调优等。为了解决这个痛点，PyTorch设计了 torch.fx 这个模块来做PyTorch程序的捕获和变换，这个模块是纯Python开发的。

这一节主要是讲了一下 torch.fx 的卖点，就是说动态图虽然易用性很强，但是图结构不能被提前感知和变换，但通过这篇论文的 torch.fx 模块，这件事就成啦！

早期的图模式或者叫 define-and-run 的静态图框架有Caffe，TensorFlow等，它们设计了一个表示图的IR，用户通过调用这些框架提供的API来构建IR。然后我们可以在这个IR上做程序微分，将IR切分到设备上实现并行，量化，性能优化等等。但这些事情一般都要求开发者在领域特定的语言上去做，比如以OneFlow的静态图模式为例，要做图切分，量化，性能优化等都需要基于C++去开发，并且调试也会相对比较难（要借助pdb，gdb等等专业工具）。

现在的eager模式或者叫 define-by-run 的动态图框架有PyTorch，TensorFlow Eager模式等，它们可以随心所欲的让用户基于脚本语言编程并且可以解决大多数的训练（基于自动微分）和预测任务。但是有一些变换比如 「量化和算子融合」 是不能直接做的，而这一点在静态图模式下则很简单。为了消除这种Gap，动态图框架需要一种从用户的程序捕获图结构的方法来使能这些变换。

在捕获和变换程序时，eager和graph模式的深度学习框架都必须在 「捕获程序结构」 、 「程序特化」 和 「保存程序的IR的设计」 方面做出选择。这些选择的组合决定了可在框架中表示的 「程序空间」 、 「编写变换的难易程度」以及「生成的变换程序的性能」 。 「一般来说，支持程序的高性能运行需要更复杂的捕获框架和IR，从而使转换更难编写」 。每一段相关工作我就不详细过了，只描述每一段工作的核心是在说什么，相关细节大家可以查看原始论文。

这一节提到了PyTorch的 jit.trace ，MxNet Gluon，TensorFlow的 tf.function 等程序捕获方法，并指出这些方法只能处理Python的一些子集。然后，TorchScript通过在AST上分析可以处理控制流和更多的Python语法。然后还提了一下Julia和Swift For TensorFlow中将捕获程序结构的接口集成到了非Python的宿主语言中，要使用的话需要用户放弃Python生态系统。

对于 a+b 这个Python语句来说，这个表达式对 a 和 b 的类型没有限制。但当深度学习框架捕获程序时一般会对这两个变量进行特化，以便它们只对特定类型或者张量有效。在深度学习框架中处理的大多数程序都是特化类型的程序，特化程度越高，能够处理的输入就越少。例如 torch.jit.trace 在执行trace的时候只能处理某些拥有合法输入shape的输入。接下来还讨论了LazyTensor和Jax的 jit 来说明为了更好的处理特化程序中捕获的失败，它们做了哪些努力。

深度学习框架都有自己的IR设计，Caffe和TensorFlow使用Protocol Buffers格式。而PyTorch和MxNet使用C++数据结构来表示IR并额外绑定到Python。这些IR设计在runtime阶段表现都会比较好并且可以统一被序列化。但从另外一个角度来说，这些IR表示相比于纯Python语言的表示都需要更高的学习成本。接下来，这一节讨论了控制流和状态的问题，用来表明要处理这些问题需要设计较为复杂的IR以及要基于这个IR做较为复杂的分析才行。

基于上面几点，论文提出了 torch.fx 的基本设计原则：

这一节主要对一些相关工作进行了展开，以此来突出 torch.fx 的核心卖点，就是说我虽然不能像TorchScript这样的IR处理一些比较难的Case（比如动态控制流），但是我在神经网络这个领域里做得够用就可以了。最关键的是我的实现很简单，是纯Python的库，这样用户写变换就会很简单，学习成本会很小并且易用。（简单不代表不强大！

以简单为基本原则， torch.fx 通过符号跟踪来捕获程序，并通过一个简单的6个指令的IR来表示它们，并基于这个IR重新生成Python代码来运行它。为了避免JIT特化中的重捕获的复杂性， torch.fx 没有对程序本身进行特化，而是依靠变换来决定在捕获期间需要实现哪些特化。用户也可以配置符号跟踪的过程来实现自定义捕获需求。

Figure1给我们展示了使用 torch.fx.symbolic_trace 捕获程序的例子，输入可以是一个 torch.nn.Module 或者函数，并且捕获之后的结构被存在一个Graph对象里面。该 Graph 对象和 GraphModule 中的模块参数相结合， GraphModule 是 torch.nn.Module 的子类，其 forward 方法运行捕获的 Graph 。我们可以打印此图的 Nodes 以查看捕获的 IR。 placeholder 节点表示输入，单个 output 节点表示 Graph 的结果。 call_function 节点直接引用了它将调用的 Python 函数。 call_method 节点直接调用其第一个参数的方法。 Graph 被重组为 Python 代码（ traced.code ）以供调用。

Figure2展示了使用 torch.fx 进行变换的示例。变换是找到一个激活的所有实例并将它们替换为另一个。在这里，我们使用它来将 gelu 替换 relu 。

torch.fx 的符号跟踪机制使用一个Proxy数据结构来记录给定一个输入之后经过了哪些Op。Proxy是一个duck-typed类型的Python类记录了在它之上的的属性访问和调用方法，是程序中真实Op的上层抽象。duck-typed可以看一下这里的介绍： https://zh.wikipedia.org/wiki/%E9%B8%AD%E5%AD%90%E7%B1%BB%E5%9E%8B 。PyTorch的算子以及Python子集的某些函数都会被这个Proxy包装一次，然后在符号跟踪传入的是一个 nn.Module 时，会对这个 nn.Module 中的子 nn.Module 也进行Proxy包装，当然还包含输入数据。这样程序中的输入和其它Op都是duck-typed类型的Proxy对象，我们就可以执行这个程序了，也就是符号跟踪的过程。符号跟踪的过程通过一个 Tracer 类进行配置，它的方法可以被重写以控制哪些值被作为Proxy对象保留，哪些值被unpack。（Proxy记录下来的Op可以进行unpack，unpack之后可以拿到真实的Tensor, Parameter和运算符等等）。通过Proxy和Tracer类的配合， torch.fx 就可以完成PyTorch程序的符号跟踪，需要注意的是这里的符号跟踪的意思就是运行一遍这个被代理之后的 nn.Module 的forward。

torch.fx 的中间表示（IR）由一个Python数据结构 Graph 来做的。这个 Graph 实际上是一个包含一系列 Node 的线性表。节点有一个字符串操作码 opcode ，描述节点代表什么类型的操作（操作码的语义可以在附录 A.1 中找到）。节点有一个关联的目标，它是调用节点（ call_module 、 call_function 和 call_method ）的调用目标。最后，节点有 args 和 kwargs ，在trace期间它们一起表示 Python 调用约定中的目标参数（每个opcode对应的 args 和 kwargs 的语义可以在附录 A.2 中找到）。节点之间的数据依赖关系表示为 args 和 kwargs 中对其他节点的引用。

torch.fx 将程序的状态存储在 GraphModule 类中。 GraphModule 是转换程序的容器，暴露转换后生成的代码，并提供 nn.Module 类似的参数管理APIs。 GraphModule 可以在任何可以使用普通的 nn.Module 的地方使用，以提供转换后的代码和PyTorch 生态系统的其余部分之间的互操作性。

torch.fx 变换pipline的最后阶段是代码生成。 torch.fx 并不是退出 Python 生态系统并进入定制的运行时，而是从变换后的 IR 生成有效的 Python 源代码。然后将此变换后的代码加载到 Python 中，生成一个可调用的 Python 对象，并作为 forward 方法安装在 GraphModule 实例上。使用代码生成允许将 torch.fx 变换的结果安装在模型中并用于进一步的变换。例如，在图3中，我们拿到trace原始程序的结果并将其安装为新模块中的激活函数。

到这里PyTorch FX特性就精读完了，但查看FX的论文可以发现还有一节叫作Design Decisions，分别介绍了Symbolic Tracing，Configurable Program Capture，AoT Capture without Specialization，Python-based IR and Transforms等等FX实现中依赖的一些想法和决策，以及它们的好处等。我理解这一节就是Introduction的加强版，所以就不继续讲解这一小节了，如果你担心会错过什么细节知识可以阅读论文原文。

torch.fx 的一个目标就是简化深度学习模型产生的IR，下面的Figure5以ResNet50为例展示了TorchScript IR和 torch.fx IR的差别，相比于TorchScript IR， torch.fx IR确实简单并且可读性更强。

我们知道后量化以及量化感知训练可以提示程序推理时的性能，下面的Figure6就展示了基于 torch.fx 实现的后量化（使用FBGEMM量化算子）应用在DeepRecommender模型之后，在Intel Xeon Gold 6138 CPU @2.00GHz上的性能表现。基于 torch.fx 实现的后量化模型推理速度相比float类型的模型要高3.3倍。并且基于 torch.fx 实现量化操作相比基于TorchScript IR要简单很多。

torch.fx 还可以做Op融合，Figure7展示了基于 torch.fx 做了Conv+BN融合后应用在ResNet50上，在n NVIDIA Tesla V100-SXM2 16GB with CUDA version 11.0 和 Intel Xeon Gold 6138 CPU @ 2.00GHz的性能表现，可以看到在GPU上减少了约6%的latency，在CPU上减少了约40%的latency（多线程）和约18%的latency（单线程）。

除此之外 torch.fx 还可以应用在FLOPs计算，内存带宽使用分析，工作负载的数据值大小估计等，用来分析程序运行时的内存和速度。 torch.fx 还可以用在形状推断，以及模型对应的DAG可视化作图等等。

最后， torch.fx 在runtime阶段还支持通过ASIC加速（即将 torch.fx 中的算子lowering到对应的ASIC上），下面的Figure8展示了基于 torch.fx 推理ResNet50和LearningToPaint并将算子lowering到TensorRT之后的加速情况：

torch.fx 对于PyTorch来说确实是一个比较好的工作，因为它消除了一些动态图和静态图的Gap。比如在图改写方面， torch.fx 让PyTorch想做一些其它静态图框架的算子融合优化非常容易。并且 torch.fx 让后训练量化和感知训练量化以及AMP等的实现难度大大降低，这得益于我们可以直接在Python层操作这个IR，所以我认为这是一个不错的工作。尤其是对使用PyTorch开发的算法工程师来说，现在可以基于这个特性大开脑洞了。我之前围绕FX也做了一个QAT的工作，感兴趣可以阅读：基于OneFlow实现量化感知训练： https://zhuanlan.zhihu.com/p/397650514

最后总结一下， torch.fx 的卖点就是，它使用纯Python语言实现了一个可以捕获PyTorch程序的计算图并转化为一个IR的库，并且非常方便的在这个IR上做Pass，同时提供将变换后的IR Codegen合法的Python代码功能。我觉得算是达到了在Eager下写Pass就像做链表插入删除题目一样顺滑。

沐神的论文阅读方法，感觉确实比较科学，文章末尾再赞一次。

问：基于python网络爬虫的设计与实现论文好写吗？

答：基于python网络爬虫的设计与实现论文好写。因为基于python网络爬虫的设计与实现论文可以从网络上寻找相关的资料来攥写，比较方便，所以基于python网络爬虫的设计与实现论文好写。

问：如何用Python玩转TF-IDF之寻找相似文章并生成摘要？

答：应用1：关键词自动生成
核心思想是对于某个文档中的某个词，计算其在这个文档中的标准化TF值，然后计算这个词在整个语料库中的标准化IDF值。在这里，标准化是说对原始的计算公式进行了一些变换以取得更好的衡量效果，并避免某些极端情况的出现。这个词的TF-IDF值便等于TF*IDF。对于这个文档中的所有词计算它们的TF-IDF值，并按照由高到低的顺序进行排序，由此我们便可以提取我们想要的数量的关键词。
TF-IDF的优点是快捷迅速，结果相对来说比较符合实际情况。缺点是当一篇文档中的两个词的IDF值相同的时候，出现次数少的那个词有可能更为重要。再者，TF-IDF算法无法体现我词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。存在的解决办法是对文章的第一段和每段的第一句话给予比较大的权重。
应用2：计算文本相似度
明白了对于每个词，如何计算它的TF-IDF值。那么计算文本相似度也轻而易举。我们已经计算了文章中每个词的TF-IDF值，那么我们便可以将文章表征为词的TF-IDF数值向量。要计算两个文本的相似度，只需要计算余弦即可，余弦值越大，两个文本便越相似。
应用3：自动摘要
2007年，美国学者的论文<A Survey on Automatic Text Summarization>总结了目前的自动摘要算法，其中很重要的一种就是词频统计。这种方法最早出自1958年IBM公司一位科学家的论文<The Automatic Creation of Literature Abstracts>。这位科学家认为，文章的信息都包含在句子中，有的句子包含的信息多，有的句子包含的信息少。自动摘要就是找出那些包含信息最多的句子。那么句子的信息量怎么衡量呢？论文中采用了关键词来衡量。如果包含的关键词越多，就说明这个句子越重要，这位科学家提出用Cluster的来表示关键词的聚集。所谓簇，就是包含多个关键词的句子片段。
以第一个图为例，其中的cluster一共有7个词，其中4个是关键词。因此它的重要性分值就等于(4*4)/7=2.3。然后，找出包含cluster重要性分值最高的句子（比如5句），把它们合在一起，就构成了这篇文章的自动摘要。具体实现可以参见<Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites>（O'Reilly, 2011）一书的第8章，Python代码见github。这种算法后来被简化，不再区分cluster，只考虑句子包含的关键词。伪代码如下。
```
Summarizer(originalText, maxSummarySize):
// 计算文本的词频，生成一个列表，比如[(10,'the'), (3,'language'), (8,'code')...]
wordFrequences = getWordCounts(originalText)
// 过滤掉停用词，列表变成[(3, 'language'), (8, 'code')...]
contentWordFrequences = filtStopWords(wordFrequences)
// 按照词频的大小进行排序，形成的列表为['code', 'language'...]
contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)
// 将文章分成句子
sentences = getSentences(originalText)
// 选择关键词首先出现的句子
setSummarySentences = {}
foreach word in contentWordsSortbyFreq:
firstMatchingSentence = search(sentences, word)
setSummarySentences.add(firstMatchingSentence)
if setSummarySentences.size() = maxSummarySize:
break
// 将选中的句子按照出现顺序，组成摘要
summary = ""
foreach sentence in sentences:
if sentence in setSummarySentences:
summary = summary + " " + sentence
return summary
```
类似的算法已经被写成了工具，比如基于Java的Classifier4J库的SimpleSummariser模块、基于C语言的OTS库、以及基于classifier4J的C#实现和python实现。

问：python 数据挖掘需要用哪些库和工具？

答：1、Numpy
Numpy是Python科学计算的基础包，它提供了很多功能：快速高效的多维数组对象ndarray、用于对数组执行元素级计算以及直接对数组执行数学运算的函数、用于读写硬盘上基于数组的数据集的工具、线性代数运算、傅里叶变换以及随机数生成等。NumPy在数据分析方面还有另外一个主要作用，即作为在算法和库之间传递数据的容器。
2、Pandas
Pandas提供了快速便捷处理结构化数据的大量数据结构和函数。自从2010年出现以来，它助使Python成为强大而高效的数据分析环境。其中用得最多的Pandas对象是DataFrame，它是一个面向列的二维表结构，另一个是Series，一个一维的标签化数组对象。Pandas兼具Numpy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能。还提供了复杂精细的索引功能，能更加便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
3、matplotlib
matplotlib是最流行的用于绘制图表和其他二维数据可视化的Python库。它最初由John
D.Hunter(JDH)创建，目前由一个庞大的开发团队维护。它非常适合创建出版物上用的图表。虽然还有其他的Python可视化库，但matplotlib应用最为广泛。
4、SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合，它与Numpy结合使用，便形成了一个相当完备和成熟的计算平台，可以处理多种传统的科学计算问题。
5、scikit-learn
2010年诞生以来，scikit-learn成为了Python通用机器学习工具包。它的子模块包括：分类、回归、聚类、降维、选型、预处理等。与pandas、statsmodels和IPython一起，scikit-learn对于Python成为高效数据科学编程语言起到了关键作用。
6、statsmodels
statsmodels是一个统计分析包，起源于斯坦福大学统计学教授，他设计了多种流行于R语言的回归分析模型。Skipper Seabold和Josef
Perktold在2010年正式创建了statsmodels项目，随后汇聚了大量的使用者和贡献者。与scikit-learn比较，statsmodels包含经典统计学和经济计量学的算法。
答：这个常用的库就太多了！
主要分为以下几大类
第一数据获取：request,BeautifulSoup
第二基本数学库：numpy，
第三数据库出路 pymongo
第四图形可视化 matplotlib
第五树分析基本的库 pandas
答：未至科技显微镜是一款大数据文本挖掘工具，是指从文本数据中抽取有价值的信息和知识的计算机处理技术, 包括文本分类、文本聚类、信息抽取、实体识别、关键词标引、摘要等。基于Hadoop MapReduce的文本挖掘软件能够实现海量文本的挖掘分析。CKM的一个重要应用领域为智能比对, 在专利新颖性评价、科技查新、文档查重、版权保护、稿件溯源等领域都有着广泛的应用。

上一篇：曲师大硕士论文查重率是多少

下一篇：用沐神的方法阅读PyTorch FX论文？