通过rsync将linux下的目录备份到windows下

博客分类：

Linux/Unix

rsync是一款很好用的备份软件，有文件比对功能。比单纯的copy要好。 linux 我用的是rhel5. 本身自带rsync 创建/etc/rsyncd.conf uid = root gid = root use chroot = no list = false ignore errors = yes ignore nonreadable = yes max connections = 50 pid file = /var/run/rsyncd.pid lock file = /var/run/rsync.lock log ...

2009-12-31 00:46
浏览 2244
评论(0)
论坛回复 / 浏览 (0 / 2921)
分类:操作系统

几个简单的步骤大幅提高Oracle性能(确实不错）

博客分类：

数据库(database)

Oracle SQL 数据结构网络应用脚本

此文为转载。几个简单的步骤大幅提高Oracle性能--我优化数据库的三板斧。数据库优化的讨论可以说是一个永恒的主题。资深的Oracle优化人员通常会要求提出性能问题的人对数据库做一个statspack，贴出数据库配置等等。还有的人认为要抓出执行最慢的语句来进行优化。但实际情况是，提出疑问的人很可能根本不懂执行计划，更不要说statspack了。而我认为，数据库优化，应该首先从大的方面考虑：网络、服务器硬件配置、操作系统配置、Oracle服务器配置、数据结构组织、然后才是具体的调整。实际上网络、硬件等往往无法决定更换，应用程序一般也无法修改，因此应该着重从数据库 ...

2009-12-23 22:49
浏览 996
评论(0)
分类:数据库

oracle优化杂记

博客分类：

数据库(database)

Oracle SQL SQL Server 数据结构配置管理

此文为转载。 ORACLE查询性能最差的SQL脚本 SELECT * FROM ( SELECT PARSING_USER_ID EXECUTIONS, SORTS, COMMAND_TYPE, DISK_READS, sql_text FROM v$sqlarea ORDER BY disk_reads DESC ) where rownum < 10 -------------------------------------------------------- ...

2009-12-22 19:00
浏览 1788
评论(0)
分类:数据库

Terracotta集群定制安装

博客分类：

Java

Cache XML performance 应用服务器 JVM

分布式Ehcache 参考这个文档包括一个Terracotta 分布cache的参考信息快速安装与定制安装有2种方法来安装Terracotta分布cache：快速与定制。快速安装适用于只需要一个cache的集群。定制安装适用于需要一个cache集群和其他java对象，例如sessions和定制POJOs，或者使用Terracotta应用，或者使用Terracotta整合模块（Terracotta integration Modules：TIMs）整合其他技术。如果你使用Ehcache在一个单独的JVM上，或者使用一个集群响应，可以考虑快速安装（在这里）。如果你是一个前沿的 ...

2009-12-13 12:57
浏览 3496
评论(0)
分类:企业架构

Terracotta集群快速安装

博客分类：

Java

应用服务器 Cache Linux XML Microsoft

这个文档告诉你怎样为一个用Ehcache cache的应用添加Terracotta 集群。快速安装与定制安装有2种方法来安装Terracotta分布cache：快速与定制。快速安装适用于只需要一个cache的集群。定制安装适用于需要一个cache集群和其他java对象，例如sessions和定制POJOs，或者使用Terracotta应用，或者使用Terracotta整合模块（Terracotta integration Modules：TIMs）整合其他技术。如果你使用Ehcache在一个单独的JVM上，或者使用一个集群响应，可以考虑快速安装（在这里）。如 ...

2009-12-12 13:35
浏览 4421
评论(0)
论坛回复 / 浏览 (0 / 6708)
分类:企业架构

解决问题程序人生影响力思考

博客分类：

知识改变思维/思维改变生活

笑话生活算法招聘多线程

学会解决问题你的灯亮着吗？ > 如果你找不出三处可能出错的地方，说明你没有真正理解问题 > 不要轻易给问题下结论，也不要忽略你的第一印象 > 当别人能够解决问题时候千万不要越俎代庖 > 如果某人能够解决该问题 ...

2009-11-29 17:17
浏览 1073
评论(0)
分类:非技术

在虚拟机redhat AS RHEL linux下安装oracle 10g 教程详解

博客分类：

数据库(database)

虚拟机 Oracle Linux RedHat Vmware

1. New virtual machine 到virtual machine configuration的时候，选择custom。然后下一步，guest operating system 当然选择 Linux。下一步。Location这个地方选择linux虚拟文件存放位置。下一步。Memory这个地方调整到512M（越多越好）。一直下一步。到 virtual disk type 这个地方选择IDE。下一步。Disk capacity 这个地方设置虚拟硬盘大小，尽量大一点嘛。然后下一步。till完成。 2. 准备安装linux 设置虚拟机的CD—ROM，选择 ...

2009-11-28 23:52
浏览 3533
评论(0)
分类:操作系统

基于网络爬虫的有效URL缓存（中文译文）

博客分类：

网络爬虫(Spider)

网络协议算法 Cache 搜索引擎数据结构

翻译了很久，其中省略了一些算法细节，如果感兴趣可以看英文原文。转载请注明出处。概要：要在网络上爬行非常简单：基本的算法是：（a）取得一个网页（b）解析它提取所有的链接URLs（c）对于所有没有见过的URLs重复执行（a）-（c）。但是，网络的大小（估计有超过40亿的网页）和他们变化的频率（估计每周有7%的变化）使这个计划由一个微不足道的设计习题变成一个非常严峻的算法和系统设计挑战。实际上，光是这两个要素就意味着如果要进行及时地，完全地爬行网络，步骤（a）必须每秒钟执行大约1000次，因此，成员检测（c）必须每秒钟执行超过10000次，并有非常大的数据储存到主内存中。这个要求有一个 ...

2009-11-28 23:45
浏览 5405
评论(0)

基于网络爬虫的有效URL缓存(英文原文）

博客分类：

网络爬虫(Spider)

Cache Web performance UP Ant

Efficient URL Caching for World Wide Web Crawling Andrei Z. Broder IBM TJ Watson Research Center 19 Skyline Dr Hawthorne, NY 10532 abroder@us.ibm.com Marc Najork Microsoft Research 1065 La Avenida Mountain View, CA 94043 najork@microsoft.com Janet L. Wiener Hewlett Packard Labs 1501 Page Mill Road Pa ...

2009-11-28 23:43
浏览 2055
评论(0)

支持web信息分类的高性能蜘蛛程序爬虫程序 spider

博客分类：

网络爬虫(Spider)

Web 算法数据结构多线程网络应用

转自：小型微型计算机系统文/高克宁柴桥子张斌马安香蜘蛛程序研究现状对任何需要抽取大规模数据信息的网络蜘蛛，都应考虑如下几个方面的问题 1.灵活性：任何运行于复杂环境的网络蜘蛛，都需要对平台软硬件资源，网络性能等具有很好的自适应能力，以及对于不同性能需求有相应的调节能力。 2.健壮性：蜘蛛程序需要很强的容错能力，主要包括：处理不规范的HTML代码以及各类异常，应对服务器端或客服端的异常行为，选择合适的传输协议等，以求将损失减到最低，并具有错误恢复机制 3.可维护和可配置性：系统需要有良好的 ...

2009-11-28 23:37
浏览 2907
评论(1)

抢先式多线程网络爬虫spider在智能搜索引擎中的实现

博客分类：

网络爬虫(Spider)

多线程搜索引擎 thread 数据结构 JVM

转自：《计算机工程》文/ 董瑞洪，张秋余，唐静兵，张涛线程线程是描述进程内的执行，正是线程负责执行包含在进程的地址空间中的代码。单个进程可能包含几个线程，它们可以同时执行进程的地址空间中的代码。每个线程有自己的一组cpu寄存器和堆。线程可以看成“一段代码的执行”也就是一系列有jvm执行的二进制指令。这里面没有对象甚至没有方法的概念。线程是有序的指令，而不是方法。线程的数据结构，仅仅只包括执行这些指令的信息。它包含当前的运行上下文，如寄存器的内容，当前指令的在运行引擎的指令流中的位置，保存方法本地参数和变量的运行时堆栈。切换线程更有效率，时间单位是us ...

2009-11-28 23:36
浏览 2334
评论(0)

网络爬虫（spider）中 LRU算法的设计与实现

博客分类：

网络爬虫(Spider)

算法 Cache

转自：《程序员》文/ 洪伟铭 cache的所有位置都用双向链表链接起来，当一个位置被命中后，就将通过调整链表的指向将该位置调整到链表的头位置，新加入的内容直接放在链表的头上。这样，在进行过多次查找操作后，最近被命中过的内容就向链表的头移动，而没有被命中的内容就向链表的后面移动。当需要替换时，链表最后的位置就是最近最少被命中的位置，我们只需要将新的内容放在链表前面，淘汰链表最后的位置就是想了LRU算法。 LRU算法的实现对象设计对于Cache的每个位置，我们设计一个对象来储存对象的内容，并实现一个双向链表。其中属性next和prev时双向链表的两个指针，key用于存储对象的键值， ...

2009-11-28 23:35
浏览 2797
评论(0)

布隆过滤器布隆算法 BloomFilter

博客分类：

网络爬虫(Spider)

算法

package com.spider; import java.util.BitSet; public class BloomFilter { private int defaultSize = 2 << 24; private int basic = defaultSize - 1; private BitSet bits; public BloomFilter() { bits = new BitSet(defaultSize); } public boolean contains(String url) { if (u ...

2009-11-28 23:33
浏览 2829
评论(0)

Java 多线程爬虫程序（spider）设计与实现

博客分类：

网络爬虫(Spider)

多线程 Java 活动工作 C

当spider程序访问到一个网页，必须进行以下几项基本处理：抽取网页中包含的文本;抽取网页中包含的URL，并将其区分为网页中包含的文本；抽取网页中包含的URL，并将其区分为网站内URL或网站外URL。 2.2各主要功能模块（类）设 ...

2009-11-28 23:29
浏览 4772
评论(0)
分类:编程语言

网络爬虫 (spider) URL消重设计 URL去重设计

博客分类：

网络爬虫(Spider)

网络应用算法搜索引擎嵌入式多线程

在爬虫启动工作的过程中，我们不希望同一个网页被多次下载，因为重复下载不仅会浪费CPU机时，还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题，就要考虑下载所依据的超链接，只要能够控制待下载的URL不重复� ...

2009-11-28 23:25
浏览 7782
评论(2)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

通过rsync将linux下的目录备份到windows下

几个简单的步骤大幅提高Oracle性能(确实不错）

oracle优化杂记

Terracotta集群定制安装

Terracotta集群快速安装

解决问题程序人生影响力思考

在虚拟机redhat AS RHEL linux下安装oracle 10g 教程详解

基于网络爬虫的有效URL缓存（中文译文）

基于网络爬虫的有效URL缓存(英文原文）

支持web信息分类的高性能蜘蛛程序爬虫程序 spider

抢先式多线程网络爬虫spider在智能搜索引擎中的实现

网络爬虫（spider）中 LRU算法的设计与实现

布隆过滤器布隆算法 BloomFilter

Java 多线程爬虫程序（spider）设计与实现

网络爬虫 (spider) URL消重设计 URL去重设计

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>