Lấy mã HTML của 1 trang web - vozForums
vozForums

Go Back   vozForums > Máy tính để bàn > Phần mềm > Phát triển Phần mềm


Reply
 
Thread Tools
  #1  
Old 08-07-2012, 11:57
CloneDeClone CloneDeClone is offline
Member
 
Join Date: 05-2011
Posts: 39
Lấy mã HTML của 1 trang web

Em đang viết cái chương trình view source html của 1 trang web bằng C#
Code như sau
Code:
WebClient client = new WebClient();      
Stream str = client.OpenRead(TbUrl.Text);
StreamReader sr = new StreamReader(str);
string source = sr.ReadToEnd();
Thế nhưng khi cho url là của 2 trang chothuenhatrophongtrohanoi.batdongsan.com.vn/

muabannhadat.com.vn/phong_tro_cho_thue/t28_TPHa_Noi/
thì bị báo lỗi như hình đính kèm mặc dù 1 số trang khác vẫn lấy được
Vậy em xin hỏi các bác lỗi này xử lý thế nào và có lấy được source html của mấy trang này không ?(click chuột phải rồi ấn view page source vẫn được )
Attached Images
File Type: png 1.PNG‎ (20.6 KB, 56 views)
File Type: png 2.PNG‎ (26.0 KB, 40 views)
Reply With Quote
  #2  
Old 09-07-2012, 00:27
vitcon's Avatar
vitcon vitcon is offline
Ngủ gật
 
Join Date: 08-2007
Location: Nơi màn đêm buông xuống...
Posts: 16,420
Re: Lấy mã HTML của 1 trang web

Đang làm một cái tương tự nhưng bằng PHP
Reply With Quote
  #3  
Old 09-07-2012, 13:46
LordTNT LordTNT is offline
K.I.A
 
Join Date: 03-2012
Posts: 2,558
Re: Lấy mã HTML của 1 trang web

cái hình đầu tiên Error code 404 hay 4xx tức là điền sai địa chỉ url hay trang đó đã bị đổi tên ~.~

còn cái thứ 2, 500 hay mã 5xx là lỗi của server trang web bạn cần lấy html source, thử lại vài lần vào lúc khác là ok

mã 200 hay 2xx nói chung là báo load trang web thành công, còn 302 hay 3xx nói chung là báo trang web bạn yêu cầu chuyển tới đã được redirect sang 1 trang khác

list mã:
Code:
  100: ('Continue', 'Request received, please continue'),
  101: ('Switching Protocols',
     'Switching to new protocol; obey Upgrade header'),

  200: ('OK', 'Request fulfilled, document follows'),
  201: ('Created', 'Document created, URL follows'),
  202: ('Accepted',
     'Request accepted, processing continues off-line'),
  203: ('Non-Authoritative Information', 'Request fulfilled from cache'),
  204: ('No Content', 'Request fulfilled, nothing follows'),
  205: ('Reset Content', 'Clear input form for further input.'),
  206: ('Partial Content', 'Partial content follows.'),

  300: ('Multiple Choices',
     'Object has several resources -- see URI list'),
  301: ('Moved Permanently', 'Object moved permanently -- see URI list'),
  302: ('Found', 'Object moved temporarily -- see URI list'),
  303: ('See Other', 'Object moved -- see Method and URL list'),
  304: ('Not Modified',
     'Document has not changed since given time'),
  305: ('Use Proxy',
     'You must use proxy specified in Location to access this '
     'resource.'),
  307: ('Temporary Redirect',
     'Object moved temporarily -- see URI list'),

  400: ('Bad Request',
     'Bad request syntax or unsupported method'),
  401: ('Unauthorized',
     'No permission -- see authorization schemes'),
  402: ('Payment Required',
     'No payment -- see charging schemes'),
  403: ('Forbidden',
     'Request forbidden -- authorization will not help'),
  404: ('Not Found', 'Nothing matches the given URI'),
  405: ('Method Not Allowed',
     'Specified method is invalid for this server.'),
  406: ('Not Acceptable', 'URI not available in preferred format.'),
  407: ('Proxy Authentication Required', 'You must authenticate with '
     'this proxy before proceeding.'),
  408: ('Request Timeout', 'Request timed out; try again later.'),
  409: ('Conflict', 'Request conflict.'),
  410: ('Gone',
     'URI no longer exists and has been permanently removed.'),
  411: ('Length Required', 'Client must specify Content-Length.'),
  412: ('Precondition Failed', 'Precondition in headers is false.'),
  413: ('Request Entity Too Large', 'Entity is too large.'),
  414: ('Request-URI Too Long', 'URI is too long.'),
  415: ('Unsupported Media Type', 'Entity body in unsupported format.'),
  416: ('Requested Range Not Satisfiable',
     'Cannot satisfy request range.'),
  417: ('Expectation Failed',
     'Expect condition could not be satisfied.'),

  500: ('Internal Server Error', 'Server got itself in trouble'),
  501: ('Not Implemented',
     'Server does not support this operation'),
  502: ('Bad Gateway', 'Invalid responses from another server/proxy.'),
  503: ('Service Unavailable',
     'The server cannot process the request due to a high load'),
  504: ('Gateway Timeout',
     'The gateway server did not receive a timely response'),
  505: ('HTTP Version Not Supported', 'Cannot fulfill request.'),
phải include thêm vài cái kiểm tra exceptions

Python code (đọc từ trang http://docs.python.org/howto/urllib2.html ):
Code:
from urllib2 import urlopen, HTTPError, URLError

url = 'http://muabannhadat.com.vn/phong_tro_cho_thue/t28_TPHa_Noi/'

try:
  response = urlopen(url)
except HTTPError, e:
  print 'The server couldn\'t fulfill the request.'
  print 'Error code: ', e.code
except URLError, e:
  print 'We failed to reach a server.'
  print 'Reason: ', e.reason
else:
  source = response.read().decode('utf-8')
C# thì gu gồ tí là ra thôi mà
Reply With Quote
  #4  
Old 11-07-2012, 15:47
ptlinh9288 ptlinh9288 is offline
Member
 
Join Date: 05-2012
Posts: 35
Re: Lấy mã HTML của 1 trang web

em đoán là thým ko dùng http://www. ở đầu của link nên bị thế.

Chúc chủ thớt may mắn
Reply With Quote
  #5  
Old 29-07-2012, 19:04
qn20's Avatar
qn20 qn20 is offline
Đã tốn tiền
 
Join Date: 06-2012
Posts: 62
Re: Lấy mã HTML của 1 trang web

dùng vb6 đê.. tui hướng dẫn get code html cho
Reply With Quote
Reply

Thread Tools

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off

Forum Jump

All times are GMT +7. The time now is 08:37.


Steam Powered by vBulletin® 0.1 pre-alpha
Copyright ©2000 - 2018, Jelsoft Enterprises Ltd.