Meta部署新网络爬虫机器人为其AI模型收集大量数据

近日，Meta悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。据三家追踪网络抓取器的公司称，Meta新网络爬虫机器人Meta External Agent于上月推出，类似于OpenAI的GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示，Meta确实在7月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但Meta至今还没有公开宣布其新爬虫机器人。

Meta的Llama是最大的llm之一，虽然该公司没有透露最新版本的模型Llama 3使用的训练数据，但其初始版本的模型使用了由Common Crawl等其他来源收集的大型数据集。

今年早些时候，Meta的联合创始人、首席执行官马克·扎克伯格(Mark Zuckerberg)在一次财报电话会议上曾吹嘘说，公司的社交平台已经积累了一套用于人工智能训练的数据集，甚至“超过了Common Crawl”。

新爬虫的存在表明Meta庞大的数据库可能已经不够用了，因为该公司继续致力于更新Llama和扩展Meta AI，通常需要新的和高质量的培训数据来不断改进功能。

来自Dark Visitors的数据显示，全球近25%的最受欢迎的网站现在已屏蔽了GPTBot，但只有2%的网站屏蔽了Meta的新爬虫机器人。

对文章打分

Meta部署新网络爬虫机器人为其AI模型收集大量数据

最新资讯

编辑精选

热门评论

相关文章

OpenAI在美国政府内找到了第一家客户

GitHub Copilot Autofix 声称可识别并解决代码中的安全问题

OpenAI发布微调功能允许企业客户定制AI模型

人工智能以前所未有的准确性预测地震

新开发的机器学习模型可以提供高质量的创造力测试

Top 10

HMD官宣即将正式落地中国彻底取代诺基亚

Proton现为Chrome、Edge、Firefox等浏览器提供免费VPN扩展

小米SUV与SU7罕见同框双车对比差异明显

马斯克首秀自己银行卡余额截图被疯传

像龙眼？像小土豆？像黄皮？这种贵族水果我打赌很多人都没见过

猪身上这几个部位宁愿扔了也别吃

对文章打分

Meta部署新网络爬虫机器人 为其AI模型收集大量数据

最新资讯

编辑精选

热门评论

相关文章

Top 10

Meta部署新网络爬虫机器人为其AI模型收集大量数据